Mostrando entradas 1 para 5
Displaying posts with tag: hadoop (reset)
Criando análises de dados com o Presto e o Parquet na Uber

Desde determinar os pontos de encontro mais convenientes para o motorista até projetar o caminho mais rápido, o Uber utiliza análises orientadas por dados para criar experiências de viagens perfeitas. Dentro da engenharia, são analisados os processos de tomada de decisão. Conforme expandimos para novos mercados, a habilidade de agregar dados precisa e rapidamente se torna ainda mais importante.

No início de 2014, a Uber tinha apenas algumas centenas de funcionários ao redor do mundo. Mas no final de 2016, tínhamos mais de duas mil pessoas executando mais de cem mil consultas analíticas diariamente. Nós precisávamos de um sistema de consultas de dados que pudesse acompanhar nosso crescimento. Para executar as consultas analíticas em várias fontes de dados, nós desenvolvemos um sistema analítico que aproveita o Presto, um motor SQL distribuído open source para grandes …

[Leia mais]
Projetando o Euclid para tornar a engenharia de marketing do Uber mais sábia

Rápido, granular e com ROI confiável no desempenho de anúncios foram o nosso estopim para construir Euclid, a plataforma de marketing interno do Uber. No início deste ano, a Euclid substituiu um sistema legado que processava os dados do ROI manualmente, enquanto lutava para se manter escalável com o Uber e a complexidade dos dados.

Ao contrário de qualquer solução fora da caixa, o Hadoop, ecossistema Euclid baseado em Spark, nos permite escalar o crescimento do Uber com uma arquitetura de plugin de API agnóstico de canal chamada MaRS, bem como um pipeline ETL personalizado que cede dados heterogêneos em um único esquema para uma consulta simples. Uma camada visual em cima da Euclid permite que os profissionais de marketing tirem métricas de ROI para otimizar o gasto com anúncios. As capacidades de reconhecimento de …

[Leia mais]
DatabaseCast: Particionamento de dados

Olá, pessoal! Neste episódio do DatabaseCast, Mauro Pichiliani (Twitter | Blog), Wagner Crivelini (@wcrivelini) e o convidado Ricardo Rezende (@ricarezende) separam os dados como se eles estivesse dentro de um pacote de M&Ms. Neste episódio você vai aprender quais são os tipos de particionamento no Oracle, SQL Server, MySQL, PostgreSQL, MongoDB e Cassandra, discutir se o Hadoop é ou não um banco de dados, mandar um alô para o pessoal do Suriname e da Suécia e aprender a chamar certas soluções de gambiware.

[Leia mais]
Quais são as novidades do Hadoop?

A explosão do Big Data nos últimos anos tem criado um grande número de novas tecnologias na área de processamento de dados, armazenamento e gestão. Um dos maiores nomes que entra em cena nesse segmento é o Hadoop. Caso você ainda não o conheça ou não tenha ouvido falar dele, o Hadoop é um sistema de armazenamento para Big Data, que leva grandes quantidades de dados dos servidores para o cliente, quebrando-os em pedaços menores e mais administráveis. A tecnologia é complexa, mas, em um nível elevado, o ecossistema Hadoop tem essencialmente um conceito de “dividir e conquistar”, uma abordagem ao processamento de Big Data em vez do processamento tradicional de dados em tabelas, como em um banco de dados relacional como Oracle ou MySQL.

Uma …

[Leia mais]
Software big data livre para os impacientes – Parte 01

Há muita empolgação com relação ao Big Data e muita confusão também. Este artigo fornecerá uma definição funcional de Big Data e dará uma série de exemplos para que você tenha uma compreensão em primeira mão de alguns dos recursos do Hadoop, a tecnologia líder de software livre no domínio de Big Data. Especificamente, vamos nos concentrar nas seguintes questões.

  • O que é Big Data, Hadoop, Sqoop, Hive e Pig, e por que há tanta empolgação nesse espaço?
  • Como o Hadoop se relaciona ao IBM DB2 e ao Informix? Essas tecnologias podem ser usadas juntas?
  • Como posso começar a usar Big Data? Há exemplos simples que funcionam em um único PC?
  • Para os superimpacientes, se já for possível definir Hadoop e quiser trabalhar direto com as amostras de código, faça o seguinte.
    1. Dispare sua instância do Informix ou DB2.
    2. Faça o download da imagem VMWare do …
[Leia mais]
Mostrando entradas 1 para 5