www.datascienceacademy.com.br
www.datascienceacademy.com.br
Introduo
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
1. Introduo
2. O que Big Data?
3. Introduo ao Hadoop
4. Arquitetura Hadoop
5. Ecosistema Hadoop
6. Solues Comercias com Hadoop
7. Introduo ao Spark
8. Bancos de Dados NoSQL
9. Como as empresas esto utilizando o Big Data
10. Avaliao
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.facebook.com/dsacademybr
twitter.com/dsacademybr
www.linkedin.com/company/data-science-academy
www.datascienceacademy.com.br
Big Data
www.datascienceacademy.com.br
Big Data
www.datascienceacademy.com.br
Big Data
Aproximadamente 80%
dos dados so noestruturados ou esto em
diferentes formatos, o que
dificulta a anlise
www.datascienceacademy.com.br
Big Data
Modelos de anlise de
dados estruturados,
possuem limitaes
quando precisam tratar
grandes volumes de dados
www.datascienceacademy.com.br
Big Data
Muitas empresas no
sabem que dados
precisam ser analisados
www.datascienceacademy.com.br
Big Data
www.datascienceacademy.com.br
Big Data
Dados preciosos so
descartados por falta de
conhecimento ou
ferramentas de
tratamento
www.datascienceacademy.com.br
Big Data
caro manter e
organizar grandes
volumes de dados noestruturados
www.datascienceacademy.com.br
Big Data
www.datascienceacademy.com.br
Big Data
Estamos em um perodo de
transformao no modo em que
dirigimos nossos negcios e,
principalmente, as nossas vidas
www.datascienceacademy.com.br
Big Data
Neste exato momento, uma verdadeira
enxurrada de dados, ou 2.5 quintilhes
de bytes por dia, gerada para nortear
indivduos, empresas e governos e
est dobrando a cada dois anos
www.datascienceacademy.com.br
Big Data
www.datascienceacademy.com.br
Big Data
E com a recente conectividade em objetos, tal
como relgios, carros e at geladeiras, as
informaes capturadas se tornam massivas e
podem ser cruzadas para criar roadmaps cada
vez mais elaborados, apontando e, at prevendo,
o comportamento de empresas e clientes
www.datascienceacademy.com.br
Big Data
Entre 2005 e 2020, o universo digital ir crescer de 130 exabytes para
40.000 exabytes ou 40 trilhes de gigabytes
Em 2020, haver 5.200 gigabytes para cada homem, mulher e criana
no planeta
At 2020, o universo digital ir dobrar de tamanho a cada 2 anos
www.datascienceacademy.com.br
Big Data
www.datascienceacademy.com.br
Big Data
www.datascienceacademy.com.br
Big Data
www.datascienceacademy.com.br
Big Data
www.datascienceacademy.com.br
Big Data
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
Zettabyte
x 1024
Exabyte
x 1024
Petabyte
x 1024
Terabyte
Gigabyte
x 1024
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
Comece
compreendendo
o valor do
retorno sobre o
investimento
No ignore os
dados vindos de
todos os
departamentos
da empresa
No construa paredes.
Construa pontes!
www.datascienceacademy.com.br
Big Data no
apenas sobre
tecnologia.
sobre mudana
de paradigma
www.datascienceacademy.com.br
www.datascienceacademy.com.br
Os 4 Vs do Big Data
www.datascienceacademy.com.br
Os 4 Vs do Big Data
O Big Data possui 4 caractersticas que o definem:
Volume
Tamanho dos dados
Variedade
Formato dos dados
Velocidade
Gerao dos dados
www.datascienceacademy.com.br
Veracidade
Confiabilidade
dos dados
Os 4 Vs do Big Data
www.datascienceacademy.com.br
Os 4 Vs do Big Data
Volume
www.datascienceacademy.com.br
Os 4 Vs do Big Data
Variedade
www.datascienceacademy.com.br
Os 4 Vs do Big Data
Velocidade
www.datascienceacademy.com.br
Os 4 Vs do Big Data
Veracidade
www.datascienceacademy.com.br
Os 4 Vs do Big Data
Importncia: Volume, Velocidade, Variedade
Velocidade
Volume
Variedade
www.datascienceacademy.com.br
Os 4 Vs do Big Data
www.datascienceacademy.com.br
Os 4 Vs do Big Data
Processar de forma eficiente
e com baixo custo grandes
volumes de dados
Responder ao aumento da
velocidade de gerao dos
dados
Transformar 12 TB de
tweets gerados cada
dia em produtos de
anlise de sentimento
Investigar 5 milhes de
eventos de trade nas
bolsas de valores a fim
de identificar fraudes
Monitorar milhares de
videos de segurana a
fim de identificar
pontos perigosos em
uma cidade
Introduo ao Hadoop
www.datascienceacademy.com.br
Introduo ao Hadoop
Apache Hadoop um software open
source
para
armazenamento
e
processamento em larga escala de grandes
conjuntos de dados (Big Data), em clusters
de hardware de baixo custo.
http://hadoop.apache.org
www.datascienceacademy.com.br
Introduo ao Hadoop
http://hadoop.apache.org
www.datascienceacademy.com.br
Introduo ao Hadoop
http://hadoop.apache.org
www.datascienceacademy.com.br
Introduo ao Hadoop
http://hadoop.apache.org
www.datascienceacademy.com.br
Introduo ao Hadoop
Hadoop um sistema de armazenamento
compartilhado, distribudo e altamente
confivel para processamento de grandes
volumes de dados atravs de clusters de
computadores.
http://hadoop.apache.org
www.datascienceacademy.com.br
Introduo ao Hadoop
Em outras palavras, Hadoop um
framework que facilita o
funcionamento de diversos
computadores, com o objetivo de
analisar grandes volumes de
dados.
www.datascienceacademy.com.br
Introduo ao Hadoop
Em outras palavras, Hadoop um
framework que facilita o
funcionamento de diversos
computadores, com o objetivo de
analisar grandes volumes de
dados.
www.datascienceacademy.com.br
Introduo ao Hadoop
www.datascienceacademy.com.br
Introduo ao Hadoop
Big
www.datascienceacademy.com.br
Introduo ao Hadoop
Pesquisas tem mostrado que o crescimento do Hadoop tem sido vertiginoso:
www.datascienceacademy.com.br
Introduo ao Hadoop
Pesquisas tem mostrado que o crescimento do Hadoop tem sido vertiginoso:
E muito mais
ainda est por
vir!!
www.datascienceacademy.com.br
Introduo ao Hadoop
Hadoop um framework gratuito, baseado
em linguagem de programao Java, que
suporta o processamento de grandes
conjuntos de dados em ambientes de
computao distribuda (atravs diversos
computadores simultaneamente).
www.datascienceacademy.com.br
Introduo ao Hadoop
www.datascienceacademy.com.br
Introduo ao Hadoop
www.datascienceacademy.com.br
Introduo ao Hadoop
www.datascienceacademy.com.br
Introduo ao Hadoop
www.datascienceacademy.com.br
Introduo ao Hadoop
Hadoop tem um baixo custo, no
apenas por ser livre, mas por permitir
o uso de hardware simples,
computadores de baixo custo
agrupados em cluster
www.datascienceacademy.com.br
Introduo ao Hadoop
www.datascienceacademy.com.br
Introduo ao Hadoop
O Apache Hadoop composto de 2 componentes principais
Hadoop HDFS
Hadoop MapReduce
www.datascienceacademy.com.br
Introduo ao Hadoop
www.datascienceacademy.com.br
Introduo ao Hadoop
Por que o Hadoop est se tornando o padro nos projetos de Big Data?
www.datascienceacademy.com.br
Introduo ao Hadoop
Por que o Hadoop est se tornando o padro nos projetos de Big Data?
Baixo
Custo
Tolerante a
Falhas
Escalvel
Livre
www.datascienceacademy.com.br
Flexvel
Introduo ao Hadoop
www.datascienceacademy.com.br
Introduo ao Hadoop
www.datascienceacademy.com.br
Introduo ao Hadoop
www.datascienceacademy.com.br
Introduo ao Hadoop
DFS (Distributed File System) - foi criado para gesto de
armazenamento em uma rede de computadores.
HDFS otimizado para armazenar grandes arquivos.
HDFS foi pensado para executar em clusters de computadores
de baixo custo.
HDFS foi pensado para ser timo em performance do tipo
WORM (Write Once, Read Many Times), que um eficiente
padro de processamento de dados.
HDFS foi pensando considerando o tempo de leitura de um
conjunto de dados inteiro e no apenas o primeiro registro.
www.datascienceacademy.com.br
Introduo ao Hadoop
Namenode
Datanode
www.datascienceacademy.com.br
Introduo ao Hadoop
Namenode
Gerencia a estrutura do filesystem
www.datascienceacademy.com.br
Introduo ao Hadoop
Datanode
Armazena e busca blocos de dados
quando solicitado pelo cliente ou
Namenode
Reporta periodicamente para o
Namenode com a lista de blocos
que foram armazenados
www.datascienceacademy.com.br
Introduo ao Hadoop
MapReduce um modelo de programao para
processamento e gerao de grandes conjuntos de dados.
MapReduce transforma o problema de anlise em um
processo computacional que usa conjuntos de chaves e
valores.
www.datascienceacademy.com.br
Introduo ao Hadoop
MapReduce um modelo de programao para
processamento e gerao de grandes conjuntos de dados.
MapReduce transforma o problema de anlise em um
processo computacional que usa conjuntos de chaves e
valores.
Introduo ao Hadoop
Dados
A funo de
mapeamento, converte
dados em pares de
chave(K)/valor(V)
Mapeamento
www.datascienceacademy.com.br
K = Key
V = Value
Introduo ao Hadoop
Mapper 1
Reducer 1
Mapper 2
Reducer 2
Big Data
Resultado
Mapper 3
Reducer 3
Mapper 4
Reducer 4
www.datascienceacademy.com.br
Introduo ao Hadoop
www.datascienceacademy.com.br
Introduo ao Hadoop
MapReduce permite a execuao de queries ad-hoc em todo
o conjunto de dados em um tempo escalvel
Muitos sistemas distribudos combinam dados de mltiplas
fontes (o que bem complicado), mas MapReduce faz isso
de forma eficiente e efetiva
O segredo da performance do MapReduce, est no
balanceamento entre seeking e transfer: reduzir operaes
de seeking e usar de forma efetiva as operaes de transfer
Seek time o delay para encontrar um arquivo.
Transfer rate a velocidade para encontrar o arquivo.
Transfer rates tem melhorado significamente
( bem mais veloz que Seek times)
www.datascienceacademy.com.br
Introduo ao Hadoop
O MapReduce bom para atualizar todo (ou a maior parte)
de um grande conjunto de dados.
RDBMS (Relational Database Management System) so
timos para atualizar pequenas pores de grandes bancos
de dados.
RDBMS utiliza o tradiocional B-Tree, que altamente
dependente de operaes de seek.
MapReduce utiliza operaes de SORT e Merge para recriar
o banco de dados, o que mais dependente de operaes
de transfer.
www.datascienceacademy.com.br
Introduo ao Hadoop
www.datascienceacademy.com.br
Introduo ao Hadoop
MapReduce x RDBMS
RDBMS*
MapReduce
Petabytes (1012)
Acesso
Interativo e Batch
Batch
Updates
Leitura e Escrita diversas vezes WORM (Write Once, Read Many Times)
Estrutura de Dados
Esquema esttico
Esquema dinmico
Integridade
Alta
Baixa
Escalabilidade
No-linear
Linear
www.datascienceacademy.com.br
Introduo ao Hadoop
Tipos de Dados
Dados
Estruturados
Dados que so
representados em
formato tabular
Dados Semi
Estruturados
Dados que no
possuem um modelo
formal de organizao
www.datascienceacademy.com.br
Dados No
Estruturados
Dados sem estrutura
pr-definida
Introduo ao Hadoop
MapReduce muito efetivo com dados semi ou no estuturados!
Por qu?
www.datascienceacademy.com.br
Introduo ao Hadoop
www.datascienceacademy.com.br
Arquitetura Hadoop
www.datascienceacademy.com.br
Arquitetura Hadoop
Hadoop x RDBMS
Hadoop
Modelo de
Computao
Conceito de Jobs
Cada Job uma unidade de trabalho
No h controle de concorrncia
RDBMS
Conceito de transaes
Uma transao uma unidade de
trabalho
Controle de concorrncia
Modelo de
Custo
Tolerncia a
Falhas
Modelo de
Dados
www.datascienceacademy.com.br
Arquitetura Hadoop
O Apache Hadoop composto de 2 componentes principais
Hadoop HDFS
Hadoop MapReduce
www.datascienceacademy.com.br
Arquitetura Hadoop
Master
Master node
Worker (slave) node
Slave
www.datascienceacademy.com.br
Arquitetura Hadoop
Cluster Hadoop
Datacenter
www.datascienceacademy.com.br
Arquitetura Hadoop
Slave Nodes
Storage
HDFS
Datanode
Processamento
MapReduce
TaskTracker
Storage
HDFS
Datanode
Processamento
MapReduce
TaskTracker
Storage
HDFS
Datanode
Processamento
MapReduce
TaskTracker
Armazenamento
Computao
Master Node
Storage
HDFS
Namenode
Processamento
MapReduce
JobTracker
www.datascienceacademy.com.br
Arquitetura Hadoop
www.datascienceacademy.com.br
Arquitetura Hadoop
Servios Base do Hadoop
Master
NameNode
Secondary NameNode
JobTracker
DataNode
JobTracker
MapReduce
Slave
TaskTracker
TaskTracker
Slave
TaskTracker
NameNode
HDFS
Slave
DataNode
DataNode
www.datascienceacademy.com.br
Slave
Arquitetura Hadoop
Cluster Hadoop
Processamento
Distribudo
Cliente
HDFS
MapReduce
Master
Nodes
Slave
Nodes
Armazenamento
Distribudo
JobTracker
NameNode
DataNode
DataNode
DataNode
TaskTracker
TaskTracker
TaskTracker
www.datascienceacademy.com.br
Secondary
NameNode
Arquitetura Hadoop
Passo 1 Dados so enviados para o cluster Hadoop
Dados
www.datascienceacademy.com.br
Arquitetura Hadoop
Passo 2 Programas so executados para processar os dados
Programa
www.datascienceacademy.com.br
Arquitetura Hadoop
Programa
Dados
www.datascienceacademy.com.br
Arquitetura Hadoop
Modos de Configurao do Hadoop
Hadoop suporta 3 modos de configurao:
Modo Standalone
Pseudo Distribudo
Totalmente
Distribudo
www.datascienceacademy.com.br
Arquitetura Hadoop
Arquitetura HDFS
Master
NameNode
Secondary
NameNone
DataNode
DataNode
Slave
DataNode
www.datascienceacademy.com.br
Arquitetura Hadoop
Arquitetura HDFS
www.datascienceacademy.com.br
Arquitetura Hadoop
Arquitetura HDFS
www.datascienceacademy.com.br
Arquitetura Hadoop
Arquitetura HDFS
www.datascienceacademy.com.br
Arquitetura Hadoop
Arquitetura HDFS
www.datascienceacademy.com.br
Arquitetura Hadoop
Arquitetura HDFS
www.datascienceacademy.com.br
Arquitetura Hadoop
Arquitetura HDFS
www.datascienceacademy.com.br
Arquitetura Hadoop
Arquitetura HDFS
www.datascienceacademy.com.br
Arquitetura Hadoop
Arquitetura HDFS
www.datascienceacademy.com.br
Arquitetura Hadoop
Cluster HDFS
Cluster Single-Node
Cluster Multi-Node
www.datascienceacademy.com.br
Arquitetura Hadoop
Processamento MapReduce
www.datascienceacademy.com.br
Arquitetura Hadoop
MapReduce
Listas Ordenadas
Listas Ordenadas ainda menores
www.datascienceacademy.com.br
Arquitetura Hadoop
Em resumo, MapReduce foi
projetado para usar
computao paralela
distribuda em Big Data e
transformar os dados em
pedaos menores
www.datascienceacademy.com.br
Arquitetura Hadoop
MapReduce
MapReduce funciona atravs de 2 operaes:
Mapeamento e Reduo.
No processo de mapeamento (Map), os dados so separados em pares (keyvalue pairs), transformados e filtrados. Ento os dados so distribudos para
os nodes e processados.
No processo de reduo (Reduce), os dados so agregados em conjuntos de
dados (datasets) menores. Os dados resultantes do processo de reduo so
transformados em um formato padro de chave-valor (key-value), onde a
chave (key) funciona como o identificador do registro e o valor (value) o
dado (contedo) que identificado pela chave.
www.datascienceacademy.com.br
Arquitetura Hadoop
MapReduce
www.datascienceacademy.com.br
Arquitetura Hadoop
Processo de MapReduce
Todo o processo se inicia com a requisio feita
pelo cliente e o job submetido. O Job Tracker se
encarrega de coordenar como o job ser
distribudo.
www.datascienceacademy.com.br
Arquitetura Hadoop
Processo de MapReduce
Mapeamento dos dados - os dados de entrada so
primeiramente distribudos em pares key-value e
divididos em fragmentos, que so ento atribudos a
tarefas de mapeamento.
www.datascienceacademy.com.br
Arquitetura Hadoop
Processo de MapReduce
Reduo dos dados - cada operao de reduo
dos dados tem um fragmento atribudo.
www.datascienceacademy.com.br
Arquitetura Hadoop
MapReduce
MapReduce em Tempo Real
www.datascienceacademy.com.br
Arquitetura Hadoop
Cache Distribudo
www.datascienceacademy.com.br
Arquitetura Hadoop
Cache Distribudo
Uma vez que voc armazena um arquivo em cache para o seu trabalho, a estrutura
Hadoop ir torn-lo disponvel em cada node (em sistema de arquivos, no em
memria) onde as tarefas de mapeamento / reduo esto em execuo.
www.datascienceacademy.com.br
Arquitetura Hadoop
Segurana
www.datascienceacademy.com.br
Arquitetura Hadoop
Segurana
www.datascienceacademy.com.br
Arquitetura Hadoop
Segurana
www.datascienceacademy.com.br
Ecosistema Hadoop
www.datascienceacademy.com.br
Ecosistema Hadoop
Ecosistema Hadoop
www.datascienceacademy.com.br
Ecosistema Hadoop
Inteligncia
(Mahout, Drill)
Interao de Dados
(Pig, Hive, Spark, Storm)
Busca
(Lucene, Blur)
Grficos
(Giraph)
Segurana
(Knox, Sentry)
Armazenamento de Dados
(HBase, Cassandra)
www.datascienceacademy.com.br
Operao e
Desenvolimento
(Ooozie,
Zookeeper,
Ambari, Whirr,
Crunch)
Ecosistema Hadoop
Apache Zookeeper
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Zookeeper
http://zookeeper.apache.org
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Zookeeper
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Zookeeper
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Zookeeper
O framework ZooKeeper foi originalmente construdo no
"Yahoo!" para acessar seus aplicativos de uma forma fcil e
robusta
Mais tarde, Apache ZooKeeper se tornou um padro para a
organizao de servios do Hadoop, HBase e outras
estruturas distribudas
http://zookeeper.apache.org
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Zookeeper
http://zookeeper.apache.org
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Oozie
http://oozie.apache.org
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Oozie
http://oozie.apache.org
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Oozie
http://oozie.apache.org
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Oozie
http://oozie.apache.org
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Oozie
http://oozie.apache.org
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Hive
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Hive
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Hive
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Hive
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Hive
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Hive
http://hive.apache.org
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Hive
http://hive.apache.org
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Hive
http://hive.apache.org
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Hive
MapReduce
(para execuo)
http://hive.apache.org
HDFS
(para armazenamento
e pesquisa de dados)
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Hive
http://hive.apache.org
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Hive
http://hive.apache.org
Clsula From
ANSI Join (somente equi-join)
Insert
Group-by
Sampling
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Hive
Exemplo:
hive> select * from tb_folha_pagamento;
http://hive.apache.org
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Sqoop
http://sqoop.apache.org
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Sqoop
http://sqoop.apache.org
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Sqoop
http://sqoop.apache.org
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Sqoop
http://sqoop.apache.org
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Sqoop
http://sqoop.apache.org
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Sqoop
http://sqoop.apache.org
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Sqoop
http://sqoop.apache.org
Ele tambm gera classes Java atravs das quais voc pode
facilmente interagir com os dados importados
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Sqoop
http://sqoop.apache.org
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Sqoop
http://sqoop.apache.org
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Sqoop
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Pig
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Pig
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Pig
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Pig
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Pig
www.datascienceacademy.com.br
Ecosistema Hadoop
Componentes do Pig
Apache Pig
Pig Latin Script Language
Linguagem procedural de fluxo de dados
Contm sintaxe e comandos que podem ser aplicados
para implementar lgica de negcios
http://pig.apache.org
Runtime engine
Compilador que produz sequncias de programas
MapReduce
Utiliza HDFS para armazenar e buscar dados
Usado para interagir com sistemas Hadoop
Valida e compila scripts de operao em sequncias
de Jobs MapReduce
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Pig
Pig X SQL
Pig
Linguagem de script usada para
interagir com o HDFS
Passo a passo
Avaliao no imediata
http://pig.apache.org
SQL
Linguagem de query usada para
interagir com bancos de dados
Bloco nico
Avaliao imediata
Requer que um join seja executado 2
vezes ou materializado como um
resultado intermedirio
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Hbase
http://hbase.apache.org
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Hbase
http://hbase.apache.org
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Hbase
http://hbase.apache.org
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Hbase
http://hbase.apache.org
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Hbase
http://hbase.apache.org
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Hbase
http://hbase.apache.org
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Hbase
http://hbase.apache.org
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Hbase
http://hbase.apache.org
www.datascienceacademy.com.br
Ecosistema Hadoop
Arquitetura HBase
Apache Hbase
http://hbase.apache.org
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Hbase
http://hbase.apache.org
www.datascienceacademy.com.br
Ecosistema Hadoop
HBase x RDBMS
Apache Hbase
http://hbase.apache.org
HBase
RDBMS
Particionamento manual,
Particionamento automtico
realizado pelo administrador
Pode ser escalado de forma
Pode ser escalado
linear e automtica com novos verticalmente com a adio de
nodes
mais hardware
Requer hardware mais robustos
Utiliza hardware commodity
e portanto, mais caros
Tolerncia a falha pode estar
Possui tolerncia a falha
presente ou no
Com MapReduce, alavanca
Precisa de muitas threads ou
processos batch
processos para processamento
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Flume
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Flume
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Flume
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Flume
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Flume
Ele possui uma arquitetura simples e flxvel beseada em
streaming (fluxo constante) de dados
http://flume.apache.org
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Flume
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Flume
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Flume
http://flume.apache.org
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Mahout
http://mahout.apache.org
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Mahout
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Mahout
http://mahout.apache.org
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Mahout
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Mahout
http://mahout.apache.org
Ecosistema Hadoop
Apache Mahout
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Kafka
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Kafka
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Kafka
http://kafka.apache.org
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Kafka
http://kafka.apache.org
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Kafka
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Kafka
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Kafka
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Kafka
Baixa latncia
http://kafka.apache.org
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Kafka
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Ambari
http://ambari.apache.org
www.datascienceacademy.com.br
Ecosistema Hadoop
Ambari Web
Provisionamento
Hadoop
Ambari
Gesto
Monitoramento
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Ambari
http://ambari.apache.org
www.datascienceacademy.com.br
Ecosistema Hadoop
HDFS um filesystem desenvolvido em Java e baseado no
Google File System.
Permite armazenar grandes quantidades de dados em
hardware de baixo custo.
www.datascienceacademy.com.br
Ecosistema Hadoop
HDFS um filesystem desenvolvido em Java e baseado no
Google File System.
Permite armazenar grandes quantidades de dados em
hardware de baixo custo.
Ecosistema Hadoop
Os blocos so replicados atravs dos datanodes, com um
fator de replicao padro, igual a 3 (cada bloco replicado 3
vezes).
Os blocos replicados so armazenados em diferentes
mquinas.
O Namenode mantm um mapa de como os blocos
compem cada arquivo.
O Namenode precisa estar disponvel para que o Cluster
Hadoop possa ser acessado.
O Namenode tem os metadados gravados em Memria e
periodicamente os grava em disco.
www.datascienceacademy.com.br
Ecosistema Hadoop
www.datascienceacademy.com.br
Ecosistema Hadoop
MapReduce um modelo de programao para
processamento de grandes volumes de dados, tipicamente
usado para computao distribuda em clusters.
Jobs de Mapper e Reducer realizam as tarefas.
Ecosistema Hadoop
YARN significa
www.datascienceacademy.com.br
Ecosistema Hadoop
www.datascienceacademy.com.br
Ecosistema Hadoop
Aplicao
Gerenciamento
Armazenamento
www.datascienceacademy.com.br
Ecosistema Hadoop
www.datascienceacademy.com.br
Ecosistema Hadoop
www.datascienceacademy.com.br
Ecosistema Hadoop
www.datascienceacademy.com.br
Ecosistema Hadoop
www.datascienceacademy.com.br
Ecosistema Hadoop
www.datascienceacademy.com.br
Ecosistema Hadoop
www.datascienceacademy.com.br
Ecosistema Hadoop
O YARN Client Mode utilizado
quando o programa possui um
componente interativo, como o
spark-shell ou pyspark
O Client Mode tambm
importante quando se est
construindo programas Spark, pois
o debug imediatamente visvel
www.datascienceacademy.com.br
Ecosistema Hadoop
www.datascienceacademy.com.br
Ecosistema Hadoop
Caracterstica
Compatibilidade
Escalabilidade
Utilizao do
Cluster
Descrio
Aplicaes MapReduce desenvolvidas para o Hadoop verso 1.0,
podem usar o YARN para execuo com verses mais novas do
Hadoop, sem mudar os processos existentes
O Resource Manager do YARN tem o foco em gerenciar o cluster,
medida que novos nodes so adicionados, expandindo o cluster para
milhares de nodes e e petabytes de dados
O YARN promove a alocao dinmica de recursos do cluster,
melhorando sua utilizao e agindo de forma muito mais eficiente que
as regras estticas do MapReduce
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
https://aws.amazon.com/elasticmapreduce
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
Apache Hadoop
Apache Pig
Apache Hive
Apache HBase
Apache Sqoop
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
http://www.cloudera.com
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
http://hortonworks.com
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
https://www.mapr.com
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
http://pivotal.io
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
https://azure.microsoft.com/en-us/services/hdinsight
www.datascienceacademy.com.br
www.datascienceacademy.com.br
http://spark.apache.org
www.datascienceacademy.com.br
www.datascienceacademy.com.br
Utiliza o Hadoop (HDFS) como base, mas pode ser usado com
Cassandra, HBase e MongoDB
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
Spark Framework
www.datascienceacademy.com.br
Spark Core
www.datascienceacademy.com.br
Spark SQL
Spark SQL um pacote para tarefas com dados
estruturados. Ele permite realizar queries nos
dados atravs de linguagem SQL e HQL (Apache
Hive Query Language a variao do SQL
desenvolvida pela Apache), alm de suportar
diversas fontes de dados como Hive e JSON.
www.datascienceacademy.com.br
Spark Streaming
Esse um componente do framework Spark
para processamento de streams de dados em
tempo real.
www.datascienceacademy.com.br
Mllib
A biblioteca MLlib uma funcionalidade
para Machine Learning.
www.datascienceacademy.com.br
GraphX
O GraphX um biblioteca para
manipulao de grficos e computao
em paralelo.
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
Spark
Somente computao distribuda
Computao genrica
Em disco / Em memria
Excelente para trabalhos iterativos (Machine
Learning)
At 10x mais rpido para dados em disco
At 100x mais rpido para dados em
memria
Suporta Java, Python, Scala
Shell para explorao ad-hoc
www.datascienceacademy.com.br
www.datascienceacademy.com.br
No
www.datascienceacademy.com.br
No
www.datascienceacademy.com.br
Hadoop
Hadoop MapReduce (Java, Pig,
Hive)
Hadoop: Hive
Storm, Kafka
Query SQL
Processamento Stream /
Processamento em Tempo Real
Machine Learning
Mahout
Algoritmos iterativos
Lento
Workflow ETL
Pig, Flume
Volume de Dados
Spark
Spark RDD (Java, Python, Scala)
Spark SQL
Spark Streaming
Spark ML Lib
Muito rpido (em memria)
Pig com Spark ou Mix de Spark
SQL e programao RDD
Volume mdio (Gigabytes /
Terabytes)
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
J usa Hadoop?
Tente o Spark para processar dados no
HDFS
Ainda no usa Hadoop?
Tente o Spark standalone
www.datascienceacademy.com.br
Apache Storm
www.datascienceacademy.com.br
Apache Storm
www.datascienceacademy.com.br
Apache Storm
www.datascienceacademy.com.br
Apache Storm
www.datascienceacademy.com.br
Apache Storm
www.datascienceacademy.com.br
Apache Storm
www.datascienceacademy.com.br
Apache Storm
www.datascienceacademy.com.br
Apache Storm
Principais benefcios de se utilizar o Storm:
Storm open-source, robusto e amigvel (fcil utilizao)
Tolerante a falhas, flexvel, confivel e suporta diversas linguagens
de programao
Processa dados em tempo-real
Storm incrivelmente veloz
www.datascienceacademy.com.br
Apache Storm
Arquitetura Storm
Master Node
No Master Node
encontramos o servio
Nimbus, que
responsvel pela
atribuio de tarefas
aos Supervisors
www.datascienceacademy.com.br
Apache Storm
Arquitetura Storm
Coordenao do Cluster
O Zookeeper faz a
coordenao do
funcionamento do
cluster
www.datascienceacademy.com.br
Apache Storm
Arquitetura Storm
Supervisor
Os supervisors so
responsveis por 1 ou
mais workers e sua
funo garantir que
os workers executem
os jobs
www.datascienceacademy.com.br
Apache Storm
Arquitetura Storm
Worker Node
Os workers nodes,
executam as taferas
(jobs)
www.datascienceacademy.com.br
Apache Storm
Arquitetura Storm
Esta arquitetura
garante uma das
principais
caractersticas do
Storm:
No single-point de
falha
www.datascienceacademy.com.br
Apache Storm
Hadoop x Storm
www.datascienceacademy.com.br
Apache Storm
Hadoop x Storm
Hadoop
Storm
Processamento em batch
Arquitetura Master/Slave com ou sem
o Zookeeper
www.datascienceacademy.com.br
Apache Storm
Spark x Storm
www.datascienceacademy.com.br
Apache Storm
Spark x Storm
Spark
Storm
Linguagem de programao Java, Scala Linguagem de programao Java,
Clojure, Scala
Fonte de streams no HDFS
Gesto de Recursos com YARN, Mesos
www.datascienceacademy.com.br
Apache Storm
Qual Framework utilizar afinal?
Situao
Baixa Latncia
Baixo custo de
desenvolvimento
Tolerncia a falhas
Framework
Storm consegue obter melhor latncia que o Spark
Com Spark, o mesmo cdigo pode ser usado para
processamento em batch e processamento de
streams. No Storm, isso no possvel
Ambos so tolerantes a falhas
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
Alguns afirmam que a sigla significa Not Only SQL, enquanto outros afirmam que
significa Non-SQL. No h um consenso sobre isso. Mas pense sobre NoSQL como
uma classe de banco de dados no-relacionais que no se enquadram na
classificao de bancos de dados relacionais (RDBMS), que utilizam linguagem SQL.
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
Graph databases
Document databases
Key-values stores
Column family stores
www.datascienceacademy.com.br
Graph
Databases
www.datascienceacademy.com.br
www.datascienceacademy.com.br
Key-Value
Store
www.datascienceacademy.com.br
Column Family
Store
www.datascienceacademy.com.br
Graph
Document
Neo4J
FlockDB
Key-value
GraphDB
ArangoDB
MongoDB
CouchDB
Column
RavenDB
Terrastore
Oracle NoSQL DB
MemcacheDB
Redis
Voldemort
HBase
Cassandra*
Hypertable
Accumulo
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
MongoDB
Database
RDBMS
Database
Collection
Document
Field
Table
Tuple/Row
Column
Embedded Documents
Primary Key
Table Join
Primary Key
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
Big Data
Gesto de Contedo
Infraestrutura Social e Mobile
Gesto de Dados de Usurios
www.datascienceacademy.com.br
Big Data
Gesto de Contedo
Infraestrutura Social e Mobile
Gesto de Dados de Usurios
Data Hub
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
http://cassandra.apache.org
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
http://couchdb.apache.org
www.datascienceacademy.com.br
www.datascienceacademy.com.br
Manufatura
www.datascienceacademy.com.br
Produtividade
www.datascienceacademy.com.br
Finanas
www.datascienceacademy.com.br
Sade
www.datascienceacademy.com.br
Varejo
www.datascienceacademy.com.br
www.datascienceacademy.com.br
http://caesarscorporate.com
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
http://www.cerner.com
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
http://www.mastercard.com/br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
http://www.mastercard.com/br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
Especificaes Tcnicas
Utilizao
Mais de 12 TB de storage
--
Yahoo!
Ebay
www.datascienceacademy.com.br
Especificaes Tcnicas
Utilizao
Accenture
Ning
--
Spotify
Fox
70 nodes Hadoop
www.datascienceacademy.com.br
O Hadoop j realidade!
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
Convencido?
Ainda no?
Ento tem mais
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
Encerramento
www.datascienceacademy.com.br
Encerramento
www.datascienceacademy.com.br
Encerramento
www.datascienceacademy.com.br
Encerramento
Se voc se sente mais confortvel com administrao e
infraestrutura, engenharia de dados pode ser o melhor caminho e
nesse caso voc precisa aprender e conhecer bem:
Hadoop e Clusters HDFS
Spark e Streaming de Dados
Bancos de Dados NoSQL
www.datascienceacademy.com.br
Encerramento
Se voc se sente mais confortvel com desenvolvimento, estatstica e
anlise, seu caminho natural aprimorar seu perfil como analista ou
cientista de dados e nesse caso, precisa aprender:
Linguagem de programao para anlise de dados (R, Python, Scala
ou Java)
Estatstica
Algoritmos de Machine Learning
Visualizao de Dados
Anlise de Dados distribudos em Cluster
Ferramentas proprietrias como SAS, SPSS, Tableau
www.datascienceacademy.com.br
Encerramento
www.datascienceacademy.com.br
Bibliografia
Hadoop The Definitive Guide
Data Science and Big Data Analytics
Big Data Using Smart Big Data Analytics and Metrics to make better decisions
and improve performance
Big Data: A Revolution That Will Transform How We Live, Work, and Think
Disruptive Possibilities: How Big Data Changes Everything
Big Data in Practice: How 45 Successful Companies Used Big Data Analytics to
Deliver Extraordinary Results
The Enterprise Big Data Lake: Delivering on the Promise of Hadoop and Data
Science in the Enterprise
www.datascienceacademy.com.br
Encerramento
E sua opinio muito importante para ns!
Mande suas crticas e sugestes!
Voc tem um canal direto conosco
www.datascienceacademy.com.br
www.datascienceacademy.com.br
Encerramento
www.datascienceacademy.com.br
www.facebook.com/dsacademybr
twitter.com/dsacademybr
www.linkedin.com/company/data-science-academy
www.datascienceacademy.com.br