Big Data

Big Data
17 de Janeiro de 2015
Big Data
Randy Quindai
preciso trabalhar duro para fazer o simples
Steve Jobs
Quem sou eu??
Graduando em Engenharia
da Computao (UFAL)
Bolsista do NTI(UFAL)
Bolsista da
RIM(Blackberry)
Desenvolvedor de diversos
projetos acadmicos em
Java, C++, VB6, HTML5,
AngularJS
Membro do GDG Luanda
f g+ in
O que Big Data

Volume
Velocidade
Valor
Veracidade Variedade
O que Big Data

Volume
Velocidade
Valor
Volumes extremamente
grandes de dados:
Em 2007 o Google processava
mais de 400PB dados/ms
Usurios do facebook
produzem mais de 300PB
dados/dirios
O que Big Data

Volume
Velocidade
Valor
Informao disponvel para

uso em tempo hbil.
Tratamento dos dados em
tempo real.
Empresas que oferecem esse
servio: Facebook, Amazon,
Google
O que Big Data

Volume
Velocidade
Valor
Dados oriundos de diversos

bancos de dados como
PostgreSQL e Oracle.
Dados no estruturados
oriundos de inmeras fontes:
documentos, vdeos, udios,
imagens, se no forem
associados uns aos outros
podem se tornar inteis.
7
O que Big Data

Volume
Velocidade
Valor
Volume+Velocidade+Variedade
de nada adianta se os dados
no so confiveis.
Informao no s poder,
informao patrimnio.
O que Big Data

Volume
Velocidade
Valor
Veracidade
Variedade
Alm de qualquer outro

aspecto visto, uma soluo de
Big Data se tornar invivel se
o resultado no trouxer
benefcios significativos e que
compensem o investimento.
reas de Aplicao
Big Data
transporte
ensino
algoritmos genticos
governo
finanas
social
cincia
sade
10
reas de Aplicao
O limite a sua imaginao
ensino
transporte
governo
finanas
social
cincia
sade
11
Quem Usa
Anlise de sentimento no
Twitter e exrcito de
apoiadores no Facebook.
Levantamento de dados de
mdia
Alcanar o eleitor na hora
certa
12
Como tudo comeou

PR(A)=(1-d)+d(PR(T1)/C(T1)++PR(Tn)/C(Tn)))
Gravar grandes volumes de

dados no estruturados(HTML).
Processar as pginas para
buscar citaes(links).
Calcular o PageRank das
pginas segundo o nmero de
citaes.
Criar um mecanismo de busca
textual.
13
Como tudo comeou

2000 - Jeffrey Dean e Sanjay
Ghemawat (criadores da
tecnologia MapReduce)
http://research.google.com/archive/mapreduce.html
Jeffrey Dean
http://research.google.com/
people/jeff/
Sanjay Ghemawat
http://research.google.com/
pubs/SanjayGhemawat.html
14
Como tudo comeou
Dez/2002 - Primeira biblioteca

MapReduce da Google.
Out/2003 - Artigo sobre GFS.
Dez/2004 - Artigo sobre
MapReduce.
Fev/2006 - Hadoop se torna um
projeto oficial da Apache.
Abr/2007 - Yahoo! roda Hadoop
em um cluster de 1000 ns.
Jan/2008 - Hadoop se torna no
projeto principal da Apache
15
Como tudo comeou
2005 - Cria prprio

mecanismo de busca
Nutch criado
Mesmos problemas que o
Google (mquinas quebram)
Criado o HDFS(Hadoop
Distributed File System)
Surge Hbase NoSQL
baseado no BigTable da
Google
16
Quem Usa
17
Solues Big Data
18
Solues Big Data
Elasticidade
No ACID (Atomicidade,
Consistncia, Isolamento e
Durabilidade)
NoSQL
BASE(Basically available, Soft
state, Eventually consistency)
19
Solues Big Data
Bancos de dados NoSQL
20
Solues Big Data
Open Source
Tolerante a falhas
Escalvel
Processamento paralelo
EMR
Coerncia de dados
21
Ecossistema Hadoop
22
Sandbox
Projeto Hortonworks que

torna o Hadoop porttil
permitindo rodar no seu
computador pessoal de
forma simples e gil.
Possui fins educacionais
Ambiente de virtualizao
VirtualBox
23
Sandbox
Baixar SandBox http://

hortonworks.com/products/hortonworkssandbox/#install
24
Sandbox
Baixar Cloudera distribuio

linux centOS 6.4 http://
www.cloudera.com/content/cloudera/en/
downloads/quickstart_vms/cdh-5-3-x.html
Pig http://pig.apache.org
Hive https://hive.apache.org
vs
25
Sandbox
vs
SELECT * FROM Tabela
WHERE Campo = ABC;
SELECT a.* FROM a
JOIN b
ON (a.id = b.id)
SELECT MARCA, sum(vl_pedido)

Valor_Pedidos
FROM `default.tb_orders`
Group by MARCA
ORDER by Valor_Pedidos DESC
A = LOAD 'tabela' USING

org.apache.hcatalog.pig.HCatLoader();
B = LIMIT A 100;
C = FILTER B BY campo1 == 'Teste';
D = FOREACH C GENERATE symbol, date,
close;
E = DISTINCT D;
F = GROUP E BY (campo1, campo2);
G = ORDER F BY (campo1, campo2);
H = JOIN G BY campo1, F BY campo1;
DUMP C;
A = LOAD 'default.tb_orders' USING
org.apache.hcatalog.pig.HCatLoader();
B = GROUP A BY marca;
X = FOREACH B GENERATE group,
SUM(A.vl_pedido);
DUMP X;
26
Perguntas
Big Data
Links Interessantes:
http://ohundo.tempsite.ws
http://www.cloudera.com/content/cloudera/en/downloads/quickstart_vms/cdh-5-3-x.html
https://www.vagrantup.com/downloads.html
https://www.hashicorp.com
https://www.virtualbox.org/wiki/Downloads
http://hortonworks.com/hdp/downloads/
http://mahout.apache.org/
https://crunch.apache.org/
http://avro.apache.org/docs/1.7.7/gettingstartedjava.html
http://hadoop.apache.org/docs/current/hadoop-yarn/hadoop-yarn-site/YARN.html
http://bigtop.apache.org/
27
Big Data
Fim
28

Big Data

Diunggah oleh

Informasi Dokumen

Deskripsi Asli:

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Big Data

Diunggah oleh

Hak Cipta:

Format Tersedia

Big Data

Quem sou eu??

O que Big Data

O que Big Data

O que Big Data

Informao disponvel para

O que Big Data

Dados oriundos de diversos

O que Big Data

O que Big Data

Alm de qualquer outro

Como tudo comeou

Gravar grandes volumes de

Como tudo comeou

Como tudo comeou

Dez/2002 - Primeira biblioteca

Como tudo comeou

2005 - Cria prprio

Solues Big Data

Solues Big Data

Solues Big Data

Bancos de dados NoSQL

Solues Big Data

Projeto Hortonworks que

Baixar SandBox http://

Baixar Cloudera distribuio

SELECT MARCA, sum(vl_pedido)

A = LOAD 'tabela' USING

Anda mungkin juga menyukai