Anda di halaman 1dari 28

Big Data

17 de Janeiro de 2015

Big Data
Randy Quindai
preciso trabalhar duro para fazer o simples
Steve Jobs

Quem sou eu??

Graduando em Engenharia
da Computao (UFAL)
Bolsista do NTI(UFAL)
Bolsista da
RIM(Blackberry)
Desenvolvedor de diversos
projetos acadmicos em
Java, C++, VB6, HTML5,
AngularJS
Membro do GDG Luanda

f g+ in

O que Big Data


Volume

Velocidade

Valor
Veracidade Variedade

O que Big Data


Volume

Velocidade

Valor
Veracidade Variedade

Volumes extremamente
grandes de dados:
Em 2007 o Google processava
mais de 400PB dados/ms
Usurios do facebook
produzem mais de 300PB
dados/dirios

O que Big Data


Volume

Velocidade

Valor
Veracidade Variedade

Informao disponvel para


uso em tempo hbil.
Tratamento dos dados em
tempo real.
Empresas que oferecem esse
servio: Facebook, Amazon,
Google

O que Big Data


Volume

Velocidade

Valor
Veracidade Variedade

Dados oriundos de diversos


bancos de dados como
PostgreSQL e Oracle.
Dados no estruturados
oriundos de inmeras fontes:
documentos, vdeos, udios,
imagens, se no forem
associados uns aos outros
podem se tornar inteis.
7

O que Big Data


Volume

Velocidade

Valor
Veracidade Variedade

Volume+Velocidade+Variedade
de nada adianta se os dados
no so confiveis.
Informao no s poder,
informao patrimnio.

O que Big Data


Volume

Velocidade

Valor
Veracidade

Variedade

Alm de qualquer outro


aspecto visto, uma soluo de
Big Data se tornar invivel se
o resultado no trouxer
benefcios significativos e que
compensem o investimento.

reas de Aplicao

Big Data
transporte

ensino
algoritmos genticos
governo

finanas
social

cincia
sade
10

reas de Aplicao
O limite a sua imaginao
ensino

transporte

governo

finanas
social

cincia
sade
11

Quem Usa

Anlise de sentimento no
Twitter e exrcito de
apoiadores no Facebook.
Levantamento de dados de
mdia
Alcanar o eleitor na hora
certa

12

Como tudo comeou


PR(A)=(1-d)+d(PR(T1)/C(T1)++PR(Tn)/C(Tn)))

Gravar grandes volumes de


dados no estruturados(HTML).
Processar as pginas para
buscar citaes(links).
Calcular o PageRank das
pginas segundo o nmero de
citaes.
Criar um mecanismo de busca
textual.
13

Como tudo comeou


2000 - Jeffrey Dean e Sanjay
Ghemawat (criadores da
tecnologia MapReduce)
http://research.google.com/archive/mapreduce.html

Jeffrey Dean
http://research.google.com/
people/jeff/

Sanjay Ghemawat
http://research.google.com/
pubs/SanjayGhemawat.html
14

Como tudo comeou

Dez/2002 - Primeira biblioteca


MapReduce da Google.
Out/2003 - Artigo sobre GFS.
Dez/2004 - Artigo sobre
MapReduce.
Fev/2006 - Hadoop se torna um
projeto oficial da Apache.
Abr/2007 - Yahoo! roda Hadoop
em um cluster de 1000 ns.
Jan/2008 - Hadoop se torna no
projeto principal da Apache
15

Como tudo comeou

2005 - Cria prprio


mecanismo de busca
Nutch criado
Mesmos problemas que o
Google (mquinas quebram)
Criado o HDFS(Hadoop
Distributed File System)
Surge Hbase NoSQL
baseado no BigTable da
Google
16

Quem Usa

17

Solues Big Data

18

Solues Big Data

Elasticidade
No ACID (Atomicidade,
Consistncia, Isolamento e
Durabilidade)
NoSQL
BASE(Basically available, Soft
state, Eventually consistency)

19

Solues Big Data

Bancos de dados NoSQL

20

Solues Big Data

Open Source
Tolerante a falhas
Escalvel
Processamento paralelo
EMR
Coerncia de dados

21

Ecossistema Hadoop

22

Sandbox

Projeto Hortonworks que


torna o Hadoop porttil
permitindo rodar no seu
computador pessoal de
forma simples e gil.
Possui fins educacionais
Ambiente de virtualizao
VirtualBox

23

Sandbox

Baixar SandBox http://


hortonworks.com/products/hortonworkssandbox/#install

24

Sandbox

Baixar Cloudera distribuio


linux centOS 6.4 http://
www.cloudera.com/content/cloudera/en/
downloads/quickstart_vms/cdh-5-3-x.html

Pig http://pig.apache.org
Hive https://hive.apache.org
vs

25

Sandbox
vs
SELECT * FROM Tabela
WHERE Campo = ABC;
SELECT a.* FROM a
JOIN b
ON (a.id = b.id)

SELECT MARCA, sum(vl_pedido)


Valor_Pedidos
FROM `default.tb_orders`
Group by MARCA
ORDER by Valor_Pedidos DESC

A = LOAD 'tabela' USING


org.apache.hcatalog.pig.HCatLoader();
B = LIMIT A 100;
C = FILTER B BY campo1 == 'Teste';
D = FOREACH C GENERATE symbol, date,
close;
E = DISTINCT D;
F = GROUP E BY (campo1, campo2);
G = ORDER F BY (campo1, campo2);
H = JOIN G BY campo1, F BY campo1;
DUMP C;
A = LOAD 'default.tb_orders' USING
org.apache.hcatalog.pig.HCatLoader();
B = GROUP A BY marca;
X = FOREACH B GENERATE group,
SUM(A.vl_pedido);
DUMP X;
26

Perguntas

Big Data

Links Interessantes:
http://ohundo.tempsite.ws
http://www.cloudera.com/content/cloudera/en/downloads/quickstart_vms/cdh-5-3-x.html
https://www.vagrantup.com/downloads.html
https://www.hashicorp.com
https://www.virtualbox.org/wiki/Downloads
http://hortonworks.com/hdp/downloads/
http://mahout.apache.org/
https://crunch.apache.org/
http://avro.apache.org/docs/1.7.7/gettingstartedjava.html
http://hadoop.apache.org/docs/current/hadoop-yarn/hadoop-yarn-site/YARN.html
http://bigtop.apache.org/
27

Big Data
Fim

28

Anda mungkin juga menyukai