Anda di halaman 1dari 57

Antonella.Blasetti@information-design.

it
information design
Oracle Cloud Web Google
GDGROMALAB
Google DeveloperGroup
ROMA LAZIO ABRUZZO
Big Data Revolution
Antonella.Blasetti@information-design.it
information design
Oracle Cloud Web Google
GDGROMALAB
Google DeveloperGroup
ROMA LAZIO ABRUZZO
un nuovo mondo
con nuove strategie e competenze
approccio creativo
Antonella.Blasetti@information-design.it
Antonella.Blasetti@information-design.it
information design
Oracle Cloud Web Google
GDGROMALAB
Google DeveloperGroup
ROMA LAZIO ABRUZZO
Cosa sono i Big Data?
...in confronto agli Small Data?
Cambio di Paradigma
Antonella.Blasetti@information-design.it
Antonella.Blasetti@information-design.it
information design
Oracle Cloud Web Google
GDGROMALAB
Google DeveloperGroup
ROMA LAZIO ABRUZZO
Elementi tecnici
Tipologia di informazioni
Volumi Velocit Variabilit
Origine dei Dati
Antonella.Blasetti@information-design.it
Antonella.Blasetti@information-design.it
information design
Oracle Cloud Web Google
GDGROMALAB
Google DeveloperGroup
ROMA LAZIO ABRUZZO
Esempio emblematico
Influenza 2009
50mio Parole Chiave
Dati Storici
Antonella.Blasetti@information-design.it
Antonella.Blasetti@information-design.it
information design
Oracle Cloud Web Google
GDGROMALAB
Google DeveloperGroup
ROMA LAZIO ABRUZZO
Tecnologie
interconnesse ed interoperanti
Antonella.Blasetti@information-design.it
Antonella.Blasetti@information-design.it
information design
Oracle Cloud Web Google
GDGROMALAB
Google DeveloperGroup
ROMA LAZIO ABRUZZO
information design
Oracle Cloud Web Google
Antonella.Blasetti@information-design.it
Social Network e
Search
Open Data
Mobile
Intelligenza
Artificiale & ML
Dispositivi
indossabili
Sensori e
Dispositivi
"parlanti"
Internet delle
Cose
noSQL
Beacons
Antonella.Blasetti@information-design.it
information design
Oracle Cloud Web Google
GDGROMALAB
Google DeveloperGroup
ROMA LAZIO ABRUZZO
Antonella.Blasetti@information-design.it
Doctor Antonella Tosti, Dermatologist University of Miami School of Medicine, uses an iphone as a
dermatoscope as she examines Michael Casa Nova,12, for symptoms of skin cancer due to sun
exposure (Joe Raedle/Getty Images/AFP) http://rt.com/usa/medical-device-apps-smartphone-295/
Antonella.Blasetti@information-design.it
information design
Oracle Cloud Web Google
GDGROMALAB
Google DeveloperGroup
ROMA LAZIO ABRUZZO
Antonella.Blasetti@information-design.it
click sullimmagine
Antonella.Blasetti@information-design.it
information design
Oracle Cloud Web Google
GDGROMALAB
Google DeveloperGroup
ROMA LAZIO ABRUZZO
Campi di applicazione:
Salute
Ricerca
Marketing
Scienze Sociali
information design
Oracle Cloud Web Google
Antonella.Blasetti@information-design.it
Antonella.Blasetti@information-design.it
information design
Oracle Cloud Web Google
GDGROMALAB
Google DeveloperGroup
ROMA LAZIO ABRUZZO
information design
Oracle Cloud Web Google
Antonella.Blasetti@information-design.it
Google Books
Translate: da IBM
a Google
Imparare dagli
Errori
Scoperte
Scientifiche
Amazon
Google Places
Google Now
Esempi
Previsioni socio-
sanitarie
Social &
Sentimental
Analysis
Google Now
Frodi-Anomalie
Manutenzione-Controllo
Antonella.Blasetti@information-design.it
information design
Oracle Cloud Web Google
GDGROMALAB
Google DeveloperGroup
ROMA LAZIO ABRUZZO
information design
Oracle Cloud Web Google
Antonella.Blasetti@information-design.it
click sullimmagine
Antonella.Blasetti@information-design.it
information design
Oracle Cloud Web Google
GDGROMALAB
Google DeveloperGroup
ROMA LAZIO ABRUZZO
(quasi) Tutto misurabile
cosa la
DATIZZAZIONE
information design
Oracle Cloud Web Google
Antonella.Blasetti@information-design.it
Antonella.Blasetti@information-design.it
information design
Oracle Cloud Web Google
GDGROMALAB
Google DeveloperGroup
ROMA LAZIO ABRUZZO
Un pizzico di Statistica...
necessaria per capire i BIGDATA
Cosa ?
A cosa serve?
Come fa a funzionare?
Antonella.Blasetti@information-design.it
information design
Oracle Cloud Web Google
GDGROMALAB
Google DeveloperGroup
ROMA LAZIO ABRUZZO
Un pizzico di Statistica...
la VITA non Matematica
ma nemmeno
RANDOM
Antonella.Blasetti@information-design.it
information design
Oracle Cloud Web Google
GDGROMALAB
Google DeveloperGroup
ROMA LAZIO ABRUZZO
I Segreti della Statistica...
non solo a CASO
ma tante cause
non possibile prevedere
il singolo evento
ma il risultato di molti eventi
Antonella.Blasetti@information-design.it
information design
Oracle Cloud Web Google
GDGROMALAB
Google DeveloperGroup
ROMA LAZIO ABRUZZO
Un pizzico di Statistica...
la Correlazione
se prendi freddo ti ammali
Focus sui fattori
che si possono variare/controllare
Antonella.Blasetti@information-design.it
information design
Oracle Cloud Web Google
GDGROMALAB
Google DeveloperGroup
ROMA LAZIO ABRUZZO
Un pizzico di Statistica...
Trend
e Serie Storiche
Il Mondo non sta mai fermo
e va sempre pi veloce
Antonella.Blasetti@information-design.it
information design
Oracle Cloud Web Google
GDGROMALAB
Google DeveloperGroup
ROMA LAZIO ABRUZZO
Un pizzico di Statistica...
Differenze e Raggruppamenti
Cluster & Factor Analysis
Metodi empirici
non matematici
Antonella.Blasetti@information-design.it
information design
Oracle Cloud Web Google
GDGROMALAB
Google DeveloperGroup
ROMA LAZIO ABRUZZO
Un pizzico di Statistica...
con i Big Data
la Statistica necessaria
ma pi facile
viva e divertente
Antonella.Blasetti@information-design.it
information design
Oracle Cloud Web Google
GDGROMALAB
Google DeveloperGroup
ROMA LAZIO ABRUZZO
Machine Learning
Algoritmi e Sistemi per
Previsioni
Classificazioni
Raggruppamenti
Antonella.Blasetti@information-design.it
information design
Oracle Cloud Web Google
GDGROMALAB
Google DeveloperGroup
ROMA LAZIO ABRUZZO
Machine Learning
click sullimmagine
Antonella.Blasetti@information-design.it
information design
Oracle Cloud Web Google
GDGROMALAB
Google DeveloperGroup
ROMA LAZIO ABRUZZO
Machine Learning
Algoritmi e Sistemi per
Previsioni
Classificazioni
Raggruppamenti
Antonella.Blasetti@information-design.it
information design
Oracle Cloud Web Google
GDGROMALAB
Google DeveloperGroup
ROMA LAZIO ABRUZZO
Machine Learning
anche il Software impara!
Alberi di Decisione
Metodi Bayesiani
lAllenamento/Apprendimento
Antonella.Blasetti@information-design.it
information design
Oracle Cloud Web Google
GDGROMALAB
Google DeveloperGroup
ROMA LAZIO ABRUZZO
Machine Learning:esempi
Mail Span
Automotive
Identificazione Pattern Oggetti
Ufficio Clienti
Antonella.Blasetti@information-design.it
information design
Oracle Cloud Web Google
GDGROMALAB
Google DeveloperGroup
ROMA LAZIO ABRUZZO
Machine Learning: Automotive
Antonella.Blasetti@information-design.it
information design
Oracle Cloud Web Google
GDGROMALAB
Google DeveloperGroup
ROMA LAZIO ABRUZZO
Open DATA
Poter accedere a Dati/Statistiche
di Pubblica Utilit
e di proprio interesse
e collegarli tra di loro
e con i BIG DATA
Antonella.Blasetti@information-design.it
information design
Oracle Cloud Web Google
GDGROMALAB
Google DeveloperGroup
ROMA LAZIO ABRUZZO
Strategie tecniche
Costi/Risultati
Servizi/in-House
Metodi Proprietari/Complessi
vs Semplici/Aperti
Antonella.Blasetti@information-design.it
information design
Oracle Cloud Web Google
GDGROMALAB
Google DeveloperGroup
ROMA LAZIO ABRUZZO
SW Open Source
o
Proprietario?
Antonella.Blasetti@information-design.it
information design
Oracle Cloud Web Google
GDGROMALAB
Google DeveloperGroup
ROMA LAZIO ABRUZZO
Database noSQL

information design
Oracle Cloud Web Google
Antonella.Blasetti@information-design.it
Antonella.Blasetti@information-design.it
information design
Oracle Cloud Web Google
GDGROMALAB
Google DeveloperGroup
ROMA LAZIO ABRUZZO
Architettura distribuita
Scalabilit
MultiNodo Partizionamento Repliche
Parallelismo (MapReduce)
Prestazioni e non legate alla dimensione del
data set
no Backup
information design
Oracle Cloud Web Google
Antonella.Blasetti@information-design.it
Antonella.Blasetti@information-design.it
information design
Oracle Cloud Web Google
GDGROMALAB
Google DeveloperGroup
ROMA LAZIO ABRUZZO
Database noSQL
molto SQL e possibile convivenza
DB al contrario
Dati con meno vincoli
Pregi e Difetti
Antonella.Blasetti@information-design.it
information design
Oracle Cloud Web Google
GDGROMALAB
Google DeveloperGroup
ROMA LAZIO ABRUZZO
noSQL
Molti formati diversi
noJoin
Schemaless
Replicati su +Processor
Scalabilit lineare
notonlyBigData
Antonella.Blasetti@information-design.it
information design
Oracle Cloud Web Google
GDGROMALAB
Google DeveloperGroup
ROMA LAZIO ABRUZZO
Tipologie noSQL DB
Key-Value
Column/BigTable
Document
Graph
Antonella.Blasetti@information-design.it
information design
Oracle Cloud Web Google
GDGROMALAB
Google DeveloperGroup
ROMA LAZIO ABRUZZO
Key-Value
Apache Cassandra: ibrido
Amazon DynamoDB
CouchBase
BerkeleyDB
Oracles Coherence
Antonella.Blasetti@information-design.it
information design
Oracle Cloud Web Google
GDGROMALAB
Google DeveloperGroup
ROMA LAZIO ABRUZZO
Key-Value
Chiavi in associazione
a Dati o Oggetti
Estrema Portabilit
come un Dizionario
Scalabilit
Antonella.Blasetti@information-design.it
information design
Oracle Cloud Web Google
GDGROMALAB
Google DeveloperGroup
ROMA LAZIO ABRUZZO
Column/BigTable
Google Cloud DataStore
Apache HBase
Apache Accumulo
Cloudera
Antonella.Blasetti@information-design.it
information design
Oracle Cloud Web Google
GDGROMALAB
Google DeveloperGroup
ROMA LAZIO ABRUZZO
Column/BigTable
Uso di Map Reduce
Master Nodes suddivide operazioni
su pi nodi
e poi aggrega i risultati parziali
Google Maps
Antonella.Blasetti@information-design.it
information design
Oracle Cloud Web Google
GDGROMALAB
Google DeveloperGroup
ROMA LAZIO ABRUZZO
Document DB
MongoDB
CouchDB
DB XML
OrientDB + Graph
Antonella.Blasetti@information-design.it
information design
Oracle Cloud Web Google
GDGROMALAB
Google DeveloperGroup
ROMA LAZIO ABRUZZO
Document DB
Documenti: XML, Json, altri formati
Il contenuto dei documenti indicizzato
Document path
Dati semi-strutturati
Linguaggi di trasformazione
e di interrogazione
Antonella.Blasetti@information-design.it
information design
Oracle Cloud Web Google
GDGROMALAB
Google DeveloperGroup
ROMA LAZIO ABRUZZO
Graph DB
NeoJs
InfiniteGraph
Apache Giraph (Google Pregel)
DB2
Antonella.Blasetti@information-design.it
information design
Oracle Cloud Web Google
GDGROMALAB
Google DeveloperGroup
ROMA LAZIO ABRUZZO
Graph DB
Gestione di Grafi, molte relazioni da
attraversare.
Nodi, relazioni e propriet
Vicinanza e Similitudine
Sono la nuova versione dei classici
DB Reticolari,
ma pi affidabili e veloci
Antonella.Blasetti@information-design.it
information design
Oracle Cloud Web Google
GDGROMALAB
Google DeveloperGroup
ROMA LAZIO ABRUZZO
Graph DB
Scalabilit + difficile
Identificazione dei NODI
W3C - URIs
Integrazione di Linked Data
e di Open Data
Antonella.Blasetti@information-design.it
information design
Oracle Cloud Web Google
GDGROMALAB
Google DeveloperGroup
ROMA LAZIO ABRUZZO
Le tecniche Importanti
Map Reduce
Compressione dei Dati
Hashing
Shrading
Streaming Data
RTBDA
Antonella.Blasetti@information-design.it
information design
Oracle Cloud Web Google
GDGROMALAB
Google DeveloperGroup
ROMA LAZIO ABRUZZO
Map Reduce/Hadoop
Elaborazioni di enormi
quantit di dati
in Cluster di Hardware
a basso costo
Antonella.Blasetti@information-design.it
information design
Oracle Cloud Web Google
GDGROMALAB
Google DeveloperGroup
ROMA LAZIO ABRUZZO
Map Reduce/Hadoop
Rete di Controller
suddivisione del lavoro
aggregazione
Problema dei failure
Gestione della FaultTolerance
rende semplice lavorare in parallelo
Antonella.Blasetti@information-design.it
information design
Oracle Cloud Web Google
GDGROMALAB
Google DeveloperGroup
ROMA LAZIO ABRUZZO
Hadoop
BATCH
basato su HDSF (GFS)
PIG - script per MapReduce
Hadoop Common Ut Libraries
Streaming
Antonella.Blasetti@information-design.it
information design
Oracle Cloud Web Google
GDGROMALAB
Google DeveloperGroup
ROMA LAZIO ABRUZZO
Hadoop
HBase - Il database
YARN - Resource Management &
Scheduling
Shark + Spark (open)
Claudera
Antonella.Blasetti@information-design.it
information design
Oracle Cloud Web Google
GDGROMALAB
Google DeveloperGroup
ROMA LAZIO ABRUZZO
RTBDA
Real Time Big Data Analytics
no MapReduce
Dremel (Google BigQuery)
Apache Drill
Druid
Antonella.Blasetti@information-design.it
information design
Oracle Cloud Web Google
GDGROMALAB
Google DeveloperGroup
ROMA LAZIO ABRUZZO
RTBDA
Real Time
no Database ma Analyics
all DATA, senza Aggregazioni
Analisi su DB immensi
Scalabili su pi di 10.000 Server
Petabyte of Data Trillions of Records
Antonella.Blasetti@information-design.it
information design
Oracle Cloud Web Google
GDGROMALAB
Google DeveloperGroup
ROMA LAZIO ABRUZZO
BigQuery
Solo come Servizio
Tools di Test
Utilizzabile con normali comandi SQL
information design
Oracle Cloud Web Google
Antonella.Blasetti@information-design.it
Antonella.Blasetti@information-design.it
information design
Oracle Cloud Web Google
GDGROMALAB
Google DeveloperGroup
ROMA LAZIO ABRUZZO
information design
Oracle Cloud Web Google
Antonella.Blasetti@information-design.it
Antonella.Blasetti@information-design.it
information design
Oracle Cloud Web Google
GDGROMALAB
Google DeveloperGroup
ROMA LAZIO ABRUZZO
information design
Oracle Cloud Web Google
Antonella.Blasetti@information-design.it
Data Scientist
Nuova figura professionale
Tecnica
Conoscenza dei Problemi
Intuizione
Metodi Scientifici
Antonella.Blasetti@information-design.it
information design
Oracle Cloud Web Google
GDGROMALAB
Google DeveloperGroup
ROMA LAZIO ABRUZZO
information design
Oracle Cloud Web Google
Antonella.Blasetti@information-design.it
i Dati in Azienda
Come integrare
Big Data
e Small Data
Antonella.Blasetti@information-design.it
information design
Oracle Cloud Web Google
GDGROMALAB
Google DeveloperGroup
ROMA LAZIO ABRUZZO
Best Practices
Servizi REST +
DB XML =

BigData integrati con i Vs.Dati
information design
Oracle Cloud Web Google
Antonella.Blasetti@information-design.it
Antonella.Blasetti@information-design.it
information design
Oracle Cloud Web Google
GDGROMALAB
Google DeveloperGroup
ROMA LAZIO ABRUZZO
information design
Oracle Cloud Web Google
Antonella.Blasetti@information-design.it
i Pericoli del Big Data
Privacy
Importanza del modello Open Source
Le macchine faranno sempre di pi...se
questo sia un bene o un male dipender da chi
ma soprattutto da quanti ne avranno
consapevolezza e potranno controllarle
Antonella.Blasetti@information-design.it
information design
Oracle Cloud Web Google
GDGROMALAB
Google DeveloperGroup
ROMA LAZIO ABRUZZO
Grazie
Antonella.Blasetti@information-design.it

Anda mungkin juga menyukai