Selamat datang di Scribd!

Lewati carousel

Big Data: Sunnie S Chung

Diunggah oleh

Yogendra Uikey

0% menganggap dokumen ini bermanfaat (0 suara)

33 tayangan16 halaman

Judul Asli

BigDataIntro.pdf

Hak Cipta

Format Tersedia

PDF, TXT atau baca online dari Scribd

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Laporkan Dokumen Ini

Hak Cipta:

Format Tersedia

Unduh sebagai PDF, TXT atau baca online dari Scribd

Tandai sebagai konten tidak pantas

0% menganggap dokumen ini bermanfaat (0 suara)

33 tayangan16 halaman

Big Data: Sunnie S Chung

Diunggah oleh

Yogendra Uikey

Hak Cipta:

Format Tersedia

Unduh sebagai PDF, TXT atau baca online dari Scribd

Tandai sebagai konten tidak pantas

Lompat ke Halaman

Anda di halaman 1dari 16

Cari di dalam dokumen

Big Data

Sunnie S Chung

A Brief History
Relational database
management systems

Time

19751985
19851995
19952005
20052010
2020

Let us first see what a

relational database
system is

User/Application

Data Management
Query

Query

Data

DataBase Management System (DBMS)

Example: At a Company
Query 1: Is there an employee named Nemo?
Query 2: What is Nemos salary?
Query 3: How many departments are there in the company?
Query 4: What is the name of Nemos department?
Query 5: How many employees are there in the
Accounts department?
Employee

Department

Name

DeptID

Salary

Name

Nemo

120K

Dory

156

79K

Accounts

Gill

76K

Ray

85K

156

Marketing

DataBase Management System (DBMS)

High-level
Query Q

Answer

DBMS

Data

Translates Q into
best execution plan
for current conditions,
runs plan

Example: Store that Sells Cars

Make
Model OwnerID
ID Name
Owners of
12
12 Nemo
Honda Accords Honda Accord
who are <=
Honda Accord
156
156 Dory
23 years old
Join (Cars.OwnerID = Owners.ID)
Filter (Make = Honda and
Model = Accord)

Cars

Age
22
21

Filter (Age <= 23)

Owners

Make

Model

OwnerID

Name

Age

Honda

Accord

Nemo

Toyota

Camry

Ray

Mini

Cooper

Gill

Honda

Accord

156

Dory

DataBase Management System (DBMS)

High-level
Query Q

Answer

DBMS
Keeps data safe
and correct
despite failures,
concurrent
updates, online
processing, etc.

Data

Translates Q into
best execution plan
for current conditions,
runs plan

A Brief History
Relational database
management systems

Time

19751985
19851995
19952005
20052010
2020

Assumptions and
requirements changed
over time
Semi-structured and
unstructured data (Web)
Hardware developments
Developments in
system software
Changes in
data sizes

Big Data: How much data?

Google processes 20 PB a day (2008)

Wayback Machine has 3 PB + 100 TB/month (3/2009)

eBay has 6.5 PB of user data + 50 TB/day (5/2009)

Facebook has 36 PB of user data + 80-90 TB/day (6/2010)

CERNs LHC: 15 PB a year (any day now)

LSST: 6-10 PB a year (~2015)

640K ought to be
enough for
anybody.

From http://www.umiacs.umd.edu/~jimmylin/

From: http://www.cs.duke.edu/smdb10/

NEW REALITIES
The quest for knowledge used to
TBwith
disks
< $100
begin
grand
theories.
Everything is data
Now it begins with massive amounts
Rise of data-driven culture
of data.
Very publicly espoused
Welcome
to theWired,
Petabyte
by Google,
etc. Age.
Sloan Digital Sky Survey,
Terraserver, etc.

From: http://db.cs.berkeley.edu/jmh/

FOX AUDIENCE
NETWORK
Greenplum parallel DB

42 Sun X4500s (Thumper) each

with:

48 500GB drives

16GB RAM

2 dual-core Opterons

Big and growing

200 TB data (mirrored)

Fact table of 1.5 trillion rows
Growing 5TB per day

4-7 Billion rows per day

From: http://db.cs.berkeley.edu/jmh/

Also extensive use of R

and Hadoop
Yahoo! runs a 4000
node Hadoop cluster
(probably the largest).
Overall, there are
38,000 nodes running
Hadoop at Yahoo!
As reported by FAN, Feb, 2009

A SCENARIO FROM FAN

How many female WWF
fans under the age of 30
visited the Toyota
community over the last 4
days and saw a Class A ad?

How are these people

similar to those that
visited Nissan?

Open-ended question about

statistical densities
(distributions)
From: http://db.cs.berkeley.edu/jmh/

MULTILINGUAL
DEVELOPMENT
SQL or MapReduce
Sequential code in a
variety of languages
Perl
Python
Java
R

Mix and Match!

From: http://db.cs.berkeley.edu/jmh/

SE HABLA MAPREDUCE
SQL SPOKEN HERE
QUI SI PARLA PYTHON
HIER JAVA GESPROCKEN
R PARL ICI

From: http://outsideinnovation.blogs.com/pseybold/2009/03/-sun-will-shine-in-blue-cloud.html

What is important to learn

Principles of query processing (35%)
Indexes
Query execution plans and operators
Query optimization
Data storage (15%)
Databases Vs. Filesystems (Google/Hadoop Distributed
FileSystem)
Data layouts (row-stores, column-stores, partitioning,
compression)
Scalable data processing (40%)
Parallel query plans and operators
Systems based on MapReduce
Scalable key-value stores
Processing rapid, high-speed data streams

Concurrency control and recovery (10%)

Consistency models for data (ACID, BASE, Serializability)
Write-ahead logging

Anda mungkin juga menyukai

Big Data Analytics: From Strategic Planning to Enterprise Integration with Tools, Techniques, NoSQL, and Graph
Dari Everand
Big Data Analytics: From Strategic Planning to Enterprise Integration with Tools, Techniques, NoSQL, and Graph
David Loshin
Penilaian: 4.5 dari 5 bintang
4.5/5 (3)
Problem-solving in High Performance Computing: A Situational Awareness Approach with Linux
Dari Everand
Problem-solving in High Performance Computing: A Situational Awareness Approach with Linux
Igor Ljubuncic
Belum ada peringkat
Introduction To Big Data Management
Dokumen9 halaman
Introduction To Big Data Management
Nurul Akmar Emran
Belum ada peringkat
EPSM Unit 7 Data Analytics
Dokumen27 halaman
EPSM Unit 7 Data Analytics
Peter Ho
Belum ada peringkat
02-HUAWEI Storage Product Sales Specialist Training V2.0
Dokumen41 halaman
02-HUAWEI Storage Product Sales Specialist Training V2.0
BeeGees
Belum ada peringkat
01 Intro
Dokumen20 halaman
01 Intro
betselot tadesse
Belum ada peringkat
Dessalegn Data
Dokumen20 halaman
Dessalegn Data
Abi Mak
Belum ada peringkat
The Age of Big Data: Kayvan Tirdad
Dokumen26 halaman
The Age of Big Data: Kayvan Tirdad
Hari Sridharan
Belum ada peringkat
Unit 01
Dokumen32 halaman
Unit 01
Raj Chauhan
Belum ada peringkat
Sybca Bigdata
Dokumen30 halaman
Sybca Bigdata
Mariam Kilany
Belum ada peringkat
Basic Database Concepts
Dokumen35 halaman
Basic Database Concepts
Manimala Vidyasagar
Belum ada peringkat
Big Data Pgdca
Dokumen23 halaman
Big Data Pgdca
rahul
Belum ada peringkat
Lecture Notes
Dokumen17 halaman
Lecture Notes
anithameruga_3272953
Belum ada peringkat
BDA Unit-1
Dokumen31 halaman
BDA Unit-1
NAVANEETH 09
Belum ada peringkat
Chapter 4 Data Analytics
Dokumen19 halaman
Chapter 4 Data Analytics
rhythmmalhotra42
Belum ada peringkat
Big Data Notes
Dokumen68 halaman
Big Data Notes
DrKrishna Priya Chakireddy
Belum ada peringkat
Big Data:: Task 1
Dokumen18 halaman
Big Data:: Task 1
Meet Mahida
Belum ada peringkat
Hadoop & BigData (UNIT - 2)
Dokumen22 halaman
Hadoop & BigData (UNIT - 2)
Ayush Khandal
Belum ada peringkat
Big - Data My Notes
Dokumen37 halaman
Big - Data My Notes
Shameel Lamba
Belum ada peringkat
The Top Ten Largest Databases in The World
Dokumen8 halaman
The Top Ten Largest Databases in The World
lewis_keller
Belum ada peringkat
Big Data for Executives and Market Professionals - Third Edition: Big Data
Dari Everand
Big Data for Executives and Market Professionals - Third Edition: Big Data
Jose Antonio Ribeiro Neto
Belum ada peringkat
Pushpak Data Mining
Dokumen11 halaman
Pushpak Data Mining
Premant Chaudhari
Belum ada peringkat
Master Thesis Data Mining PDF
Dokumen7 halaman
Master Thesis Data Mining PDF
fjnsf5yf
100% (2)
CCPS521-WIN2023-Week02 BigData V02
Dokumen20 halaman
CCPS521-WIN2023-Week02 BigData V02
Charles Kingston
Belum ada peringkat
Big Data: Submitted By-Rajashree Rashmita Reg - No-1825209016 Mca 4 Sem
Dokumen27 halaman
Big Data: Submitted By-Rajashree Rashmita Reg - No-1825209016 Mca 4 Sem
Rajsree Rasmita
Belum ada peringkat
Unit 1 Introduction To BIG DATA ANALYSIS: Evolution of Technology
Dokumen9 halaman
Unit 1 Introduction To BIG DATA ANALYSIS: Evolution of Technology
Priyanshu Singh
Belum ada peringkat
Beyond The Hype
Dokumen30 halaman
Beyond The Hype
Viveka Sharma
Belum ada peringkat
BDA Unit 1
Dokumen68 halaman
BDA Unit 1
Manoj Reddy
Belum ada peringkat
INTRODUCTION: SLIDE 1 (Smriti)
Dokumen17 halaman
INTRODUCTION: SLIDE 1 (Smriti)
Smriti Verma
Belum ada peringkat
Big Data Analytics Practical No: 1 - 3Vs, Drivers, Formats
Dokumen5 halaman
Big Data Analytics Practical No: 1 - 3Vs, Drivers, Formats
Devanshi Parejiya
Belum ada peringkat
Fdsafhdjas Fhdjksaf
Dokumen11 halaman
Fdsafhdjas Fhdjksaf
FDASS
Belum ada peringkat
The Top Ten Largest Databases in The World PDF
Dokumen8 halaman
The Top Ten Largest Databases in The World PDF
Derrick mac Gavin
Belum ada peringkat
Adbms Data Warehousing and Data Mining
Dokumen169 halaman
Adbms Data Warehousing and Data Mining
Pink
Belum ada peringkat
Hadoop Interview Questions
Dokumen27 halaman
Hadoop Interview Questions
അഭിപ്രായൻ
Belum ada peringkat
Big Data - GCP IM Point of View
Dokumen38 halaman
Big Data - GCP IM Point of View
karthik_integer
Belum ada peringkat
Learn Hadoop in 24 Hours
Dari Everand
Learn Hadoop in 24 Hours
Alex Nordeen
Belum ada peringkat
Unit 2 Da
Dokumen69 halaman
Unit 2 Da
aadityapawar210138
Belum ada peringkat
Printed Notes Dsba
Dokumen13 halaman
Printed Notes Dsba
hvg yughvbnjv
Belum ada peringkat
Big Data Analytics Unit III
Dokumen36 halaman
Big Data Analytics Unit III
LOOPY GAMING
Belum ada peringkat
Lecture Notes - Introduction To Big Data
Dokumen8 halaman
Lecture Notes - Introduction To Big Data
sakshi kureley
0% (1)
Class - Big Data UNIT-I
Dokumen40 halaman
Class - Big Data UNIT-I
viju001
Belum ada peringkat
Big Data Analytics Overview
Dokumen112 halaman
Big Data Analytics Overview
veningston
100% (2)
B101 Overview
Dokumen13 halaman
B101 Overview
ranusofi
Belum ada peringkat
Data Warehousing AND Data Mining: S. Sudarshan Krithi Ramamritham
Dokumen169 halaman
Data Warehousing AND Data Mining: S. Sudarshan Krithi Ramamritham
Prasanna Patnaik
Belum ada peringkat
Hadoop - Big Data Overview
Dokumen4 halaman
Hadoop - Big Data Overview
TechTown
Belum ada peringkat
Report - Atlan - Data Catalog Primer
Dokumen24 halaman
Report - Atlan - Data Catalog Primer
Pablo Bogota Modera
Belum ada peringkat
Ethiopia Football Federation
Dokumen4 halaman
Ethiopia Football Federation
Getachew Yizengaw Enyew
Belum ada peringkat
Unit 1 Notes
Dokumen26 halaman
Unit 1 Notes
tripathineeharika
Belum ada peringkat
BIG DATA & Hadoop Tutorial
Dokumen23 halaman
BIG DATA & Hadoop Tutorial
saif salah
Belum ada peringkat
Teradata Utilities - Breaking The Barriers
Dokumen128 halaman
Teradata Utilities - Breaking The Barriers
saurav560
Belum ada peringkat
Introduction of Subject
Dokumen18 halaman
Introduction of Subject
Yash Rathod
Belum ada peringkat
1 - Big Data
Dokumen204 halaman
1 - Big Data
Dhananjay Jahagirdar
Belum ada peringkat
Datawarehouse
Dokumen6 halaman
Datawarehouse
Javeria
Belum ada peringkat
JAZAN UNIV BIG DATA ASSIGNMENT
Dokumen7 halaman
JAZAN UNIV BIG DATA ASSIGNMENT
Manal Faluoji
Belum ada peringkat
Prepared by Richa Btech (Cse) 6 Sem Dav University Jalandhar
Dokumen30 halaman
Prepared by Richa Btech (Cse) 6 Sem Dav University Jalandhar
Richa
Belum ada peringkat
The Influence of Big Data Analytics in The Industry
Dokumen15 halaman
The Influence of Big Data Analytics in The Industry
mikhailovaelya
Belum ada peringkat
Data Warehousing AND Data Mining
Dokumen168 halaman
Data Warehousing AND Data Mining
Leandro Gabriel López
Belum ada peringkat
Understanding the Key Concepts of Big Data
Dokumen88 halaman
Understanding the Key Concepts of Big Data
Jokilo Taepei
Belum ada peringkat
A Definition of Data Warehousing Market Overview:: Biographical Information Bill Inmon
Dokumen85 halaman
A Definition of Data Warehousing Market Overview:: Biographical Information Bill Inmon
Ravi Vakula
Belum ada peringkat
Introduction to Big Data Technologies
Dokumen7 halaman
Introduction to Big Data Technologies
sanjay joshi
Belum ada peringkat
Schedule Data Tasks with Generic Data Scheduler
Dokumen49 halaman
Schedule Data Tasks with Generic Data Scheduler
Anushka Bajpai
Belum ada peringkat
Crash Course Big Data
Dari Everand
Crash Course Big Data
IntroBooks Team
Belum ada peringkat
Network Storage: Tools and Technologies for Storing Your Company’s Data
Dari Everand
Network Storage: Tools and Technologies for Storing Your Company’s Data
James O'Reilly
Belum ada peringkat
(Economy Q) Difference Between Subprime Crisis and Eurozone Crisis Mrunal
Dokumen3 halaman
(Economy Q) Difference Between Subprime Crisis and Eurozone Crisis Mrunal
Yogendra Uikey
Belum ada peringkat
(Aptitude) Time N Distance: Early and Late To Office (Shortcut Using Product Consistency Method) For SSC, IBPS, CSAT, CAT, CMAT - Mrunal
Dokumen31 halaman
(Aptitude) Time N Distance: Early and Late To Office (Shortcut Using Product Consistency Method) For SSC, IBPS, CSAT, CAT, CMAT - Mrunal
Yogendra Uikey
Belum ada peringkat
Interview Digest SBI PO 2016 PDF
Dokumen28 halaman
Interview Digest SBI PO 2016 PDF
Yogendra Uikey
Belum ada peringkat
One To The Infinity Power
Dokumen2 halaman
One To The Infinity Power
Yogendra Uikey
Belum ada peringkat
73cettm MTNL Hostel
Dokumen12 halaman
73cettm MTNL Hostel
Yogendra Uikey
Belum ada peringkat
Limits Qna
Dokumen5 halaman
Limits Qna
Sharmila Upadhye
Belum ada peringkat
Circular 568
Dokumen11 halaman
Circular 568
Vigneshwar Raju Prathikantam
80% (10)
PNB AddonCard Form PDF
Dokumen1 halaman
PNB AddonCard Form PDF
Yogendra Uikey
Belum ada peringkat
Fam Pen PDF
Dokumen24 halaman
Fam Pen PDF
Yogendra Uikey
Belum ada peringkat
Database Models - E-R Model Relationships
Dokumen5 halaman
Database Models - E-R Model Relationships
Yogendra Uikey
Belum ada peringkat
Normal Form Definitions & Examples From Codd
Dokumen6 halaman
Normal Form Definitions & Examples From Codd
Yogendra Uikey
Belum ada peringkat
Interview Digest SBI PO 2016 PDF
Dokumen28 halaman
Interview Digest SBI PO 2016 PDF
Yogendra Uikey
Belum ada peringkat
GATE Discrete Mathematics & Graph Theory Book
Dokumen12 halaman
GATE Discrete Mathematics & Graph Theory Book
Mims12
100% (1)
Chapter3 Heavy Trucks
Dokumen18 halaman
Chapter3 Heavy Trucks
Yogendra Uikey
Belum ada peringkat
(WWW - Entrance Exam - Net) COMPUTER QUESTIONS 1
Dokumen2 halaman
(WWW - Entrance Exam - Net) COMPUTER QUESTIONS 1
Yogendra Uikey
Belum ada peringkat
Atomic Commitment
Dokumen33 halaman
Atomic Commitment
Yogendra Uikey
Belum ada peringkat
Pthreads Slides Cover Shared Memory Programming and Threading Techniques
Dokumen41 halaman
Pthreads Slides Cover Shared Memory Programming and Threading Techniques
Yogendra Uikey
Belum ada peringkat
It Is Absolutely Necessary That You Will Have A Clear
Dokumen5 halaman
It Is Absolutely Necessary That You Will Have A Clear
fernando
Belum ada peringkat
TB Diagnosis - Tuberculosis Test - Healthcare Professionals - TB - Tuberculosis
Dokumen4 halaman
TB Diagnosis - Tuberculosis Test - Healthcare Professionals - TB - Tuberculosis
Yogendra Uikey
Belum ada peringkat
Symptoms, Diagnosis and Treatment - American Lung Association
Dokumen2 halaman
Symptoms, Diagnosis and Treatment - American Lung Association
Yogendra Uikey
Belum ada peringkat
Matrix Rank Tutorial - Example
Dokumen1 halaman
Matrix Rank Tutorial - Example
Yogendra Uikey
Belum ada peringkat
Guidance for TB Notification in India
Dokumen92 halaman
Guidance for TB Notification in India
Yogendra Uikey
Belum ada peringkat
English Grammar in Hindi
Dokumen14 halaman
English Grammar in Hindi
Yogendra Uikey
86% (7)
Applications of Suffix Trees
Dokumen40 halaman
Applications of Suffix Trees
Yogendra Uikey
Belum ada peringkat
10 Example of Using ArrayList in Java - Java ArrayList Tutorial
Dokumen3 halaman
10 Example of Using ArrayList in Java - Java ArrayList Tutorial
Yogendra Uikey
Belum ada peringkat
Prim's
Dokumen4 halaman
Prim's
Yogendra Uikey
Belum ada peringkat
Convergence of PageRank and HITS Algorithms
Dokumen11 halaman
Convergence of PageRank and HITS Algorithms
Yogendra Uikey
Belum ada peringkat
Dynamic Branch Prediction
Dokumen17 halaman
Dynamic Branch Prediction
Yogendra Uikey
Belum ada peringkat
Calculus Is The Study of Change
Dokumen2 halaman
Calculus Is The Study of Change
Yogendra Uikey
Belum ada peringkat
PHD CSE Seminar in Course Work
Dokumen17 halaman
PHD CSE Seminar in Course Work
kumarajay7th
0% (1)
NetApp Solutions For Hadoop Reference Architecture
Dokumen55 halaman
NetApp Solutions For Hadoop Reference Architecture
rajachallagulla
Belum ada peringkat
Hadoop Ecosystem
Dokumen55 halaman
Hadoop Ecosystem
nehal
Belum ada peringkat
DL Vs DLH Draft v0.1
Dokumen9 halaman
DL Vs DLH Draft v0.1
meetnavpk
Belum ada peringkat
Isilon OneFS 8 1 2 Cloudera Installation Guide
Dokumen34 halaman
Isilon OneFS 8 1 2 Cloudera Installation Guide
Mohit Gautam
Belum ada peringkat
What Is Bigdata
Dokumen5 halaman
What Is Bigdata
vaddeseetharamaiah
Belum ada peringkat
1702cs751 Cloud Computing Lab Syllabus
Dokumen1 halaman
1702cs751 Cloud Computing Lab Syllabus
api-229849561
Belum ada peringkat
The Big Data Ecosystem at LinkedIn Presentation 1
Dokumen33 halaman
The Big Data Ecosystem at LinkedIn Presentation 1
Asep Sukmayadi Djaka
Belum ada peringkat
06 - Acquire Data Using CLI and Flume
Dokumen13 halaman
06 - Acquire Data Using CLI and Flume
Jose Evanan
Belum ada peringkat
Spark Interview Questions
Dokumen19 halaman
Spark Interview Questions
santosh kumar
Belum ada peringkat
Keep Your Hadoop Cluster at Its Best!: Chris Nauroth Sheetal Dolas
Dokumen39 halaman
Keep Your Hadoop Cluster at Its Best!: Chris Nauroth Sheetal Dolas
Raj
Belum ada peringkat
Hive Using Hiveql PDF
Dokumen40 halaman
Hive Using Hiveql PDF
Subhash Subha
Belum ada peringkat
PPT02-Big Data Architecture
Dokumen44 halaman
PPT02-Big Data Architecture
TsabitAlaykRidhollah
Belum ada peringkat
Joomla Report Database Structure
Dokumen5 halaman
Joomla Report Database Structure
Satheswaran Rajasegaran
Belum ada peringkat
M3 - Serverless Data Processing With Cloud Dataflow
Dokumen70 halaman
M3 - Serverless Data Processing With Cloud Dataflow
Edgar Sanchez
Belum ada peringkat
C:/Users/HP Hdfs Namenode - Format
Dokumen7 halaman
C:/Users/HP Hdfs Namenode - Format
SARAVANAN
Belum ada peringkat
2018 Conferecnebig Data Augmentation With Data Warehouse A Survey
Dokumen10 halaman
2018 Conferecnebig Data Augmentation With Data Warehouse A Survey
Rajesh Kumar
Belum ada peringkat
(M) BROCHURE - Data Science Learning Path
Dokumen33 halaman
(M) BROCHURE - Data Science Learning Path
Nirupam Nishant
Belum ada peringkat
Certified Data Scientist Brochure Datamites India V6.5
Dokumen22 halaman
Certified Data Scientist Brochure Datamites India V6.5
Amar
Belum ada peringkat
Big Data Capacity Planning
Dokumen7 halaman
Big Data Capacity Planning
sarvesh_mishra
Belum ada peringkat
Final
Dokumen276 halaman
Final
Yàssine Hàdry
Belum ada peringkat
Big Data Now 2013
Dokumen199 halaman
Big Data Now 2013
Larry Cox
100% (2)
Splunk Data Life Cycle Determining When and Where To Roll Data
Dokumen45 halaman
Splunk Data Life Cycle Determining When and Where To Roll Data
rajuyj
Belum ada peringkat
CTM User 9.0.18 497854 PDF
Dokumen343 halaman
CTM User 9.0.18 497854 PDF
amicableaman949
Belum ada peringkat
Assignment No 6
Dokumen6 halaman
Assignment No 6
darshan Keskar
Belum ada peringkat
Sas Master Data Management Factsheet
Dokumen4 halaman
Sas Master Data Management Factsheet
Anantha Raman
Belum ada peringkat
Standalone PDF
Dokumen1.134 halaman
Standalone PDF
zephyrquasar
Belum ada peringkat