Big Data Dengan Hadoop: Oleh: Agus Priyanto, M.Kom
Big Data Dengan Hadoop: Oleh: Agus Priyanto, M.Kom
Hadoop
Oleh : Agus Priyanto, M.Kom
Hadoop flavor
Apache Hadoop (http://hadoop.apache.org)
Cloudera – CDH (http://cloudera.com)
Yahoo! Hadoop
(https://developer.yahoo.com/hadoop/)
Cloud Support
Amazon Elastic MapReduce
(https://aws.amazon.com/elasticmapreduce/)
Google Cloud Platform
(https://cloud.google.com/solutions/hadoop/)
Arsitektur Hadoop 1.0
dan Hadoop 2.0
Komponen dalam Hadoop
Hadoop Common : Java libraries
yang dibutuhkan oleh modul-modul
Hadoop lainnya
Menyediakan file sistem yang digunakan
untuk memulai Hadoop
Hadoop YARN : Platform untuk
manajemen sumber daya (resource)
Mengatur sumber daya komputasi dalam
kluster, dan menggunakannya untuk
penjadwalan aplikasi pengguna
Hadoop Distributed File System (HDFS) :
Sistem file terdistribusi yang menyimpan
data pada commodity machine
Storage Engine
Membagi/mendistribusi file pada node
dalam cluster
Komponen : Name node dan data node
Map/Reduce : Suatu model
pemrograman yang digunakan untuk
memproses data berskala besar
secara paralel.
Processing Engine
Mendistribusikan proses pada node lain
Komponen : Job tracker dan task tracker
Hadoop : Ciri Utama
Affordable – bisa berjalan pada
hardware ‘pasaran’
Map Reduce
Job Name
HDFS
Tracker Node
Data Node
Tempat blok disimpan
Menerima instruksi dari Name Node
Job dan Task Tracker
Job Tracker
Membagi task ke HDFS Cluster
Melacak Map/Reduce tasks
Restarts task yang gagal ke node lain
Melakukan speculative execution
Task Tracker
Melacak individual map/reduce
Report kemajuan task ke Job Tracker
The Hadoop Way
Cloudera: CDH + Tableau
Cloudera adalah salah satu kontributor aktif
dari Hadoop Project yang menyediakan
sebuah distribusi Hadoop open-source
bernama CDH (Cloudera’s Distribution
Hadoop).
http://cloudera.com/
Hortonworks dan Ambari
Hortonworks Data Platform (HDP)
merupakan sebuah distribusi Hadoop dalam
bentuk ‘packaged software’
http://wiki.apache.org/hadoop/HadoopIsNot