Anda di halaman 1dari 4

Tools untuk Arsitektur Hadoop

DFS dan HDFS


Distributed File System (DFS) adalah sistem kerja yang digunakan untuk menyimpan dan mengolah
data dalam jumlah besar pada arsitektur klien atau server.

Hadoop Distributed File System (HDFS) adalah distributed file system yang berfungsi menyimpan
dan mengolah data besar yang dibagikan dalam kluster Hadoop file system.

Cara kerja HDFS


Read

HDFS membaca data name node untuk mendapatkan


server data yang dibutuhkan.

Name node memberikan daftar server yang memiliki


data tersebut.

Data di setiap node server akan diambil dari data node


server yang bersangkutan oleh klien.

Write

HDFS menulis data dengan memberikan informasi


kepada name node server.

Klien diberikan list data node server yang dituju. Jika


sudah, client server menulis data pada node yang
diinginkan.

Data node mereplikasi data ke beberapa node lainnya.

Setelah direplikasi, data node server memberikan sinyal


acknowledge bahwa data sudah selesai ditulis.

01
Cara mengakses HDFS
1. Membuat command line interface
2. Menggunakan Ambari UI yang user-friendly
3. Memakai HTTP atau HDFS proxy
4. Menggunakan Java interface, karena Hadoop memang dibentuk menggunakan Java sehingga
pemrogramannya paling baik menggunakan Java atau Scala.

Map Reduce
Map reduce adalah inti dari Hadoop dan dibentuk supaya Hadoop dapat mendistribusikan proses
data dalam cluster. Tujuannya agar cluster dapat memproses data dalam jumlah besar secara
paralel.

Map reduce terbagi menjadi 2, yaitu:


1. Map, berfungsi untuk memetakan data.
2. Reduce, berfungsi untuk melakukan agregasi pada data yang sudah dipetakan

Tools yang digunakan untuk arsitektur Hadoop


1. HDFS, berfungsi untuk menyimpan dan mendistribusikan data di dalam cluster, sehingga seolah-
olah file system yang terbentuk sangat besar. Selain itu, HDFS berguna untuk mengatur replikasi
data agar mengurangi risiko data hilang karena node bermasalah.
2. Zookeeper, adalah teknologi untuk mengoordinasi server dalam cluster Hadoop.
3. Yet Another Resource Negotiator (YARN), adalah sistem yang mengatur resource node dalam
cluster untuk menentukan task yang dijalankan, datanode server yang memproses data, dan
mengatur resource untuk menjalankan proses map dan reduce.
4. Apache Pig, yaitu scripting platform untuk memproses data dari HDFS.
5. Apache Hive, untuk memudahkan akses data warehouse yang menggunakan HDFS.
6. Apache Ambari, untuk membuat cluster dan mengelolanya dengan bentuk dashboard dan
pengaturan yang mudah.
7. Apache Spark, adalah platform yang paling banyak digunakan untuk pengolahan big data.
8. Apache Hbase, digunakan untuk menyimpan data menggunakan key value pair secara kolumnar
sehingga pembacaan data dapat dilakukan secara cepat.
9. Presto, adalah platform untuk melakukan query data pada HDFS dan database.

02
10. Zeppelin, adalah platform berbentuk notebook UI yang memudahkan pengguna berinteraksi
secara cepat dengan data
11. Apache Storm, untuk memproses data secara streaming
12. Oozie, untuk mengatur scheduling job pada cluster Hadoop
13. Sqoop, untuk menjembatani relational database dengan Hadoop cluster
14. Apache Kafka, untuk mengatur streaming pipeline secara scale

Cloud Computing
Cloud computing adalah model komputasi yang memberikan on demand akses network dan
sharing komputasi online. Cloud computing digunakan untuk mengatur, menyimpan, dan
memproses data secara online melalui internet.

Karakteristik cloud computing


1. On demand self-service, yang membantu user untuk mengelola dan memesan layanan Cloud
tanpa berinteraksi dengan penyedia layanan.
2. Broad network access, yang memudahkan user beraktivitas karena jaringannya luas dan dapat
diakses dari berbagai perangkat.
3. Resource pooling, yaitu sumber daya komputasi dari penyedia Cloud harus memenuhi jumlah
pelanggan dan dinamis mengikuti kebutuhan pelanggan.
4. Measured service, yaitu kemampuan menyediakan layanan untuk memonitor dan
mengoptimalkan penggunaan sumber daya terhadap layanan yang dipakai.
5. Rapid elasticity, untuk memudahkan user dalam request menaikkan atau menurunkan kapasitas
layanan sesuai kebutuhan.

Model Cloud computing


1. Software As A Service (SAAS), adalah on demand software service yang disediakan Cloud dan
tidak perlu meng-install apapun. Contoh: Google suite products.
2. Platform As A Service (PAAS), adalah service oleh Cloud untuk developer berupa platform
pemrograman, tools, dan database. Contoh: AWS Athena dan Bigquery dari Google.
3. Infrastructure As A Service (IAAS), adalah service dari Cloud untuk user membuat arsitektur
datanya pribadi. Contoh: AWS EMR dan Google Cloud Dataproc.

03
Perbedaan Cloud Storage AWS dengan Google Cloud

AWS Google Cloud


1. Memiliki Amazon S3 sebagai object Memiliki Google Cloud Storage, untuk
storage untuk menyimpan file sebagai menyimpan file object dan memiliki masing-
object. masing URL.
2. Diakses menggunakan platform open Diakses menggunakan platform open source
source big data. Contoh: Spark dan Hive. big data. Contoh: Spark dan Hive.
3. Memiliki produk Elastic Block Storage Memiliki Google Persistent Disk sebagai
(EBS) sebagai media penyimpanan. media penyimpanan.
4. Memiliki fitur pengarsipan data lama. Memiliki fitur pengarsipan data lama.

04

Anda mungkin juga menyukai