1. HDFS
1.1. Apa itu HDFS
Hadoop dilengkapi dengan filesystem terdistribusi yang disebut HDFS, HDFS
merupakan singkatan dari Hadoop Distributed Filesystem. (kadang sebut
sebagai “DFS”-informally pada dokumentasi yang lebih tua atau pada
konfigurasi yang merupakan hal yang sama.) HDFS adalah filesystem andalan
Hadoop yang dirancang untuk menyimpan file yang sangat besar dengan pola
akses data streaming yang berjalan pada cluster dari komoditas hardware.
Pada sebuah cluster HDFS, ada satu master node dan banyak worker nodes.
Master node disebut sebagai Name Node (NN) dan worker node disebut
sebagai Data Node (DN). Data Nodes bekerja sebagai penyimpanan data,
sedangkan Master Node bertanggungjawab dalam mengatur operasi file
system.
1.3. Desain HDFS
HDFS memungkinkan untuk menyimpan data yang sangat besar dengan pola
data access streaming dan berjalan pada sistem cluster dari komoditas
hardware. Desain HDFS memiliki sifat fault-tolerant, yaitu sistem komputasi
di mana jika ada node yang mati atau rusak maka ada node lainnya yang
mengambil alih pemrosesan tanpa mengganggu layanan sama sekali. Mari kita
bahas lebih lanjut tentang statement tersebut:
Single writer
File dalam HDFS ditulis oleh seorang single writer. Writing selalu dilakukan
pada akhir file pada mode append-only. HDFS tidak mendukung multiple
writers karena untuk menghindari modifikasi file yang sewenang-wenang pada
file.
1.5. Kesimpulan
Jadi, dengan berbagai macam situasi actual yang terjadi dan dengan segala
keterbatasan dari berbagai sisi yang membuat pengembangan storage big data
terlihat sulit, HDFS dapat menawarkan solusi penyimpanan data yang efisien,
murah dan mudah. HDFS menjawab semua tantangan kesulitan tersebut dan
menjadikan pengembangan storage big data lebih mudah untuk berkembang.
2. Map Reduce
Kemudian untuk masalah yang akan kita pecahkan yaitu, kita ingin mengetahui
bagaimana perbedaan cara memilih antar kelompok usia. Bagaimana perbedaan
cara memilih orang-orang yang berusia 20-an, 30-an dan 40-an.
Kita akan membagi masalah ini kedalam dua fase:
Fase 1: mengurutkan pemilih menjadi kelompok usia yg berbeda (20-
an, 30-an 40-an).
Fase 2: wawancara setiap kelompok usia dan bagaimana mereka
memilih.
REDUCER
Kemudian pria yang memakai topi hanya bertugas mewawancara
masing-masing grup yang sudah dibentuk dan menyimpulkan hasil
akhir dari masing-masing kelompok tersebut.
Disini ada beberapa hal yang terjadi:
Hasil salah satu kelompok umur tidak dipengaruhi oleh hasil kelompok
lainnya, sehingga bisa di olah secara parallel.
Kita dapat yakin bahwa masing-masing kelompok memiliki
anggota yang sesuai dengan kriteria kelompok tersebut jika
pengawas melakukan tugasnya dengan benar (misalnya
kelompok 20-an untuk orang-orang umur 20-an).
Dengan asumsi ini, pria bertopi yang bertugas mewawancara
dapat menyimpulkan hasil untuk tiap kelompok usia secara
independen.
Dalam bahasa map reduce, orang ini disebut sebagai REDUCER.
PARALLELISM
Setiap fase (fase map dan fase reduce) dapat diparalelkan secara
terpisah.
Map reduce ditemukan dan dikembangkan oleh dua ilmuan google yaitu Jeff
Dean dan Sanjay Ghemawat.
2.5. Keuntungan Map Reduce Programming
Map reduce membuat hidup pengembang lebih santai. Ya, itu nyata. Seperti
yang kita ketahui map reduce merangkum banyak hasil penelitian dan
pengalaman dari para ilmuwan dan praktisi perancangan sistem pemrosesan
terdistribusi. Hal ini memungkinkan perhitungan tak terbatas pada jumlah data
yang tak terbatas pula. Meskipun terlihat sederhana tetapi ini memiliki kekuatan
yang besar, dibuktikan dengan banyaknya aplikasi canggih yang dibangun
berdasarkan framework ini.