Hadoop adalah framework atau platform open source berbasis Java di bawah lisensi Apache
untuk support aplikasi yang jalan pada Big Data. Hadoop menggunakan teknologi Google
MapReduce dan Google File System (GFS) sebagai fondasinya.
Jika definisi hadoop dituangkan dalam poin-poin, maka berikut bullet poin-nya :
1. Hadoop merupakan framework/Platform open source berbasis Java
5. Hadoop gunakan teknologi Google MapReduce dan Google File System (GFS)
Framework Hadoop tersusun dari 4 komponen utama
1. Hadoop Common adalah berisi libraries dan utilities yang dibutuhkan oleh modul Hadoop
lainnya.
2. Hadoop Distributed File System (HDFS) adalah sebuah distributed file-system.
3. Hadoop YARN adalah sebuah platform resource-management yang bertanggung jawab
untuk mengelola resources dalam clusters dan scheduling.
4. Hadoop MapReduce adalah sebuah model programming untuk pengelolaan data skala
besar.
1. Core Hadoop
Core Hadoop terdiri dari Hadoop Distributed File System (HDFS) dan
MapReduce yang bisa diunduh di website Apache Hadoop. HDFS berfungsi untuk
mendukung pengolahan data yang besar karena ketika data diproses melalui HDFS,
data tersebut dibagi-bagi ke dalam bagian yang lebih kecil dan akan diproses secara
paralel. Sedangkan Map digunakan untuk melanjutkan proses dari HDFS untuk
diubah menjadi tuple, yakni pasangan key dan valuenya. Selanjutnya melalui tahap
Reduce, data yang berasal dari Map dilakukan tahap Shuffle dan reduce untuk
dikembalikan lagi ke HDFS.
2. Data Mining
Pembuatan Hadoop adalah sebuah inspirasi setelah terbitnya paper Google File System (GFS)
pada Oktober 2003. Isi dari paper tersebut adalah gambaran tentang Big Data yang digunakan
untuk menampung data milik Google yang sangat besar. Pada tahun 2005, Doug Cutting dan
Mike Cafarella menciptakan Hadoop saat bekerja pada perusahaan Yahoo!. Perbedaan dari Big
Data yang dimiliki Google dan Hadoop terlihat dari sifatnya yang closed source dan open
source. Siapa sangka, ternyata kata Hadoop adalah inspirasi yang didapatkan dari mainan gajah
kecil berwarna kuning milik anak Doug Couting. Hadoop versi 0.1.0 akhirnya rilis pada bulan
April 2006, sampai versi terakhir Hadoop yang rilis pada Maret 2017 adalah Apache Hadoop
2.8. Pada versi terbaru ini, layanan yang diberikan Hadoop juga termasuk untuk HDFS
(Hadoop Distributed File System), Yarn (Yet Another Resource Negotiator) dan MapReduce
Setelah fase MapReduce selesai, data yang sudah diproses tersebut siap
untuk dilanjutkan ke analisa lebih lanjut yang dilakukan oleh para data scientist atau
orang lain yang memiliki keahliaan dalam bidang analisa data. Data scientist bisa
mengolah dan menganalisa data dengan menggunakan tool software apapun misalnya
mencari insights/wawasan dan pola-pola yang tersembunyi atau menggunakannya
sebagai fondasi dalam membuat aplikasi analytics yang akan digunakan oleh user. Data
tersebut juga bisa di-model-kan dan dipindahkan dari cluster-cluster Hadoop ke dalam
database relasional, data warehouse, dan berbagai sistem IT tradisional lainnya untuk
dilakukan analisa lebih lanjut dan/atau untuk mendukung pemrosessan transaksional.
Implementasi Hadoop
Beberapa perusahaan besar menggunakan Hadoop untuk mengelola data mereka dalam
jumlah sangat besar. Perusahaan tersebut diantaranya Yahoo! dan Facebook dengan klaim
bahwa Facebook memiliki Cluster Hadoop terbesar di dunia, yakni per 13 Juni 2012 mereka
memiliki 100 petabyte dan per tanggal 8 November 2012, penggunaan data di Facebook naik
kurang lebih setengah Petabyte per hari. 1 Petabyte setara dengan 1.000.000 Gigabyte. Tidak
heran, karena jumlah pengguna Faecbook di seluruh dunia hampir mencapai 2 milyar.
Bayangkan jumlah data yang mengalir dan disimpan setiap harinya.