Oleh:
Kelas IF15Ex
Sejak awal, Google dibekali dengan teknologi yang disebut PageRank yang telah
menjadikan search engine yang unik karena teknologi tersebut belum pernah
dimiliki oleh search engine yang lain. Bahkan Google juga telah mampu
mengelola pertumbuhan data yang membludak. Google telah memiliki teknologi
crawler yang mampu mendownload seluruh web page yang ada di dunia maya,
dan secara terus menerus mengikuti update pada jutaan web tersebut, google telah
memiliki teknologi sustem penyimpanan data yang dikenal dengan nama Google
File System (GFS), yang menyimpan data secara terdistribusi dalam ribuan
computer. Kapasitas peyimpanan GFS ini bisa terus menerus diperbesar hanya
dengan menambah jumlah komputer. Google memiliki teknologi pengolahan data
yang disebut MapReduce yang mampu mengolah data yang disimpan dalam GFS
secara parallel dan idenpenden hingga ribuan computer, sehingga mampu
mengolah data ukuran raksasa dalam waktu yang lebih cepat dibanding model
konvensional. Google juga memiliki system database yang disebut BigTable,
teknologi yang mampu menyajikan data berukuran raksasa yang sudah tidak
memungkinkan lagi ditanganani dengan database konvensional
Apache Hadoop
Apache Hadoop adalah software bebas dan open source, yang ditulis dalam kerangka
bahasa pemrograman Java untuk dijalankan secara terdistribusi dan skalabel. Ia dibangun
berdasarkan algoritma popular MapReduce dari Google Inc, berikut sistem berkas yang
disarankan Google (GFS = Google File System), yang memungkinkan menjalankan tugas
komputasi intensif dalam mengolah data jumlah besar (Big Data, sekitar petabyte keatas)
di komputer cluster dengan hardware komoditas.
Hadoop awalnya diprakarsai oleh penemu Lucene Doug Cutting, yang sejak tanggal 23
Januari 2008 telah menjadi proyek tingkat atas di lingkungan Apache Software
Foundation dan dikembangkan secara terbuka oleh komunitas kontributor secara global.
Pengguna Hadoop adalah, termasuk Facebook, a9.com, AOL, Baidu, IBM, ImageShack,
dan Yahoo. Hadoop tersedia bebas menyandang lisensi Apache License 2.0.
Hadoop dapat dijalankan mulai dari satu hingga ribuan PC. Jadi, dapat
dimulai dengan ukuran kecil dulu atau sesuai kebutuhan. Bila ingin
meningkatkan kemampuannya, cukup tambah jumlah PC tanpa harus
mengubah setting dari awal. Bandingkan kalau kita menggunakan sistem
konvensional. Pada saat komputer kita sudah tidak mampu lagi mengolah
data yang semakin besar, atau ketika teknologi komputer yang kita pakai
sudah mulai ketinggalan jaman, tentu kita harus membeli komputer baru
yang memiliki kemampuan yang lebih tinggi, atau mengupgrade komputer
yang sudah ada. Itu berarti kita harus menginstal sistem baru mulai dari
awal, kemudian memindahkan data dari komputer lama ke komputer baru,
dan melakukan setting ulang agar dapat berjalan seperti sebelumnya. Bila
kita menggunakan Hadoop, kita tak perlu memindahkan data dan
melakukan setting ulang, cukup dengan menambahkan satu komputer lagi,
maka secara otomatis data akan terdistribusi ke komputer yang baru.
Ketika kita bicara tentang pengolahan data yang dilakukan secara paralel
dalam banyak komputer, tentu akan timbul pertanyaan: Bagaimana kalau
salah satu dari komputer itu down atau rusak dan tak dapat beroperasi?
Bukankah ini akan menyebabkan seluruh proses akan gagal karena
kehilangan salah satu bagiannya. Tidak demikian dengan Hadoop,
walaupun dalam suatu proses pengolahan data terdapat komputer yang
tiba-tiba rusak, Hadoop tetap dapat berjalan normal. Hadoop
menggunakan metode penyimpanan yang dikenal sebagai sistem file
terdistribusi, yang pada dasarnya menerapkan sistem pemetaan untuk
mencari data dalam cluster. Alat yang digunakan untuk pengolahan data,
seperti pemrograman Google Map Reduce, juga umumnya berada di
server yang sama, yang memungkinkan untuk proses lebih cepat data.
Bahkan jika Anda kebetulan berurusan dengan volume besar data yang
tidak terstruktur, Hadoop Map Reduce mengambil menit untuk memproses
terabyte data, dan jam untuk petabyte data. Salah satu aspek utama dari
kerja pemrograman Apache Map Reduce adalah bahwa hal itu membagi
tugas dengan cara yang memungkinkan eksekusi mereka secara paralel.
Pemrosesan paralel memungkinkan beberapa prosesor untuk mengambil
tugas-tugas dibagi, sehingga mereka menjalankan seluruh program dalam
waktu kurang.
Salah satu aspek utama dari kerja pemrograman Apache Map Reduce
adalah bahwa hal itu membagi tugas dengan cara yang memungkinkan
eksekusi mereka secara paralel. Pemrosesan paralel memungkinkan
beberapa prosesor untuk mengambil tugas-tugas dibagi, sehingga mereka
menjalankan seluruh program dalam waktu kurang.
https://id.wikipedia.org/wiki/Big_data
http://gudanglinux.com/glossary/apache-hadoop/
http://hadoop/apache.cgi
Wijaya . 2015. Teknologi Big Data: Sistem Canggih dibalik Google, Yahoo!,
Facebook, IBM. Google Play Book