Tugas Makalah Big Data-1

TUGAS MAKALAH SISTEM PARALEL TERDISTRIBUSI
MANINJAU BIG TABLE DAN APHACE HADOOP DARI SISI

SISTEM PARALEL
Oleh:
Muhammad Arsi - 15312501
Rizky Sedyono - 15312587
Deny Pratama - 15312694
Kelas IF15Ex
PROGRAM STUDI INFORMATIKA

FAKULTAS TEKNIK DAN ILMU KOMPUTER
UNIVERSITAS TEKNOKRAT INDONESIA
2017
Big data
big data, adalah istilah umum untuk segala himpunan data (data set) dalam
jumlah yang sangat besar, rumit dan tak terstruktur sehingga menjadikannya sukar
ditangani apabila hanya menggunakan perkakas manajemen basis data biasa atau
aplikasi pemroses data tradisional belaka.
Tantangannya meliputi pemerolehan, kurasi, penyimpanan, penelusuran (search),

pembagian, pemindahan, analisis, dan visualisasi data. Tren kian membesarnya
himpunan data terjadi akibat bertambahnya informasi dari himpunan-himpunan
besar yang saling terkait, dibandingkan dengan himpunan-himpunan kecil lain
dengan jumlah total data yang sama. Korelasi baru dapat ditemukan dalam
analisis himpunan data guna "mencermati tren bisnis, menentukan kualitas
penelitian, mencegah penyakit, melawan tindak pidana, dan mengetahui kondis
lalu lintas jalan raya secara waktu nyata"
Sejak awal, Google dibekali dengan teknologi yang disebut PageRank yang telah
menjadikan search engine yang unik karena teknologi tersebut belum pernah
dimiliki oleh search engine yang lain. Bahkan Google juga telah mampu
mengelola pertumbuhan data yang membludak. Google telah memiliki teknologi
crawler yang mampu mendownload seluruh web page yang ada di dunia maya,
dan secara terus menerus mengikuti update pada jutaan web tersebut, google telah
memiliki teknologi sustem penyimpanan data yang dikenal dengan nama Google
File System (GFS), yang menyimpan data secara terdistribusi dalam ribuan
computer. Kapasitas peyimpanan GFS ini bisa terus menerus diperbesar hanya
dengan menambah jumlah komputer. Google memiliki teknologi pengolahan data
yang disebut MapReduce yang mampu mengolah data yang disimpan dalam GFS
secara parallel dan idenpenden hingga ribuan computer, sehingga mampu
mengolah data ukuran raksasa dalam waktu yang lebih cepat dibanding model
konvensional. Google juga memiliki system database yang disebut BigTable,
teknologi yang mampu menyajikan data berukuran raksasa yang sudah tidak
memungkinkan lagi ditanganani dengan database konvensional
Apache Hadoop
Apache Hadoop adalah software bebas dan open source, yang ditulis dalam kerangka
bahasa pemrograman Java untuk dijalankan secara terdistribusi dan skalabel. Ia dibangun
berdasarkan algoritma popular MapReduce dari Google Inc, berikut sistem berkas yang
disarankan Google (GFS = Google File System), yang memungkinkan menjalankan tugas
komputasi intensif dalam mengolah data jumlah besar (Big Data, sekitar petabyte keatas)
di komputer cluster dengan hardware komoditas.
Hadoop awalnya diprakarsai oleh penemu Lucene Doug Cutting, yang sejak tanggal 23
Januari 2008 telah menjadi proyek tingkat atas di lingkungan Apache Software
Foundation dan dikembangkan secara terbuka oleh komunitas kontributor secara global.
Pengguna Hadoop adalah, termasuk Facebook, a9.com, AOL, Baidu, IBM, ImageShack,
dan Yahoo. Hadoop tersedia bebas menyandang lisensi Apache License 2.0.
1. Kesederhanaan: Eksekusi analisis kompleks secara paralel yang sederhana

dan mudah dimengerti.
2. Optimasi: Pig memgoptimalkan dengan sendirinya pelaksanaan operasi

kompleks menurut metode Carsten.
3. Ekstensibilitas: Pig dapat diperluas fungsionalitas-nya sehingga mudah

disesuaikan dengan aplikasi khusus.
Hadoop dapat dijalankan mulai dari satu hingga ribuan PC. Jadi, dapat
dimulai dengan ukuran kecil dulu atau sesuai kebutuhan. Bila ingin
meningkatkan kemampuannya, cukup tambah jumlah PC tanpa harus
mengubah setting dari awal. Bandingkan kalau kita menggunakan sistem
konvensional. Pada saat komputer kita sudah tidak mampu lagi mengolah
data yang semakin besar, atau ketika teknologi komputer yang kita pakai
sudah mulai ketinggalan jaman, tentu kita harus membeli komputer baru
yang memiliki kemampuan yang lebih tinggi, atau mengupgrade komputer
yang sudah ada. Itu berarti kita harus menginstal sistem baru mulai dari
awal, kemudian memindahkan data dari komputer lama ke komputer baru,
dan melakukan setting ulang agar dapat berjalan seperti sebelumnya. Bila
kita menggunakan Hadoop, kita tak perlu memindahkan data dan
melakukan setting ulang, cukup dengan menambahkan satu komputer lagi,
maka secara otomatis data akan terdistribusi ke komputer yang baru.
Ketika kita bicara tentang pengolahan data yang dilakukan secara paralel
dalam banyak komputer, tentu akan timbul pertanyaan: Bagaimana kalau
salah satu dari komputer itu down atau rusak dan tak dapat beroperasi?
Bukankah ini akan menyebabkan seluruh proses akan gagal karena
kehilangan salah satu bagiannya. Tidak demikian dengan Hadoop,
walaupun dalam suatu proses pengolahan data terdapat komputer yang
tiba-tiba rusak, Hadoop tetap dapat berjalan normal. Hadoop
menggunakan metode penyimpanan yang dikenal sebagai sistem file
terdistribusi, yang pada dasarnya menerapkan sistem pemetaan untuk
mencari data dalam cluster. Alat yang digunakan untuk pengolahan data,
seperti pemrograman Google Map Reduce, juga umumnya berada di
server yang sama, yang memungkinkan untuk proses lebih cepat data.
Bahkan jika Anda kebetulan berurusan dengan volume besar data yang
tidak terstruktur, Hadoop Map Reduce mengambil menit untuk memproses
terabyte data, dan jam untuk petabyte data. Salah satu aspek utama dari
kerja pemrograman Apache Map Reduce adalah bahwa hal itu membagi
tugas dengan cara yang memungkinkan eksekusi mereka secara paralel.
Pemrosesan paralel memungkinkan beberapa prosesor untuk mengambil
tugas-tugas dibagi, sehingga mereka menjalankan seluruh program dalam
waktu kurang.
Salah satu aspek utama dari kerja pemrograman Apache Map Reduce
adalah bahwa hal itu membagi tugas dengan cara yang memungkinkan
eksekusi mereka secara paralel. Pemrosesan paralel memungkinkan
beberapa prosesor untuk mengambil tugas-tugas dibagi, sehingga mereka
menjalankan seluruh program dalam waktu kurang.
Hadoop MapReduce dikembangkan berdasarkan konsep dan spesifikai tekniks

Google MapReduce yang diimplementasikan dengan menggunakan bahasa
pemrograman Java. Olehnya itu Hadoop MapReduce memiliki programming
model yang identic dan Googl MapReduce . Demikian juga dengan arsitekturnya
yang ukuivalen dengan Google MapReduce . Perbedaannya adalah Google
MapReduce dijalankan dalam cluster GFS, sedangkan Hadoop MapReduce
dioperasikan dalam cluster Hadoop yang sudah tentunya sudah dalam format
HDFS.
DAFTAR PUSTAKA
https://id.wikipedia.org/wiki/Big_data
http://gudanglinux.com/glossary/apache-hadoop/
http://hadoop/apache.cgi
Wijaya . 2015. Teknologi Big Data: Sistem Canggih dibalik Google, Yahoo!,
Facebook, IBM. Google Play Book

Tugas Makalah Big Data-1

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Tugas Makalah Big Data-1

Diunggah oleh

Hak Cipta:

Format Tersedia

TUGAS MAKALAH SISTEM PARALEL TERDISTRIBUSI

MANINJAU BIG TABLE DAN APHACE HADOOP DARI SISI

Muhammad Arsi - 15312501

Rizky Sedyono - 15312587

Deny Pratama - 15312694

PROGRAM STUDI INFORMATIKA

Tantangannya meliputi pemerolehan, kurasi, penyimpanan, penelusuran (search),

1. Kesederhanaan: Eksekusi analisis kompleks secara paralel yang sederhana

2. Optimasi: Pig memgoptimalkan dengan sendirinya pelaksanaan operasi

3. Ekstensibilitas: Pig dapat diperluas fungsionalitas-nya sehingga mudah

Hadoop MapReduce dikembangkan berdasarkan konsep dan spesifikai tekniks

Anda mungkin juga menyukai