Anda di halaman 1dari 27

KEGIATAN BELAJAR 4

KEGIATAN BELAJAR 4
Framework dan Big Data

101
102
A. Pendahuluan
1. Deskripsi Singkat
Secara umum, tujuan Kegiatan Belajar 4 ini adalah untuk memberikan
pemahaman, pengetahuan, keterampilan, dan sikap kepada guru atau peserta
PPG tentang framework dan big data.
Secara khusus, tujuan Kegiatan Belajar 4 ini adalah agar peserta mampu: (1)
mengkonfigurasi framework big data; dan (2) mengevaluasi konfigurasi
framework big data.

2. Relevansi
Kegiatan Belajar 4 ini menggunakan beberapa dukungan perangkat yang
yang harus disediakan. Peserta dapat menggunakan perangkat yang dimiliki
tetapi harus memenuhi standar spesifikasi yang telah ditetapkan. Hal ini
bertujuan agar setiap kegiatan pembelajaran yang dilakukan dapat berjalan
dengan semestinya. Perangkat-perangkat yang digunakan dalam kegiatan
pembelajaran modul ini adalah Personal Computer/Laptop.

3. Panduan Belajar
Pada Kegiatan Belajar 4 ini, urutan yang harus dilakukan oleh peserta dalam
mempelajari modul ini adalah :
1. Membaca tujuan pembelajaran sehingga memahami target atau goal dari
kegiatan belajar tersebut.
2. Membaca indikator pencapaian kompetensi sehingga memahami kriteria
pengukuran untuk mencapai tujuan pembelajaran.
3. Membaca uraian materi pembelajaran sehingga memiliki pengetahuan,
keterampilan dan sikap kompetensi yang akan dicapai.
4. Melakukan aktifitas pembelajaran dengan urutan atau kasus permasalahan
sesuai dengan contoh.
5. Mengerjakan latihan/soal atau tugas dengan mengisi lembar kerja yang telah
disediakan.

103
B. Inti
1. Capaian Pembelajaran:
Mampu Konfigurasi framework big data
Mengevaluasi konfigurasi framework Big Data

2. Pokok-pokok Materi:
Framework big data
Konfigurasi framework big data

3. Uraian Materi
1. Framework big data
Framework adalah sebuah software untuk memudahkan para programer
untuk membuat sebuah aplikasi web yang di dalam nya ada berbagai fungsi
diantaranya plugin, dan konsep untuk membentuk suatu sistem tertentu agar
tersusun dan tersetruktur dengan rapih.
Menurut R. Kelly Rainer (2011) Data, menunjuk pada deskripsi dasar akan
benda, event, aktivitas, dan transaksi yang terdokumentasi, terklasifikasi,dan
tersimpan tetapi tidak terorganisasi untuk dapat memberikan suatu arti yang
spesifik.
Menurut Vience (2016) memasuki tren yang disebut Big Data, era di mana
ketersediaan data sosial yang terekam secara digital semakin berlimpah. Bagi
kalangan industri atau praktisi, big data telah membuka peluang untuk
menetapkan strategi bisnis serta inovasi dalam hal memproses, menganalisa
dan menyimpan data dengan volume serta tingkat votalitas yang tinggi secara
cepat dan efektif. Bagi kalangan akademisi, Big Data telah menobrak tradisi
lama penelitian ilmu sosial.
Big data memberikan solusi bagi penelitian sosial konvensional,
khususnya untuk menangkap realita seperti pola jaringan komunikasi,
diseminasi informasi, atau bahkan memprediksi pola gerakan sosial atau politik
berdasarkan perilaku secara online. Istilah-istilah seperti webometrics, social
network analysis, digital social research, web social science atau

104
computational social science menandakan transisi penelitian sosial
konvensional penelitian sosial cyber atau ‘e-research”’, yaitu di mana transisi
unit analisis dari manusia menuju algoritma (Lupton, 2015:17).
Menurut Eaton, Dirk, Tom, George, & Paul Big Data merupakan istilah
yang berlaku untuk informasi yang tidak dapat diproses atau dianalisis
menggunakan alat tradisional. Menurut Dumbill, (2012), Big Data adalah data
yang melebihi proses kapasitas dari kovensi sistem database yang ada. Data
terlalu besar dan terlalu cepat atau tidak sesuai dengan struktur arsitektur
database yang ada. Untuk mendapatkan nilai dari data, maka harus memilih
jalan altenatif untuk memprosesnya.
Big Data adalah sebuah sistem teknologi yang diperkenalkan untuk
menanggulangi 'ledakan informasi' seiring dengan semakin bertumbuhnya
ekosistem pengguna perangkat mobile dan data internet. Pertumbuhan
perangkat mobile dan data internet ternyata sangat mempengaruhi
perkembangan volume dan jenis data yang terus meningkat secara signifikan di
dunia maya. Berbagai jenis data, mulai data yang berupa teks, gambar atau
foto, video hingga bentuk data-data lainnya membanjiri sistem komputasi. Big
data sebagai kumpulan data yang memiliki ukuran besar dan melebihi kapasitas
dari perangkat lunak basis data untuk mengelola dan menganalisanya. Big Data
muncul dari proses transaksi data, interaksi data dan observasi data yang terus
menerus (M. James, 2011).
Karakteristik big data ada tiga yaitu:
a. Volume
Volume di sini berkaitan dengan ukuran media penyimpanan data yang
sangat besar atau mungkin tak terbatas. Big data memiliki jumlah data
yang sangat besar sehingga dalam proses pengolahan data dibutuhkan
suatu penyimpanan yang besar dan dibutuhkan analisis yang lebih
spesifik.

105
b. Velocity
Big data memiliki aliran data yang yang cepat dan real time. Velocity
dapat diartikan sebagai kecepatan proses.

c. Variety
Big data memiliki bentuk format data yang beragam baik terstruktur
ataupun tidak terstruktur dan bergantung pada banyaknya sumber data.
Variety berarti tipe atau jenis data yang dapat diakomodasi.

Big Data dapat diasumsikan sebagai sebuah media penyimpanan data


yang menawarkan ruang tak terbatas, serta kemampuan untuk mengakomodasi
dan memproses berbagai jenis data dengan sangat cepat. Contoh big data
termasuk indeks pencarian Google, database profil pengguna Facebook, dan
daftar produk Amazon.com. Kumpulan data ini (atau “datasets“) sangat besar
sehingga data tidak dapat disimpan dalam database biasa, atau bahkan
komputer tunggal. Google pada tahun 2006 memperkenalkan Google Bigtable.
Bigtable merupakan sistem database berskala besar dan cepat yang digunakan
Google untuk mengolah berbagai jenis data dari berbagai layanan, termasuk
data dari layanan mesin pencari berbasis internet. Facebook sistem database
untuk menangani melonjaknya pengguna layanan dengan teknologi Big Data,
facebook tidak pernah kesulitan untuk menangani peredaran data yang
melonjak drastis yang berasal dari satu miliar penggunanya.

Gambar 4. 1 Ilustrasi big data

106
2. Pemicu Perkembangan Big Data
Menurut Hilbert dan Lopez, ada tiga hal utama yang memicu
perkembangan teknologi Big Data:
a. Pesatnya pertambahan kemampuan penyimpanan data, kemampuan
penyimpanan data telah bertumbuh sangat signifikan.
b. Pesatnya pertambahan kemampuan mesin pemrosesan data, seiring
dengan pesatnya perkembangan teknologi hardware, maka kapasitas
komputasi pada mesin/ perangkat komputer juga telah meningkat sangat
tajam.
c. Ketersediaan data yang melimpah, Perusahaan-perusahaan dari berbagai
sektor di Amerika Serikat memiliki data setidaknya 100 terabytes.
Bahkan banyak diantara perusahaan tersebut yang memiliki data lebih
dari 1 petabyte.

3. Klasifikasi Data
Teknologi Big Data memiliki kemampuan untuk menangani berbagai
variasi data. Secara umum ada 2 kelompok data yang harus dikelola, yaitu :
a. Data terstruktur
Kelompok data yang memiliki tipe data, format, dan struktur yang telah
terdefinisi. Sumber datanya dapat berupa data transaksional, OLAP data,
tradisional RDBMS, file CSV, spreadsheets
b. Data tidak terstruktur
Kelompok data tekstual dengan format tidak menentu atau tidak memiliki
struktur melekat, sehingga untuk menjadikannya data terstruktur
membutuhkan usaha, tools, dan waktu yang lebih. Data ini dihasilkan
oleh aplikasi-aplikasi internet, seperti data URL log, media sosial, e-mail,
blog, video, dan audio.

4. Tahapan Pengelolaan Big Data


Berikut ini adalah 4 tahap pengelolaan Big Data serta perangkat bantu
(tools) yang dapat dimanfaatkan untuk mendukung pemrosesan pada tiap

107
tahap:
a. Acquired
Berhubungan dengan sumber dan cara mendapatkan data.
b. Accessed
Berhubungan dengan daya akses data; data yang sudah dikumpulkan
memerlukan tata kelola, integrasi, storage dan computing agar dapat
dikelola untuk tahap berikutnya. Perangkat untuk pemrosesan (processing
tools) menggunakan Hadoop, Nvidia CUDA, Twitter Storm, dan
GraphLab. Sedangkan untuk manajemen penyimpanan data (storage
tools) menggunakan Neo4J, Titan, dan HDFS.
c. Analytic
Berhubungan dengan informasi yang akan didapatkan, hasil pengelolaan
data yang telah diproses. Analitik yang dilakukan dapat berupa
descriptive (penggambaran data), diagnostic (mencari sebab akibat
berdasar data), predictive (memprediksi kejadian dimasa depan) maupun
prescriptive analytics (merekomendasikan pilihan dan implikasi dari
setiap opsi). Tools untuk tahap analitik menggunakan MLPACK dan
Mahout.

d. Application
Terkait visualisasi dan reporting hasil dari analitik. Tools untuk tahap ini
menggunakan RStudio.

5. Pemanfaatan Big Data Pada Sektor Bisnis


Perusahaan-perusahaan yang bergerak dalam sektor bisnis memiliki
orientasi utama pada pencapaian margin laba setinggi mungkin (profit
oriented). Berbagai informasi penting dapat dihasilkan dari Big Data yang
dapat mendukung proses pengambilan keputusan bagi pimpinan perusahaan
sebagai berikut
a. Mengetahui respons masyarakat terhadap produk-produk yang
dikeluarkan melalui analisis sentimen di media sosial.

108
b. Membantu perusahaan mengambil keputusan secara lebih tepat dan
akurat berdasarkan data
c. Membantu meningkatkan citra perusahaan di mata pelanggan.
d. Perencanaan usaha, dengan mengetahui perilaku pelanggan seperti pada
perusahaan telekomunikasi dan perbankan.
e. Mengetahui trend pasar dan keinginan konsumen.

6. Pemanfaatan Big Data Pada Sektor Layanan Publik


Perusahaan atau institusi yang yang berada pada sektor layanan publik
lazimnya memiliki orientasi utama pada pencapaian kepuasan klien/
pelanggan. Resource Big Data dapat memberikan andil dengan menyajikan
berbagai informasi berharga sebagai berikut:
a. Mendapatkan feedback dan respon masyarakat sebagai dasar penyusunan
kebijakan dan perbaikan pelayanan publik. Feedback tersebut dapat
diperoleh dari sistem informasi layanan pemerintah maupun dari media
sosial.
b. Membuat layanan terpadu dengan segmen khusus sehingga layanan bisa
lebih efektif dan efisien.
c. Menemukan solusi atas permasalahan yang ada, berdasarkan data.
Sebagai contoh: menganalisis informasi cuaca dan informasi pertanian
terkait data tingkat kesuburan tanah, pemerintah dapat menetapkan atau
menghimbau jenis varietas tanaman yang ditanam oleh petani pada
daerah dan waktu tertentu.

7. Membangun Big Data Platform


Seperti data pergudangan, toko web atau platform TI, infrastruktur untuk
data yang besar memiliki kebutuhan yang unik. Dalam mempertimbangkan
semua komponen platform data yang besar, penting untuk diingat bahwa
tujuan akhir adalah untuk dengan mudah mengintegrasikan data yang besar
dengan data perusahaan Anda untuk memungkinkan Anda untuk melakukan

109
analisis mendalam pada set data gabungan. Requirement dalam big data
infrastruktur: (1) data acquisition, (2) data organization (3) data analysis
a. Data acquisition
Tahap akuisisi adalah salah satu perubahan besar dalam infrastruktur
pada hari-hari sebelum big data. Karena big data mengacu pada aliran
data dengan kecepatan yang lebih tinggi dan ragam yang bervariasi,
infrastruktur yang diperlukan untuk mendukung akuisisi data yang besar
harus disampaikan secara perlahan, dapat diprediksi baik di dalam
menangkap data dan dalam memprosesnya secara cepat dan sederhana,
dapat menangani volume transaksi yang sangat tinggi , sering dalam
lingkungan terdistribusi, dan dukungan yang fleksibel, struktur data
dinamis.
Database NoSQL sering digunakan untuk mengambil dan
menyimpan big data. Mereka cocok untuk struktur data dinamis dan
sangat terukur. Data yang disimpan dalam database NoSQL biasanya dari
berbagai variasi/ragam karena sistem dimaksudkan untuk hanya
menangkap semua data tanpa mengelompokkan dan parsing data.
Sebagai contoh, database NoSQL sering digunakan untuk
mengumpulkan dan menyimpan data media sosial. Ketika aplikasi yang
digunakan pelanggan sering berubah, struktur penyimpanan dibuat tetap
sederhana. Alih-alih merancang skema dengan hubungan antar entitas,
struktur sederhana sering hanya berisi kunci utama untuk
mengidentifikasi titik data, dan kemudian wadah konten memegang data
yang relevan. Struktur sederhana dan dinamis ini memungkinkan
perubahan berlangsung tanpa reorganisasi pada lapisan penyimpanan.
b. Data Organization
Dalam istilah Data pergudangan klasik, pengorganisasian data
disebut integrasi data. Karena ada volume/jumlah data yang sangat besar,
ada kecenderungan untuk mengatur data pada lokasi penyimpanan
aslinya, sehingga menghemat waktu dan uang dengan tidak
memindah-midahkan data dengen volume yang besar. Infrastruktur yang

110
diperlukan untuk mengatur data yang besar harus mampu mengolah dan
memanipulasi data di lokasi penyimpanan asli. Biasanya diproses didalam
batch untuk memproses data yang besar, beragam format, dari tidak
terstruktur menjadi terstruktur.
Apache Hadoop adalah sebuah teknologi baru yang memungkinkan
volume data yang besar untuk diatur dan diproses sambil menjaga data
pada cluster penyimpanan data asli. Hadoop Distributed File System
(HDFS) adalah sistem penyimpanan jangka panjang untuk log web
misalnya. Log web ini berubah menjadi perilaku browsing dengan
menjalankan program MapReduce di cluster dan menghasilkan hasil yang
dikumpulkan di dalam cluster yang sama. Hasil ini dikumpulkan
kemudian dimuat ke dalam sistem DBMS relasional.
c. Data Analysis
Karena data tidak selalu bergerak selama fase organisasi, analisis ini
juga dapat dilakukan dalam lingkungan terdistribusi, di mana beberapa
data akan tinggal di mana data itu awalnya disimpan dan diakses secara
transparan dari sebuah data warehouse. Infrastruktur yang diperlukan
untuk menganalisis data yang besar harus mampu mendukung analisis
yang lebih dalam seperti analisis statistik dan data mining, pada data
dengan jenis yang beragam dan disimpan dalam sistem yang terpisah,
memberikan waktu respon lebih cepat didorong oleh perubahan perilaku;
dan mengotomatisasi keputusan berdasarkan model analitis. Yang paling
penting, infrastruktur harus mampu mengintegrasikan analisis pada
kombinasi data yang besar dan data perusahaan tradisional. Wawasan
baru datang bukan hanya dari analisis data baru, tapi dari
menganalisisnya dalam konteks yang lama untuk memberikan perspektif
baru tentang masalah lama.
Misalnya, menganalisis data persediaan dari mesin penjual otomatis
cerdas dalam kombinasi dengan acara kalender untuk tempat di mana
mesin penjual otomatis berada, akan menentukan kombinasi produk yang
optimal dan jadwal pengisian untuk mesin penjual otomatis.

111
8. Tantangan dalam pemanfaatan Big Data
Dalam usaha pemanfaatan Big Data dapat terdapat banyak hambatan dan
tantangan, beberapa hal diantaranya berhubungan dengan data dimana
melibatkan acquisition, sharing dan privasi data, serta dalam analisis dan
pengolahan data.
a. Privasi
Privasi merupakan isu yang paling sensitif, dengan konseptual, hukum,
dan teknologi, Privasi dapat dipahami dalam arti luas sebagai usaha
perusahaan untuk melindungi daya saing dan konsumen mereka.
Data-data yang digunakan / disimpan sebagai big data.
b. Access dan sharing
Akses terhadap data, baik data lama maupun data baru dapat menjadi
hambatan dalam mendapatkan data untuk big data, terlebih pada data
lama dimana data-data tersimpan dalam bentuk-bentuk yang
berbeda-beda dan beragam ataupun dalam bentuk fisik, akses terhadap
data baru juga membutuhkan usaha yang lebih kerana diperlukannya izin
dan lisensi untuk mengakses data-data non-public secara legal.
c. Analisis
Bekerja dengan sumber data baru membawa sejumlah tantangan analitis.
relevansi dan tingkat keparahan tantangan akan bervariasi tergantung
pada jenis analisis sedang dilakukan, dan pada jenis keputusan yang
akhirnya akan bisa diinformasikan oleh data.
Tergantung dari jenis data terdapat 3 kategori dalam analisis data
1) Penentuan gambaran yang benar
Masalah ini biasanya ditemukan dalam penanganan unstructured
user-generated text-based data dimana data yang didapatkan belum
tentu benar karena data atau sumber yang salah.
2) Interpreting Data
Kesalahan-kesalahan seperti Sampling selection biasa
merupakan hal yang sering ditemukan dimana data yang ada tidak
dapat digunakan untuk mepresentasikan semua populasi yang ada,

112
dan apophenia, melihat adanya pola walaupun tidak benar-benar
ada dikarenakan jumlah data yang besar, dan kesalahan dalam
menginterpreasikan hubungan dalam data.
3) Defining and detecting anomalies
Tantangan sensitivitas terhadap spesifisitas pemantauansistem.
Sensitivitas mengacu pada kemampuan sistem pemantauan untuk
mendeteksi semua kasus sudah diatur untuk mendeteksi sementara
spesifisitas mengacu pada kemampuannya untuk mendeteksi hanya
kasus-kasus yang relevan. kegagalan untukmencapai hasil yang
terakhir "Tipe I kesalahan keputusan", juga dikenal sebagai "positif
palsu"; kegagalanuntuk mencapai mantan "Type II error", atau
"negatif palsu." Kedua kesalahan yang tidak diinginkan ketika
mencoba untuk mendeteksi malfungsi atau anomali, bagaimanapun
didefinisikan, untuk berbagai alasan. Positif palsu merusak
kredibilitas sistem sementara negatif palsu dilemparkan ragu pada
relevansinya. Tapi apakah negatif palsu lebih atau kurang
bermasalah daripada positif palsu tergantung pada apa yang sedang
dipantau, dan mengapa itu sedang dipantau.

9. Aplikasi big data


Bansod dkk. (2015) dalam penelitiannya menganalisis efisiensi big data
yang menggunakan framework dari Apache Spark dan HDFS serta
keuntungan dari penggunaaan framework Hadoop. Hasil dari penelitian ini
adalah Apache Spark terbukti memiliki performa dan skalabilitas yang tinggi
serta bersifat faulttolerant untuk analisis big data. MadhaviLatha dkk.
membangun infrastruktur big data untuk menganalisis data twitter secara
realtime menggunakan Apache Flume, Spark, Cassandra dan Zeppelin. Pada
penelitian ini, Cassandra dapat diintegrasikan dengan hdfs, kemudian data
yang berasal dari flume dan spark streaming disimpan dalam Cassandra
menggunakan beberapa fungsi khusus antara Cassandra dan Streaming
Context dari Spark yaitu com.datastax.spark.connector.streaming. Tujuan

113
dari menyimpan data di Cassandra yaitu untuk keperluan analisis lebih
lanjut.
Beberapa contoh framework big data yaitu:
a. Apache Hadoop
Hadoop adalah proyek dengan kode sumber terbuka yang dikelola oleh
Apache Software Foundation. Hadoop digunakan untuk perhitungan yang
andal, dapat diukur, didistribusikan, tetapi juga dapat dieksploitasi
sebagai penyimpanan file dengan tujuan umum yang dapat menyimpan
petabyte data. Solusinya terdiri dari dua komponen utama: HDFS
bertanggung jawab untuk penyimpanan data di cluster Hadoop; dan
sistem MapReduce dimaksudkan untuk menghitung dan memproses
volume data yang besar di cluster. Bagaimana tepatnya Hadoop
membantu memecahkan masalah memori DBMS modern? Hadoop
digunakan sebagai lapisan perantara antara database interaktif dan
penyimpanan data meningkatkan kecepatan kinerja pemrosesan data
tumbuh sesuai dengan peningkatan ruang penyimpanan data. Untuk
mengembangkannya lebih lanjut, Anda cukup menambahkan node baru
ke penyimpanan data. Secara umum, Hadoop dapat menyimpan dan
memproses banyak petabyte info. Di sisi lain, proses tercepat di Hadoop
masih membutuhkan beberapa detik untuk beroperasi. Itu juga melarang
kustomisasi data yang sudah disimpan dalam sistem HDFS. Last but not
least, solusinya mendukung transaksi. Jadi, terlepas dari popularitas yang
pasti dari solusi ini di antara pengguna selama bertahun-tahun yang akan
datang, alternatif baru yang lebih maju secara bertahap datang ke pasar
untuk menggantikannya (kami akan membahas beberapa di bawah).

114
Gambar 4. 2 Ilustrasi sistem apache hadoop

b. Apache Spark
Daftar kerangka kerja Big Data terbaik kami dilanjutkan dengan Apache
Spark. Ini adalah kerangka kerja open-source yang dibuat sebagai solusi
yang lebih maju dibandingkan dengan Apache Hadoop - kerangka awal
yang dibangun khusus untuk bekerja dengan Big Data. Perbedaan utama
antara kedua solusi ini adalah model pengambilan data. Hadoop
menyimpan data ke hard drive di sepanjang setiap langkah algoritma
MapReduce, sementara Spark mengimplementasikan semua operasi
menggunakan memori akses-acak. Karena hal ini, Spark memiliki kinerja
100 kali lebih cepat dan memungkinkan pemrosesan aliran data. Pilar
fungsional dan fitur utama Spark adalah kinerja tinggi dan keamanan
yang gagal. Ini mendukung empat bahasa: Scala, Java, Python, dan R;
dan terdiri dari lima komponen: inti dan empat perpustakaan yang
mengoptimalkan pekerjaan dengan Big Data dalam berbagai cara ketika
digabungkan. Spark SQL - salah satu dari empat pustaka kerangka kerja

115
khusus - berfungsi untuk pemrosesan data terstruktur menggunakan
DataFrames dan penyelesaian permintaan Hadoop Hive hingga 100 kali
lebih cepat. Spark juga dilengkapi alat Streaming untuk pemrosesan data
khusus utas secara real time. Dengan demikian, pendiri Spark
menyatakan bahwa waktu rata-rata pemrosesan setiap mikro-batch hanya
0,5 detik. Berikutnya, ada MLib - sistem pembelajaran mesin terdistribusi
sembilan kali lebih cepat dari perpustakaan Apache Mahout. Dan
perpustakaan terakhir adalah GraphX yang digunakan untuk pemrosesan
data grafik yang dapat diskalakan.

Gambar 4. 3 Ilustrasi apache spark

c. Apache Hive
Apache Hive dibuat oleh Facebook untuk menggabungkan skalabilitas
salah satu alat big data yang paling populer dan banyak diminati,
MapReduce dan aksesibilitas SQL. Hive pada dasarnya adalah mesin
yang mengubah permintaan SQL menjadi rantai tugas pengurangan peta.
Mesin mencakup komponen seperti Parser (yang mengurutkan
permintaan SQL yang masuk), Pengoptimal (yang mengoptimalkan
permintaan untuk efisiensi lebih), dan Pelaksana (yang meluncurkan
tugas dalam kerangka kerja MapReduce). Hive dapat diintegrasikan
dengan Hadoop (sebagai bagian server) untuk analisis volume data yang
besar.

116
Gambar 4. 4 Arsitektur apache hive

d. Map Reduce
MapReduce adalah algoritme untuk pemrosesan paralel volume data
mentah besar yang diperkenalkan oleh Google pada tahun 2004.
MapReduce melihat data sebagai jenis entri yang dapat diproses dalam
tiga tahap: Peta (pra-pemrosesan dan penyaringan data), Shuffle (node
pekerja mengurutkan data - setiap node pekerja sesuai dengan satu kunci
output yang dihasilkan dari fungsi peta), dan Reduce (fungsi pengurangan
diatur oleh pengguna dan mendefinisikan hasil akhir untuk kelompok
yang terpisah dari data output. Mayoritas semua nilai dikembalikan oleh
mengurangi () fungsi adalah hasil akhir dari tugas MapReduce). Karena
logika sederhana seperti itu, MapReduce menyediakan paralelisasi data
secara otomatis, penyeimbangan beban node pekerja yang efisien, dan
kinerja gagal-aman.

117
Gambar 4. 5 Pase map reduce

e. Apache Storm
Apache Storm adalah solusi terkemuka yang berfokus pada bekerja
dengan aliran data besar secara real time. Fitur utama Storm adalah
skalabilitas (tugas pemrosesan didistribusikan oleh node cluster dan
mengalir di setiap node) dan kemampuan memulihkan segera setelah
downtime (dengan demikian, tugas sedang dialihkan ke node pekerja lain
jika salah satu node sedang down). Anda dapat bekerja dengan solusi ini
dengan bantuan Java, serta Python, Ruby, dan Fancy. Strom
menampilkan sejumlah elemen yang membuatnya sangat berbeda dari
analog. Yang pertama adalah Tuple - elemen representasi data utama
yang mendukung serialisasi. Lalu ada Stream yang menyertakan skema
bidang penamaan di Tuple. Spout menerima data dari sumber eksternal,
membentuk Tuple dari mereka, dan mengirimkannya ke Stream. Ada juga
Bolt - pengolah data, dan Topologi - paket elemen dengan deskripsi
keterkaitan mereka analog pekerjaan MapReduce di Hadoop, pada
dasarnya). Ketika digabungkan, semua elemen ini membantu

118
pengembang untuk dengan mudah mengelola aliran besar data yang tidak
terstruktur.

Gambar 4. 6 Arsitektur apache storm

10. Evaluasi konfigurasi framework big data


Big data menjadi kebutuhan penggunaan server internet yang memungkinkan
kecepatan akses data yang besar dan cepat. Hadoop merupakan salah satu
ekosistem framework big data yang banyak digunakan dan direkomendasi.
Beberapa hal yang perlu dipahami penggunaan framework big data hadoop
yaitu:
a. Hadoop merupakan ekosistem framework big data

Gambar 4. 7 Ekosistem Framework Hadoop

119
Framework hadoop merupakan kumpulan berbagai aplikasi yang saling
terhubung satu-sama lain yang membat pengelolaan big data yang lebih baik,
baik dari volume, kecepatan, dan keberagaman data.

b. Solusi big data hadoop


Dalam pendekatan Hadoop mendukung pemprosesan secara terdistribusi
ke kluster-kluster dari komputer. Hadoop didukung oleh dua komponen
utama.
1) HDFS
HDFS merupakan sistem penyimpanan/storage terdistribusi, yang
melakukan proses pemecahan file besar menjadi bagian-bagian lebih
kecil kemudian didistribusikan ke kluster-kluster dari komputer.
2) MapReduce
MapReduce merupakan algoritma/komputasi terdistribusi

Gambar 4. 8 Ilustrasi Solusi Hadoop


Kelebihan Solusi Hadoop dengan didukung oleh dua komponen
utama tersebut yaitu (1) sangat baik untuk mengolah data berukuran
besar, bahkan untuk ukuran 1 TB sekalipun, (2) Lebih cepat dalam
mengakses data berukuran besar (3) Lebih bervariasi data yang bisa
disimpan dan diolah dalam bentuk HDFS.
Kekurangan Solusi Hadoop, sebagai berikut (1) Tidak cocok untuk
OLTP (Online Transaction Processing), di mana data dapat diakses

120
secara randon ke Relational Database (2) Tidak cocok untuk OLAP
(Online Analytic Processing) (3) Tidak cocok untuk DSS (Decission
Support System) (4) Proses update tidak bisa untuk dilakukan, namun
untuk Append bisa dilakukan.
c. Arsitektur hadoop
Framework hadoop terdiri atas empat modul/komponen utama yaitu (1)
Hadoop HDFS adalah sebuah sistem file terdistribusi. (2) Hadoop
MapReduce adalah sebuah model programming/Algoritma untuk
pengelolaan data skala besar dengan komputasi secara terdistribusi (3)
Hadoop YARN adalah sebuah platform resource-management yang
bertanggung jawab untuk mengelola resources dalam clusters dan scheduling
(4) Hadoop Common adalah berisi libraries dan utilities yang dibutuhkan
oleh modul Hadoop lainnya.
Framework hadoop bukan hanya empat modul utama namun merupakan
kumpulan modul open source seperti Hive, Pig, Oozie, Zookeeper, Flume
Sqoop, Mahout, Hbase, Ambari, Spark.
d. Cara kerja hadoop
Secara umum cara kerja hadoop dalam pemrosesan pada sistem
terdistribusi, sebagai berikut
1) Cara kerja HDFS
SHDFS terdiri dari NameNode, yang mengelola metadata dari
kluster, dan DataNode yang menyimpan data/file. File dan direktori
diwakili pada NameNode oleh inode. Inode menyimpan atribut
seperti permission, modifikasi dan waktu akses, atau
kuota namespace dan diskspace.
Isi file dibagi menjadi blok-blok file( biasanya 128 MB), dan
setiap blok file tersebut direplikasi di beberapa DataNodes. Blok file
disimpan pada sistem file lokal dari DataNode.
Namenode aktif memonitor jumlah salinan/replika blok file.
Ketika ada salinan blok file yang hilang karena kerusakan pada
DataNode, NameNode akan mereplikasi kembali blok file tersebut ke

121
datanode lainnya yang berjalan baik. NameNode mengelola struktur
namespace dan memetakan blok file pada datanode.

Gambar 4. 9 Cara kerja HDFS

2) Cara kerja Map Reduce


Map Reduce bertugas membagi data yang besar ke dalam potongan
lebih kecil dan mengatur mereka kedalam bentuk tupel untuk pemrosesan
paralel. Tupel adalah kombinasi antara key dan value-nya, dapat
disimbolkan dengan notasi: "(k1, v1)". Dengan pemrosesan bersifat
paralel tersebut, tentunya akan meningkatkan kecepatan dan keandalan
komputasi pada sistem klustering.
Map Reduce terdiri atas tiga tahap, yaitu tahap map, shuffle, dan
terakhir reduce. Shuffle dan reduce digabungkan kedalam satu tahap saja
yaitu tahap reduce.
a) Map berfungsi memproses data inputan yang umumnya berupa file
yang tersimpan dalan HDFS (dapat di baca di Sistem file
terdistribusi), inputan tersebut kemudian diubah menjadi tuple yaitu
pasangan antara key dan value-nya.
b) Tahap reduce, memproses data inputan dari hasil proses map, yang
kemudian dilakukan tahap shuffle dan reduce yang hasil data set
baru-nya dis impan di HDFS kembali.

122
Gambar 4. 10 Cara kerja Map Reduce

3) Cara kerja Yarn


Yarn adalah memisahkan dua tanggung jawab utama dari
JobTracker/TaskTracker menjadi beberapa entitas yang terpisah.
a) Global ResourceManager di node master, yang berfungsi mengatur
semua resource yang digunakan aplikasi dalam sistem.
b) ApplicationMaster di setiap aplikasi, yang berfungsi untuk negosiasi
resource dengan ResourceManager dan kemudian bekerja sama
dengan NodeManager untuk mengeksekusi dan memonitor tasks
c) Node Manager di Agen-Framework setiap node slave, yang
bertanggung jawab terhadap Container, dengan memantau
penggunaan resource/sumber daya dari container (cpu, memori, disk,
jaringan ) dan melaporkannya pada Resource Manager
d) Container di setiap aplikasi yang jalan di Node Manager, sebagai
wadah penyimpanan data/file

Gambar 4. 11 Cara kerja Yarn

123
e. Instalasi dan evaluasi konfigurasi framework big data (hadoop)

Beberapa Software yang dibutuhkan untuk menjalankan hadoop adalah


Operating System, Hadoop dan Java Development Kit (JDK). Pada tutorial
menggunakan operating system Windows 10, Hadoop 2.6.3 versi binary,
Java Development Kit versi 1.8.0_45(bisa didownload di http
//www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133
151.html).
1) Langkah pertama yang kita lakukan untuk memasang hadoop single node
pada windows adalah men-download hadoop versi binary (bisa
didownload di https //hadoop.apache.org/releases.html), pastikan juga
Java Development Kit sudah terpasang. Kemudian extract hadoop
menggunakan Winrar atau aplikasi yang lainnya(disini penulis
mengekstraknya di D:\hadoop\)

2) Untuk memasang hadoop di OS Windows kita membutuhkan file


tambahan yang bisa di download dihttps
//codeload.github.com/srccodes/hadoop-common-2.2.0-bin/zip/master.
Setelah itu Extract file tambahan tersebut di dalam hadoop\bin

124
3) Tahap berikutnya adalah tahapan Configuration, pada tahap ini kita akan
menambahkan environment variable untuk 'JAVA_HOME' dan
'HADOOP_PREFIX' dengan cara pilih 'Control
Panel>System>Advanced System Settings>Environment Variables'
kemudian pilih New dan masukan 'JAVA_HOME' dan path instalasi
JDKnya misal 'C:\PROGRA~1\Java\jdk1.8.0_05'

tambahkan juga Environment Variables untuk 'HADOOP_PREFIX' =


'D:\hadoop'
Setelah itu ubah atau tambahkan file-file pada directory
\etc\hadoop file 'hadoop-env.cmd'
Set HADOOP_PREFIX=%HADOOP_PREFIX% set

125
HADOOP_CONF_DIR=%HADOOP_PREFIX%\etc\hadoop
set YARN_CONF_DIR=%HADOOP_CONF_DIR%
set PATH=%PATH%;%HADOOP_PREFIX%\bin
file :'hdfs-site.xml'
dfs.replication 1 dfs.data.dir file:///d:/hadoop/tmp/dfs/name/data true dfs.na
me.dir file:///d:/hadoop/tmp/dfs/name true
File 'core-site.xml'
fs.default.name hdfs://127.0.0.1:41000
4) Dan sekarang kita masuk ke tahap menjalankan hadoop, pertama yang
kita lakukan adalah melakukan format untuk Hadoop Distributed File
System (HDFS) dengan perintah
D \hadoop\bin>hdfs namenode –format
dan sebagai indikator format yang kita lakukan berhasil, akan muncul
seperti gambar berikut

hadoop juga akan membuat file baru di dalam path yang sudah kita
konfigurasikan di dalam file 'hdfs-site.xml' tadi.
5) kemudian kita jalankan service atau daemon dfs
D \hadoop\sbin>start-dfs.cmd
Sekarang kita coba perintah untuk mengkopi file lokal README.txt
yang di drive D: ke dalam hadoop dan membuat directory

126
BelajarHadoop
D:\hadoop\bin>hdfs dfs -put d:\README.txt / D:\hadoop\bin>hdfs dfs
-mkdir /BelajarHadoop
D:\hadoop\bin>hdfs dfs -ls /

6) Setelah service atau daemon hdfs jalan kita juga bisa melihatnya melalui
web browser dengan mengetikan 1 7.0.0.1:50070 pada address bar.

127

Anda mungkin juga menyukai