Final Modul 6-KB 4 (Fathahillah) 2022

81
Pendahuluan
A. Deskripsi Singkat
Secara umum, tujuan Kegiatan Belajar 4 ini adalah untuk memberikan
pemahaman, pengetahuan, keterampilan, dan sikap kepada guru atau peserta PPG
tentang framework dan big data.
Secara khusus, tujuan Kegiatan Belajar 4 ini adalah agar peserta mampu: (1)
mengkonfigurasi framework big data; dan (2) mengevaluasi konfigurasi framework big
data.
B. Relevansi
Kegiatan Belajar 4 ini menggunakan beberapa dukungan perangkat yang yang
harus disediakan. Peserta dapat menggunakan perangkat yang dimiliki tetapi harus
memenuhi standar spesifikasi yang telah ditetapkan. Hal ini bertujuan agar setiap
kegiatan pembelajaran yang dilakukan dapat berjalan dengan semestinya.
Perangkat-perangkat yang digunakan dalam kegiatan pembelajaran modul ini adalah
Personal Computer/Laptop.
C. Panduan Belajar
Pada Kegiatan Belajar 4 ini, urutan yang harus dilakukan oleh peserta dalam
mempelajari modul ini adalah :
1. Membaca tujuan pembelajaran sehingga memahami target atau goal dari kegiatan
belajar tersebut.
2. Membaca indikator pencapaian kompetensi sehingga memahami kriteria
pengukuran untuk mencapai tujuan pembelajaran.
3. Membaca uraian materi pembelajaran sehingga memiliki pengetahuan,
keterampilan dan sikap kompetensi yang akan dicapai.
4. Melakukan aktifitas pembelajaran dengan urutan atau kasus permasalahan sesuai
dengan contoh.
5. Mengerjakan latihan/soal atau tugas dengan mengisi lembar kerja yang telah
disediakan.
Capaian Pembelajaran:
1. Mampu Konfigurasi framework big data
82
2. Mengevaluasi konfigurasi framework Big Data
Pokok-pokok Materi:
1. Framework big data
2. Konfigurasi framework big data
Uraian Materi
1. Framework big data
Framework adalah sebuah software untuk memudahkan para programer
untuk membuat sebuah aplikasi web yang di dalam nya ada berbagai fungsi
diantaranya plugin, dan konsep untuk membentuk suatu sistem tertentu agar
tersusun dan tersetruktur dengan rapih.
Menurut R. Kelly Rainer (2011) Data, menunjuk pada deskripsi dasar akan
benda, event, aktivitas, dan transaksi yang terdokumentasi, terklasifikasi,dan
tersimpan tetapi tidak terorganisasi untuk dapat memberikan suatu arti yang
spesifik.
Menurut Vience (2016) memasuki tren yang disebut Big Data, era di mana
ketersediaan data sosial yang terekam secara digital semakin berlimpah. Bagi
kalangan industri atau praktisi, big data telah membuka peluang untuk
menetapkan strategi bisnis serta inovasi dalam hal memproses, menganalisa dan
menyimpan data dengan volume serta tingkat votalitas yang tinggi secara cepat
dan efektif. Bagi kalangan akademisi, Big Data telah menobrak tradisi lama
penelitian ilmu sosial.
Big data memberikan solusi bagi penelitian sosial konvensional, khususnya
untuk menangkap realita seperti pola jaringan komunikasi, diseminasi informasi,
atau bahkan memprediksi pola gerakan sosial atau politik berdasarkan perilaku
secara online. Istilah-istilah seperti webometrics, social network analysis, digital
social research, web social science atau computational social science
menandakan transisi penelitian sosial konvensional penelitian sosial cyber atau
‘e-research”’, yaitu di mana transisi unit analisis dari manusia menuju algoritma
(Lupton, 2015:17).
Menurut Eaton, Dirk, Tom, George, & Paul Big Data merupakan istilah
yang berlaku untuk informasi yang tidak dapat diproses atau dianalisis
menggunakan alat tradisional. Menurut Dumbill, (2012), Big Data adalah data
83
yang melebihi proses kapasitas dari kovensi sistem database yang ada. Data
terlalu besar dan terlalu cepat atau tidak sesuai dengan struktur arsitektur
database yang ada. Untuk mendapatkan nilai dari data, maka harus memilih jalan
altenatif untuk memprosesnya.
Big Data adalah sebuah sistem teknologi yang diperkenalkan untuk
menanggulangi 'ledakan informasi' seiring dengan semakin bertumbuhnya
ekosistem pengguna perangkat mobile dan data internet. Pertumbuhan perangkat
mobile dan data internet ternyata sangat mempengaruhi perkembangan volume
dan jenis data yang terus meningkat secara signifikan di dunia maya. Berbagai
jenis data, mulai data yang berupa teks, gambar atau foto, video hingga bentuk
data-data lainnya membanjiri sistem komputasi. Big data sebagai kumpulan data
yang memiliki ukuran besar dan melebihi kapasitas dari perangkat lunak basis
data untuk mengelola dan menganalisanya. Big Data muncul dari proses
transaksi data, interaksi data dan observasi data yang terus menerus (M. James,
2011).
Karakteristik big data ada tiga yaitu:
a. Volume
Volume di sini berkaitan dengan ukuran media penyimpanan data yang
sangat besar atau mungkin tak terbatas. Big data memiliki jumlah data yang
sangat besar sehingga dalam proses pengolahan data dibutuhkan suatu
penyimpanan yang besar dan dibutuhkan analisis yang lebih spesifik.
b. Velocity
Big data memiliki aliran data yang yang cepat dan real time. Velocity dapat
diartikan sebagai kecepatan proses.
c. Variety
Big data memiliki bentuk format data yang beragam baik terstruktur
ataupun tidak terstruktur dan bergantung pada banyaknya sumber data.
Variety berarti tipe atau jenis data yang dapat diakomodasi.
Big Data dapat diasumsikan sebagai sebuah media penyimpanan data yang
menawarkan ruang tak terbatas, serta kemampuan untuk mengakomodasi dan
memproses berbagai jenis data dengan sangat cepat. Contoh big data termasuk indeks
pencarian Google, database profil pengguna Facebook, dan daftar produk
84
Amazon.com. Kumpulan data ini (atau “datasets“) sangat besar sehingga data tidak
dapat disimpan dalam database biasa, atau bahkan komputer tunggal. Google pada
tahun 2006 memperkenalkan Google Bigtable. Bigtable merupakan sistem database
berskala besar dan cepat yang digunakan Google untuk mengolah berbagai jenis data
dari berbagai layanan, termasuk data dari layanan mesin pencari berbasis internet.
Facebook sistem database untuk menangani melonjaknya pengguna layanan dengan
teknologi Big Data, facebook tidak pernah kesulitan untuk menangani peredaran data
yang melonjak drastis yang berasal dari satu miliar penggunanya.
Gambar 4. 1 Ilustrasi big data
2. Pemicu Perkembangan Big Data

Menurut Hilbert dan Lopez, ada tiga hal utama yang memicu perkembangan
teknologi Big Data:
a. Pesatnya pertambahan kemampuan penyimpanan data, kemampuan
penyimpanan data telah bertumbuh sangat signifikan.
b. Pesatnya pertambahan kemampuan mesin pemrosesan data, seiring dengan
pesatnya perkembangan teknologi hardware, maka kapasitas komputasi pada
mesin/ perangkat komputer juga telah meningkat sangat tajam.
c. Ketersediaan data yang melimpah, Perusahaan-perusahaan dari berbagai
sektor di Amerika Serikat memiliki data setidaknya 100 terabytes. Bahkan
banyak diantara perusahaan tersebut yang memiliki data lebih dari 1 petabyte.
85
3. Klasifikasi Data
Teknologi Big Data memiliki kemampuan untuk menangani berbagai variasi
data. Secara umum ada 2 kelompok data yang harus dikelola, yaitu :
a. Data terstruktur
Kelompok data yang memiliki tipe data, format, dan struktur yang telah
terdefinisi. Sumber datanya dapat berupa data transaksional, OLAP data,
tradisional RDBMS, file CSV, spreadsheets
b. Data tidak terstruktur
Kelompok data tekstual dengan format tidak menentu atau tidak memiliki
struktur melekat, sehingga untuk menjadikannya data terstruktur
membutuhkan usaha, tools, dan waktu yang lebih. Data ini dihasilkan oleh
aplikasi-aplikasi internet, seperti data URL log, media sosial, e-mail, blog,
video, dan audio.
4. Tahapan Pengelolaan Big Data

Berikut ini adalah 4 tahap pengelolaan Big Data serta perangkat bantu
(tools) yang dapat dimanfaatkan untuk mendukung pemrosesan pada tiap tahap:
a. Acquired
Berhubungan dengan sumber dan cara mendapatkan data.
b. Accessed
Berhubungan dengan daya akses data; data yang sudah dikumpulkan
memerlukan tata kelola, integrasi, storage dan computing agar dapat dikelola
untuk tahap berikutnya. Perangkat untuk pemrosesan (processing tools)
menggunakan Hadoop, Nvidia CUDA, Twitter Storm, dan GraphLab.
Sedangkan untuk manajemen penyimpanan data (storage tools) menggunakan
Neo4J, Titan, dan HDFS.
c. Analytic
Berhubungan dengan informasi yang akan didapatkan, hasil pengelolaan data
yang telah diproses. Analitik yang dilakukan dapat berupa descriptive
(penggambaran data), diagnostic (mencari sebab akibat berdasar data),
predictive (memprediksi kejadian dimasa depan) maupun prescriptive
analytics (merekomendasikan pilihan dan implikasi dari setiap opsi). Tools
untuk tahap analitik menggunakan MLPACK dan Mahout.
d. Application
86
Terkait visualisasi dan reporting hasil dari analitik. Tools untuk tahap ini
menggunakan RStudio.
5. Pemanfaatan Big Data Pada Sektor Bisnis
Perusahaan-perusahaan yang bergerak dalam sektor bisnis memiliki orientasi
utama pada pencapaian margin laba setinggi mungkin (profit oriented). Berbagai
informasi penting dapat dihasilkan dari Big Data yang dapat mendukung proses
pengambilan keputusan bagi pimpinan perusahaan sebagai berikut
a. Mengetahui respons masyarakat terhadap produk-produk yang dikeluarkan
melalui analisis sentimen di media sosial.
b. Membantu perusahaan mengambil keputusan secara lebih tepat dan akurat
berdasarkan data
c. Membantu meningkatkan citra perusahaan di mata pelanggan.
d. Perencanaan usaha, dengan mengetahui perilaku pelanggan seperti pada
perusahaan telekomunikasi dan perbankan.
e. Mengetahui trend pasar dan keinginan konsumen.
6. Pemanfaatan Big Data Pada Sektor Layanan Publik

Perusahaan atau institusi yang yang berada pada sektor layanan publik
lazimnya memiliki orientasi utama pada pencapaian kepuasan klien/ pelanggan.
Resource Big Data dapat memberikan andil dengan menyajikan berbagai
informasi berharga sebagai berikut:
a. Mendapatkan feedback dan respon masyarakat sebagai dasar penyusunan
kebijakan dan perbaikan pelayanan publik. Feedback tersebut dapat diperoleh
dari sistem informasi layanan pemerintah maupun dari media sosial.
b. Membuat layanan terpadu dengan segmen khusus sehingga layanan bisa lebih
efektif dan efisien.
c. Menemukan solusi atas permasalahan yang ada, berdasarkan data. Sebagai
contoh : menganalisis informasi cuaca dan informasi pertanian terkait data
tingkat kesuburan tanah, pemerintah dapat menetapkan atau menghimbau
jenis varietas tanaman yang ditanam oleh petani pada daerah dan waktu
tertentu.
87
7. Membangun Big Data Platform

Seperti data pergudangan, toko web atau platform TI, infrastruktur untuk
data yang besar memiliki kebutuhan yang unik. Dalam mempertimbangkan
semua komponen platform data yang besar, penting untuk diingat bahwa tujuan
akhir adalah untuk dengan mudah mengintegrasikan data yang besar dengan data
perusahaan Anda untuk memungkinkan Anda untuk melakukan analisis
mendalam pada set data gabungan. Requirement dalam big data infrastruktur:
(1) data acquisition, (2) data organization (3) data analysis
a. Data acquisition
Tahap akuisisi adalah salah satu perubahan besar dalam infrastruktur
pada hari-hari sebelum big data. Karena big data mengacu pada aliran data
dengan kecepatan yang lebih tinggi dan ragam yang bervariasi, infrastruktur
yang diperlukan untuk mendukung akuisisi data yang besar harus
disampaikan secara perlahan, dapat diprediksi baik di dalam menangkap data
dan dalam memprosesnya secara cepat dan sederhana, dapat menangani
volume transaksi yang sangat tinggi , sering dalam lingkungan terdistribusi,
dan dukungan yang fleksibel, struktur data dinamis.
Database NoSQL sering digunakan untuk mengambil dan menyimpan
big data. Mereka cocok untuk struktur data dinamis dan sangat terukur. Data
yang disimpan dalam database NoSQL biasanya dari berbagai variasi/ragam
karena sistem dimaksudkan untuk hanya menangkap semua data tanpa
mengelompokkan dan parsing data.
Sebagai contoh, database NoSQL sering digunakan untuk
mengumpulkan dan menyimpan data media sosial. Ketika aplikasi yang
digunakan pelanggan sering berubah, struktur penyimpanan dibuat tetap
sederhana. Alih-alih merancang skema dengan hubungan antar entitas,
struktur sederhana sering hanya berisi kunci utama untuk mengidentifikasi
titik data, dan kemudian wadah konten memegang data yang relevan. Struktur
sederhana dan dinamis ini memungkinkan perubahan berlangsung tanpa
reorganisasi pada lapisan penyimpanan.
b. Data Organization
Dalam istilah Data pergudangan klasik, pengorganisasian data disebut
integrasi data. Karena ada volume/jumlah data yang sangat besar, ada
kecenderungan untuk mengatur data pada lokasi penyimpanan aslinya,
88
sehingga menghemat waktu dan uang dengan tidak memindah-midahkan data

dengen volume yang besar. Infrastruktur yang diperlukan untuk mengatur
data yang besar harus mampu mengolah dan memanipulasi data di lokasi
penyimpanan asli. Biasanya diproses didalam batch untuk memproses data
yang besar, beragam format, dari tidak terstruktur menjadi terstruktur.
Apache Hadoop adalah sebuah teknologi baru yang memungkinkan
volume data yang besar untuk diatur dan diproses sambil menjaga data pada
cluster penyimpanan data asli. Hadoop Distributed File System (HDFS)
adalah sistem penyimpanan jangka panjang untuk log web misalnya. Log web
ini berubah menjadi perilaku browsing dengan menjalankan program
MapReduce di cluster dan menghasilkan hasil yang dikumpulkan di dalam
cluster yang sama. Hasil ini dikumpulkan kemudian dimuat ke dalam sistem
DBMS relasional.
c. Data Analysis
Karena data tidak selalu bergerak selama fase organisasi, analisis ini juga
dapat dilakukan dalam lingkungan terdistribusi, di mana beberapa data akan
tinggal di mana data itu awalnya disimpan dan diakses secara transparan dari
sebuah data warehouse. Infrastruktur yang diperlukan untuk menganalisis
data yang besar harus mampu mendukung analisis yang lebih dalam seperti
analisis statistik dan data mining, pada data dengan jenis yang beragam dan
disimpan dalam sistem yang terpisah, memberikan waktu respon lebih cepat
didorong oleh perubahan perilaku; dan mengotomatisasi keputusan
berdasarkan model analitis. Yang paling penting, infrastruktur harus mampu
mengintegrasikan analisis pada kombinasi data yang besar dan data
perusahaan tradisional. Wawasan baru datang bukan hanya dari analisis data
baru, tapi dari menganalisisnya dalam konteks yang lama untuk memberikan
perspektif baru tentang masalah lama.
Misalnya, menganalisis data persediaan dari mesin penjual otomatis
cerdas dalam kombinasi dengan acara kalender untuk tempat di mana mesin
penjual otomatis berada, akan menentukan kombinasi produk yang optimal
dan jadwal pengisian untuk mesin penjual otomatis.
8. Tantangan dalam pemanfaatan Big Data

Pemanfaatan Big Data dapat terdapat banyak hambatan dan tantangan,
89
beberapa hal diantaranya berhubungan dengan data dimana melibatkan

acquisition, sharing dan privasi data, serta dalam analisis dan pengolahan data.
a. Privasi
Privasi merupakan isu yang paling sensitif, dengan konseptual, hukum, dan
teknologi, Privasi dapat dipahami dalam arti luas sebagai usaha perusahaan
untuk melindungi daya saing dan konsumen mereka. Data-data yang
digunakan / disimpan sebagai big data
b. Access dan sharing
Akses terhadap data, baik data lama maupun data baru dapat menjadi
hambatan dalam mendapatkan data untuk big data, terlebih pada data lama
dimana data- data tersimpan dalam bentuk – bentuk yang berbeda-beda dan
beragam ataupun dalam bentuk fisik, akses terhadap data baru juga
membutuhkan usaha yang lebih kerana diperlukannya izin dan lisensi untuk
mengakses data-data non-public secara legal.
c. Analisis
Bekerja dengan sumber data baru membawa sejumlah tantangan analitis.
relevansi dan tingkat keparahan tantangan akan bervariasi tergantung pada
jenis analisis sedang dilakukan, dan pada jenis keputusan yang akhirnya akan
bisa diinformasikan oleh data.
Tergantung dari jenis data terdapat 3 kategori dalam analisis data
1) Penentuan gambaran yang benar
Masalah ini biasanya ditemukan dalam penanganan unstructured
user-generated text-based data dimana data yang didapatkan belum
tentu benar karena data atau sumber yang salah.
2) Interpreting Data
Kesalahan-kesalahan seperti Sampling selection biasa merupakan
hal yang sering ditemukan dimana data yang ada tidak dapat digunakan
untuk mepresentasikan semua populasi yang ada, dan apophenia,
melihat adanya pola walaupun tidak benar-benar ada dikarenakan
jumlah data yang besar, dan kesalahan dalam menginterpreasikan
hubungan dalam data.
3) Defining and detecting anomalies
90
Tantangan sensitivitas terhadap spesifisitas pemantauansistem.

Sensitivitas mengacu pada kemampuan sistem pemantauan untuk
mendeteksi semua kasus sudah diatur untuk mendeteksi sementara
spesifisitas mengacu pada kemampuannya untuk mendeteksi hanya
kasus-kasus yang relevan. kegagalan untukmencapai hasil yang
terakhir "Tipe I kesalahan keputusan", juga dikenal sebagai "positif
palsu"; kegagalanuntuk mencapai mantan "Type II error", atau "negatif
palsu." Kedua kesalahan yang tidak diinginkan ketika mencoba untuk
mendeteksi malfungsi atau anomali, bagaimanapun didefinisikan,
untuk berbagai alasan. Positif palsu merusak kredibilitas sistem
sementara negatif palsu dilemparkan ragu pada relevansinya. Tapi
apakah negatif palsu lebih atau kurang bermasalah daripada positif
palsu tergantung pada apa yang sedang dipantau, dan mengapa itu
sedang dipantau.
9. Aplikasi big data

Bansod dkk. (2015) dalam penelitiannya menganalisis efisiensi big data
yang menggunakan framework dari Apache Spark dan HDFS serta keuntungan
dari penggunaaan framework Hadoop. Hasil dari penelitian ini adalah Apache
Spark terbukti memiliki performa dan skalabilitas yang tinggi serta bersifat
faulttolerant untuk analisis big data. MadhaviLatha dkk. membangun
infrastruktur big data untuk menganalisis data twitter secara realtime
menggunakan Apache Flume, Spark, Cassandra dan Zeppelin. Pada penelitian ini,
Cassandra dapat diintegrasikan dengan hdfs, kemudian data yang berasal dari
flume dan spark streaming disimpan dalam Cassandra menggunakan beberapa
fungsi khusus antara Cassandra dan Streaming Context dari Spark yaitu
com.datastax.spark.connector.streaming. Tujuan dari menyimpan data di
Cassandra yaitu untuk keperluan analisis lebih lanjut.
Beberapa contoh framework big data yaitu:
a. Apache Hadoop
Hadoop adalah proyek dengan kode sumber terbuka yang dikelola oleh
Apache Software Foundation. Hadoop digunakan untuk perhitungan yang
andal, dapat diukur, didistribusikan, tetapi juga dapat dieksploitasi sebagai
penyimpanan file dengan tujuan umum yang dapat menyimpan petabyte data.
91
Solusinya terdiri dari dua komponen utama: HDFS bertanggung jawab untuk
penyimpanan data di cluster Hadoop; dan sistem MapReduce dimaksudkan
untuk menghitung dan memproses volume data yang besar di cluster.
Bagaimana tepatnya Hadoop membantu memecahkan masalah memori
DBMS modern? Hadoop digunakan sebagai lapisan perantara antara database
interaktif dan penyimpanan data meningkatkan kecepatan kinerja pemrosesan
data tumbuh sesuai dengan peningkatan ruang penyimpanan data. Untuk
mengembangkannya lebih lanjut, Anda cukup menambahkan node baru ke
penyimpanan data. Secara umum, Hadoop dapat menyimpan dan memproses
banyak petabyte info. Di sisi lain, proses tercepat di Hadoop masih
membutuhkan beberapa detik untuk beroperasi. Itu juga melarang
kustomisasi data yang sudah disimpan dalam sistem HDFS. Last but not least,
solusinya mendukung transaksi. Jadi, terlepas dari popularitas yang pasti dari
solusi ini di antara pengguna selama bertahun-tahun yang akan datang,
alternatif baru yang lebih maju secara bertahap datang ke pasar untuk
menggantikannya (kami akan membahas beberapa di bawah).
Gambar 4. 2 Ilustrasi sistem apache hadoop
b. Apache Spark
92
Daftar kerangka kerja Big Data terbaik kami dilanjutkan dengan Apache
Spark. Ini adalah kerangka kerja open-source yang dibuat sebagai solusi yang
lebih maju dibandingkan dengan Apache Hadoop - kerangka awal yang
dibangun khusus untuk bekerja dengan Big Data. Perbedaan utama antara
kedua solusi ini adalah model pengambilan data. Hadoop menyimpan data ke
hard drive di sepanjang setiap langkah algoritma MapReduce, sementara
Spark mengimplementasikan semua operasi menggunakan memori
akses-acak. Karena hal ini, Spark memiliki kinerja 100 kali lebih cepat dan
memungkinkan pemrosesan aliran data. Pilar fungsional dan fitur utama
Spark adalah kinerja tinggi dan keamanan yang gagal. Ini mendukung empat
bahasa: Scala, Java, Python, dan R; dan terdiri dari lima komponen: inti dan
empat perpustakaan yang mengoptimalkan pekerjaan dengan Big Data dalam
berbagai cara ketika digabungkan. Spark SQL - salah satu dari empat pustaka
kerangka kerja khusus - berfungsi untuk pemrosesan data terstruktur
menggunakan DataFrames dan penyelesaian permintaan Hadoop Hive hingga
100 kali lebih cepat. Spark juga dilengkapi alat Streaming untuk pemrosesan
data khusus utas secara real time. Dengan demikian, pendiri Spark
menyatakan bahwa waktu rata-rata pemrosesan setiap mikro-batch hanya 0,5
detik. Berikutnya, ada MLib - sistem pembelajaran mesin terdistribusi
sembilan kali lebih cepat dari perpustakaan Apache Mahout. Dan
perpustakaan terakhir adalah GraphX yang digunakan untuk pemrosesan data
grafik yang dapat diskalakan.
Gambar 4. 3 Ilustrasi apache spark
c. Apache Hive
Apache Hive dibuat oleh Facebook untuk menggabungkan skalabilitas salah
93
satu alat big data yang paling populer dan banyak diminati, MapReduce dan
aksesibilitas SQL. Hive pada dasarnya adalah mesin yang mengubah
permintaan SQL menjadi rantai tugas pengurangan peta. Mesin mencakup
komponen seperti Parser (yang mengurutkan permintaan SQL yang masuk),
Pengoptimal (yang mengoptimalkan permintaan untuk efisiensi lebih), dan
Pelaksana (yang meluncurkan tugas dalam kerangka kerja MapReduce). Hive
dapat diintegrasikan dengan Hadoop (sebagai bagian server) untuk analisis
volume data yang besar.
Gambar 4. 4 Arsitektur apache hive
d. Map Reduce
MapReduce adalah algoritme untuk pemrosesan paralel volume data mentah
besar yang diperkenalkan oleh Google pada tahun 2004. MapReduce melihat
data sebagai jenis entri yang dapat diproses dalam tiga tahap: Peta
(pra-pemrosesan dan penyaringan data), Shuffle (node pekerja mengurutkan
data - setiap node pekerja sesuai dengan satu kunci output yang dihasilkan
dari fungsi peta), dan Reduce (fungsi pengurangan diatur oleh pengguna dan
mendefinisikan hasil akhir untuk kelompok yang terpisah dari data output.
Mayoritas semua nilai dikembalikan oleh mengurangi () fungsi adalah hasil
akhir dari tugas MapReduce). Karena logika sederhana seperti itu,
MapReduce menyediakan paralelisasi data secara otomatis, penyeimbangan
beban node pekerja yang efisien, dan kinerja gagal-aman.
94
Gambar 4. 5 Pase map reduce
e. Apache Storm
Apache Storm adalah solusi terkemuka yang berfokus pada bekerja dengan
aliran data besar secara real time. Fitur utama Storm adalah skalabilitas (tugas
pemrosesan didistribusikan oleh node cluster dan mengalir di setiap node)
dan kemampuan memulihkan segera setelah downtime (dengan demikian,
tugas sedang dialihkan ke node pekerja lain jika salah satu node sedang
down). Anda dapat bekerja dengan solusi ini dengan bantuan Java, serta
Python, Ruby, dan Fancy. Strom menampilkan sejumlah elemen yang
membuatnya sangat berbeda dari analog. Yang pertama adalah Tuple -
elemen representasi data utama yang mendukung serialisasi. Lalu ada Stream
yang menyertakan skema bidang penamaan di Tuple. Spout menerima data
dari sumber eksternal, membentuk Tuple dari mereka, dan mengirimkannya
ke Stream. Ada juga Bolt - pengolah data, dan Topologi - paket elemen
dengan deskripsi keterkaitan mereka analog pekerjaan MapReduce di
Hadoop, pada dasarnya). Ketika digabungkan, semua elemen ini membantu
pengembang untuk dengan mudah mengelola aliran besar data yang tidak
terstruktur.
95
Gambar 4. 6 Arsitektur apache storm
10. Evaluasi konfigurasi framework big data

Big data menjadi kebutuhan penggunaan server internet yang memungkinkan
kecepatan akses data yang besar dan cepat. Hadoop merupakan salah satu ekosistem
framework big data yang banyak digunakan dan direkomendasi.
Beberapa hal yang perlu dipahami penggunaan framework big data hadoop yaitu:
a. Hadoop merupakan ekosistem framework big data
Gambar 4. 7 Ekosistem Framework Hadoop

Framework hadoop merupakan kumpulan berbagai aplikasi yang saling
terhubung satu-sama lain yang membat pengelolaan big data yang lebih baik,
baik dari volume, kecepatan, dan keberagaman data.
96
b. Solusi big data hadoop

Dalam pendekatan Hadoop mendukung pemprosesan secara terdistribusi ke
kluster-kluster dari komputer. Hadoop didukung oleh dua komponen utama.
1) HDFS
HDFS merupakan sistem penyimpanan/storage terdistribusi, yang
melakukan proses pemecahan file besar menjadi bagian-bagian lebih kecil
kemudian didistribusikan ke kluster-kluster dari komputer.
2) MapReduce
MapReduce merupakan algoritma/komputasi terdistribusi
Gambar 4. 8 Ilustrasi Solusi Hadoop

Kelebihan Solusi Hadoop dengan didukung oleh dua komponen utama
tersebut yaitu (1) sangat baik untuk mengolah data berukuran besar, bahkan
untuk ukuran 1 TB sekalipun, (2) Lebih cepat dalam mengakses data
berukuran besar (3) Lebih bervariasi data yang bisa disimpan dan diolah
dalam bentuk HDFS.
Kekurangan Solusi Hadoop, sebagai berikut (1) Tidak cocok untuk
OLTP (Online Transaction Processing), di mana data dapat diakses secara
randon ke Relational Database (2) Tidak cocok untuk OLAP (Online
Analytic Processing) (3) Tidak cocok untuk DSS (Decission Support
System) (4) Proses update tidak bisa untuk dilakukan, namun untuk Append
bisa dilakukan.
c. Arsitektur hadoop
Framework hadoop terdiri atas empat modul/komponen utama yaitu (1)
Hadoop HDFS adalah sebuah sistem file terdistribusi. (2) Hadoop
97
MapReduce adalah sebuah model programming/Algoritma untuk pengelolaan

data skala besar dengan komputasi secara terdistribusi (3) Hadoop YARN adalah
sebuah platform resource-management yang bertanggung jawab untuk mengelola
resources dalam clusters dan scheduling (4) Hadoop Common adalah berisi
libraries dan utilities yang dibutuhkan oleh modul Hadoop lainnya.
Framework hadoop bukan hanya empat modul utama namun merupakan
kumpulan modul open source seperti Hive, Pig, Oozie, Zookeeper, Flume Sqoop,
Mahout, Hbase, Ambari, Spark.
d. Cara kerja hadoop
Secara umum cara kerja hadoop dalam pemrosesan pada sistem terdistribusi,
sebagai berikut
1) Cara kerja HDFS
SHDFS terdiri dari NameNode, yang mengelola metadata dari kluster,
dan DataNode yang menyimpan data/file. File dan direktori diwakili pada
NameNode oleh inode. Inode menyimpan atribut seperti permission,
modifikasi dan waktu akses, atau kuota namespace dan diskspace.
Isi file dibagi menjadi blok-blok file( biasanya 128 MB), dan setiap
blok file tersebut direplikasi di beberapa DataNodes. Blok file disimpan
pada sistem file lokal dari DataNode.
Namenode aktif memonitor jumlah salinan/replika blok file. Ketika
ada salinan blok file yang hilang karena kerusakan pada DataNode,
NameNode akan mereplikasi kembali blok file tersebut ke datanode lainnya
yang berjalan baik. NameNode mengelola struktur namespace dan
memetakan blok file pada datanode.
Gambar 4. 9 Cara kerja HDFS

98
2) Cara kerja Map Reduce

Map Reduce bertugas membagi data yang besar ke dalam potongan lebih
kecil dan mengatur mereka kedalam bentuk tupel untuk pemrosesan paralel.
Tupel adalah kombinasi antara key dan value-nya, dapat disimbolkan dengan
notasi: "(k1, v1)". Dengan pemrosesan bersifat paralel tersebut, tentunya akan
meningkatkan kecepatan dan keandalan komputasi pada sistem klustering.
Map Reduce terdiri atas tiga tahap, yaitu tahap map, shuffle, dan terakhir
reduce. Shuffle dan reduce digabungkan kedalam satu tahap saja yaitu tahap
reduce.
a) Map berfungsi memproses data inputan yang umumnya berupa file yang
tersimpan dalan HDFS (dapat di baca di Sistem file terdistribusi), inputan
tersebut kemudian diubah menjadi tuple yaitu pasangan
antara key dan value-nya.
b) Tahap reduce, memproses data inputan dari hasil proses map, yang
kemudian dilakukan tahap shuffle dan reduce yang hasil data set baru-nya
dis impan di HDFS kembali.
Gambar 4. 10 Cara kerja Map Reduce
3) Cara kerja Yarn

Yarn adalah memisahkan dua tanggung jawab utama dari
JobTracker/TaskTracker menjadi beberapa entitas yang terpisah.
a) Global ResourceManager di node master, yang berfungsi mengatur
semua resource yang digunakan aplikasi dalam sistem.
b) ApplicationMaster di setiap aplikasi, yang berfungsi untuk negosiasi
resource dengan ResourceManager dan kemudian bekerja sama dengan
NodeManager untuk mengeksekusi dan memonitor tasks
99
c) Node Manager di Agen-Framework setiap node slave, yang bertanggung

jawab terhadap Container, dengan memantau penggunaan
resource/sumber daya dari container (cpu, memori, disk, jaringan ) dan
melaporkannya pada Resource Manager
d) Container di setiap aplikasi yang jalan di Node Manager, sebagai wadah
penyimpanan data/file
Gambar 4. 11 Cara kerja Yarn
e. Instalasi dan evaluasi konfigurasi framework big data (hadoop)
Beberapa Software yang dibutuhkan untuk menjalankan hadoop adalah

Operating System, Hadoop dan Java Development Kit (JDK). Pada tutorial
menggunakan operating system Windows 10, Hadoop 2.6.3 versi binary, Java
Development Kit versi 1.8.0_45(bisa didownload di http
//www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151
.html).
1) Langkah pertama yang kita lakukan untuk memasang hadoop single node
pada windows adalah men-download hadoop versi binary (bisa didownload
di https //hadoop.apache.org/releases.html), pastikan juga Java Development
Kit sudah terpasang. Kemudian extract hadoop menggunakan Winrar atau
aplikasi yang lainnya(disini penulis mengekstraknya di D:\hadoop\)
100
Gambar 4. 122 Tahap 1 Inalasi Hadoop
2) Untuk memasang hadoop di OS Windows kita membutuhkan file tambahan

yang bisa di download dihttps
//codeload.github.com/srccodes/hadoop-common-2.2.0-bin/zip/master.
Setelah itu Extract file tambahan tersebut di dalam hadoop\bin

3) Tahap berikutnya adalah tahapan Configuration, pada tahap ini kita akan
menambahkan environment variable untuk 'JAVA_HOME' dan
'HADOOP_PREFIX' dengan cara pilih 'Control Panel>System>Advanced
System Settings>Environment Variables' kemudian pilih New dan masukan
'JAVA_HOME' dan path instalasi JDKnya misal
'C:\PROGRA~1\Java\jdk1.8.0_05'
101
tambahkan juga Environment Variables untuk 'HADOOP_PREFIX' =

'D:\hadoop'
Setelah itu ubah atau tambahkan file-file pada directory \etc\hadoop
file 'hadoop-env.cmd'
Set HADOOP_PREFIX=%HADOOP_PREFIX% set
HADOOP_CONF_DIR=%HADOOP_PREFIX%\etc\hadoop
set YARN_CONF_DIR=%HADOOP_CONF_DIR%
set PATH=%PATH%;%HADOOP_PREFIX%\bin
file :'hdfs-site.xml'
dfs.replication 1 dfs.data.dir file:///d:/hadoop/tmp/dfs/name/data true dfs.na
me.dir file:///d:/hadoop/tmp/dfs/name true
File 'core-site.xml'
fs.default.name hdfs://127.0.0.1:41000
4) Dan sekarang kita masuk ke tahap menjalankan hadoop, pertama yang kita
lakukan adalah melakukan format untuk Hadoop Distributed File System
(HDFS) dengan perintah
D \hadoop\bin>hdfs namenode –format
dan sebagai indikator format yang kita lakukan berhasil, akan muncul
seperti gambar berikut
102

hadoop juga akan membuat file baru di dalam path yang sudah kita
konfigurasikan di dalam file 'hdfs-site.xml' tadi.
5) kemudian kita jalankan service atau daemon dfs
D \hadoop\sbin>start-dfs.cmd
Sekarang kita coba perintah untuk mengkopi file lokal README.txt yang
di drive D: ke dalam hadoop dan membuat directory BelajarHadoop
D:\hadoop\bin>hdfs dfs -put d:\README.txt / D:\hadoop\bin>hdfs dfs
-mkdir /BelajarHadoop
D:\hadoop\bin>hdfs dfs -ls /

6) Setelah service atau daemon hdfs jalan kita juga bisa melihatnya melalui web
browser dengan mengetikan 1 7.0.0.1:50070 pada address bar.
103

Rangkuman
Framework adalah sebuah software untuk memudahkan para programer untuk
membuat sebuah aplikasi web yang di dalam nya ada berbagai fungsi diantaranya
plugin, dan konsep untuk membentuk suatu sistem tertentu agar tersusun dan
tersetruktur dengan rapih.
Big Data adalah sebuah sistem teknologi yang diperkenalkan untuk
menanggulangi 'ledakan informasi' seiring dengan semakin bertumbuhnya ekosistem
pengguna perangkat mobile dan data internet.
Karakteristik big data ada tiga yaitu (1) Volume di sini berkaitan dengan ukuran
media penyimpanan data yang sangat besar atau mungkin tak terbatas. Big data
memiliki jumlah data yang sangat besar sehingga dalam proses pengolahan data
dibutuhkan suatu penyimpanan yang besar dan dibutuhkan analisis yang lebih spesifik
(2) Big data memiliki aliran data yang yang cepat dan real time. Velocity
dapatdiartikan sebagai kecepatan proses (3) Big data memiliki bentuk format data
yang beragam baik terstruktur ataupun tidak terstruktur dan bergantung pada
banyaknya sumber data. Variety berarti tipe atau jenis data yang dapat diakomodasi
Big Data dapat diasumsikan sebagai sebuah media penyimpanan data yang
menawarkan ruang tak terbatas, serta kemampuan untuk mengakomodasi dan
memproses berbagai jenis data dengan sangat cepat. Contoh big data termasuk indeks
pencarian Google, database profil pengguna Facebook, dan daftar produk
Amazon.com. Kumpulan data ini (atau “datasets“) sangat besar sehingga data tidak
dapat disimpan dalam database biasa, atau bahkan komputer tunggal
104
Seperti data pergudangan, toko web atau platform TI, infrastruktur untuk data
yang besar memiliki kebutuhan yang unik. Dalam mempertimbangkan semua
komponen platform data yang besar, penting untuk diingat bahwa tujuan akhir adalah
untuk dengan mudah mengintegrasikan data yang besar dengan data perusahaan Anda
untuk memungkinkan Anda untuk melakukan analisis mendalam pada set data
gabungan. Requirement dalam big data infrastruktur: (1) data acquisition, (2) data
organization (3) data analysis
Dalam pendekatan Hadoop mendukung pemprosesan secara terdistribusi ke
kluster-kluster dari komputer. Hadoop didukung oleh dua komponen utama HDFS
dan MapReduce
HDFS merupakan sistem penyimpanan/storage terdistribusi, yang melakukan
proses pemecahan file besar menjadi bagian-bagian lebih kecil kemudian
didistribusikan ke kluster-kluster dari komputer. Sedangkan MapReduce merupakan
algoritma/komputasi terdistribusi
SHDFS terdiri dari NameNode, yang mengelola metadata dari kluster,
dan DataNode yang menyimpan data/file. File dan direktori diwakili pada NameNode
oleh inode. Inode menyimpan atribut seperti permission, modifikasi dan waktu akses,
atau kuota namespace dan diskspace.
MapReduce bertugas membagi data yang besar ke dalam potongan lebih kecil
dan mengatur mereka kedalam bentuk tupel untuk pemrosesan paralel. Tupel adalah
kombinasi antara key dan value-nya, dapat disimbolkan dengan notasi : "(k1, v1)".
Dengan pemrosesan bersifat paralel tersebut, tentunya akan meningkatkan kecepatan
dan keandalan komputasi pada sistem klustering.
Yarn adalah memisahkan dua tanggung jawab utama dari
JobTracker/TaskTracker menjadi beberapa entitas yang terpisah.
Beberapa Software yang dibutuhkan untuk menjalankan hadoop adalah Operating
System, Hadoop dan Java Development Kit (JDK).
Tes Formatif
1. Sebuah software untuk memudahkan para programer untuk membuat sebuah
aplikasi web yang di dalam nya ada berbagai fungsi diantaranya plugin, dan
konsep untuk membentuk suatu sistem tertentu agar tersusun dan tersetruktur
dengan rapih biasa disebut…
a. Firewall
105
b. Framework
c. Plugin
d. Bigdata
e. Website
2. Sistem teknologi yang diperkenalkan untuk menanggulangi 'ledakan informasi'
seiring dengan semakin bertumbuhnya ekosistem pengguna perangkat mobile dan
data internet disebut…
a. Firewall
b. Framework
c. Plugin
d. Bigdata
e. Website
3. Kecepatan proses aliran data dan real time merupakan salah satu karakteristik
dari big data yaitu…
a. Volume
b. Variety
c. Vibratory
d. Velocity
e. Actual
4. Teknologi Big Data memiliki kemampuan untuk menangani berbagai variasi
data. Secara umum ada 2 kelompok data yang harus dikelola, yaitu …
a. Data terstruktur dan tidak terstruktur
b. Data langsung dan tidak langsung
c. Data integrasi dan tidak integrasi
d. Data penting dan tidak penting
e. Data akusisi dan tidak akusisi
5. Berikut ini yang tidak termasuk tahap pengelolaan Big Data serta perangkat bantu
(tools) yang dapat dimanfaatkan untuk mendukung pemrosesan pada tiap tahap
yaitu…
a. Acquired
b. Actual
c. Accessed
d. Analytic
e. Application
106
6. Membantu perusahaan mengambil keputusan secara lebih tepat dan akurat

berdasarkan data serta mengetahui trend pasar dan keinginan konsumen,
merupakan pemanfaatan big data pada sektor …
a. Bisnis
b. Public
c. Perdagangan
d. Pertanian
e. Perekonomian
7. Salah satu kebutuhan dalam big data infrastruktur yang mengacu pada aliran data
dengan kecepatan tinggi dan ragam yang bervariasi yaitu…
a. Data Organization
b. Data Acquisition
c. Data Analysis
d. Data Structure
e. Data Actual
8. Berikut ini yang tidak termasuk aplikasi bigdata yaitu…
a. Apache Hadoop
b. Apache Spark
c. Apache Structure
d. Apache Hive
e. Apache Strom
9. Gambar di bawah ini merupakan arsitektur dari aplikasi bigdata yaitu…
a. Apache Hadoop
b. Apache Spark
c. Apache Hive
107
d. Apache Structure
e. Apache Strom
10. Gambar di bawah ini merupakan cara kerja dari…
a. Hadoop HDFS
b. Hadoop MapReduce
c. Hadoop YARN
d. Hadoop Common
e. Hadoop Oozie
Daftar Pustaka
A. Bansod, "Efficient big data analysis with Apache spark in HDFS," Int J Eng Adv
Technol, vol. 4, pp. 313-316, 2015.
A. MadhaviLatha and G. V. Kumar, "Streaming Data Analysis using Apache
Cassandra and Zeppelin," International Journal of Innovative Science,
Engineering & Technology, vol. 3, no. 10, 2016.
Bagas Prakarsa dan Alif Subardono, 2017, Implementasi Big Data Pada Data
Transaksi Tiket Elektronik Bus Rapid Transit (BRT), Teknologi Jaringan,
Departemen Teknik Elektro dan Informatika, Sekolah Vokasi, Universitas Gadjah
Mada, ISSN: 2085-6350.
Budi Maryanto, 2017, “Big Data Dan Pemanfaatannya Dalam Berbagai Sektor, Media
Informatika Vol.16 No.2 (2017)
Dumbill, E. (2012). Big Data Now Current Perspective. O'Reilly Media
Eaton, C., Dirk, D., Tom, D., George, L., & Paul, Z. (n.d.). Understanding Big Data.
Mc Graw Hill
108
Hilbert and Lopez, 2011, The World’s Technological Capacity to Store,

Communicate, and Compute Information, Science
Instruksi Presiden No. 9 Tahun 2015 tentang Pengelolaan Komunikasi Publik.
Jessica, 2013, “Pengenalan Big Data”, Binus University, Jakarta
Lupton, D. (2015) Introduction: Life is Digital dalam Digital
M. James, "Big data: the next frontier for innovation, competition, and productivity,"
The McKinsey Global Institute, 2011.
Tim Penyusun Kominfo, 2015, Buku Saku Big Data, Kementerian Komunikasi dan
Informatika.
Vience Mutiara Rumata, 2016, “Peluang Dan Tantangan Big Data Dalam Penelitian
Ilmu Sosial: Sebuah Kajian Literatur”, Jurnal Penelitian Komunikasi dan Opini
Publik Vol. 20 No.1, Agustus 2016: 155-167
Online:
Adhi Maulana, 2014, ”Apa itu Teknologi Big data”,
https://www.liputan6.com/tekno/read/801638/apa-itu-teknologi-big-data (16
Januari 2014)
Ashya, 2022, “Kenalan dengan Big Data:Pengertian dan Kegunaan”,
https://ruanglaptop.com/apa-itu-big-data/ (20 Februari 2022)
Fella Magita Putri, 2015, ”Apa Pengertian dari Klasifikasi data?”,
https://timur.ilearning.me/2015/12/24/apa-pengertian-dari-klasifikasi-data/ (24
Desember 2015)
Vitaliy Ilyukha, 2022, ”10 Best Bug Data Tool for 2022”,
https://jelvix.com/blog/top-5-big-data-frameworks (2022)
109
Tugas Akhir
1. Buatlah penyimpanan data melalui cloud computing dan deskrifsikan dengan
baik langkah-langkahnya secara sistematis dengan menggunakan berbagai
aplikasi?
2. Buatlah menyimpanan recovery data dan deskripsikan dengan baik
langkah-langkahnya secara sistematis dengan menggunakan berbagai aplikasi?
3. Buatlah sistem pengontrolan berbasis arduino untuk mengontrol 2 buah lampu
secara otomatis dan buatkan laporan kegiatan pelaksanaanya.
Tes Sumatif
1. Pengertian Cloud computing adalah konsep yang digunakan untuk
menggambarkan berbagai konsep komputasi melibatkan sejumlah komputer yang
terhubung melalui jaringan komunikasi real-time seperti internet, maksud dari
komunikasi real-time adalah ….
A. Komunikasi satu arah
B. Komunikasi timbal-balik
C. Komunikasi komputer
D. Komunikasi komputasi
E. Komunikasi setiap waktu
2. Cloud computing pada dasarnya adalah menggunakan internet-based service

untuk mendukung proses bisnis, konsep cloud service dengan karakteristik sangat
cepat di deploy, maksud dari cepat di deploy adalah…
A. Instant untuk implementasi
B. Service untuk pelayanan
C. Platform mudah digunakan
D. Infrastructure yang modern
E. System yang kompleks
3. Sistem cloud bekerja menggunakan internet sebagai server dalam mengolah data,
Infrastruktur seperti media penyimpanan data dan juga instruksi/perintah dari
pengguna disimpan dengan cara.….
A. Pengiriman data melalui jaringan internet
110
B. Cloud Storage melalui jaringan internet

C. Virtual melalui jaringan internet
D. Penyimpanan sementara melalui jaringan internet
E. Server Storage melalui jaringan internet
4. Cara kerja cloud computing dengan server pusat mengelola sistem memantau lalu
lintas dan permintaan client untuk memastikan semuanya berjalan lancar.
Middleware network memungkinkan komputer untuk berkomunikasi satu sama
lain. Klasifikasi layanan salah satunya adalah PaaS (Platform as a Service) hal ini
memfokuskan untuk membuat desain, men-deploy dan juga meng-host aplikasi di
internet dan Saas layanan ini berfungsi untuk...
A. Service berupa akses hardware kepada kostumer
B. Service berupa akses software kepada kostumer
C. Service berupa akses cart kepada kostumer
D. Service berupa akses lalu lintas kepada kostumer
E. Service berupa akses jaringan kepada kostumer
5. Manfaat cloud computing adalah skalabilitas, aksesibilitas, keamanan,

mengembangkan kreasi, dan kecemasan. Maksud dari kecemasan pada manfaat
cloud computing adalah….
A. Data tersimpan di cloud dan hardisk
B. Data tersimpan di cloud hardisk meski gadgetnya rusak
C. Data tersimpan di cloud meski data rusak
D. Data tersimpan di cloud dan gadgetnya
E. Data tersimpan di cloud meski hardisk rusak
6. Quality of Service (QoS) adalah kemampuan suatu jaringan untuk menyediakan

layanan yang baik dengan menyediakan bandwith, mengatasi jitter dan delay.
Parameter QoS adalah latency, jitter, packet loss, throughput, MOS, echo
cancellation dan PDD. Quality of Service merujuk ke tingkat….
A. Kemampuan dan ketepatan penyampaian berbagai jenis beban data di dalam
suatu komunikasi
B. Keterbatasan dan keamanan penyampaian berbagai jenis beban data di dalam
suatu komunikasi
111
C. Kecepatan dan keandalan penyampaian berbagai jenis beban data di dalam

suatu komunikasi
D. Ketepatan dan kemampuan penyampaian berbagai jenis beban data di dalam
suatu komunikasi
E. Keandalan dan keamanan penyampaian berbagai jenis beban data di dalam
suatu komunikasi
7. Beberapa alasan mengapa memerlukan QoS, salah satunya untuk meningkatkan

performansi untuk aplikasi-aplikasi yang sensitif terhadap delay, seperti Voice
dan Video. Maksud sentitif delay adalah….
A. Mudah dikirim
B. Mudah dianalisa
C. Rentang keamanan
D. Rentang keterlambatan
E. Rentang virus
8. Tingkat QoS yang umum dipakai, yaitu best-effort service, integrated

service dan differentiated service. Best-effort service digunakan untuk
melakukan semua usaha agar dapat ….
A. Mengirimkan sebuah paket ke suatu tujuan
B. Menerima sebuah paket ke suatu tujuan
C. Memperbaiki sebuah paket ke suatu tujuan
D. Meneruskan sebuah paket ke suatu tujuan
E. Memonitor sebuah paket ke suatu tujuan
9. Performansi mengacu ke tingkat kecepatan dan keandalan penyampaian

berbagai jenis beban data di dalam suatu komunikasi. Performansi merupakan
kumpulan dari beberapa parameter yaitu throughput, packet loss, delay, jitter,
MOS, echo Cancelation, dan post dial delay. Packet Loss, merupakan
parameter menggambarkan suatu kondisi jumlah paket yang hilang, dapat
terjadi karena ….
A. Collision dan delay pada jaringan
B. Buffer dan congestion pada jaringan
C. Rate dan congestion pada jaringan
112
D. Collision dan latency pada jaringan

E. Collision dan congestion pada jaringan
10. Faktor pengganggu dalam jaringan yang menyebabkan turunya nilai QoS yaitu
redaman, distorsi, noise. Noise ini sangat berbahaya karena….
A. Jika terlalu cepat akan dapat mengubah data asli yang dikirimkan
B. Jika terlalu besar akan dapat mengubah data asli yang dikirimkan
C. Jika terlalu lambat akan dapat mengubah data asli yang dikirimkan
D. Jika terlalu kecil akan dapat mengubah data asli yang dikirimkan
E. Jika terlalu panjang akan dapat mengubah data asli yang dikirimkan
11. IoT bekerja dengan memanfaatkan suatu argumentasi pemrograman, dimana

tiap-tiap perintah argumen tersebut bisa menghasilkan suatu interaksi antar mesin
yang telah terhubung secara otomatis tanpa campur tangan manusia dan tanpa
terbatas jarak berapapun jauhnya. IoT mampum bekerja tanpa terbatas jarak
berapapun jauhnya karena IoT memanfaatkan ….
A. Network
B. Local host
C. Internet
D. Local Server
E. External Server
12. Colokan listrik yang dimiliki dikoneksikan dengan Wi-Fi dan disambungkan
dengan barang-barang elektronik seperti lampu atau oven, merupakan
implementasi dari …..
A. Iot
B. Smart Home
C. Smart Building
D. Smart City
E. Smart Komputasi
13. Microcontroller dapat dimanfaatkan dalam pembuatan IoT guna membantu

kegiatan sehari dapat menggunakan ….
A. Solenoid Doorlock
113
B. Servo SG90
C. Arduino
D. Sensor PIR
E. Mni PC
14. Smart Garage Door berfungsi dalam implementasi smart home yang bertujuan
untuk pengontrolan jarak jauh dan otomatisasi. Smart Garage Door
diperuntukkan untuk …...
A. Memonitor Status Pintu Pagar
B. Memonitor Status Pintu Rumah
C. Memonitor Status Pintu Mobil
D. Memonitor Status Pintu Garasi
E. Memonitor Status Pintu Kamar
15. Beberapa unsur pembentuk IoT yang mendasar termasuk kecerdasan buatan,
konektivitas, sensor, keterlibatan aktif serta pemakaian perangkat berukuran
kecil. Kecerdasan Buatan (Artificial Intelligence/AI) IoT membuat mesin menjadi
“Smart”. IoT bisa meningkatkan segala aspek kehidupan dengan teknologi yang
didasarkan pada….
A. User Interface
B. Artificial Intelligence
C. Software IoT
D. Hardware IoT
E. User Control
16. Framework adalah sebuah software untuk memudahkan programer membuat

aplikasi yang di dalam nya ada berbagai fungsi diantaranya plugin, dan konsep
untuk membentuk suatu sistem tertentu agar tersusun dan tersetruktur dengan
rapih. Aplikasi yang dimaksud adalah….
A. Aplikasi Desktop
B. Aplikasi Mobile
C. Aplikasi Web
D. Aplikasi GIS
E. Aplikasi GUI
114
17. Karakteristik big data ada tiga yaitu volume, velocity, variety. Variety adalah
big data memiliki bentuk format data yang beragam baik terstruktur ataupun
tidak terstruktur dan bergantung pada banyaknya sumber data. Berdasarkan
definisi, variety berarti ….
A. Tipe atau kapasitas data yang dapat diakomodasi
B. Jumlah atau jenis data yang dapat diakomodasi
C. Tipe atau besaran data yang dapat diakomodasi
D. Model atau jenis data yang dapat diakomodasi
E. Tipe atau jenis data yang dapat diakomodasi
18. Teknologi Big Data memiliki kemampuan untuk menangani berbagai variasi data.
Secara umum ada 2 kelompok data yang harus dikelola, yaitu data terstruktur dan
data tidak terstruktur. Data terstruktur adalah kelompok data yang memiliki tipe
data, format, dan struktur yang telah terdefinisi. Sumber datanya dapat berupa ….
A. Data transaksional, Docx, tradisional RDBMS, file CSV, spreadsheets
B. Data transaksional, OLAP data, tradisional RDBMS, file CSV, spreadsheets
C. Data transaksional, OLAP data, tradisional RDBMS, file PPT, spreadsheets
D. Data transaksional, OLAP data, tradisional RDBMS, file CSV, mdb
E. Data transaksional, js, tradisional RDBMS, file CSV, spreadsheets
19. Tahap pengelolaan big data yaitu acquired, accessed, analytic, dan application
serta perangkat bantu (tools) yang dapat dimanfaatkan untuk mendukung
pemrosesan pada tiap tahap. Analytic yang dilakukan dapat berupa descriptive ,
diagnostic , predictive (memprediksi kejadian dimasa depan) maupun prescriptive
analytics (merekomendasikan pilihan dan implikasi dari setiap opsi). Maksud
diagnostic dan descriptive adalah….
A. Penggambaran data dan mencari sebab akibat berdasar data
B. Penambahan data dan mencari sebab akibat berdasar data
C. Pemantauan data dan mencari sebab akibat berdasar data
D. Prediksi data dan mencari sebab akibat berdasar data
E. Perubahan data dan mencari sebab akibat berdasar data
115
20. Hadoop adalah proyek dengan kode sumber terbuka yang dikelola oleh Apache
Software Foundation. Hadoop digunakan untuk perhitungan yang andal, dapat
diukur, distribusi, tetapi juga dapat dieksploitasi sebagai penyimpanan file
dengan tujuan umum yang dapat menyimpan petabyte data. Terdapat dua
komponen utama HDFS dan MapReduce. HDFS bertanggung jawab untuk….
A. Penyimpanan data di cluster hardisk
B. Penyimpanan data di cluster MapReduce
C. Penyimpanan data di cluster RAM
D. Penyimpanan data di cluster hadoop
E. Penyimpanan data di cluster internet
116
Kunci Jawaban Tes

Kunci Jawaban Tes Formatif KB 1
1. C 6. B
2. C 7. A
3. B 8. E
4. A 9. A
5. C 10. B

1. E 6. D
2. C 7. B
3. A 8. A
4. D 9. D
5. B 10. B

1. A 6. D
2. D 7. E
3. B 8. C
4. C 9. B
5. A 10. A

1. B 6. A
2. D 7. B
3. D 8. C
4. A 9. C
5. B 10. A
2
Kunci Jawaban Tes Sumatif

1. E 11. C
2. A 12. B
3. C 13. C
4. B 14. D
5. E 15. B
6. C 16. C
7. D 17. E
8. A 18. B
9. E 19. A
10. B 20. D

Final Modul 6-KB 4 (Fathahillah) 2022

Diunggah oleh

Informasi Dokumen

Deskripsi Asli:

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Final Modul 6-KB 4 (Fathahillah) 2022

Diunggah oleh

Hak Cipta:

Format Tersedia

81

2. Mengevaluasi konfigurasi framework Big Data

Gambar 4. 1 Ilustrasi big data

2. Pemicu Perkembangan Big Data

4. Tahapan Pengelolaan Big Data

6. Pemanfaatan Big Data Pada Sektor Layanan Publik

7. Membangun Big Data Platform

sehingga menghemat waktu dan uang dengan tidak memindah-midahkan data

8. Tantangan dalam pemanfaatan Big Data

beberapa hal diantaranya berhubungan dengan data dimana melibatkan

Tantangan sensitivitas terhadap spesifisitas pemantauansistem.

9. Aplikasi big data

Gambar 4. 2 Ilustrasi sistem apache hadoop

Gambar 4. 3 Ilustrasi apache spark

Gambar 4. 4 Arsitektur apache hive

Gambar 4. 5 Pase map reduce

Gambar 4. 6 Arsitektur apache storm

10. Evaluasi konfigurasi framework big data

Gambar 4. 7 Ekosistem Framework Hadoop

b. Solusi big data hadoop

Gambar 4. 8 Ilustrasi Solusi Hadoop

MapReduce adalah sebuah model programming/Algoritma untuk pengelolaan

Gambar 4. 9 Cara kerja HDFS

2) Cara kerja Map Reduce

Gambar 4. 10 Cara kerja Map Reduce

3) Cara kerja Yarn

c) Node Manager di Agen-Framework setiap node slave, yang bertanggung

Gambar 4. 11 Cara kerja Yarn

e. Instalasi dan evaluasi konfigurasi framework big data (hadoop)

Beberapa Software yang dibutuhkan untuk menjalankan hadoop adalah

Gambar 4. 122 Tahap 1 Inalasi Hadoop

2) Untuk memasang hadoop di OS Windows kita membutuhkan file tambahan

Gambar 4. 133 Tahap 2 Inalasi Hadoop

Gambar 4. 144 Tahap 3 Inalasi Hadoop

tambahkan juga Environment Variables untuk 'HADOOP_PREFIX' =

Gambar 4. 155 Tahap 4 Inalasi Hadoop

Gambar 4. 166 Tahap 5 Inalasi Hadoop

Gambar 4. 177 Tahap 6 Inalasi Hadoop

6. Membantu perusahaan mengambil keputusan secara lebih tepat dan akurat

Hilbert and Lopez, 2011, The World’s Technological Capacity to Store,

2. Cloud computing pada dasarnya adalah menggunakan internet-based service

B. Cloud Storage melalui jaringan internet

5. Manfaat cloud computing adalah skalabilitas, aksesibilitas, keamanan,

6. Quality of Service (QoS) adalah kemampuan suatu jaringan untuk menyediakan

C. Kecepatan dan keandalan penyampaian berbagai jenis beban data di dalam

7. Beberapa alasan mengapa memerlukan QoS, salah satunya untuk meningkatkan

8. Tingkat QoS yang umum dipakai, yaitu best-effort service, integrated

9. Performansi mengacu ke tingkat kecepatan dan keandalan penyampaian

D. Collision dan latency pada jaringan

11. IoT bekerja dengan memanfaatkan suatu argumentasi pemrograman, dimana

13. Microcontroller dapat dimanfaatkan dalam pembuatan IoT guna membantu

16. Framework adalah sebuah software untuk memudahkan programer membuat

Kunci Jawaban Tes

Kunci Jawaban Tes Formatif KB 2

Kunci Jawaban Tes Formatif KB 3

Kunci Jawaban Tes Formatif KB 4

Kunci Jawaban Tes Sumatif

Anda mungkin juga menyukai