Anda di halaman 1dari 44

MODUL 6

BAHAN AJAR BERBASIS MASALAH

FRAMEWORK BIG DATA


TEKNIK KOMPUTER DAN INFORMATIKA
UNIVERSITAS NEGERI MANADO
PPG DALJAB 2021

DISUSUN OLEH :

AHMAD ZAKI ROBBANI

201502846818
0|Page
MODUL 6
BAHAN AJAR BERBASI MASALAH
FRAMEWORK BIG DATA

DISUSUN OLEH :

AHMAD ZAKI ROBBANI

201502846818

TEKNIK KOMPUTER DAN INFORMATIKA

UNIVERSITAS NEGERI MANADO


PPG DALJAB 2021

i|Page
KATA PENGANTAR
Puji syukur penulis panjatkan kehadirat Allah SWT atas berkat dan rahmat-Nya
sehingga Modul 6 Bahan Ajar Berbasi Masalah ini dapat diselesaikan tepat pada
waktunya.
Modul 6 ini secara garis besar membahas tentang bahan ajar berbasis masalah.
Adapun kegiatan pembelajaran yang dibahas pada modul ini yaitu: Framework
dan Big Data. Tujuan penyusunan modul ini untuk membantu peserta PPG dalam
melakukan pendalaman materi dalam bidang Sistem Informatika, Jaringan dan
Aplikasi. Melalui Modul ini diharapkan peserta PPG memiliki kompetensi dalam
bidang Sistem Informatika, Jaringan dan Aplikasi.
Penyelesaian modul ini tidak terlepas dari bantuan dari berbagai pihak. Oleh
karena itu, penulis mengucapkan terima kasih kepada:
1. Bapak Prof. Dr. Hiskia Komang Manggopa, M.AP. sebagai Dosen Universitas
Negeri Manado, yang telah memberikan kesempatan, dukungan, dan
memfasilitasi penulis dalam penulisan modul ini.
2. Teman-teman PPG TKI UNIMA angkatan 4 yang telah memberikan masukan
saran kepada penulis untuk menulis salah satu modul PPG ini.
3. Pihak-pihak lain yang tidak sempat penulis sebutkan satu-persatu.
Modul ini mungkin masih belum sempurna. Oleh karena itu, penulis sangat
mengharapkan dan mengucapkan terimakasih jika ada saran, masukan, kritikan
yang konstruktif demi kesempurnaan modul.
Akhirnya, semoga segala bantuan mendapat pahala dari Allah SWT. Yang
berlipat ganda. Amin.

Penulis,

Ahmad Zaki Robbani, S.Kom

ii | P a g e
DAFTAR ISI
JUDUL ................................................................................................................ i
KATA PENGANTAR ........................................................................................ ii
DAFTAR ISI ..................................................................................................... iii
DAFTAR GAMBAR .......................................................................................... v
A. Pendahuluan .................................................................................................. 1
1. Deskripsi Singkat ........................................................................................ 1
2. Relevansi .................................................................................................... 1
3. Petunjuk Belajar ......................................................................................... 1
B. Inti .................................................................................................................. 2
1. Capaian Pembelajaran: ................................................................................ 2
2. Pokok-pokok Materi: ................................................................................... 2
3. Uraian Materi .............................................................................................. 2
a. Pemaparan Masalah ................................................................................ 2
b. Identikasi Konsep Materi ........................................................................ 2
c. Paparan Konsep Materi ........................................................................... 3
1) Framework big data ........................................................................... 3
2) Pemicu Perkembangan Big Data ........................................................ 6
3) Klasifikasi Data ................................................................................. 6
4) Tahapan Pengelolaan Big Data .......................................................... 7
5) Pemanfaatan Big Data Pada Sektor Bisnis ......................................... 8
6) Pemanfaatan Big Data Pada Sektor Layanan Publik ........................... 8
7) Membangun Big Data Platform ......................................................... 9
8) Tantangan dalam pemanfaatan Big Data .......................................... 11
9) Aplikasi big data .............................................................................. 13
10) Evaluasi konfigurasi framework big data ......................................... 19
d. Solusi atas masalah yang ada ................................................................ 29
4. Tugas/Latihan............................................................................................ 30
5. Forum Diskusi ........................................................................................... 30

iii | P a g e
C. Penutup ........................................................................................................ 30
1. Rangkuman ............................................................................................... 30
2. Tes Formatif .............................................................................................. 32
Daftar Pustaka ................................................................................................... 36
Kunci Jawaban Tes ............................................................................................ 36

iv | P a g e
DAFTAR GAMBAR
Gambar 6. 1 Ilustrasi big data............................................................................... 6
Gambar 6. 2 Ilustrasi sistem apache hadoop ....................................................... 15
Gambar 6. 3 Ilustrasi apache spark ..................................................................... 16
Gambar 6. 4 Arsitektur apache hive ................................................................... 17
Gambar 6. 5 Pase map reduce ............................................................................ 18
Gambar 6. 6 Arsitektur apache storm ................................................................. 19
Gambar 6. 7 Ekosistem Framework Hadoop ...................................................... 20
Gambar 6. 8 Ilustrasi Solusi Hadoop .................................................................. 21
Gambar 6. 9 Cara kerja HDFS ........................................................................... 23
Gambar 6. 10 Cara kerja Map Reduce ................................................................ 24
Gambar 6. 11 Cara kerja Yarn ............................................................................ 25

v|Page
A. Pendahuluan
1. Deskripsi Singkat
Secara umum, tujuan Kegiatan Belajar 4 ini adalah untuk memberikan
pemahaman, pengetahuan, keterampilan, dan sikap kepada guru atau
peserta PPG tentang framework dan big data. Secara khusus, tujuan
Kegiatan Belajar 4 ini adalah agar Peserta mampu: (1) mengkonfigurasi
framework big data; dan (2) mengevaluasi konfigurasi framework big data.

2. Relevansi
Kegiatan Belajar 4 ini menggunakan beberapa dukungan perangkat yang
yang harus disediakan. Peserta mampu dan mengevaluasi konfigurasi
framework big data. Perangkat-perangkat yang digunakan dalam kegiatan
pembelajaran modul ini adalah Personal Computer/Laptop dan konesksi
internet.

3. Petunjuk Belajar
Pada Kegiatan Belajar 4 ini, urutan yang harus dilakukan oleh peserta
dalam mempelajari modul ini adalah :
1. Membaca uraian materi pembelajaran sehingga memiliki
pengetahuan, keterampilan dan sikap kompetensi yang akan dicapai.
2. Melakukan aktifitas pembelajaran dengan urutan atau kasus
permasalahan sesuai dengan contoh.
3. Mengerjakan latihan/soal atau tugas dengan mengisi lembar kerja
yang telah disediakan.

1|Page
B. Inti
1. Capaian Pembelajaran
- Mampu Konfigurasi framework big data
- Mengevaluasi konfigurasi framework Big Data

2. Pokok-pokok Materi
- Framework big data
- Konfigurasi framework big data

3. Uraian Materi (Berbasis PBL)


a. Pemaparan Masalah
Dunia berada di era digital yang dibanjiri oleh data. Saat ini kita
menyimpan dan mengolah kebutuhan hidup kita secara online.
Menurut data internetworldstats dari 276,3 juta jiwa penduduk
Indonesia, pengguna internet di tanah air mencapai 212,35 juta,
pengguna smartphone mencapai 167 juta, dan pengguna aktif media
sosial 85,5 juta. Kita menggungah dan mengunduh video, photo,
email, text melalui internet setiap hari dan kita juga bukan hanya
pengguna data melainkan kita juga adalah penghasil data. Sehingga
terjadi ‘ledakan data’. Maka perlu adanya solusi alternatif untuk
permasalahan penyimpanan data yang mampu menampung dengan
ukuran yang besar (big data) dan asritektur khusus untuk
mengolahnya adalah dengan menggunakan framework big data.

b. Identifikasi Konsep
Untuk mengatsi ledakan data dan memahami bagaimana
fremework bigdata, maka kita harus terlebih dahulu memahami urutan
kerjanya, yaitu :
1. Memahami dan menjelaskan apa yang dimaksud framework big
data.

2|Page
2. Memahami Klasifikasi data, Tahap pengelolaan dan pemanfaatan
bigdata.
3. Mampu mengkonfigurasi dan membangun big data dengan
menggunakan aplikasi framework bigdata
4. Mengevaluasi konfigurasi framework basis data

c. Paparan Konsep
1) Framework big data
Framework adalah sebuah software untuk memudahkan
para programer untuk membuat sebuah aplikasi web yang di
dalam nya ada berbagai fungsi diantaranya plugin, dan konsep
untuk membentuk suatu sistem tertentu agar tersusun dan
tersetruktur dengan rapih.
Menurut R. Kelly Rainer (2011) Data, menunjuk pada
deskripsi dasar akan benda, event, aktivitas, dan transaksi yang
terdokumentasi, terklasifikasi,dan tersimpan tetapi tidak
terorganisasi untuk dapat memberikan suatu arti yang spesifik.
Menurut Vience (2016) memasuki tren yang disebut Big
Data, era di mana ketersediaan data sosial yang terekam secara
digital semakin berlimpah. Bagi kalangan industri atau praktisi,
big data telah membuka peluang untuk menetapkan strategi bisnis

3|Page
serta inovasi dalam hal memproses, menganalisa dan menyimpan
data dengan volume serta tingkat votalitas yang tinggi secara
cepat dan efektif. Bagi kalangan akademisi, Big Data telah
menobrak tradisi lama penelitian ilmu sosial.
Big data memberikan solusi bagi penelitian sosial
konvensional, khususnya untuk menangkap realita seperti pola
jaringan komunikasi, diseminasi informasi, atau bahkan
memprediksi pola gerakan sosial atau politik berdasarkan perilaku
secara online. Istilah-istilah seperti webometrics, social network
analysis, digital social research, web social science atau
computational social science menandakan transisi penelitian
sosial konvensional penelitian sosial cyber atau ‘e-research”’,
yaitu di mana transisi unit analisis dari manusia menuju algoritma
(Lupton, 2015:17).
Menurut Eaton, Dirk, Tom, George, & Paul Big Data
merupakan istilah yang berlaku untuk informasi yang tidak dapat
diproses atau dianalisis menggunakan alat tradisional. Menurut
Dumbill, (2012), Big Data adalah data yang melebihi proses
kapasitas dari kovensi sistem database yang ada. Data terlalu
besar dan terlalu cepat atau tidak sesuai dengan struktur arsitektur
database yang ada. Untuk mendapatkan nilai dari data, maka
harus memilih jalan altenatif untuk memprosesnya.
Big Data adalah sebuah sistem teknologi yang
diperkenalkan untuk menanggulangi 'ledakan informasi' seiring
dengan semakin bertumbuhnya ekosistem pengguna perangkat
mobile dan data internet. Pertumbuhan perangkat mobile dan data
internet ternyata sangat mempengaruhi perkembangan volume
dan jenis data yang terus meningkat secara signifikan di dunia
maya. Berbagai jenis data, mulai data yang berupa teks, gambar
atau foto, video hingga bentuk data-data lainnya membanjiri
sistem komputasi. Big data sebagai kumpulan data yang memiliki

4|Page
ukuran besar dan melebihi kapasitas dari perangkat lunak basis
data untuk mengelola dan menganalisanya. Big Data muncul dari
proses transaksi data, interaksi data dan observasi data yang terus
menerus (M. James, 2011).
Big data sebagai kumpulan data yang memiliki ukuran
besar dan melebihi kapasitas dari perangkat lunak basis data
untuk mengelola dan menganalisanya. Big Data muncul dari
proses transaksi data, interaksi data dan observasi data yang terus
menerus (M. James, 2011).
Karakteristik big data ada tiga yaitu:
a. Volume
Volume di sini berkaitan dengan ukuran media penyimpanan
data yang sangat besar atau mungkin tak terbatas. Big data
memiliki jumlah data yang sangat besar sehingga dalam proses
pengolahan data dibutuhkan suatu penyimpanan yang besar
dan dibutuhkan analisis yang lebih spesifik.
b. Velocity
Big data memiliki aliran data yang yang cepat dan real time.
Velocity dapat diartikan sebagai kecepatan proses.
c. Variety
Big data memiliki bentuk format data yang beragam baik
terstruktur ataupun tidak terstruktur dan bergantung pada
banyaknya sumber data. Variety berarti tipe atau jenis data
yang dapat diakomodasi.
Big Data dapat diasumsikan sebagai sebuah media
penyimpanan data yang menawarkan ruang tak terbatas, serta
kemampuan untuk mengakomodasi dan memproses berbagai jenis
data dengan sangat cepat. Contoh big data termasuk indeks
pencarian Google, database profil pengguna Facebook, dan daftar
produk Amazon.com. Kumpulan data ini (atau “datasets“) sangat
besar sehingga data tidak dapat disimpan dalam database biasa,

5|Page
atau bahkan komputer tunggal. Google pada tahun 2006
memperkenalkan Google Bigtable. Bigtable merupakan sistem
database berskala besar dan cepat yang digunakan Google untuk
mengolah berbagai jenis data dari berbagai layanan, termasuk
data dari layanan mesin pencari berbasis internet. Facebook
sistem database untuk menangani melonjaknya pengguna layanan
dengan teknologi Big Data, facebook tidak pernah kesulitan untuk
menangani peredaran data yang melonjak drastis yang berasal
dari satu miliar penggunanya.

Gambar 6. 1 Ilustrasi big data

2) Pemicu Perkembangan Big Data


Menurut Hilbert dan Lopez, ada tiga hal utama yang
memicu perkembangan teknologi Big Data:
a. Pesatnya pertambahan kemampuan penyimpanan data,
kemampuan penyimpanan data telah bertumbuh sangat
signifikan.
b. Pesatnya pertambahan kemampuan mesin pemrosesan data,
seiring dengan pesatnya perkembangan teknologi hardware,
maka kapasitas komputasi pada mesin/ perangkat komputer
juga telah meningkat sangat tajam.
c. Ketersediaan data yang melimpah, Perusahaan-perusahaan dari
berbagai sektor di Amerika Serikat memiliki data setidaknya
100 terabytes. Bahkan banyak diantara perusahaan tersebut
yang memiliki data lebih dari 1 petabyte.

6|Page
3) Klasifikasi Data
Teknologi Big Data memiliki kemampuan untuk menangani
berbagai variasi data. Secara umum ada 2 kelompok data yang
harus dikelola, yaitu :
a. Data terstruktur
Kelompok data yang memiliki tipe data, format, dan struktur
yang telah terdefinisi. Sumber datanya dapat berupa data
transaksional, OLAP data, tradisional RDBMS, file CSV,
spreadsheets
b. Data tidak terstruktur
Kelompok data tekstual dengan format tidak menentu atau
tidak memiliki struktur melekat, sehingga untuk
menjadikannya data terstruktur membutuhkan usaha, tools, dan
waktu yang lebih. Data ini dihasilkan oleh aplikasi-aplikasi
internet, seperti data URL log, media sosial, e-mail, blog,
video, dan audio.

4) Tahapan Pengelolaan Big Data


Berikut ini adalah 4 tahap pengelolaan Big Data serta
perangkat bantu (tools) yang dapat dimanfaatkan untuk
mendukung pemrosesan pada tiap tahap:
a. Acquired
Berhubungan dengan sumber dan cara mendapatkan data.
b. Accessed
Berhubungan dengan daya akses data; data yang sudah
dikumpulkan memerlukan tata kelola, integrasi, storage dan
computing agar dapat dikelola untuk tahap berikutnya.
Perangkat untuk pemrosesan (processing tools) menggunakan
Hadoop, Nvidia CUDA, Twitter Storm, dan GraphLab.
Sedangkan untuk manajemen penyimpanan data (storage

7|Page
tools) menggunakan Neo4J, Titan, dan HDFS.
c. Analytic
Berhubungan dengan informasi yang akan didapatkan, hasil
pengelolaan data yang telah diproses. Analitik yang dilakukan
dapat berupa descriptive (penggambaran data), diagnostic
(mencari sebab akibat berdasar data), predictive (memprediksi
kejadian dimasa depan) maupun prescriptive analytics
(merekomendasikan pilihan dan implikasi dari setiap opsi).
Tools untuk tahap analitik menggunakan MLPACK dan
Mahout.
d. Application
Terkait visualisasi dan reporting hasil dari analitik. Tools
untuk tahap ini menggunakan RStudio.

5) Pemanfaatan Big Data Pada Sektor Bisnis


Perusahaan-perusahaan yang bergerak dalam sektor bisnis
memiliki orientasi utama pada pencapaian margin laba setinggi
mungkin (profit oriented). Berbagai informasi penting dapat
dihasilkan dari Big Data yang dapat mendukung proses
pengambilan keputusan bagi pimpinan perusahaan sebagai berikut
a. Mengetahui respons masyarakat terhadap produk-produk yang
dikeluarkan melalui analisis sentimen di media sosial.
b. Membantu perusahaan mengambil keputusan secara lebih tepat
dan akurat berdasarkan data
c. Membantu meningkatkan citra perusahaan di mata pelanggan.
d. Perencanaan usaha, dengan mengetahui perilaku pelanggan
seperti pada perusahaan telekomunikasi dan perbankan.
e. Mengetahui trend pasar dan keinginan konsumen.

6) Pemanfaatan Big Data Pada Sektor Layanan Publik


Perusahaan atau institusi yang yang berada pada sektor

8|Page
layanan publik lazimnya memiliki orientasi utama pada
pencapaian kepuasan klien/ pelanggan. Resource Big Data dapat
memberikan andil dengan menyajikan berbagai informasi
berharga sebagai berikut:
a. Mendapatkan feedback dan respon masyarakat sebagai dasar
penyusunan kebijakan dan perbaikan pelayanan publik.
Feedback tersebut dapat diperoleh dari sistem informasi
layanan pemerintah maupun dari media sosial.
b. Membuat layanan terpadu dengan segmen khusus sehingga
layanan bisa lebih efektif dan efisien.
c. Menemukan solusi atas permasalahan yang ada, berdasarkan
data. Sebagai contoh: menganalisis informasi cuaca dan
informasi pertanian terkait data tingkat kesuburan tanah,
pemerintah dapat menetapkan atau menghimbau jenis varietas
tanaman yang ditanam oleh petani pada daerah dan waktu
tertentu.

7) Membangun Big Data Platform


Seperti data pergudangan, toko web atau platform TI,
infrastruktur untuk data yang besar memiliki kebutuhan yang
unik. Dalam mempertimbangkan semua komponen platform data
yang besar, penting untuk diingat bahwa tujuan akhir adalah
untuk dengan mudah mengintegrasikan data yang besar dengan
data perusahaan Anda untuk memungkinkan Anda untuk
melakukan analisis mendalam pada set data gabungan.
Requirement dalam big data infrastruktur: (1) data acquisition, (2)
data organization (3) data analysis
a. Data acquisition
Tahap akuisisi adalah salah satu perubahan besar dalam
infrastruktur pada hari-hari sebelum big data. Karena big data
mengacu pada aliran data dengan kecepatan yang lebih tinggi

9|Page
dan ragam yang bervariasi, infrastruktur yang diperlukan untuk
mendukung akuisisi data yang besar harus disampaikan secara
perlahan, dapat diprediksi baik di dalam menangkap data dan
dalam memprosesnya secara cepat dan sederhana, dapat
menangani volume transaksi yang sangat tinggi , sering dalam
lingkungan terdistribusi, dan dukungan yang fleksibel, struktur
data dinamis.
Database NoSQL sering digunakan untuk mengambil dan
menyimpan big data. Mereka cocok untuk struktur data
dinamis dan sangat terukur. Data yang disimpan dalam
database NoSQL biasanya dari berbagai variasi/ragam karena
sistem dimaksudkan untuk hanya menangkap semua data tanpa
mengelompokkan dan parsing data.
Sebagai contoh, database NoSQL sering digunakan untuk
mengumpulkan dan menyimpan data media sosial. Ketika
aplikasi yang digunakan pelanggan sering berubah, struktur
penyimpanan dibuat tetap sederhana. Alih-alih merancang
skema dengan hubungan antar entitas, struktur sederhana
sering hanya berisi kunci utama untuk mengidentifikasi titik
data, dan kemudian wadah konten memegang data yang
relevan. Struktur sederhana dan dinamis ini memungkinkan
perubahan berlangsung tanpa reorganisasi pada lapisan
penyimpanan.
b. Data Organization
Dalam istilah Data pergudangan klasik, pengorganisasian data
disebut integrasi data. Karena ada volume/jumlah data yang
sangat besar, ada kecenderungan untuk mengatur data pada
lokasi penyimpanan aslinya, sehingga menghemat waktu dan
uang dengan tidak memindah-midahkan data dengen volume
yang besar. Infrastruktur yang diperlukan untuk mengatur data
yang besar harus mampu mengolah dan memanipulasi data di

10 | P a g e
lokasi penyimpanan asli. Biasanya diproses didalam batch
untuk memproses data yang besar, beragam format, dari tidak
terstruktur menjadi terstruktur.
Apache Hadoop adalah sebuah teknologi baru yang
memungkinkan volume data yang besar untuk diatur dan
diproses sambil menjaga data pada cluster penyimpanan data
asli. Hadoop Distributed File System (HDFS) adalah sistem
penyimpanan jangka panjang untuk log web misalnya. Log
web ini berubah menjadi perilaku browsing dengan
menjalankan program MapReduce di cluster dan menghasilkan
hasil yang dikumpulkan di dalam cluster yang sama. Hasil ini
dikumpulkan kemudian dimuat ke dalam sistem DBMS
relasional.
c. Data Analysis
Karena data tidak selalu bergerak selama fase organisasi,
analisis ini juga dapat dilakukan dalam lingkungan
terdistribusi, di mana beberapa data akan tinggal di mana data
itu awalnya disimpan dan diakses secara transparan dari
sebuah data warehouse. Infrastruktur yang diperlukan untuk
menganalisis data yang besar harus mampu mendukung
analisis yang lebih dalam seperti analisis statistik dan data
mining, pada data dengan jenis yang beragam dan disimpan
dalam sistem yang terpisah, memberikan waktu respon lebih
cepat didorong oleh perubahan perilaku; dan mengotomatisasi
keputusan berdasarkan model analitis. Yang paling penting,
infrastruktur harus mampu mengintegrasikan analisis pada
kombinasi data yang besar dan data perusahaan tradisional.
Wawasan baru datang bukan hanya dari analisis data baru, tapi
dari menganalisisnya dalam konteks yang lama untuk
memberikan perspektif baru tentang masalah lama.

11 | P a g e
Misalnya, menganalisis data persediaan dari mesin penjual
otomatis cerdas dalam kombinasi dengan acara kalender untuk
tempat di mana mesin penjual otomatis berada, akan
menentukan kombinasi produk yang optimal dan jadwal
pengisian untuk mesin penjual otomatis.

8) Tantangan dalam pemanfaatan Big Data


Dalam usaha pemanfaatan Big Data dapat terdapat banyak
hambatan dan tantangan, beberapa hal diantaranya berhubungan
dengan data dimana melibatkan acquisition, sharing dan privasi
data, serta dalam analisis dan pengolahan data.
a. Privasi
Privasi merupakan isu yang paling sensitif, dengan konseptual,
hukum, dan teknologi, Privasi dapat dipahami dalam arti luas
sebagai usaha perusahaan untuk melindungi daya saing dan
konsumen mereka. Data-data yang digunakan / disimpan
sebagai big data.
b. Access dan sharing
Akses terhadap data, baik data lama maupun data baru dapat
menjadi hambatan dalam mendapatkan data untuk big data,
terlebih pada data lama dimana data-data tersimpan dalam
bentuk-bentuk yang berbeda-beda dan beragam ataupun dalam
bentuk fisik, akses terhadap data baru juga membutuhkan
usaha yang lebih kerana diperlukannya izin dan lisensi untuk
mengakses data-data non-public secara legal.
c. Analisis
Bekerja dengan sumber data baru membawa sejumlah
tantangan analitis. relevansi dan tingkat keparahan tantangan
akan bervariasi tergantung pada jenis analisis sedang
dilakukan, dan pada jenis keputusan yang akhirnya akan bisa
diinformasikan oleh data.

12 | P a g e
Tergantung dari jenis data terdapat 3 kategori dalam analisis
data
1) Penentuan gambaran yang benar
Masalah ini biasanya ditemukan dalam penanganan
unstructured user-generated text-based data dimana data
yang didapatkan belum tentu benar karena data atau
sumber yang salah.
2) Interpreting Data
Kesalahan-kesalahan seperti Sampling selection biasa
merupakan hal yang sering ditemukan dimana data yang
ada tidak dapat digunakan untuk mepresentasikan semua
populasi yang ada, dan apophenia, melihat adanya pola
walaupun tidak benar-benar ada dikarenakan jumlah data
yang besar, dan kesalahan dalam menginterpreasikan
hubungan dalam data.
3) Defining and detecting anomalies
Tantangan sensitivitas terhadap spesifisitas
pemantauansistem. Sensitivitas mengacu pada
kemampuan sistem pemantauan untuk mendeteksi semua
kasus sudah diatur untuk mendeteksi sementara
spesifisitas mengacu pada kemampuannya untuk
mendeteksi hanya kasus-kasus yang relevan. kegagalan
untukmencapai hasil yang terakhir "Tipe I kesalahan
keputusan", juga dikenal sebagai "positif palsu";
kegagalanuntuk mencapai mantan "Type II error", atau
"negatif palsu." Kedua kesalahan yang tidak diinginkan
ketika mencoba untuk mendeteksi malfungsi atau anomali,
bagaimanapun didefinisikan, untuk berbagai alasan.
Positif palsu merusak kredibilitas sistem sementara negatif
palsu dilemparkan ragu pada relevansinya. Tapi apakah
negatif palsu lebih atau kurang bermasalah daripada

13 | P a g e
positif palsu tergantung pada apa yang sedang dipantau,
dan mengapa itu sedang dipantau.

9) Aplikasi big data


Bansod dkk. (2015) dalam penelitiannya menganalisis
efisiensi big data yang menggunakan framework dari Apache
Spark dan HDFS serta keuntungan dari penggunaaan framework
Hadoop. Hasil dari penelitian ini adalah Apache Spark terbukti
memiliki performa dan skalabilitas yang tinggi serta bersifat
faulttolerant untuk analisis big data. MadhaviLatha dkk.
membangun infrastruktur big data untuk menganalisis data twitter
secara realtime menggunakan Apache Flume, Spark, Cassandra
dan Zeppelin. Pada penelitian ini, Cassandra dapat diintegrasikan
dengan hdfs, kemudian data yang berasal dari flume dan spark
streaming disimpan dalam Cassandra menggunakan beberapa
fungsi khusus antara Cassandra dan Streaming Context dari Spark
yaitu com.datastax.spark.connector.streaming. Tujuan dari
menyimpan data di Cassandra yaitu untuk keperluan analisis lebih
lanjut.
Beberapa contoh framework big data yaitu:
a. Apache Hadoop
Hadoop adalah proyek dengan kode sumber terbuka yang
dikelola oleh Apache Software Foundation. Hadoop digunakan
untuk perhitungan yang andal, dapat diukur, didistribusikan,
tetapi juga dapat dieksploitasi sebagai penyimpanan file
dengan tujuan umum yang dapat menyimpan petabyte data.
Solusinya terdiri dari dua komponen utama: HDFS
bertanggung jawab untuk penyimpanan data di cluster Hadoop;
dan sistem MapReduce dimaksudkan untuk menghitung dan
memproses volume data yang besar di cluster. Bagaimana
tepatnya Hadoop membantu memecahkan masalah memori

14 | P a g e
DBMS modern? Hadoop digunakan sebagai lapisan perantara
antara database interaktif dan penyimpanan data meningkatkan
kecepatan kinerja pemrosesan data tumbuh sesuai dengan
peningkatan ruang penyimpanan data. Untuk
mengembangkannya lebih lanjut, Anda cukup menambahkan
node baru ke penyimpanan data. Secara umum, Hadoop dapat
menyimpan dan memproses banyak petabyte info. Di sisi lain,
proses tercepat di Hadoop masih membutuhkan beberapa detik
untuk beroperasi. Itu juga melarang kustomisasi data yang
sudah disimpan dalam sistem HDFS. Last but not least,
solusinya mendukung transaksi. Jadi, terlepas dari popularitas
yang pasti dari solusi ini di antara pengguna selama bertahun-
tahun yang akan datang, alternatif baru yang lebih maju secara
bertahap datang ke pasar untuk menggantikannya (kami akan
membahas beberapa di bawah).

Gambar 6. 2 Ilustrasi sistem apache hadoop

15 | P a g e
b. Apache Spark
Daftar kerangka kerja Big Data terbaik kami dilanjutkan
dengan Apache Spark. Ini adalah kerangka kerja open-source
yang dibuat sebagai solusi yang lebih maju dibandingkan
dengan Apache Hadoop - kerangka awal yang dibangun
khusus untuk bekerja dengan Big Data. Perbedaan utama
antara kedua solusi ini adalah model pengambilan data.
Hadoop menyimpan data ke hard drive di sepanjang setiap
langkah algoritma MapReduce, sementara Spark
mengimplementasikan semua operasi menggunakan memori
akses-acak. Karena hal ini, Spark memiliki kinerja 100 kali
lebih cepat dan memungkinkan pemrosesan aliran data. Pilar
fungsional dan fitur utama Spark adalah kinerja tinggi dan
keamanan yang gagal. Ini mendukung empat bahasa: Scala,
Java, Python, dan R; dan terdiri dari lima komponen: inti dan
empat perpustakaan yang mengoptimalkan pekerjaan dengan
Big Data dalam berbagai cara ketika digabungkan. Spark SQL
- salah satu dari empat pustaka kerangka kerja khusus -
berfungsi untuk pemrosesan data terstruktur menggunakan
DataFrames dan penyelesaian permintaan Hadoop Hive hingga
100 kali lebih cepat. Spark juga dilengkapi alat Streaming
untuk pemrosesan data khusus utas secara real time. Dengan
demikian, pendiri Spark menyatakan bahwa waktu rata-rata
pemrosesan setiap mikro-batch hanya 0,5 detik. Berikutnya,
ada MLib - sistem pembelajaran mesin terdistribusi sembilan
kali lebih cepat dari perpustakaan Apache Mahout. Dan
perpustakaan terakhir adalah GraphX yang digunakan untuk
pemrosesan data grafik yang dapat diskalakan.

16 | P a g e
Gambar 6. 3 Ilustrasi apache spark

c. Apache Hive
Apache Hive dibuat oleh Facebook untuk menggabungkan
skalabilitas salah satu alat big data yang paling populer dan
banyak diminati, MapReduce dan aksesibilitas SQL. Hive pada
dasarnya adalah mesin yang mengubah permintaan SQL
menjadi rantai tugas pengurangan peta. Mesin mencakup
komponen seperti Parser (yang mengurutkan permintaan SQL
yang masuk), Pengoptimal (yang mengoptimalkan permintaan
untuk efisiensi lebih), dan Pelaksana (yang meluncurkan tugas
dalam kerangka kerja MapReduce). Hive dapat diintegrasikan
dengan Hadoop (sebagai bagian server) untuk analisis volume
data yang besar.

17 | P a g e
Gambar 6. 4 Arsitektur apache hive

d. Map Reduce
MapReduce adalah algoritme untuk pemrosesan paralel
volume data mentah besar yang diperkenalkan oleh Google
pada tahun 2004. MapReduce melihat data sebagai jenis entri
yang dapat diproses dalam tiga tahap: Peta (pra-pemrosesan
dan penyaringan data), Shuffle (node pekerja mengurutkan
data - setiap node pekerja sesuai dengan satu kunci output yang
dihasilkan dari fungsi peta), dan Reduce (fungsi pengurangan
diatur oleh pengguna dan mendefinisikan hasil akhir untuk
kelompok yang terpisah dari data output. Mayoritas semua
nilai dikembalikan oleh mengurangi () fungsi adalah hasil
akhir dari tugas MapReduce). Karena logika sederhana seperti
itu, MapReduce menyediakan paralelisasi data secara otomatis,
penyeimbangan beban node pekerja yang efisien, dan kinerja
gagal-aman.

18 | P a g e
Gambar 6. 5 Pase map reduce

e. Apache Storm
Apache Storm adalah solusi terkemuka yang berfokus pada
bekerja dengan aliran data besar secara real time. Fitur utama
Storm adalah skalabilitas (tugas pemrosesan didistribusikan
oleh node cluster dan mengalir di setiap node) dan kemampuan
memulihkan segera setelah downtime (dengan demikian, tugas
sedang dialihkan ke node pekerja lain jika salah satu node
sedang down). Anda dapat bekerja dengan solusi ini dengan
bantuan Java, serta Python, Ruby, dan Fancy. Strom
menampilkan sejumlah elemen yang membuatnya sangat
berbeda dari analog. Yang pertama adalah Tuple - elemen
representasi data utama yang mendukung serialisasi. Lalu ada
Stream yang menyertakan skema bidang penamaan di Tuple.
Spout menerima data dari sumber eksternal, membentuk Tuple
dari mereka, dan mengirimkannya ke Stream. Ada juga Bolt -
pengolah data, dan Topologi - paket elemen dengan deskripsi

19 | P a g e
keterkaitan mereka analog pekerjaan MapReduce di Hadoop,
pada dasarnya). Ketika digabungkan, semua elemen ini
membantu pengembang untuk dengan mudah mengelola aliran
besar data yang tidak terstruktur.

Gambar 6. 6 Arsitektur apache storm

10) Evaluasi konfigurasi framework big data


Big data menjadi kebutuhan penggunaan server internet
yang memungkinkan kecepatan akses data yang besar dan cepat.
Hadoop merupakan salah satu ekosistem framework big data yang
banyak digunakan dan direkomendasi.

Beberapa hal yang perlu dipahami penggunaan framework


big data hadoop yaitu:
a. Hadoop merupakan ekosistem framework big data

20 | P a g e
Gambar 6. 7 Ekosistem Framework Hadoop
Framework hadoop merupakan kumpulan berbagai aplikasi
yang saling terhubung satu-sama lain yang membat
pengelolaan big data yang lebih baik, baik dari volume,
kecepatan, dan keberagaman data.
b. Solusi big data hadoop
Dalam pendekatan Hadoop mendukung pemprosesan secara
terdistribusi ke kluster-kluster dari komputer. Hadoop
didukung oleh dua komponen utama.
1) HDFS
HDFS merupakan sistem penyimpanan/storage terdistribusi,
yang melakukan proses pemecahan file besar menjadi
bagian-bagian lebih kecil kemudian didistribusikan ke
kluster-kluster dari komputer.
2) MapReduce
MapReduce merupakan algoritma/komputasi terdistribusi

21 | P a g e
Gambar 6. 8 Ilustrasi Solusi Hadoop
Kelebihan Solusi Hadoop dengan didukung oleh dua
komponen utama tersebut yaitu (1) sangat baik untuk
mengolah data berukuran besar, bahkan untuk ukuran 1 TB
sekalipun, (2) Lebih cepat dalam mengakses data berukuran
besar (3) Lebih bervariasi data yang bisa disimpan dan diolah
dalam bentuk HDFS.
Kekurangan Solusi Hadoop, sebagai berikut (1) Tidak cocok
untuk OLTP (Online Transaction Processing), di mana data
dapat diakses secara randon ke Relational Database (2) Tidak
cocok untuk OLAP (Online Analytic Processing) (3) Tidak
cocok untuk DSS (Decission Support System) (4) Proses
update tidak bisa untuk dilakukan, namun untuk Append bisa
dilakukan.
c. Arsitektur hadoop
Framework hadoop terdiri atas empat modul/komponen utama
yaitu (1) Hadoop HDFS adalah sebuah sistem file terdistribusi.
(2) Hadoop MapReduce adalah sebuah model
programming/Algoritma untuk pengelolaan data skala besar
dengan komputasi secara terdistribusi (3) Hadoop
YARN adalah sebuah platform resource-management yang
bertanggung jawab untuk mengelola resources dalam clusters

22 | P a g e
dan scheduling (4) Hadoop Common adalah berisi libraries dan
utilities yang dibutuhkan oleh modul Hadoop lainnya.
Framework hadoop bukan hanya empat modul utama namun
merupakan kumpulan modul open source seperti Hive, Pig,
Oozie, Zookeeper, Flume Sqoop, Mahout, Hbase, Ambari,
Spark.
d. Cara kerja hadoop
Secara umum cara kerja hadoop dalam pemrosesan pada
sistem terdistribusi, sebagai berikut
1) Cara kerja HDFS
SHDFS terdiri dari NameNode, yang mengelola
metadata dari kluster, dan DataNode yang menyimpan
data/file. File dan direktori diwakili pada NameNode
oleh inode. Inode menyimpan atribut seperti permission,
modifikasi dan waktu akses, atau
kuota namespace dan diskspace.
Isi file dibagi menjadi blok-blok file( biasanya 128
MB), dan setiap blok file tersebut direplikasi di beberapa
DataNodes. Blok file disimpan pada sistem file lokal dari
DataNode.
Namenode aktif memonitor jumlah salinan/replika blok
file. Ketika ada salinan blok file yang hilang karena
kerusakan pada DataNode, NameNode akan mereplikasi
kembali blok file tersebut ke datanode lainnya yang berjalan
baik. NameNode mengelola struktur namespace dan
memetakan blok file pada datanode.

23 | P a g e
Gambar 6. 9 Cara kerja HDFS
2) Cara kerja Map Reduce
Map Reduce bertugas membagi data yang besar ke
dalam potongan lebih kecil dan mengatur mereka kedalam
bentuk tupel untuk pemrosesan paralel. Tupel adalah
kombinasi antara key dan value-nya, dapat disimbolkan
dengan notasi: "(k1, v1)". Dengan pemrosesan bersifat
paralel tersebut, tentunya akan meningkatkan kecepatan dan
keandalan komputasi pada sistem klustering.
Map Reduce terdiri atas tiga tahap, yaitu tahap map,
shuffle, dan terakhir reduce. Shuffle dan reduce
digabungkan kedalam satu tahap saja yaitu tahap reduce.
a) Map berfungsi memproses data inputan yang umumnya
berupa file yang tersimpan dalan HDFS (dapat di baca
di Sistem file terdistribusi), inputan tersebut kemudian
diubah menjadi tuple yaitu pasangan
antara key dan value-nya.
b) Tahap reduce, memproses data inputan dari hasil proses
map, yang kemudian dilakukan tahap shuffle dan
reduce yang hasil data set baru-nya dis impan di HDFS
kembali.

24 | P a g e
Gambar 6. 10 Cara kerja Map Reduce
3) Cara kerja Yarn
Yarn adalah memisahkan dua tanggung jawab utama
dari JobTracker/TaskTracker menjadi beberapa entitas yang
terpisah.
a) Global ResourceManager di node master, yang
berfungsi mengatur semua resource yang digunakan
aplikasi dalam sistem.
b) ApplicationMaster di setiap aplikasi, yang berfungsi
untuk negosiasi resource dengan ResourceManager dan
kemudian bekerja sama dengan NodeManager untuk
mengeksekusi dan memonitor tasks
c) Node Manager di Agen-Framework setiap node slave,
yang bertanggung jawab terhadap Container, dengan
memantau penggunaan resource/sumber daya dari
container (cpu, memori, disk, jaringan ) dan
melaporkannya pada Resource Manager
d) Container di setiap aplikasi yang jalan di Node
Manager, sebagai wadah penyimpanan data/file

25 | P a g e
Gambar 6. 11 Cara kerja Yarn
e. Instalasi dan evaluasi konfigurasi framework big data (hadoop)
Beberapa Software yang dibutuhkan untuk menjalankan
hadoop adalah Operating System, Hadoop dan Java
Development Kit (JDK). Pada tutorial menggunakan operating
system Windows 10, Hadoop 2.6.3 versi binary, Java
Development Kit versi 1.8.0_45(bisa didownload di http
//www.oracle.com/technetwork/java/javase/downloads/jdk8-
downloads-2133151.html).
1) Langkah pertama yang kita lakukan untuk memasang
hadoop single node pada windows adalah men-download
hadoop versi binary (bisa didownload di https
//hadoop.apache.org/releases.html), pastikan juga Java
Development Kit sudah terpasang. Kemudian extract
hadoop menggunakan Winrar atau aplikasi yang
lainnya(disini penulis mengekstraknya di D:\hadoop\)

26 | P a g e
2) Untuk memasang hadoop di OS Windows kita
membutuhkan file tambahan yang bisa di download dihttps
//codeload.github.com/srccodes/hadoop-common-2.2.0-
bin/zip/master. Setelah itu Extract file tambahan tersebut di
dalam hadoop\bin

3) Tahap berikutnya adalah tahapan Configuration, pada tahap


ini kita akan menambahkan environment variable untuk
'JAVA_HOME' dan 'HADOOP_PREFIX' dengan cara pilih
'Control Panel>System>Advanced System
Settings>Environment Variables' kemudian pilih New dan
masukan 'JAVA_HOME' dan path instalasi JDKnya misal
'C:\PROGRA~1\Java\jdk1.8.0_05'

27 | P a g e
tambahkan juga Environment Variables untuk
'HADOOP_PREFIX'='D:\hadoop'
Setelah itu ubah atau tambahkan file-file pada directory
\etc\hadoop file 'hadoop-env.cmd'

Set HADOOP_PREFIX=%HADOOP_PREFIX% set


HADOOP_CONF_DIR=%HADOOP_PREFIX%\etc\hadoop
set YARN_CONF_DIR=%HADOOP_CONF_DIR%
set PATH=%PATH%;%HADOOP_PREFIX%\bin

file :'hdfs-site.xml'

dfs.replication 1 dfs.data.dir file:///d:/hadoop/tmp/dfs/name/data t


rue dfs.name.dir file:///d:/hadoop/tmp/dfs/name true

File 'core-site.xml'

fs.default.name hdfs://127.0.0.1:41000

4) Dan sekarang kita masuk ke tahap menjalankan hadoop,


pertama yang kita lakukan adalah melakukan format untuk
Hadoop Distributed File System (HDFS) dengan perintah
D \hadoop\bin>hdfs namenode –format

dan sebagai indikator format yang kita lakukan berhasil,

28 | P a g e
akan muncul seperti gambar berikut

hadoop juga akan membuat file baru di dalam path yang


sudah kita konfigurasikan di dalam file 'hdfs-site.xml' tadi.
5) kemudian kita jalankan service atau daemon dfs
D \hadoop\sbin>start-dfs.cmd

Sekarang kita coba perintah untuk mengkopi file lokal


README.txt yang di drive D: ke dalam hadoop dan
membuat directory BelajarHadoop

D:\hadoop\bin>hdfs dfs -put d:\README.txt /


D:\hadoop\bin>hdfs dfs -mkdir /BelajarHadoop
D:\hadoop\bin>hdfs dfs -ls /

29 | P a g e
6) Setelah service atau daemon hdfs jalan kita juga bisa
melihatnya melalui web browser dengan mengetikan 1
7.0.0.1:50070 pada address bar.

d. Solusi atas masalah yang ada


Big Data adalah sebuah sistem teknologi yang diperkenalkan
untuk menanggulangi 'ledakan informasi' seiring dengan semakin
bertumbuhnya ekosistem pengguna perangkat mobile dan data
internet.
Dengan menggunakan framewok Big Data hadoop dapat
diasumsikan sebagai sebuah media penyimpanan data yang
menawarkan ruang tak terbatas, serta kemampuan untuk
mengakomodasi dan memproses berbagai jenis data dengan sangat
cepat. Contoh big data termasuk indeks pencarian Google, database
profil pengguna Facebook, dan daftar produk Amazon.com.
Kumpulan data ini (atau “datasets“) sangat besar sehingga data tidak
dapat disimpan dalam database biasa, atau bahkan komputer tunggal.

30 | P a g e
4. Tugas/Latihan
1) Buatlah 5 kelompok masing-masing berjumlah 7 orang.
2) Jelaskan langkah-langkah Konfigurasi aplikasi framework big data
- Apace Hadoop (Kelompok 1)
- Apace Spark (Kelompok 2)
- Apace Hive (Kelompok 3)
- Map Reduce (Kelompok 4)
- Apace Storm (Kelompok 5)

5. Forum Diskusi
Analisis bagaimana perbedaan menggunakan aplikasi framework big data
sesuai dengan kelompok.

C. Penutup
1. Rangkuman
Framework adalah sebuah software untuk memudahkan para
programer untuk membuat sebuah aplikasi web yang di dalam nya ada
berbagai fungsi diantaranya plugin, dan konsep untuk membentuk suatu
sistem tertentu agar tersusun dan tersetruktur dengan rapih.
Big Data adalah sebuah sistem teknologi yang diperkenalkan untuk
menanggulangi 'ledakan informasi' seiring dengan semakin bertumbuhnya
ekosistem pengguna perangkat mobile dan data internet.
Karakteristik big data ada tiga yaitu (1) Volume di sini berkaitan
dengan ukuran media penyimpanan data yang sangat besar atau mungkin
tak terbatas. Big data memiliki jumlah data yang sangat besar sehingga
dalam proses pengolahan data dibutuhkan suatu penyimpanan yang besar
dan dibutuhkan analisis yang lebih spesifik (2) Big data memiliki aliran
data yang yang cepat dan real time. Velocity dapat diartikan sebagai
kecepatan proses (3) Big data memiliki bentuk format data yang beragam
baik terstruktur ataupun tidak terstruktur dan bergantung pada banyaknya
sumber data. Variety berarti tipe atau jenis data yang dapat diakomodasi.
Big Data dapat diasumsikan sebagai sebuah media penyimpanan

31 | P a g e
data yang menawarkan ruang tak terbatas, serta kemampuan untuk
mengakomodasi dan memproses berbagai jenis data dengan sangat cepat.
Contoh big data termasuk indeks pencarian Google, database profil
pengguna Facebook, dan daftar produk Amazon.com. Kumpulan data ini
(atau “datasets“) sangat besar sehingga data tidak dapat disimpan dalam
database biasa, atau bahkan komputer tunggal.
Seperti data pergudangan, toko web atau platform TI, infrastruktur
untuk data yang besar memiliki kebutuhan yang unik. Dalam
mempertimbangkan semua komponen platform data yang besar, penting
untuk diingat bahwa tujuan akhir adalah untuk dengan mudah
mengintegrasikan data yang besar dengan data perusahaan Anda untuk
memungkinkan Anda untuk melakukan analisis mendalam pada set data
gabungan. Requirement dalam big data infrastruktur: (1) data acquisition,
(2) data organization (3) data analysis.
Dalam pendekatan Hadoop mendukung pemprosesan secara
terdistribusi ke kluster-kluster dari komputer. Hadoop didukung oleh dua
komponen utama HDFS dan MapReduce
HDFS merupakan sistem penyimpanan/storage terdistribusi, yang
melakukan proses pemecahan file besar menjadi bagian-bagian lebih kecil
kemudian didistribusikan ke kluster-kluster dari komputer. Sedangkan
MapReduce merupakan algoritma/komputasi terdistribusi
SHDFS terdiri dari NameNode, yang mengelola metadata dari
kluster, dan DataNode yang menyimpan data/file. File dan direktori
diwakili pada NameNode oleh inode. Inode menyimpan atribut
seperti permission, modifikasi dan waktu akses, atau
kuota namespace dan diskspace.
MapReduce bertugas membagi data yang besar ke dalam potongan
lebih kecil dan mengatur mereka kedalam bentuk tupel untuk pemrosesan
paralel. Tupel adalah kombinasi antara key dan value-nya, dapat
disimbolkan dengan notasi : "(k1, v1)". Dengan pemrosesan bersifat
paralel tersebut, tentunya akan meningkatkan kecepatan dan keandalan

32 | P a g e
komputasi pada sistem klustering.
Yarn adalah memisahkan dua tanggung jawab utama dari
JobTracker/TaskTracker menjadi beberapa entitas yang terpisah.
Beberapa Software yang dibutuhkan untuk menjalankan hadoop
adalah Operating System, Hadoop dan Java Development Kit (JDK).

2. Tes Formatif

1. Sebuah software untuk memudahkan para programer untuk membuat


sebuah aplikasi web yang di dalam nya ada berbagai fungsi diantaranya
plugin, dan konsep untuk membentuk suatu sistem tertentu agar
tersusun dan tersetruktur dengan rapih biasa disebut…
a. Firewall
b. Framework
c. Plugin
d. Bigdata
e. Website
2. Sistem teknologi yang diperkenalkan untuk menanggulangi 'ledakan
informasi' seiring dengan semakin bertumbuhnya ekosistem pengguna
perangkat mobile dan data internet disebut…
a. Firewall
b. Framework
c. Plugin
d. Bigdata
e. Website
3. Kecepatan proses aliran data dan real time merupakan salah satu
karakteristik dari big data yaitu…
a. Volume
b. Variety
c. Vibratory
d. Velocity
e. Actual

33 | P a g e
4. Teknologi Big Data memiliki kemampuan untuk menangani berbagai
variasi data. Secara umum ada 2 kelompok data yang harus dikelola,
yaitu …
a. Data terstruktur dan tidak terstruktur
b. Data langsung dan tidak langsung
c. Data integrasi dan tidak integrasi
d. Data penting dan tidak penting
e. Data akusisi dan tidak akusisi
5. Berikut ini yang tidak termasuk tahap pengelolaan Big Data serta
perangkat bantu (tools) yang dapat dimanfaatkan untuk mendukung
pemrosesan pada tiap tahap yaitu…
a. Acquired
b. Actual
c. Accessed
d. Analytic
e. Application
6. Membantu perusahaan mengambil keputusan secara lebih tepat dan
akurat berdasarkan data serta mengetahui trend pasar dan keinginan
konsumen, merupakan pemanfaatan big data pada sektor …
a. Bisnis
b. Public
c. Perdagangan
d. Pertanian
e. Perekonomian
7. Salah satu kebutuhan dalam big data infrastruktur yang mengacu pada
aliran data dengan kecepatan tinggi dan ragam yang bervariasi yaitu…
a. Data Organization
b. Data Acquisition
c. Data Analysis
d. Data Structure
e. Data Actual

34 | P a g e
8. Berikut ini yang tidak termasuk aplikasi bigdata yaitu…
a. Apache Hadoop
b. Apache Spark
c. Apache Structure
d. Apache Hive
e. Apache Strom
9. Gambar di bawah ini merupakan arsitektur dari aplikasi bigdata yaitu…

a. Apache Hadoop
b. Apache Spark
c. Apache Hive
d. Apache Structure
e. Apache Strom
10. Gambar di bawah ini merupakan cara kerja dari…

a. Hadoop HDFS

35 | P a g e
b. Hadoop MapReduce
c. Hadoop YARN
d. Hadoop Common
e. Hadoop Oozie

36 | P a g e
Daftar Pustaka
Fatahillah, 2019. Modul 6 Sistem Informatika, Jaringan, Dan Aplikasi, Kementrian
Pendidikan Dan Kebudayaan (2019)

Viva Budi Kusnandar, 2021. Penetrasi Internet Indonesia urutan ke-15 di Asia
pada 2021, https://databoks.katadata.co.id/datapublish/2021/07/12/penetrasi-
internet-indonesia-urutan-ke-15-di-asia-pada-2021, diakses pada 23 September
2021.

Zubaedah Hanum, 2021. Kemenkominfo : 89% penduduk indonesia gunakan


smartphone, https://mediaindonesia.com/humaniora/389057/kemenkominfo-
89-penduduk-indonesia-gunakan-smartphone, diakses pada 23 September
2021.

Berita Kominfo, 2021. Kominfo : Pengguna internet di indonesia 63 juta orang,


https://kominfo.go.id/content/detail/3415/kominfo-pengguna-internet-di-
indonesia-63-juta-orang/0/berita_satker, diakses pada 23 September 2021.

Gtblogger, 2017. Mengulas lengkap tentang hadoop : Software pengelolaan big


data. https://blog.gamatechno.com/software-hadoop-big-data/, diakses pada 23
September 2021.

Kunci Jawaban Tes Formatif

1. B
2. D
3. D
4. A
5. B
6. A
7. B
8. C
9. C
10. A

37 | P a g e
38 | P a g e

Anda mungkin juga menyukai