TP1 - Dian Rahmad Dermawan

Assignment
Individual
Dian Rahmad Dermawan
Session 03
COMP8025 Big Data Analytics

Jawablah pertanyaan berikut dengan jelas dan lengkapi dengan ilustrasi jika diperlukan.
1. Dikenal dua pendekatan dalam meningkatkan kemampuan komputasi dari sebuah system
komputer, yaitu Scale-Up dan Scale-Out. Jelaskan apa perbedaan dari kedua pendekatan
tersebut, apa kelebihan dan kekurangannya, serta berikan contoh.
Jawaban:
Scale up merupakan cara meningkatkan kemampuan komputasi dengan cara meningkatkan
komponen dari yang dimiliki saat ini seperti memory, cpu, harddisk sehingga dapat
meningkatkan kemampuan pada komputai. Contohnya meningkatkan kapasitas ram yang
dimiliki.
Kelebihan dari Scale up:
1. Lebih mudah memanage peralatan yang dimiliki jika dibandingkan dengan scale out.
2. Biaya yang dibutuhkan lebih kecil
Kekurangan dari Scale up:

1. Lebih susah untuk dikembangkan dikarenakan tergantung pada hardware di market.
2. Apabila terjadi lonjakan proses maka perlu dilakukan proses upgrade server.
3. Apabila sedang melakukan upgrade server, maka untuk sementara server akan
dimatikan sehingga akan mengganggu proses pekerjaan lainnya.
Scale out merupakan cara meningkatkan kemampuan komputasi dengan meningkatkan

jumlah dari peralatan yang dimiliki. Contohnya pada saat ini perusahaan memiliki suatu
main server, untuk meningkatkan kemampuannya perusahaan menambahkan satu server
lagi.
Kelebihan dari Scale out:
1. Tingkat availability yang lebih reliable meskipun workload yang terjadi besar.
2. Tidak dibatasi oleh kapasitas hardware dikarenakan dapat menambahkan hardware
baru ke infrastruktur.
3. Biaya yang dibutuhkan jika terjadi lonjakan proses lebih rendah karena hanya harus
menambahkan cluster tambahan untuk mengatasi peak demand.
4. Data memilih batasan biaya dengan cara memilih opsi hardware sesuai dengan batasan.
5. Server tidak akan mati pada saat mengupgrade hardware karena resource lain masih
menyala sehingga aplikasi masih dapat berjalan.

Kekurangan dari Scale out:
1. Implementasi lebih sulit dikarenakan harus melakukan cloning server.
2. Downstream server akan lebih sulit dalam memenuhi banyak koneksi yang simultan
pada waktu upstream server scaling out.
2. Jelaskan pengertian dari 6V (volume, velocity, variety, veracity, visibility, dan value) dari
Big Data:
Jawaban:
a. Volume merupakan kuantitas atau jumlah data yang diserap, diproses, dikumpulkan
serta disimpan dalam basis data yang besar. Sumber data berasal dari mesin, jaringan
atau interaksi antara manusia dengan sistem.
b. Velocity merupakan kecepatan dalam mengenerate, mengakses serta memproses data.

Big data platform tentu harus dapat memproses banyak data secepat mungkin ketika
ada perintah.
c. Variety merupakan variasi tipe dan sifat dari data yang dikelola, apakah data tersebut
data terstruktur, semi terstruktur atau tidak terstruktur. Data terstruktur yaitu data yang
memiliki elemen-element yang dapat diakses seperti keys seperti database. Data semi
struktur merupakan data yang tidak disimpan dalam database tetapi memiliki pattern
atau terorganisir dengan rapi sehingga lebih mudah untuk dianalisa seperti data pada
file XML dan CSV. Data tidak terstruktur merupakan data yang tidak terorganisir
dengan baik seperti file gambar, suara, video, pdf atau log file.
d. Veracity merupakan data yang berada atau diproses dapat dipercaya kebenarannya,
dapat diandalkan, berkualitas dan dapat diakses dengan baik.
e. Visibility yaitu semua data dapat diakses dan dibaca oleh setiap orang kapan saja ketika
dibutuhkan.
f. Value yaitu seluruh data memiliki nilai. Nilai pada data bergantung pada sisi data dan
pada kemampuan tim data analis dalam menganalisa dan mengolah dengan tepat,
sehingga dapat menghasilkan informasi yang berharga untuk mengambil suatu
keputusan.

3. Salah satu karakteristik dari HDFS (Hadoop Distributed File System) adalah Fault
Tolerance, jelaskan bagaimana HDFS mengimplementasikan hal tersebut.
Jawaban:
Hadoop Distributed File System (HDFS) Hadoop Distributed File System (HDFS)
merupakan suatu lokasi atau direktori di komputer dimana data hadoop disimpan. Namun,
tempat atau direktori ini di “format” supaya bisa bekerja sesuai dengan spesifikasi dari
Hadoop.
Sebuah kluster HDFS terdiri dari NameNode, yang mengelola metadata dari kluster, dan
DataNode yang menyimpan data/file. File dan direktori diwakili pada NameNode oleh
inode. Inode menyimpan atribut seperti permission, modifikasi dan waktu akses, atau kuota
namespace dan diskspace.
Isi file dibagi menjadi blok-blok file(biasanya 128 MB), dan setiap blok file tersebut
direplikasi di beberapa DataNodes. Blok file disimpan pada sistem file lokal dari
DataNode. Namenode aktif memonitor jumlah salinan/replika blok file. Ketika ada salinan
blok file yang hilang karena kerusakan pada DataNode, NameNode akan mereplikasi
kembali blok file tersebut ke datanode lainnya yang berjalan baik. NameNode mengelola
struktur namespace dan memetakan blok file pada datanode.
4. Misalkan anda memiliki Hadoop cluster yang terdiri dari 8 worker node, jelaskan
bagaimana pendekatan Map Reduce diterapkan pada cluster tersebut untuk mencari nilai
minimum dan maksimum dari data yang berjumlah 10 juta record. Jelaskan operasi apa
yang dilakukan pada tahap Map dan tahap Reduce.
Jawaban:
Asumsi data berjumlah 10 juta record dengan data penjualan barang dalam jangka waktu
tertentu, contoh ilustrasinya seperti pada tabel.1.
Tabel 1. Tabel Penjualan
Tanggal Nama Barang Jumlah Terjual

12 Mei 2021 Barang A 1
12 Mei 2021 Barang B 1
13 Mei 2021 Barang C 1
13 Mei 2021 Barang A 1
14 Mei 2021 Barang D 1
15 Mei 2021 Barang B 1
16 Mei 2021 Barang E 1
17 Mei 2021 Barang F 1
Nilai minimum merupakan barang yang paling sedikit terjual, sedangkan nilai maksimum
merupakan barang yang paling banyak terjual.

Gambar 1merupakan flowchart dari proses map reduce yang berfungsi untuk memecah
data dan menghasilkan intermediary key value pairs. Dalam fase mapping, 8 worker node
akan melakukan proses terhadap bongkahan data yang berbeda. Semakin banyak jumlah
mesing yang digunakan, maka semakin cepat durasi pemrosesan seluruh data.
Gambar 1. Flowchart proses map reduce
Sesuai dengan gambar 1 diatas, map reduce dibagi menjadi beberapa tahap yaitu:
1. Splitting. Pada proses ini data masukan yang diberikan oleh pengguna MapReduce
(klien) akan dipecah menjadi bagian-bagian yang lebih kecil. Pada kasus Hadoop
MapReduce, dalam kondisi ideal, data akan dipecah menjadi beberapa bongkahan
berukuran maksimal 128MB.
2. Mapping merupakan salah satu tahap terpenting dari MapReduce. Pada fase Mapping,
bongkahan data yang telah dipecah akan di proses untuk menghasilkan intermediary
key-value pairs. Pada contoh Gambar 1 diatas, data yang mengandung “Barang A,
Barang B, Barang C, Barang A, Barang D” akan diproses sehingga menghasilkan
pasangan key-value Barang A :1, Barang B:1, Barang C:1, Barang A:1, Barang D:1.
Dalam fase Mapping, bisa jadi ada satu atau lebih mesin pekerja (worker) yang
melakukan proses terhadap beberapa bongkahan data yang berbeda. Semakin banyak

jumlah mesin yang digunakan, maka durasi pemrosesan seluruh data dapat berjalan
jauh lebih cepat.
3. Reshufling. Pada Fase mapping bisa berjalan di satu atau banyak mesin. Akibatnya,
pasangan key-value yang dihasilkan oleh sebuah mapper bisa tersebar di berbagai
mesin. Namun, jika pengolahan yang ingin dilakukan adalah perhitungan dengan
menggunakan key yang sama, maka data dengan key yang sama harus berada pada
mesin yang sama pada fase reduce. Oleh karena itu, sebelum fase reduce,
fase shuffling bertugas untuk mengumpulkan satu atau lebih key yang berbeda
disebuah mesin tertentu agar aggregasi dapat dilakukan dengan mudah. Pada contoh
diatas, seluruh kata Bear yang dihasilkan fase mapping akan berada dalam sebuah
mesin yang sama. Begitu juga dengan kata-kata lain.
4. Reducing. Fase reducing bertugas untuk melakukan aggregasi terhadap seluruh
pasangan intermediary key-value dengan key yang sama. Pada gambar diatas, pasangan
key-value Bear:1 dan Bear:1 akan diaggregasi oleh reducer sehingga pada akhirnya
reducer akan menghasilkan keluaran Bear:2 seperti pada contoh kasus wordcount.

TP1 - Dian Rahmad Dermawan

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

TP1 - Dian Rahmad Dermawan

Diunggah oleh

Hak Cipta:

Format Tersedia

Assignment

Dian Rahmad Dermawan

COMP8025 Big Data Analytics

Kekurangan dari Scale up:

Scale out merupakan cara meningkatkan kemampuan komputasi dengan meningkatkan

COMP8025 Big Data Analytics

b. Velocity merupakan kecepatan dalam mengenerate, mengakses serta memproses data.

COMP8025 Big Data Analytics

Tabel 1. Tabel Penjualan

Tanggal Nama Barang Jumlah Terjual

COMP8025 Big Data Analytics

Gambar 1. Flowchart proses map reduce

COMP8025 Big Data Analytics

COMP8025 Big Data Analytics

Anda mungkin juga menyukai