Individual
Session 03
2. Jelaskan pengertian dari 6V (volume, velocity, variety, veracity, visibility, dan value) dari
Big Data:
Jawaban:
a. Volume merupakan kuantitas atau jumlah data yang diserap, diproses, dikumpulkan
serta disimpan dalam basis data yang besar. Sumber data berasal dari mesin, jaringan
atau interaksi antara manusia dengan sistem.
c. Variety merupakan variasi tipe dan sifat dari data yang dikelola, apakah data tersebut
data terstruktur, semi terstruktur atau tidak terstruktur. Data terstruktur yaitu data yang
memiliki elemen-element yang dapat diakses seperti keys seperti database. Data semi
struktur merupakan data yang tidak disimpan dalam database tetapi memiliki pattern
atau terorganisir dengan rapi sehingga lebih mudah untuk dianalisa seperti data pada
file XML dan CSV. Data tidak terstruktur merupakan data yang tidak terorganisir
dengan baik seperti file gambar, suara, video, pdf atau log file.
d. Veracity merupakan data yang berada atau diproses dapat dipercaya kebenarannya,
dapat diandalkan, berkualitas dan dapat diakses dengan baik.
e. Visibility yaitu semua data dapat diakses dan dibaca oleh setiap orang kapan saja ketika
dibutuhkan.
f. Value yaitu seluruh data memiliki nilai. Nilai pada data bergantung pada sisi data dan
pada kemampuan tim data analis dalam menganalisa dan mengolah dengan tepat,
sehingga dapat menghasilkan informasi yang berharga untuk mengambil suatu
keputusan.
4. Misalkan anda memiliki Hadoop cluster yang terdiri dari 8 worker node, jelaskan
bagaimana pendekatan Map Reduce diterapkan pada cluster tersebut untuk mencari nilai
minimum dan maksimum dari data yang berjumlah 10 juta record. Jelaskan operasi apa
yang dilakukan pada tahap Map dan tahap Reduce.
Jawaban:
Asumsi data berjumlah 10 juta record dengan data penjualan barang dalam jangka waktu
tertentu, contoh ilustrasinya seperti pada tabel.1.
Nilai minimum merupakan barang yang paling sedikit terjual, sedangkan nilai maksimum
merupakan barang yang paling banyak terjual.
Sesuai dengan gambar 1 diatas, map reduce dibagi menjadi beberapa tahap yaitu:
1. Splitting. Pada proses ini data masukan yang diberikan oleh pengguna MapReduce
(klien) akan dipecah menjadi bagian-bagian yang lebih kecil. Pada kasus Hadoop
MapReduce, dalam kondisi ideal, data akan dipecah menjadi beberapa bongkahan
berukuran maksimal 128MB.
2. Mapping merupakan salah satu tahap terpenting dari MapReduce. Pada fase Mapping,
bongkahan data yang telah dipecah akan di proses untuk menghasilkan intermediary
key-value pairs. Pada contoh Gambar 1 diatas, data yang mengandung “Barang A,
Barang B, Barang C, Barang A, Barang D” akan diproses sehingga menghasilkan
pasangan key-value Barang A :1, Barang B:1, Barang C:1, Barang A:1, Barang D:1.
Dalam fase Mapping, bisa jadi ada satu atau lebih mesin pekerja (worker) yang
melakukan proses terhadap beberapa bongkahan data yang berbeda. Semakin banyak