Individual
Session 10
To be Submitted Week XX
1. Ada beberapa kriteria yang harus kita perhatikan dalam memilih pemrosesan system pada
Big Data, salah satunya adalah latency.
a. Kapan low-latency dan high-latency diperlukan?
Jawaban:
Latency merupakan waktu yang dibutuhkan data untuk mencapai tujuannya atau bisa
juga berarti waktu dibutuhkan dalam pemrosesan suatu data.
Low latency dapat melakukan suatu proses pengolahan data dengan sangat cepat akan
tetapi membutuhkan biaya yang cukup besar sedangkan pada high latency tidak
membutuhkan waktu yang cukup lama dengan biaya yang lebih kecil.
Low latency dibutuhkan pada saat melakukan proses data yang bersifat real time dan
hasil / outputnya dibutuhkan pada saat itu juga. Biasanya low latency digunakan
untuk melakukan Analisa data yang masuk setiap detiknya dengan ukuran data yang
tidak terlalu besar.
High latency dibutuhkan pada saat melakukan proses data per batch yang tidak
memerlukan output pada saat itu juga. Contoh penggunaan high latency yaitu pada
saat menganalisa data penjualan dalam waktu satu bulan / triwulan atau semester.
b. Jelaskan mengapa pada Map Reduce latency dianggap tinggi (high latency) dan pada
Spark untuk proses micro batch size dianggap rendah (low latency).
Map Reduce termasuk high latency karena proses dalam map reduce membaca dan
membagi data yang memiliki ukuran besar menjadi batch yang lebih kecil ke dalam
disk (HDFS) pada setiap prosesnya, dan juga map reduce menyimpan data pada banyak
node dan memproses secara batch, sehingga memerlukan waktu pemrosesan yang lebih
lama.
Spark pada proses micro batch size termasuk low latency karena dalam micro batch
data ditaruh di dalam memory dan diproses berulang-ulang tanpa menaruh ke dalam
disk dalam setiap proses sehingga waktu yang diperlukan lebih sedikit, hal ini berlaku
jika seluruh data yang diproses dapat ditaruh di memory.
2. Apa yang anda ketahui tentang Centrality pada Graph? apa yang dapat dijelaskan oleh
Centrality pada suatu graph yang menggambarkan hubungan antar personal dalam Social
Network?
Jawaban:
Dalam teori graf dan analisis jaringan, indikator sentralitas merupakan cara menetapkan
angka atau peringkat ke node dalam grafik yang sesuai dengan posisi jaringannya termasuk
cara mengidentifikasi orang yang paling berpengaruh dalam jaringan sosial, selain itu juga
cara mencari simpul infrastruktur utama di Internet atau jaringan perkotaan, dan cara
penyebaran penyakit, serta jaringan otak.
Jawaban:
Clique 1
Clique 2 Clique 3
Clique 1 : ABC
Clique 2 : DEF
Clique 3 : GHI
Community 2
Community 1
Community 3
Gambar 2 Community yang dapat dibentuk dengan asumsi terdapat penghubung antara DC, DH, dan CH
Community 1 : CGHI
Community 2 : ABCD
Community 3 : DEFH