Week 4
A. Soal Essay
1. Lapisan ingestion terdiri dari beberapa lapisan, sebut dan jelaskan lapisan
tersebut?
2. Apakah perbedaan ingestion data batch dengan ingestion data streaming?
Sertakan contohnya
3. Apakah tantangan dari data ingestion?
4. Apa alasan mengapa orang menggunakan Hadoop untuk pengelolaan big data?
5. Apakah keuntungan dan kelebihan menggunakan Hadoop pada cloud dan
Hadoop pada datacenter on premis?
6. Apakah HDFS dan ciri – ciri yang dimilikinya?
7. Apakah perbedaan NoSQL dengan SQL serta jelaskan kelebihan dan
kekurangan yang dimiliknya?
2. Ingestion data batch merupakan tempat pemrosesan blok data yang telah
disimpan selama periode waktu tertentu. Misalnya, memproses semua
transaksi yang telah dilakukan oleh sebuah perusahaan keuangan besar
dalam seminggu. Data ini berisi jutaan catatan untuk satu hari yang dapat
disimpan sebagai file atau catatan dll. File khusus ini akan diproses pada
akhir hari untuk berbagai analisis yang ingin dilakukan perusahaan. Jelas
akan memakan banyak waktu untuk memproses file itu. Itulah yang
dimaksud dengan Pemrosesan Batch. Hadoop MapReduce adalah
framework terbaik untuk memproses data dalam batch.
Kelebihan NoSQL:
a. Fleksibilitas: ideal untuk data yang semi terstruktur maupun tidak
terstruktur
b. Skalabilitas: menggunakan klaster perangkat keras yang terdistribusi
alih-alih meningkatkan skala dengan menambah server yang mahal dan
robust.
c. Fungsionlitas tinggi: Database NoSQL menyediakan API dan jenis
data fungsional yang dibuat secara khusus untuk setiap model data
yang sesuai.
d. Kinerja Tinggi: Database NoSQL dioptimalkan untuk model data
spesifik dan pola akses yang memberikan kinerja yang lebih tinggi
Kekurangan NoSQL:
a. Tiap record atau row merupakan data yang unik dan tidak bisa
digantikan data yang lain.
Kelebihan SQL:
a. Pengendalian Database secara terpusat
b. Membuat Clustering Data
c. Mempermudah pengelolaan database
d. Fleksibel pada semua perangkat dan versi windows
Kekurangan SQL:
a. Tidak Affordable dalam segi harga
b. Kurang sesuai untuk skala besar
Apa Itu SQL Server? Yuk Kulik Kelebihan dan Kekurangannya (dqlab.id)
https://gowthamy.medium.com/big-data-battle-batch-processing-vs-stream-
processing-5d94600d8103
Di Lena, G., Giroire, F., Turletti, T., & Lac, C. (2021, June). CloudTrace Demo:
Tracing Cloud Network Delay. In 2021 IEEE 7th International Conference on
Network Softwarization (NetSoft) (pp. 357-359). IEEE.
Tang, C., Wang, B., Wu, H., Wang, Z., Li, Y., Channapattan, V., ... & Lu, A.
(2022). Serving Hybrid-Cloud SQL Interactive Queries at Twitter. In European
Conference on Software Architecture (pp. 3-21). Springer, Cham.