Week 4
Nama Kelompok:
Khalfia Khairin (2602212804)
Zhafira Lia Azhari (2602216411)
Raka Fajar Alyansyah (2602211000)
Dwinanto Ikhsan Maulana (2602179776)
Gagas Bramiswara Prasista Noer (2602213082)
A. Soal Essay
1. Lapisan ingestion terdiri dari beberapa lapisan, sebut dan jelaskan lapisan
tersebut?
Jawab:
Secara umum dalam konteks pengolahan data, terdapat beberapa
lapisan dalam proses ingest atau ingestion. berikut penjelasan :
- Lapisan Ekstraksi : lapisan ekstraksi bertanggung jawab untuk
mengambil data dari berbagai sumber seperti data base, file teks,
API atau sistem eksternal lain nya. Pada lapisan ini data mentah
diperoleh dan disalin dari sumber eksternal dalam sistem ingestion.
- Lapisan Transformasi : lapisan transformasi melibatkan
pemrosesan dan transformasi data mentah yang diekstraksi. Pada
lapisan ini, data diubah ke dalam struktur yang sesuai dengan
kebutuhan bisnis atau analisis lebih lanjut. Proses transformasi
dapat melibatkan manipulasi data, penggabungan data dari sumber
yang berbeda. pemfilteran,normalisasi, atau perhitungan agregat.
Tugas 02
Group Assignment ©Arif 2|9
2. Apakah perbedaan ingestion data batch dengan ingestion data streaming?
Sertakan contohnya
Jawab :
Perbedaan utama antara ingestion data batch dan ingestion data streaming
terletak pada cara data diproses dan ketersediaan hasil pengolahan data.
Berikut adalah penjelasan serta contoh masing-masing:
Contoh:
Tugas 02
Group Assignment ©Arif 3|9
Contoh:
Perbedaan inti antara ingestion data batch dan ingestion data streaming
adalah dalam siklus pemrosesan dan ketersediaan hasil. Ingestion data
batch memproses data dalam kelompok besar dengan jeda waktu tertentu,
sementara ingestion data streaming memproses data secara kontinu seiring
waktu untuk menghasilkan informasi hampir real-time.
Tugas 02
Group Assignment ©Arif 4|9
- Dari segi skalabilitas, Hadoop tidak seperti sistem konvensional
yang memiliki batasan jumlah kapasitas penyimpanan karena
Hadoop beroperasi dengan cara mendistribusikan data. Jika terjadi
peningkatan permintaan, sistem akan berkembang dengan mudah
untuk menampung banyak server yang dapat menyimpan data
hingga Petabite
- Dari segi biaya Hadoop termasuk rendah, karena Hadoop berupa
kerangka kerja open-source maka tidak dibutuhkan suatu prosedur
lisensi dan biaya yang dibutuhkan lebih rendah secara signifikan
dibandingkan dengan sistem database yang serupa
- Dari segi tingkat kecepatan, Hadoop menggunakan model
pemrograman MapReduce dalam mendistribusikan sistem file,
memproses secara bersamaan sehingga banyaknya kueri yang ada
hanya membutuhkan waktu sepersekian detik.
- Diversitas data, HDFS memiliki kapasitas untuk menyimpan data
pada berbagai bentuk format seperti format tak terstruktur (video),
semi terstruktur (XML file), dan terstruktur
Tugas 02
Group Assignment ©Arif 5|9
- Dari segi skalabilitas, dengan menggunakan hadoop cloud
perusahaan dapat melakukan expand storage atau compute tanpa
batas sesuai permintaan. Jika diperlukan, ribuan server virtual
dapat dijalankan di cloud dalam hitungan menit. Sekali lagi,
perusahaan hanya membayar yang mereka perlukan dan gunakan
untuk memenuhi peningkatan permintaan data.
- Menangani beban kerja batch secara efisien
- Menangani persyaratan sumber daya variable
- Lebih dekat dengan data karena posisinya ada di cloud internet
- Menyederhanakan operasi Hadoop
Tugas 02
Group Assignment ©Arif 6|9
- Scalable Storage for Large Files
Ciri utama dari HDFS memiliki penyimpanan yang dikhususkan
untuk data besar dari ukuran gigabyte hingga terabyte. Seperti cara
kerjanya HDFS dibuat untuk memecah file besar kemudian menjadi
beberapa potong atau block yang selanjutnya di distribusikan ke
beberapa sistem dalam cluster.
- Replikasi
HDFS didesain dengan mereplikasi data ke beberapa bagian dalam
cluster yang dapat mengidentifikasi kesalahan. Blok memiliki
ukuran sebesar 64MB dan faktor replikasi adalah 3.
- Streaming Data Access
HDFS memiliki pola yang dapat mengakses data dengan streaming
secara baca dan tulis yang memiliki hasil output yang tinggi. HDFS
dibuat untuk dapat dioperasikan langsung ke dalam batch dengan
mengurangi kemampuan akses interaktif yang sesuai dengan
persyaratan POSIX.
- File Appends
Pada model terbaru HDFS memberikan tambahan fitur yaitu
penambahan file yang dapat membantu untuk memodifikasi tulisan
dalam file atau menambahkannya dalam file.
Tugas 02
Group Assignment ©Arif 7|9
Sedangkan struktur data SQL adalah sistem database relasional. Ini
berarti data disimpan dalam bentuk tabel dengan kolom dan baris.
Struktur tabel didefinisikan sebelum data masuk.
2. Konsistensi
NoSQL menggunakan model konsistensi BASE. Sistem ini
memprioritaskan ketersediaan dan partisi pada sistem database.
Konsistensi data SQL menggunakan model konsistensi ACID. Hal
tersebut mengharuskan transaksi untuk mematuhi semua aturan,
dan mengizinkan rollback jika ada kesalahan.
3. Bahasa
NoSQL menggunakan bahasa yang bervariasi tergantung pada
jenis NoSQL yang digunakan. Sedangkan bahasa query SQL
menggunakan bahasa query SQL standar untuk memanipulasi data.
4. Aplikasi
NoSQL biasanya digunakan dalam aplikasi web yang memiliki
kecepatan yang tinggi. Jadi ia banyak ditemukan pada situs web
media sosial, game, dan IoT.
Penggunaan SQL biasanya digunakan untuk aplikasi bisnis,
keuangan, dan lain-lain. Di mana mereka memerlukan integritas
data yang tinggi dan transaksi yang kompleks.
5. Keamanan
NoSQL kurang aman karena lebih fokus pada kinerja dan
ketersediaan daripada keamanan.
SQL seringkali lebih aman karena memiliki mekanisme keamanan
yang kuat seperti autentikasi, otorisasi, dan enkripsi.
6. Biaya
NoSQL seringkali lebih murah karena sering menggunakan sumber
daya open source.
Biaya SQL biasanya lebih mahal. hal tersebut lantaran perangkat
lunak yang digunakan untuk menjalankan sistem database
relasional memerlukan biaya lisensi.
Tugas 02
Group Assignment ©Arif 8|9
7. Skema
NoSQL tidak memerlukan skema data, yang memungkinkan
fleksibilitas yang lebih besar. Skema data SQL memerlukan
definisi skema data sebelum data dimasukkan ke dalam database.
Referensi:
- LN Week 3 Big Data Technologies
- https://sis.binus.ac.id/2021/11/25/penggunaan-hadoop-sebagai-big-data-
analitik/
- https://medium.com/skyshidigital/hadoop-distributed-file-system-
c1f5c29e9e6e
- https://digilib.stekom.ac.id/assets/dokumen/ebook/
feb_ae6eb1406bfe80c527365dd3445eab3b56947986_1652777138.pdf
- https://www.qubole.com/blog/cloud-vs-on-premise-hadoop
- https://www.analyticssteps.com/blogs/what-data-ingestion-challenges-and-
types
- Mengenal Data Ingestion - Pengertian, Jenis dan Manfaatnya (uma.ac.id)
- Data Ingestion : Definisi, Manfaat, Jenis, dan Tools yang Bisa Digunakan
(inmarketing.id)
- https://it.telkomuniversity.ac.id/perbedaan-nosql-vs-sql/
-
Tugas 02
Group Assignment ©Arif 9|9