Anda di halaman 1dari 9

Tugas Kelompok ke-2

Week 4

Nama Kelompok:
Khalfia Khairin (2602212804)
Zhafira Lia Azhari (2602216411)
Raka Fajar Alyansyah (2602211000)
Dwinanto Ikhsan Maulana (2602179776)
Gagas Bramiswara Prasista Noer (2602213082)

Jawablah soal berikut dengan benar!

A. Soal Essay
1. Lapisan ingestion terdiri dari beberapa lapisan, sebut dan jelaskan lapisan
tersebut?
Jawab:
Secara umum dalam konteks pengolahan data, terdapat beberapa
lapisan dalam proses ingest atau ingestion. berikut penjelasan :
- Lapisan Ekstraksi : lapisan ekstraksi bertanggung jawab untuk
mengambil data dari berbagai sumber seperti data base, file teks,
API atau sistem eksternal lain nya. Pada lapisan ini data mentah
diperoleh dan disalin dari sumber eksternal dalam sistem ingestion.
- Lapisan Transformasi : lapisan transformasi melibatkan
pemrosesan dan transformasi data mentah yang diekstraksi. Pada
lapisan ini, data diubah ke dalam struktur yang sesuai dengan
kebutuhan bisnis atau analisis lebih lanjut. Proses transformasi
dapat melibatkan manipulasi data, penggabungan data dari sumber
yang berbeda. pemfilteran,normalisasi, atau perhitungan agregat.

COMP6725 - Big Data Technologies


- Lapisan Validasi (Validation Layer): Lapisan validasi adalah
lapisan yang memverifikasi integritas dan kualitas data. Pada
lapisan ini, data diuji untuk memastikan kebenaran format,
kecocokan dengan aturan bisnis atau aturan validasi yang telah
ditentukan, serta pemastian keberadaan data yang lengkap dan
tidak ada kecacatan.
- Lapisan Enkripsi dan Keamanan (Encryption and Security Layer):
Lapisan ini bertanggung jawab untuk mengamankan data selama
proses ingestion. Data dapat dienkripsi atau dilindungi
menggunakan metode keamanan lainnya untuk memastikan
kerahasiaan dan integritasnya.
- Lapisan Sinkronisasi (Synchronization Layer): Lapisan
sinkronisasi menyinkronkan data yang telah diolah dengan tujuan
penyimpanan atau sistem lainnya. Data dapat disimpan dalam
sistem basis data, sistem penyimpanan berbasis awan, atau sistem
pemrosesan data lainnya sesuai kebutuhan.
- Lapisan Logging dan Monitoring (Logging and Monitoring Layer):
Lapisan ini melibatkan pencatatan (logging) dan pemantauan
(monitoring) proses ingestion. Hal ini penting untuk melacak dan
memonitor kinerja proses ingestion, mendeteksi kesalahan, atau
mengumpulkan metrik yang diperlukan untuk analisis dan
perbaikan selanjutnya.

Perlu diingat bahwa ini adalah kerangka umum dan lapisan-lapisan


tersebut dapat berbeda-beda tergantung pada implementasi dan
kebutuhan spesifik dalam proses ingestion yang sedang dibangun.

Tugas 02
Group Assignment ©Arif 2|9
2. Apakah perbedaan ingestion data batch dengan ingestion data streaming?
Sertakan contohnya
Jawab :
Perbedaan utama antara ingestion data batch dan ingestion data streaming
terletak pada cara data diproses dan ketersediaan hasil pengolahan data.
Berikut adalah penjelasan serta contoh masing-masing:

A. Ingestion Data Batch:

Ingestion data batch adalah metode pemrosesan data di mana data


dikumpulkan, diolah, dan disimpan dalam batch atau kelompok sebelum
diolah lebih lanjut. Data dikumpulkan selama periode waktu tertentu,
seperti beberapa jam, sehari, atau lebih lama, kemudian diproses dalam
satu proses batch. Proses batch ini biasanya dilakukan pada waktu tertentu,
seperti pada akhir hari atau saat beban kerja sistem sedang rendah.

Contoh:

Misalnya, sebuah perusahaan e-commerce ingin menganalisis data


penjualan harian mereka. Setiap hari pada pukul 00.00, sistem
mengumpulkan semua transaksi penjualan yang terjadi selama 24 jam
terakhir. Setelah itu, data diolah secara batch dan disimpan dalam basis
data untuk analisis lebih lanjut. Proses pengolahan data batch ini
memberikan hasil yang dapat digunakan untuk melihat tren penjualan
harian, laporan keuangan, atau prediksi permintaan.

B. Ingestion Data Streaming:

Ingestion data streaming adalah metode pemrosesan data di mana data


diterima dan diproses secara kontinu seiring waktu. Data yang masuk
diolah segera setelah diterima, dan hasilnya tersedia hampir secara real-
time. Metode ini cocok untuk situasi di mana data yang masuk harus
segera diolah dan hasilnya harus segera tersedia untuk pengambilan
keputusan instan.

Tugas 02
Group Assignment ©Arif 3|9
Contoh:

Misalkan ada platform media sosial yang ingin menganalisis sentimen


pengguna terhadap merek mereka secara real-time. Ketika pengguna
memposting pesan atau komentar tentang merek di platform tersebut, data
tersebut dikirimkan secara langsung ke sistem pemrosesan data streaming.
Dalam waktu singkat, sistem akan menganalisis dan mengolah data untuk
mengekstrak informasi seperti sentimen positif atau negatif terhadap
merek tersebut. Hasilnya kemudian bisa digunakan untuk mengambil
tindakan responsif seperti merespons komentar negatif atau berinteraksi
dengan pengguna secara langsung.

Perbedaan inti antara ingestion data batch dan ingestion data streaming
adalah dalam siklus pemrosesan dan ketersediaan hasil. Ingestion data
batch memproses data dalam kelompok besar dengan jeda waktu tertentu,
sementara ingestion data streaming memproses data secara kontinu seiring
waktu untuk menghasilkan informasi hampir real-time.

3. Apakah tantangan dari data ingestion?


Jawab: Tantangan dari data ingestion:
- Memprioritaskan setiap beban sumber data
- Memberi tag dan mengindeks data yang ingested
- Memvalidasi dan membersihkan data yang ingested
- Mengubah dan mengompresi sebelum ingestion

4. Apa alasan mengapa orang menggunakan Hadoop untuk pengelolaan big


data?
Jawab: Alasan orang menggunakan Hadoop untuk pengelolaan big data
yaitu:
- Dari segi ketahanan, data yang disimpan pada node akan
direplikasi pada node lainnya dalam kluster yang sama sehingga
memberikan jaminan atas toleransi kesalahan.

Tugas 02
Group Assignment ©Arif 4|9
- Dari segi skalabilitas, Hadoop tidak seperti sistem konvensional
yang memiliki batasan jumlah kapasitas penyimpanan karena
Hadoop beroperasi dengan cara mendistribusikan data. Jika terjadi
peningkatan permintaan, sistem akan berkembang dengan mudah
untuk menampung banyak server yang dapat menyimpan data
hingga Petabite
- Dari segi biaya Hadoop termasuk rendah, karena Hadoop berupa
kerangka kerja open-source maka tidak dibutuhkan suatu prosedur
lisensi dan biaya yang dibutuhkan lebih rendah secara signifikan
dibandingkan dengan sistem database yang serupa
- Dari segi tingkat kecepatan, Hadoop menggunakan model
pemrograman MapReduce dalam mendistribusikan sistem file,
memproses secara bersamaan sehingga banyaknya kueri yang ada
hanya membutuhkan waktu sepersekian detik.
- Diversitas data, HDFS memiliki kapasitas untuk menyimpan data
pada berbagai bentuk format seperti format tak terstruktur (video),
semi terstruktur (XML file), dan terstruktur

5. Apakah keuntungan dan kelebihan menggunakan Hadoop pada cloud dan


Hadoop pada datacenter on premis?
Jawab :
Keuntungan menggunakan Hadoop on Cloud :
- Dari segi biaya, perusahaan yang menggunakan cloud sebagai
penyedia Hadoop mendapatkan keuntungan dengan biaya yang
fleksibel dan lebih murah dibandingkan dengan jika menggunakan
on premise. Perusahaan hanya mengeluarkan biaya sesuai
penggunaan kepada penyedia cloud untuk platform penyimpanan
dan analisis yang dibutuhkan. Perusahaan tidak perlu melakukan
investasi hardware termasuk lisensi, biaya pemeliharaan dan
supportnya yang tentu memakan biaya lebih tinggi.

Tugas 02
Group Assignment ©Arif 5|9
- Dari segi skalabilitas, dengan menggunakan hadoop cloud
perusahaan dapat melakukan expand storage atau compute tanpa
batas sesuai permintaan. Jika diperlukan, ribuan server virtual
dapat dijalankan di cloud dalam hitungan menit. Sekali lagi,
perusahaan hanya membayar yang mereka perlukan dan gunakan
untuk memenuhi peningkatan permintaan data.
- Menangani beban kerja batch secara efisien
- Menangani persyaratan sumber daya variable
- Lebih dekat dengan data karena posisinya ada di cloud internet
- Menyederhanakan operasi Hadoop

Keuntungan menggunakan Hadoop on Premise :


- Dari segi keamanan dan kerahasiaan data perusahaan akan lebih
terjaga karena seluruh sistem hanya bisa diakses oleh perusahaan
saja
- Mengurangi latensi terhadap sistem yang diintegrasikan dengan
Hadoop.

6. Apakah HDFS dan ciri – ciri yang dimilikinya?


Jawab:
HDFS (Hadoop Distributed File System) merupakan program
penyimpanan data dengan memecah data berukuran besar menjadi ke
ukuran yang lebih kecil dan kemudian didistribusikan ke dalam server-
server komputer serta membentuk clusternya. HDFS memiliki dua
komponen utama yaitu NameNode dan DataNode. NameNode yang
bertindak menyimpan, mengorganisir dan mengontrol block-block data
yang tersimpan secara terpisah dalam komputer. Sedangkan DataNode
bertindak sebagai penyimpanan block data yang diterima dan melaporkan
hasilnya kepada NameNode. HDFS memiliki beberapa ciri diantaranya:

Tugas 02
Group Assignment ©Arif 6|9
- Scalable Storage for Large Files
Ciri utama dari HDFS memiliki penyimpanan yang dikhususkan
untuk data besar dari ukuran gigabyte hingga terabyte. Seperti cara
kerjanya HDFS dibuat untuk memecah file besar kemudian menjadi
beberapa potong atau block yang selanjutnya di distribusikan ke
beberapa sistem dalam cluster.
- Replikasi
HDFS didesain dengan mereplikasi data ke beberapa bagian dalam
cluster yang dapat mengidentifikasi kesalahan. Blok memiliki
ukuran sebesar 64MB dan faktor replikasi adalah 3.
- Streaming Data Access
HDFS memiliki pola yang dapat mengakses data dengan streaming
secara baca dan tulis yang memiliki hasil output yang tinggi. HDFS
dibuat untuk dapat dioperasikan langsung ke dalam batch dengan
mengurangi kemampuan akses interaktif yang sesuai dengan
persyaratan POSIX.
- File Appends
Pada model terbaru HDFS memberikan tambahan fitur yaitu
penambahan file yang dapat membantu untuk memodifikasi tulisan
dalam file atau menambahkannya dalam file.

7. Apakah perbedaan NoSQL dengan SQL serta jelaskan kelebihan dan


kekurangan yang dimiliknya?
Jawab :
Perbedaan dari NoSQL dan SQL
1. Struktur
NoSQL memiliki struktur data yang lebih fleksibel dan tidak
memiliki tabel. Data disimpan dalam dokumen, grafik, atau key-
value store.

Tugas 02
Group Assignment ©Arif 7|9
Sedangkan struktur data SQL adalah sistem database relasional. Ini
berarti data disimpan dalam bentuk tabel dengan kolom dan baris.
Struktur tabel didefinisikan sebelum data masuk.
2. Konsistensi
NoSQL menggunakan model konsistensi BASE. Sistem ini
memprioritaskan ketersediaan dan partisi pada sistem database.
Konsistensi data SQL menggunakan model konsistensi ACID. Hal
tersebut mengharuskan transaksi untuk mematuhi semua aturan,
dan mengizinkan rollback jika ada kesalahan.
3. Bahasa
NoSQL menggunakan bahasa yang bervariasi tergantung pada
jenis NoSQL yang digunakan. Sedangkan bahasa query SQL
menggunakan bahasa query SQL standar untuk memanipulasi data.
4. Aplikasi
NoSQL biasanya digunakan dalam aplikasi web yang memiliki
kecepatan yang tinggi. Jadi ia banyak ditemukan pada situs web
media sosial, game, dan IoT.
Penggunaan SQL biasanya digunakan untuk aplikasi bisnis,
keuangan, dan lain-lain. Di mana mereka memerlukan integritas
data yang tinggi dan transaksi yang kompleks.
5. Keamanan
NoSQL kurang aman karena lebih fokus pada kinerja dan
ketersediaan daripada keamanan.
SQL seringkali lebih aman karena memiliki mekanisme keamanan
yang kuat seperti autentikasi, otorisasi, dan enkripsi.
6. Biaya
NoSQL seringkali lebih murah karena sering menggunakan sumber
daya open source.
Biaya SQL biasanya lebih mahal. hal tersebut lantaran perangkat
lunak yang digunakan untuk menjalankan sistem database
relasional memerlukan biaya lisensi.

Tugas 02
Group Assignment ©Arif 8|9
7. Skema
NoSQL tidak memerlukan skema data, yang memungkinkan
fleksibilitas yang lebih besar. Skema data SQL memerlukan
definisi skema data sebelum data dimasukkan ke dalam database.

Referensi:
- LN Week 3 Big Data Technologies
- https://sis.binus.ac.id/2021/11/25/penggunaan-hadoop-sebagai-big-data-
analitik/
- https://medium.com/skyshidigital/hadoop-distributed-file-system-
c1f5c29e9e6e
- https://digilib.stekom.ac.id/assets/dokumen/ebook/
feb_ae6eb1406bfe80c527365dd3445eab3b56947986_1652777138.pdf
- https://www.qubole.com/blog/cloud-vs-on-premise-hadoop
- https://www.analyticssteps.com/blogs/what-data-ingestion-challenges-and-
types
- Mengenal Data Ingestion - Pengertian, Jenis dan Manfaatnya (uma.ac.id)
- Data Ingestion : Definisi, Manfaat, Jenis, dan Tools yang Bisa Digunakan
(inmarketing.id)
- https://it.telkomuniversity.ac.id/perbedaan-nosql-vs-sql/
-

Tugas 02
Group Assignment ©Arif 9|9

Anda mungkin juga menyukai