Anda di halaman 1dari 4

Tugas Kelompok ke-2

Week 4

Jawablah soal berikut dengan benar!

A. Soal Essay
1. Lapisan ingestion terdiri dari beberapa lapisan, sebut dan jelaskan lapisan
tersebut?

2. Apakah perbedaan ingestion data batch dengan ingestion data streaming?


Sertakan contohnya
Ingestion Batch
Batch processing atau pemrosesan batch adalah Teknik dimana data yang
akan diproses atau program yang akan dijalankan dikumpulkan menjadi
beberapa kelompok agar pemrosesan data lebih nyaman, efisien, dan
cepat. Teknik ini adalah bentuk pemrosesan data yang paling sederhana.
Dengan metode ini, pemrosesan yang dilakukan oleh komputer dilakukan
secara berkala, pada interval waktu tertentu, seperti minggu, bulan, dan
sebagainya. Contohnya adalah data transaksi harian dapat diproses secara
batch atau kelompok pada setiap minggu.
Real Time Processing atau dikenal steraming processing jenis data yang
memungkinkan untuk dibawa dan diambil dari database secara terus
menerus dan langsung. metode pengolahan data yang memiliki
kemampuan respon yang cepat untuk memperoleh data dari suatu
aktivitas atau proses fisik, melakukan perhitungan, dan mengembalikan
proses dengan cukup cepat untuk mempengaruhi output yang dihasilkan
Contoh reservasi tiket pesawat. Setiap kali tiket dipesan atau dibatalkan,
jadwal pesawat akan berubah sehingga data harus segera di update dan
diinput untuk melacak ketersediaan kursi.
Sumber
https://www.dqlab.id/3-tipe-metode-pengolahan-data-yang-harus-kamu-
ketahui
https://www.linovhr.com/data-ingestion/
3. Apakah tantangan dari data ingestion?
 Pola data ingestion yang khas Data tidak terstruktur, jika disimpan
dalam sistem manajemen basis data relasional (RDBMS) akan
menciptakan masalah kinerja dan skalabilitas. Oleh karena itu, di
dunia big data, data dimuat menggunakan beberapa solusi dan
beberapa tujuan target untuk memecahkan jenis masalah tertentu.
 data dalam jumlah besar dan format yang beragam akan memakan
waktu dalam proses pengumpulannya.

COMP6725 - Big Data Technologies


4. Apa alasan mengapa orang menggunakan Hadoop untuk pengelolaan big
data?
Jawab :

Hadoop dibuat sebagai solusi terhadap pengolahan data secara tradisional,


sehingga tidak mengherankan jika Hadoop menawarkan begitu banyak manfaat.
Berikut empat manfaat utama bisa dilihat dari kelebihan Hadoop:

a KECEPATAN

Hadoop memakai MapReduce untuk menjalankan pemrosesan paralel yang


menyimpan dan mengambil data lebih cepat daripada informasi yang berada di
database tradisional. Pemrosesan paralel Hadoop, model MapReduce, dan HDFS
(Hadoop Distributed File System) memungkinkan pengguna sistem menjalankan
query kompleks hanya dalam beberapa detik.

b KERAGAMAN

Hadoop menggunakan HDFS (Hadoop Distributed File System) untuk membagi


jumlah data yang sangat besar menjadi bagian-bagian kecil yang dapat dikelola,
kemudian disimpan di cluster server komunitas. Hal ini menawarkan skalabilitas
dan ekonomi. HDFS Hadoop dapat menyimpan berbagai format data, seperti
terstruktur, semi terstruktur, hingga tidak terstruktur.

c HEMAT BIAYA

Hadoop adalah platform yang efisien dan hemat biaya untuk big data karena
berjalan pada server komoditas dengan penyimpanan terpasang. Jenis server ini
merupakan arsitektur yang lebih murah daripada jaringan area penyimpanan
khusus.

d SKALABILITAS

Skalabilitas adalah kemampuan sistem Hadoop dalam beradaptasi dengan


mudah terhadap peningkatan beban kerja atau permintaan pasar. Skalabilitas
Hadoop berasal dari fakta bahwa operasi peta dan pengurangan dapat
dijalankan secara paralel di beberapa mesin, caramya dengan memecah input
menjadi potongan-potongan yang lebih kecil.

Sumber Referensi :

https://algorit.ma/blog/hadoop-big-data-2022/

5. Apakah keuntungan dan kelebihan menggunakan Hadoop pada cloud dan


Hadoop pada datacenter on premis?
6. Apakah HDFS dan ciri – ciri yang dimilikinya?
Jawab :
HDFS adalah singkatan dari Hadoop Distributed File System. HDFS adalah open
source project yang dikembangkan oleh Apache Software Foundation dan
merupakan subproject dari Apache Hadoop. Apache mengembangkan HDFS
berdasarkan konsep dari Google File System (GFS) dan oleh karenanya sangat

Week 4 ©Arif 2|4


mirip dengan GFS baik ditinjau dari konsep logika, struktur fisik, maupun cara
kerjanya. Sebagai layer penyimpanan data di Hadoop, HDFS adalah sebuah
sistem file berbasis Java yang fault-tolerant, terdistribusi, dan scalable.
Dirancang agar dapat diaplikasikan pada kluster dan dapat dijalankan dengan
menggunakan proprietary atau commodity server. HDFS ini pada dasarnya
adalah sebuah direktori dimana data disimpan yang bekerja sesuai dengan
spesifikasi dari Hadoop. Data tersimpan dalam kluster yang terdiri dari banyak
node komputer/server yang masing-masing sudah terinstalasi Hadoop.

Sistem penyimpanan terdistribusi pada HDFS melakukan proses pemecahan file


besar menjadi bagian-bagian lebih kecil dan kemudian didistribusikan ke kluster-
kluster sehingga memungkinkan pemrosesan secara pararel. HDFS memiliki
banyak kesamaan dengan sistem file terdistribusi lainnya, nanum perbedaan
yang terutama adalah model Write-Once-Read-Many (WORM) pada HDFS yang
melonggarkan persyaratan kontrol konkurensi, menyederhanakan koherensi
data, dan memungkinkan akses throughput yang tinggi. HDFS memiliki fitur-
fitur sebagai berikut:

 Sangat sesuai untuk penyimpanan, pengelolaan dan pemrosesan


dataset yang besar secara terdistribusi.
 Hadoop menyediakan antarmuka perintah untuk berinteraksi dengan
HDFS.
 Heartbeat memudahkan pemeriksaan status kluster.
 Akses data melalui MapReduce streaming.
 HDFS menyediakan file permissions and authentication.
 Fault detection dan recovery.
 Lokasi komputasi berada dekat dengan data untuk mengurangi traffic
jaringan dan meningkatkan throughput.

Week 4 ©Arif 3|4


Sebagai distributed file system, HDFS memiliki komponen-komponen
utama berupa NameNode dan DataNode. NameNode adalah sebuah
komputer yang bertindak sebagai master, sedangkan DataNode adalah
komputer-komputer dalam Hadoop Cluster yang bertugas sebagai slaves
atau anak buah. NameNode bertanggung jawab menyimpan informasi
tentang penempatan block-block data dalam Hadoop Cluster. Ia
bertanggung jawab mengorganisir dan mengontrol block-block data yang
disimpan tersebar dalam komputer-komputer yang menyusun Hadoop
Cluster. Sedangkan DataNode bertugas menyimpan block-block data yang
dialamatkan kepadanya, dan secara berkala melaporkan kondisinya kepada
NameNode. Laporan berkala DataNode kepada NameNode ini disebut
Heartbeat. Berdasarkan Heartbeat ini NameNode dapat mengetahui dan
menguasai kondisi cluster secara keseluruhan. Sebagai balasan atas
Heartbeat dari DataNode, NameNode akan mengirimkan perintah kepada
DataNode. Jadi, dalam HDFS, NameNode adalah boss yang mengatur dan
mengendalikan atau me-manage Hadoop Cluster. Sedangkan, DataNode
adalah pekerja atau karyawan yang bertugas menyimpan data dan
melaksanakan perintah dari NameNode.

Sumber Referensi :
1. https://www.teknologi-bigdata.com/2013/02/hdfs-berawal-dari-google-
untuk-big-data.html
2. https://intellipaat.com/blog/tutorial/hadoop-tutorial/hdfs-overview/

7. Apakah perbedaan NoSQL dengan SQL serta jelaskan kelebihan dan


kekurangan yang dimiliknya?

Week 4 ©Arif 4|4

Anda mungkin juga menyukai