Anda di halaman 1dari 9

Tugas Kelompok ke-2

Muhammad Habib Prawira – 2502024703


Indah Fatihahnisa Rahma -2502032610
Melsa Taruli Caroline S. - 2502036634
Edina Anindya Putri -2502034566
Ines Dini Pratiwi -2502018354

Week 4

Jawablah soal berikut dengan benar!

A. Soal Essay
1. Lapisan ingestion terdiri dari beberapa lapisan, sebut dan jelaskan lapisan
tersebut?
2. Apakah perbedaan ingestion data batch dengan ingestion data streaming?
Sertakan contohnya
3. Apakah tantangan dari data ingestion?
4. Apa alasan mengapa orang menggunakan Hadoop untuk pengelolaan big data?
5. Apakah keuntungan dan kelebihan menggunakan Hadoop pada cloud dan
Hadoop pada datacenter on premis?
6. Apakah HDFS dan ciri – ciri yang dimilikinya?
7. Apakah perbedaan NoSQL dengan SQL serta jelaskan kelebihan dan
kekurangan yang dimiliknya?

COMP6725 - Big Data Technologies


JAWABAN

1. Lapisan Ingestion adalah sebagai berikut:


a. Lapisan ingestion
Lapisan ini merupakan langkah pertama bagi data yang berasal dari
sumber variabel untuk memulai perjalanannya. Ini berarti data di sini
diprioritaskan dan dikategorikan, membuat aliran data lancar di lapisan
selanjutnya dalam aliran proses ini.
b. Lapisan Kolektor
Di Lapisan ini, lebih banyak fokus pada transportasi data dari lapisan
penyerapan ke saluran data lainnya. Ini adalah Lapisan di mana
komponen dipecah sehingga kemampuan analitik dapat dimulai.
c. Lapisan Pemrosesan
Di lapisan utama ini, fokusnya adalah mengkhususkan pada sistem
pemrosesan pipa. Dapat dikatakan bahwa informasi yang telah kami
kumpulkan di lapisan sebelumnya diproses di lapisan ini. Di sini kami
melakukan beberapa keajaiban dengan data untuk merutekannya ke
tujuan yang berbeda dan mengklasifikasikan aliran data, dan ini adalah
titik pertama di mana analitik dapat terjadi.
d. Lapisan Penyimpanan
Penyimpanan menjadi tantangan ketika ukuran data yang Anda hadapi
menjadi besar. Beberapa kemungkinan solusi, seperti Pola Penyerapan
Data dapat menyelamatkan dari masalah tersebut. Menemukan solusi
penyimpanan sangat penting ketika ukuran data menjadi besar. Lapisan
ini berfokus pada "tempat menyimpan data sebesar itu secara efisien".
e. Lapisan Kueri
Ini adalah lapisan tempat pemrosesan analitik aktif berlangsung. Di
sini, fokus utamanya adalah mengumpulkan nilai data agar lebih
bermanfaat untuk lapisan berikutnya.

Week 4 ©Arif 2|9


f. Lapisan Visualisasi
Tingkat visualisasi, atau presentasi, mungkin tingkat paling bergengsi,
di mana pengguna saluran data dapat merasakan NILAI DATA. Kami
membutuhkan sesuatu yang akan menarik perhatian orang, menarik
mereka, membuat temuan Anda dipahami dengan baik.

2. Ingestion data batch merupakan tempat pemrosesan blok data yang telah
disimpan selama periode waktu tertentu. Misalnya, memproses semua
transaksi yang telah dilakukan oleh sebuah perusahaan keuangan besar
dalam seminggu. Data ini berisi jutaan catatan untuk satu hari yang dapat
disimpan sebagai file atau catatan dll. File khusus ini akan diproses pada
akhir hari untuk berbagai analisis yang ingin dilakukan perusahaan. Jelas
akan memakan banyak waktu untuk memproses file itu. Itulah yang
dimaksud dengan Pemrosesan Batch. Hadoop MapReduce adalah
framework terbaik untuk memproses data dalam batch.

Sedangkan ingestion data streaming digunakan jika menginginkan hasil


analitik secara real time dengan cepat mendeteksi kondisi dalam periode
waktu yang singkat dari titik penerimaan data. Ingestion data streaming
memungkinkan memasukkan data ke alat analitik segera setelah dihasilkan
dan mendapatkan hasil analitik instan. Ada beberapa platform pemrosesan
aliran sumber terbuka seperti Apache Kafka, Apache Flink, Apache Storm,
Apache Samza, dll. Saya akan merekomendasikan WSO2 Stream
Processor (WSO2 SP), platform pemrosesan aliran sumber terbuka yang
telah saya bantu buat. WSO2 SP dapat menyerap data dari Kafka,
permintaan HTTP, broker pesan. Dapat meminta aliran data menggunakan
bahasa "Streaming SQL". Dengan hanya dua server komoditas dapat
menyediakan ketersediaan tinggi dan dapat menangani throughput 100K+
TPS. Ini dapat meningkatkan hingga jutaan TPS di atas Kafka. Selain itu,
Business Rules Manager WSO2 SP untuk menentukan template dan

Week 4 ©Arif 3|9


menghasilkan aturan bisnis untuk skenario yang berbeda dengan
persyaratan umum. Pemrosesan aliran berguna untuk tugas-tugas seperti
deteksi penipuan. Jika melakukan streaming data transaksi, dapat
mendeteksi anomali yang menandakan penipuan secara real time, lalu
menghentikan transaksi penipuan sebelum selesai.

3. Proses Data Ingestion yang efektif dimulai dengan memprioritaskan


sumber data, memvalidasi file individual, dan mengarahkan item data ke
tujuan yang benar. Terdapat beberapa sumber data untuk diproses. Dengan
bertambahnya jumlah sumber data, pemrosesan mulai menjadi rumit. Juga,
dalam kasus big data, seringkali struktur data sumber itu sendiri tidak
diketahui; karenanya, mengikuti pendekatan integrasi data tradisional
menciptakan kesulitan dalam mengintegrasikan data.
Tantangan umum yang dihadapi saat menyerap beberapa sumber data
meliputi:
a. Memprioritaskan setiap beban sumber data
b. Memberi tag dan mengindeks data yang ingested
c. Memvalidasi dan membersihkan data yang ingested
d. Mengubah dan mengompresi sebelum ingestion

4. Alasan mengapa orang menggunakan Hadoop untuk pengelolaan big data


adalah Hadoop dapat ditingkatkan kapasitasnya, Data bisa disimpan
dalam format apapun baik structured atau unstructured. Selain itu,
Hadoop dapat mengatasi tiga tantangan utama, yang pertama Volume
yaitu kebutuhan untuk menyimpan dan mengelola data dalam jumlah
yang besar dan terus bertambah dari waktu ke waktu, Selanjutnya
Velocity, yaitu kebutuhan untuk mengakses data dalam jumlah besar
dengan cepat. Yang terakhir adalah Variety yaitu tantangan terhadap data
yang bervariasi saat ini, sehingga teknologi RDBMS tidak mungkin
menanganinya lagi.

Week 4 ©Arif 4|9


5. Keuntungan dan kelebihan menggunakan Hadoop pada cloud dan Hadoop
pada data centre on premis adalah:

a. Keuntungan dan kelebihan menggunakan Hadoop pada cloud


i. Skalabilitas: Sifat layanan cloud publik adalah salah satu alasan
mengapa mereka begitu populer. Kebutuhan bisnis dapat
diakomodasi dengan layanan yang disediakan. Misalnya, jika saat
ini pengguna masih membutuhkan cloud publik dengan kapasitas
terbatas, Anda dapat meningkatkan kapasitas ini nanti jika
diperlukan.
ii. Persyaratan modal rendah—pengguna tidak perlu mengeluarkan
banyak uang untuk modal atau investasi karena idealnya, semua
peralatan dan pemeliharaan disediakan oleh penyedia layanan cloud
publik. Akibatnya, pengguna hanya perlu membayar untuk layanan
yang mereka butuhkan.
iii. Aksesibilitas: Untuk menyimpan data, tidak diperlukan komputer
atau perangkat tertentu. Pengguna akan dapat mengakses semua data
kapan saja, dari lokasi mana saja, selama mereka memiliki akses
internet yang memadai karena akan disimpan di server.
b. Keuntungan dan kelebihan menggunakan Hadoop pada data center on
premis
i. Tingkat keamanan tinggi: hanya perusahaan yang dapat mengakses
semua aplikasi dan data penting Anda karena disimpan di belakang
firewall Anda sendiri. Dengan kata lain, data sensitif cenderung
disimpan dan dilindungi dengan lebih baik di cloud pribadi seperti
ini.
ii. TCO, yang berarti total biaya kepemilikan, relatif lebih rendah.
Dibandingkan dengan kabut publik, peternakan server di lokasi
umumnya memiliki biaya fungsional yang lebih rendah karena Anda
membayar jumlah yang positif dan tetap selama ini. Tidak ada

Week 4 ©Arif 5|9


pengeluaran "on-the-fly" yang dapat membuat Anda membelanjakan
lebih banyak lagi.
iii. Berikan lebih banyak kontrol: Pusat data lokal yang menggunakan
layanan cloud pribadi memberi pengguna lebih banyak kontrol atas
pengaturan dan penyesuaian pusat data. Karena itu, tim dan
pengguna dapat lebih mudah memodifikasinya untuk memenuhi
kebutuhan bisnis.
iv. Memindahkan data yang tidak sensitif dengan mudah: Bagaimana
jika perusahaan menghasilkan data dalam jumlah yang sangat
banyak dari waktu ke waktu? Pengguna tidak perlu khawatir karena
dapat memindahkan data yang tidak terlalu sensitif ke cloud publik
secara fleksibel dengan menggunakan pusat data on-premise.

6. HDFS adalah sistem penyimpanan terdistribusi yang melakukan proses


pemecahan file besar menjadi bagian-bagian lebih kecil kemudian
didistribusikan ke cluster-cluster dari komputer. Ciri- ciri HDFS adalah
mempunyai skala besar dan handal, proses instalasinya mudah dan
pengoperasiannya sederhana, dapat dijalankan pada mode pseudo-
distributed yang berarti hanya digunakan hanya dalam satu node saja,
HDFS tidak memiliki fitur pengindeksan, tidak ada akses file secara acak,
dan tidak mendukung SQL.

7. Perbedaan NoSQL dan SQL adalah:


a. Database SQL adalah database relasional. Artinya data diatur ke dalam
tabel, dan setiap tabel memiliki struktur tertentu. Sedangkan, Database
NoSQL adalah database non-relasional. Artinya data disimpan dalam
kumpulan dokumen. Tidak ada struktur khusus untuk dokumen-
dokumen dan tidak terhubung atara satu sama lain.
b. SQL menggunakan propertinya dari bahasa kueri data tersruktur dan
memiliki variasi dalam sekamnya yang telah ditentukan sebelumnya,
sedangkan NoSQL tidak memiliki skema yang telah ditentukan

Week 4 ©Arif 6|9


sebelumnya tetapi skema yang lebih dinamis untuk data tidak
strukturnya.
c. Database SQL biasanya lebih mahal untuk dipelihara sedangkan
Database NoSQL lebih murah untuk dipelihara.
d. Database SQL umumnya lebih kompleks daripada Database NoSQL
kaarena database SQL harus mengikuti aturan ACID
(atomisitas,konsistensi,isolasi,dan daya tahan).
e. Database SQL menggunakan pendekatan penskalaan vertikal artinya
menskalakan dengan menambahkan lebih banyak daya ke server.
Sedangkan Database NoSQL menggunaan pendekatan penskalaan
horizontal dimana mereka menskalakan dengan menambahkan lebih
banyak server.
f. SQL bekerja lebih baik dengan data tau transaksi multi-baris,
sedangkan No AQL bekerja lebih baik dengan data tidak terstruktur
dalam format dokumen JSON

Kelebihan NoSQL:
a. Fleksibilitas: ideal untuk data yang semi terstruktur maupun tidak
terstruktur
b. Skalabilitas: menggunakan klaster perangkat keras yang terdistribusi
alih-alih meningkatkan skala dengan menambah server yang mahal dan
robust.
c. Fungsionlitas tinggi: Database NoSQL menyediakan API dan jenis
data fungsional yang dibuat secara khusus untuk setiap model data
yang sesuai.
d. Kinerja Tinggi: Database NoSQL dioptimalkan untuk model data
spesifik dan pola akses yang memberikan kinerja yang lebih tinggi

Kekurangan NoSQL:
a. Tiap record atau row merupakan data yang unik dan tidak bisa
digantikan data yang lain.

Week 4 ©Arif 7|9


b. Tidak saling terkait antara transaksi record satu dengan lainnya.
c. Setiap baris data konsisten, yang mana data akan tetap konsisten
setelah dieksekusi dan server maupun client akan melihat data yang
sama.

Kelebihan SQL:
a. Pengendalian Database secara terpusat
b. Membuat Clustering Data
c. Mempermudah pengelolaan database
d. Fleksibel pada semua perangkat dan versi windows

Kekurangan SQL:
a. Tidak Affordable dalam segi harga
b. Kurang sesuai untuk skala besar

Week 4 ©Arif 8|9


Sumber :

Apa Itu SQL Server? Yuk Kulik Kelebihan dan Kekurangannya (dqlab.id)

https://gowthamy.medium.com/big-data-battle-batch-processing-vs-stream-
processing-5d94600d8103
Di Lena, G., Giroire, F., Turletti, T., & Lac, C. (2021, June). CloudTrace Demo:
Tracing Cloud Network Delay. In 2021 IEEE 7th International Conference on
Network Softwarization (NetSoft) (pp. 357-359). IEEE.

Diamantidou, D. E., Hosain, M. L., & Kyprianidis, K. G. (2022). Recent


Advances in Boundary Layer Ingestion Technology of Evolving Powertrain
Systems. Sustainability, 14(3), 1731.

Tang, C., Wang, B., Wu, H., Wang, Z., Li, Y., Channapattan, V., ... & Lu, A.
(2022). Serving Hybrid-Cloud SQL Interactive Queries at Twitter. In European
Conference on Software Architecture (pp. 3-21). Springer, Cham.

Week 4 ©Arif 9|9

Anda mungkin juga menyukai