LN03-Ingestion Layer
LN03-Ingestion Layer
Minggu 3
Ingestion Layer
Outcome:
Mahasiswa mampu menjelaskan layer arsitektur dan konsep pengolahan Big Data.
Data tidak terstruktur, jika disimpan dalam sistem manajemen basis data relasional
(RDBMS) akan menciptakan masalah kinerja dan skalabilitas. Oleh karena itu, di dunia
big data, data dimuat menggunakan beberapa solusi dan beberapa tujuan target untuk
memecahkan jenis masalah tertentu yang dihadapi selama ingestion. Pola ingestion
menjelaskan solusi untuk masalah yang biasa ditemui dalam sumber data untuk
komunikasi lapisan ingestion. Solusi ini dapat dipilih berdasarkan kinerja, skalabilitas,
dan persyaratan ketersediaan.
Dalam sistem penyerapan besar, operator big data menggunakan pengaya untuk
melakukan agregasi dan pembersihan data awal. (Lihat Gambar diatas) Enricher
mentransfer file dengan andal, memvalidasinya, mengurangi noise, mengompresi, dan
mengubah dari format asli ke representasi yang mudah ditafsirkan. Pembersihan data
awal (misalnya, menghapus duplikasi) juga biasa dilakukan di tingkat pengaya.
Konversi protokol diperlukan ketika sumber data mengikuti berbagai protokol yang
berbeda. Variasi dalam protokol baik di header atau pesan yang sebenarnya. Itu bisa
berupa jumlah bit di header, panjang berbagai bidang, dan logika yang sesuai yang
diperlukan untuk menguraikan konten data, pesan dapat berupa panjang tetap atau
panjang variabel dengan pemisah.
Pola ini diperlukan untuk membakukan struktur berbagai pesan yang berbeda sehingga
memungkinkan untuk menganalisis informasi bersama-sama menggunakan alat analitik.
4. Multidestination Pattern
Pola multidestinasi (lihat gambar dibawah) sangat mirip dengan pola konsumsi
multisumber hingga siap untuk berintegrasi dengan beberapa tujuan. Router menerbitkan
data "diperkaya" dan kemudian menyiarkannya ke tujuan pelanggan. Tujuan harus
mendaftar ke agen penerbitan di router. Enrichers dapat digunakan sesuai kebutuhan
oleh penerbit maupun pelanggan. Router dapat digunakan dalam sebuah cluster,
tergantung pada volume data dan jumlah tujuan berlangganan.
Pola ini memecahkan beberapa masalah menelan dan menyimpan data dalam jumlah
besar:
• Membagi biaya penyimpanan dengan membagi data yang disimpan di antara sistem
penyimpanan tradisional dan HDFS.
• Menyediakan kemampuan untuk mempartisi data untuk akses dan pemrosesan yang
fleksibel dengan cara yang terdesentralisasi.
• Karena replikasi pada node HDFS, tidak ada "penyesalan data."
• Karena setiap node mandiri, mudah untuk menambahkan lebih banyak node dan
penyimpanan tanpa penundaan.
• Komputasi terdesentralisasi pada node data tanpa ekstraksi data ke alat lain.
• Memungkinkan penggunaan bahasa kueri sederhana seperti Hive dan Pig bersama
raksasa analitik tradisional.
Karakteristik utama dari sistem penyerapan streaming waktu nyata (gambar diaatas)
adalah sebagai berikut:
• Itu harus mandiri dan menggunakan memori lokal di setiap node pemrosesan untuk
meminimalkan latensi.
• Itu harus memiliki arsitektur shared-nothing—yaitu, semua node harus memiliki
tanggung jawab atomik dan tidak boleh bergantung satu sama lain.
• Ini harus menyediakan API sederhana untuk menguraikan informasi waktu nyata
dengan cepat.
• Atomicity dari masing-masing komponen harus sedemikian rupa sehingga sistem
dapat menskalakan seluruh cluster menggunakan perangkat keras komoditas.
• Flume adalah sistem terdistribusi untuk mengumpulkan data log dari banyak
sumber, menggabungkannya, dan menulisnya ke HDFS. Ini didasarkan pada aliran
data streaming. Flume menyediakan ekstensibilitas untuk aplikasi analitik online.
Namun, Flume memerlukan cukup banyak konfigurasi yang dapat menjadi sangat
kompleks untuk sistem yang sangat besar.
• Storm mendukung pemrosesan aliran peristiwa dan dapat merespons peristiwa
individual dalam kerangka waktu yang wajar. Storm adalah tujuan umum, sistem
pemrosesan peristiwa yang menggunakan sekelompok layanan untuk skalabilitas
dan keandalan. Dalam terminologi Storm, Anda membuat topologi yang terus
berjalan di atas aliran data yang masuk. Sumber data untuk topologi disebut spouts,
dan setiap node pemrosesan disebut bolt. Bolts dapat melakukan komputasi canggih
pada data, termasuk output ke penyimpanan data dan layanan lainnya. Adalah
umum bagi organisasi untuk menjalankan kombinasi layanan Hadoop dan Storm
untuk mendapatkan fitur terbaik dari kedua platform.
• InfoSphere Streams mampu melakukan analisis kompleks dari tipe data yang
heterogen. Infoosphere Streams dapat mendukung semua tipe data. Ini dapat
melakukan analisis real-time dan melihat ke depan dari data yang dihasilkan secara
teratur, menggunakan penyaringan digital, analisis pola/korelasi, dan dekomposisi
serta analisis geospasial. Apache S4 adalah platform yang diciptakan Yahoo untuk
menangani konsumsi data real-time secara terus-menerus. Ini menyediakan API
sederhana untuk memanipulasi aliran data yang tidak terstruktur, mencari, dan
mendistribusikan pemrosesan di beberapa node secara otomatis tanpa
pemrograman yang rumit. Program klien yang mengirim dan menerima acara dapat
ditulis dalam bahasa pemrograman apa pun. S4 dirancang sebagai sistem yang
sangat terdistribusi. Throughput dapat ditingkatkan secara linier dengan
menambahkan node ke dalam cluster. Desain S4 paling cocok untuk aplikasi skala
besar untuk penambangan data dan pembelajaran mesin di lingkungan produksi.
Tools membantu mendapatkan data dari satu lingkungan data dan memasukkannya ke
lingkungan data lain. ETL umumnya digunakan dengan pemrosesan batch di lingkungan
gudang data. Gudang data memberi pengguna bisnis cara untuk mengkonsolidasikan
informasi di seluruh sumber yang berbeda untuk menganalisis dan melaporkan wawasan
yang relevan dengan fokus bisnis spesifik mereka. Tools digunakan untuk mengubah
data ke dalam format yang dibutuhkan oleh gudang data. Transformasi sebenarnya
dilakukan di lokasi perantara sebelum data dimuat ke dalam gudang data.
Di dunia big data, tools seperti Informatica telah digunakan untuk memungkinkan solusi
penyerapan yang cepat dan fleksibel (lebih besar dari 150 GB/hari) yang dapat
mendukung kemampuan ad hoc untuk penemuan data dan wawasan. Informatica dapat
digunakan sebagai pengganti solusi Sqoop dan Flume. Informatica PowerCenter dapat
digunakan sebagai mesin penyerapan data mentah utama.