LN02-Big Data Architecture

LECTURE NOTES
Big Data Technologies
Minggu 2
Big Data Architecture
COMP6725 - Big Data Technologies

LEARNING OUTCOMES
LO 1: Menjelaskan layer arsitektur dan konsep pengolahan Big Data.
Outcome:
Mahasiswa mampu menjelaskan layer arsitektur dan konsep pengolahan Big Data.
OUTLINE MATERI (Sub-Topic):
• Arsitektur Big Data

• Data Sources
• Ingestion Layer
• Distributed (Hadoop) Storage Layer
• Hadoop Infrastructure Layer
• Hadoop Platform Management Layer
• Security Layer
• Monitoring Layer
• Search Engines
• Real-Time Engines
• Analytics Engine
• Visualization Layer

ISI MATERI
1. Arsitektur Big Data

Dalam penggunaan big data anda harus memastikan bahwa semua komponen arsitektur
penting yang diperlukan untuk menganalisis semua aspek kumpulan big data telah
tersedia. Tanpa penyiapan yang tepat ini, Anda akan kesulitan mengumpulkan wawasan
berharga dan membuat kesimpulan yang benar. Jika salah satu dari komponen ini hilang,
Anda tidak akan dapat mewujudkan pengembalian yang memadai atas investasi Anda
dalam arsitektur.
Arsitektur manajemen data yang besar harus dapat menggunakan banyak sekali sumber
data dengan cara yang cepat dan murah. Komponen arsitektur harus menjadi bagian dari
tumpukan teknologi big data Anda. Anda dapat memilih kerangka kerja sumber terbuka
atau produk berlisensi yang dikemas untuk memanfaatkan sepenuhnya fungsionalitas
berbagai komponen dalam tumpukan.
Pic 1.1 The big data architecture

Source: Big data application architecture Q&A (2013)
2. Data Sources
Beberapa internal dan eksternal data feed yang tersedia untuk perusahaan dari berbagai
sumber. Berbagai macam data ini, masuk dengan kecepatan tinggi dan dalam volume
besar, harus digabungkan dan dikonsolidasikan dengan mulus nanti dalam tumpukan big
data sehingga mesin analitik, serta alat visualisasi, dapat beroperasi di dalamnya sebagai
satu kesatuan. kumpulan big data.
Masalah sebenarnya dengan mendefinisikan big data dimulai di lapisan sumber data, di
mana sumber data dengan volume, kecepatan, dan variasi yang berbeda bersaing satu
sama lain untuk dimasukkan dalam kumpulan big data akhir yang akan dianalisis.

Kumpulan big data ini, juga disebut data lake, adalah kumpulan data yang ditandai untuk
penyelidikan atau pencarian pola setelah disimpan dalam kerangka Hadoop.
Pic 1.2 The variety of data sources

a. Data Industri
Secara tradisional, industri yang berbeda merancang arsitektur manajemen data
mereka di sekitar sumber data lama. Teknologi, adaptor, database, dan alat analitik
dipilih untuk melayani protokol dan standar lama ini.
Dalam dekade terakhir, setiap industri telah melihat ledakan jumlah data yang
masuk karena peningkatan langganan, data audio, data seluler, detail kontekstual,
jejaring sosial, data meteran, data cuaca, data penambangan, data perangkat, dan
penggunaan data. Beberapa sumber data "zaman baru" yang telah mengalami
peningkatan volume, kecepatan, atau variasi.

Semua sumber data yang ditunjukkan diatas harus disalurkan ke perusahaan setelah
validasi dan cleansing yang tepat. Ini adalah tugas lapisan ingestion (dijelaskan di
bagian berikutnya) untuk menyediakan fungsionalitas yang dapat diskalakan dengan
cepat untuk aliran data yang besar.
b. Relational Database vs Unstructured Data

Database relasional mengatur data ke dalam tabel baris dan kolom. Baris disebut
record, dan kolom disebut atribut atau field. Database dengan hanya satu tabel
disebut database datar, sedangkan database dengan dua atau lebih tabel yang
saling berhubungan disebut database relasional.
Basis data relasional menjadi tidak cocok ketika organisasi mengumpulkan sejumlah
besar basis data pelanggan, transaksi, dan data lainnya, yang mungkin tidak
terstruktur agar sesuai dengan basis data relasional. Ini telah menyebabkan evolusi
database non-relasional, yang tanpa skema. NoSQL adalah database non-relasional
dan beberapa database NoSQL yang sering digunakan adalah Neo4J, Redis,
Cassandra, dan MongoDB.
RDBMS dapat diskalakan secara vertikal dan menunjukkan sifat ACID (atomicity,
consistency, isolation, durability), dan mendukung data yang mematuhi skema
tertentu. Pemeriksaan skema ini dilakukan pada saat memasukkan atau
memperbarui data, dan karenanya tidak ideal untuk menangkap dan menyimpan
data yang tiba dengan kecepatan tinggi. Keterbatasan arsitektur RDBMS
membuatnya tidak cocok untuk solusi big data sebagai perangkat penyimpanan
utama.
Selama beberapa dekade terakhir, sistem manajemen basis data relasional yang
berjalan di pusat data perusahaan telah menyimpan sebagian besar data dunia.
Namun dengan peningkatan volume data, RDBMS tidak dapat lagi mengimbangi
volume, kecepatan, dan variasi data yang dihasilkan dan dikonsumsi.
Big data, yang biasanya merupakan kumpulan data dengan volume dan variasi besar
yang tiba dengan kecepatan tinggi, tidak dapat dikelola secara efektif dengan alat

manajemen data tradisional. Sementara database konvensional masih ada dan
digunakan dalam sejumlah besar aplikasi, salah satu kemajuan utama dalam
menyelesaikan masalah dengan big data adalah munculnya teknologi database
alternatif modern yang tidak memerlukan skema tetap untuk menyimpan data;
sebaliknya, data didistribusikan di seluruh paradigma penyimpanan. Basis data
alternatif utama adalah NoSQL.
Database NoSQL (Not Only SQL) mencakup semua database non-relasional. Tidak
seperti RDBMS, yang menunjukkan properti ACID, database NoSQL mengikuti
teorema (consistency, availability, partition tolerance) dan menunjukkan model BASE
(basically, available, soft state, eventually consistent), di mana perangkat
penyimpanan tidak memberikan konsistensi langsung; sebaliknya, mereka
memberikan konsistensi akhirnya. Oleh karena itu, database ini tidak sesuai untuk
mengimplementasikan transaksi besar. Berbagai jenis database NoSQL, yaitu, Key-
value database, database dokumen, database berorientasi kolom, database grafik.
3. Ingestion Layer
Lapisan ingestion adalah penjaga data baru perusahaan. Ini adalah tanggung jawab
lapisan ini untuk memisahkan kebisingan dari informasi yang relevan. Lapisan ingestion
harus mampu menangani volume besar, kecepatan tinggi, atau variasi data. Itu harus
memiliki kemampuan untuk memvalidasi, membersihkan, mengubah, mengurangi, dan
mengintegrasikan data ke dalam tumpukan teknologi big data untuk diproses lebih lanjut.
Ini adalah edgeware baru yang harus skalabel, tangguh, responsif, dan regulasi dalam
arsitektur big data. Jika arsitektur terperinci dari lapisan ini tidak direncanakan dengan
benar, seluruh tumpukan teknologi akan rapuh dan tidak stabil saat Anda
memperkenalkan semakin banyak kemampuan ke kerangka kerja analitik big data Anda.
Pic 1.4 Data ingestion layer

Lapisan ingestion memuat informasi terakhir yang relevan, tanpa kebisingan, ke lapisan
penyimpanan Hadoop terdistribusi berdasarkan beberapa server komoditas. Itu harus
memiliki kemampuan untuk memvalidasi, membersihkan, mengubah, mengurangi, dan
mengintegrasikan data ke dalam tumpukan teknologi big data untuk diproses lebih lanjut.
Blok penyusun lapisan ingestion harus mencakup komponen berikut:

• Identifikasi berbagai format data yang diketahui atau penetapan format default ke
data tidak terstruktur.
• Filtration informasi masuk yang relevan dengan perusahaan, berdasarkan repositori
Enterprise MDM.
• Validasi dan analisis data secara terus menerus terhadap metadata MDM baru.
• Noise Reduction melibatkan pembersihan data dengan menghilangkan kebisingan
dan meminimalkan gangguan.
• Transformasi dapat melibatkan pemisahan, konvergensi, denormalisasi, atau
meringkas data.
• Kompresi melibatkan pengurangan ukuran data tetapi tidak kehilangan relevansi
data dalam proses. Seharusnya tidak mempengaruhi hasil analisis setelah kompresi.
• Integrasi melibatkan pengintegrasian kumpulan data akhir ke dalam lapisan
penyimpanan Hadoop—yaitu, sistem file terdistribusi Hadoop (HDFS) dan database
NoSQL.
Ada beberapa pola ingestion (komunikasi lapisan sumber ke data ingestion) yang dapat
diterapkan berdasarkan persyaratan kinerja, skalabilitas, dan ketersediaan.
4. Distributed (Hadoop) Storage Layer

Menggunakan penyimpanan dan pemrosesan yang didistribusikan secara besar-besaran
adalah perubahan mendasar dalam cara perusahaan menangani big data. Sistem
penyimpanan terdistribusi menjanjikan toleransi kesalahan, dan paralelisasi
memungkinkan algoritme pemrosesan terdistribusi berkecepatan tinggi untuk
mengeksekusi data skala besar. Sistem file terdistribusi Hadoop (HDFS) adalah landasan
dari lapisan penyimpanan big data.
Hadoop adalah kerangka kerja sumber terbuka yang memungkinkan menyimpan data
dalam jumlah besar secara terdistribusi di seluruh mesin berbiaya rendah. Ini
menyediakan de-coupling antara rekayasa perangkat lunak komputasi terdistribusi dan
logika aplikasi aktual yang ingin Anda jalankan. Hadoop memungkinkan Anda untuk
berinteraksi dengan kluster logis dari node pemrosesan dan penyimpanan alih-alih
berinteraksi dengan sistem operasi (OS) dan CPU bare-metal. Dua komponen utama
Hadoop adalah sistem file terdistribusi skala besar (HDFS) yang dapat mendukung
petabyte data dan mesin pengurang peta skala besar yang menghitung hasil dalam
batch.
HDFS adalah sistem file yang dirancang untuk menyimpan volume informasi yang sangat
besar (terabyte atau petabyte) di sejumlah besar mesin dalam sebuah cluster. Ini
menyimpan data dengan andal, berjalan pada perangkat keras komoditas, menggunakan
blok untuk menyimpan file atau bagian dari file, dan mendukung model akses data tulis-
sekali-baca-banyak.
HDFS membutuhkan program baca/tulis file yang rumit untuk ditulis oleh pengembang
yang ahli. Ini tidak dapat diakses sebagai struktur data logis untuk manipulasi data yang
mudah. Untuk memfasilitasi itu, Anda perlu menggunakan penyimpanan data
nonrelasional terdistribusi baru yang lazim di dunia big data, termasuk pasangan nilai
kunci, dokumen, grafik, kolom, dan basis data geospasial. Secara kolektif, ini disebut
sebagai NoSQL, atau tidak hanya SQL, database.

Pic 1.4 NoSQL databases
Solusi NoSQL yang berbeda sangat cocok untuk aplikasi bisnis yang berbeda. Solusi
penyimpanan data NoSQL terdistribusi harus melonggarkan jaminan seputar
konsistensi, ketersediaan, dan toleransi partisi (Teorema CAP), yang dihasilkan
dalam sistem yang dioptimalkan untuk kombinasi yang berbeda dari properti ini.
Kombinasi database relasional dan NoSQL memastikan data yang tepat tersedia saat
Anda membutuhkannya. Anda juga memerlukan arsitektur data yang mendukung
konten tidak terstruktur yang kompleks. Baik database relasional maupun database
nonrelasional harus disertakan dalam pendekatan untuk memecahkan masalah big
data Anda.
Basis data NoSQL yang berbeda sangat cocok untuk aplikasi bisnis yang berbeda
Pic 1.5 NoSQL databases


Lapisan penyimpanan biasanya dimuat dengan data menggunakan proses batch.
Komponen integrasi lapisan ingestion memanggil berbagai mekanisme—seperti tugas
Sqoop, MapReduce, tugas ETL, dan lainnya—untuk mengunggah data ke Distributed
Hadoop storage layer (DHSL). Lapisan penyimpanan menyediakan pola penyimpanan
(komunikasi dari lapisan ingestion ke lapisan penyimpanan) yang dapat
diimplementasikan berdasarkan persyaratan kinerja, skalabilitas, dan ketersediaan.
5. Hadoop Infrastructure Layer

Lapisan yang mendukung lapisan penyimpanan—yaitu, infrastruktur fisik—adalah dasar
untuk operasi dan skalabilitas arsitektur big data. Padahal, ketersediaan infrastruktur fisik
yang kuat dan murah telah memicu munculnya big data sebagai tren penting. Untuk
mendukung volume, kecepatan, atau variasi data yang tidak terduga atau tidak dapat
diprediksi, infrastruktur fisik untuk big data harus berbeda dengan infrastruktur fisik
untuk data tradisional.
Hadoop physical infrastructure layer (HPIL) didasarkan pada model komputasi
terdistribusi. Ini berarti bahwa data dapat disimpan secara fisik di banyak lokasi berbeda
dan dihubungkan bersama melalui jaringan dan sistem file terdistribusi. Ini adalah
arsitektur “share-nothing”, di mana data dan fungsi yang diperlukan untuk
memanipulasinya berada bersama pada satu node. Seperti pada model client-server
tradisional, data tidak perlu lagi ditransfer ke server monolitik di mana fungsi SQL
diterapkan untuk mengolahnya. Redundansi dibangun ke dalam infrastruktur ini karena
Anda berurusan dengan begitu banyak data dari begitu banyak sumber yang berbeda.
Aplikasi perusahaan tradisional dibangun berdasarkan perangkat keras dan perangkat
lunak yang diskalakan secara vertikal. Arsitektur perusahaan tradisional dirancang untuk
memberikan jaminan transaksional yang kuat, tetapi mereka mengabaikan skalabilitas
dan harganya mahal. Arsitektur perusahaan skala vertikal terlalu mahal untuk secara
ekonomis mendukung komputasi padat pada data skala besar. Sumber daya pusat data
tervirtualisasi yang disediakan secara otomatis memungkinkan penskalaan platform data
secara horizontal dengan harga yang jauh lebih murah. Hadoop dan HDFS dapat
mengelola lapisan infrastruktur di lingkungan cloud tervirtualisasi (on-premises dan juga
di cloud publik) atau grid server komoditas terdistribusi melalui jaringan gigabit yang
cepat.
Konfigurasi perangkat keras big data sederhana menggunakan server komoditas,
perhatikan gambar dibawah ini

Pic 1.6 Typical big data hardware topology
6. Hadoop Platform Management Layer

lapisan yang menyediakan alat dan bahasa kueri untuk mengakses database NoSQL
menggunakan sistem file penyimpanan HDFS yang berada di atas lapisan infrastruktur
fisik Hadoop.
Dengan evolusi teknologi komputasi, sekarang dimungkinkan untuk mengelola volume
data yang sangat besar yang sebelumnya hanya dapat ditangani oleh superkomputer
dengan biaya besar. Harga sistem (CPU, RAM, dan DISK) telah turun. Akibatnya, teknik
baru untuk komputasi terdistribusi telah menjadi arus utama.
Pic 1.7 Big data platform architecture


Hadoop dan MapReduce adalah teknologi baru yang memungkinkan perusahaan
untuk menyimpan, mengakses, dan menganalisis data dalam jumlah besar hampir
secara real-time sehingga mereka dapat memonetisasi keuntungan memiliki data
dalam jumlah besar. Teknologi ini mengatasi salah satu masalah paling mendasar—
kemampuan untuk memproses data dalam jumlah besar secara efisien, hemat biaya,
dan tepat waktu.
Lapisan manajemen platform Hadoop mengakses data, menjalankan kueri, dan
mengelola lapisan bawah menggunakan bahasa skrip seperti Pig dan Hive. Berbagai
pola akses data (komunikasi dari lapisan platform ke lapisan penyimpanan) yang
sesuai untuk skenario aplikasi yang berbeda diimplementasikan berdasarkan
persyaratan kinerja, skalabilitas, dan ketersediaan.
• MapReduce
MapReduce diadopsi oleh Google untuk menjalankan serangkaian fungsi secara
efisien terhadap sejumlah besar data dalam mode batch. Komponen peta
mendistribusikan masalah atau tugas di sejumlah besar sistem dan menangani
penempatan tugas dengan cara yang mendistribusikan beban dan mengelola
pemulihan dari kegagalan. Setelah perhitungan terdistribusi selesai, fungsi lain
yang disebut pengurangan menggabungkan semua elemen kembali bersama-
sama untuk memberikan hasil. MapReduce menyederhanakan pembuatan
proses yang menganalisis sejumlah besar data tidak terstruktur dan terstruktur
secara paralel.
o Setiap node Hadoop adalah bagian dari cluster terdistribusi dari cluster
mesin.
o Data input disimpan dalam sistem file terdistribusi HDFS, tersebar di
beberapa mesin, dan disalin untuk membuat sistem redundan terhadap
kegagalan salah satu mesin.
o Program klien mengirimkan pekerjaan batch ke pelacak pekerjaan.
o Pelacak pekerjaan berfungsi sebagai master yang melakukan hal berikut:
• Membagi data masukan input
• Jadwalkan dan pantau berbagai peta dan kurangi tugas
o Proses pelacak tugas adalah budak yang mengeksekusi peta dan
mengurangi tugas.
o Hive adalah sistem data warehouse untuk Hadoop yang menyediakan
kemampuan untuk mengumpulkan data dalam jumlah besar. Antarmuka
seperti SQL ini meningkatkan kompresi data yang disimpan untuk
meningkatkan pemanfaatan sumber daya penyimpanan tanpa
mempengaruhi kecepatan akses.
o Pig adalah bahasa scripting yang memungkinkan kita untuk memanipulasi
data di HDFS secara paralel.
o Sintaks intuitifnya menyederhanakan pengembangan pekerjaan
MapReduce, menyediakan bahasa pemrograman alternatif untuk Java.
Siklus pengembangan untuk pekerjaan MapReduce bisa sangat panjang.
Untuk mengatasi hal ini, bahasa skrip yang lebih canggih telah dibuat
untuk menjelajahi kumpulan big data, seperti Pig, dan untuk memproses
kumpulan big data dengan baris kode minimal. Babi dirancang untuk
pemrosesan data secara batch. Ini tidak cocok untuk melakukan kueri

hanya pada sebagian kecil dari kumpulan data karena dirancang untuk
memindai seluruh kumpulan data.
o HBase adalah database berorientasi kolom yang menyediakan akses cepat
ke big data. Sistem file yang paling umum digunakan dengan HBase
adalah HDFS. Ini tidak memiliki indeks nyata, mendukung partisi otomatis,
skala linier dan otomatis dengan node baru. Ini sesuai dengan Hadoop,
toleran terhadap kesalahan, dan cocok untuk pemrosesan batch.
o Sqoop adalah alat baris perintah yang memungkinkan mengimpor tabel
individu, kolom tertentu, atau seluruh file database langsung ke sistem file
terdistribusi atau data warehouse. Hasil analisis dalam MapReduce
kemudian dapat diekspor ke database relasional untuk dikonsumsi oleh
alat lain. Karena banyak organisasi terus menyimpan data berharga dalam
sistem basis data relasional, sistem NoSQL baru ini akan sangat penting
untuk diintegrasikan dengan sistem manajemen basis data relasional
(RDBMS) untuk analisis yang efektif. Menggunakan alat ekstraksi, seperti
Sqoop, data yang relevan dapat diambil dari database relasional dan
kemudian diproses menggunakan MapReduce atau Hive, menggabungkan
beberapa kumpulan data untuk mendapatkan hasil yang kuat.
Pic 1.7a Sqoop import process

o ZooKeeper adalah koordinator untuk menjaga agar berbagai instance dan

node Hadoop tetap sinkron dan terlindungi dari kegagalan node mana pun.
Koordinasi sangat penting untuk menangani kegagalan parsial dalam
sistem terdistribusi. Koordinator, seperti Zookeeper, menggunakan
berbagai alat untuk menangani kegagalan dengan aman, termasuk
pesanan, pemberitahuan, antrian terdistribusi, kunci terdistribusi,
pemilihan pemimpin di antara rekan-rekan, serta gudang pola koordinasi
umum. Membaca dipuaskan oleh pengikut, sementara menulis dilakukan
oleh pemimpin.

Pic 1.7b Zookeeper topology
Zookeeper menjamin kualitas berikut berkaitan dengan konsistensi data:

• Sequential consistency
• Atomicity
• Durability
• Single system image
• Timeliness
7. Security Layer
Analisis big data menjadi fungsi utama bagi perusahaan, keamanan data itu menjadi
perhatian utama. Kebiasaan berbelanja pelanggan, riwayat medis pasien, tren tagihan
utilitas, dan temuan demografis untuk penyakit genetik—semua ini dan banyak lagi jenis
dan penggunaan data perlu dilindungi, baik untuk memenuhi persyaratan kepatuhan
maupun untuk melindungi privasi individu. Metode otorisasi dan otentikasi yang tepat
harus diterapkan pada analitik. Persyaratan keamanan ini harus menjadi bagian dari
struktur big data sejak awal dan bukan setelahnya.
Pemeta tidak tepercaya atau pelacak pekerjaan simpul bernama dapat mengembalikan
hasil yang tidak diinginkan yang akan menghasilkan hasil agregat peredam yang salah.
Dengan kumpulan data yang besar, pelanggaran keamanan tersebut mungkin tidak
diketahui dan menyebabkan kerusakan signifikan pada kesimpulan dan perhitungan.
Injeksi NoSQL masih dalam masa pertumbuhan dan menjadi sasaran empuk bagi
peretas. Dengan cluster besar yang digunakan secara acak untuk string dan pengarsipan
kumpulan big data, sangat mudah untuk kehilangan jejak di mana data disimpan atau
lupa untuk menghapus data yang tidak diperlukan. Data tersebut dapat jatuh ke tangan
yang salah dan menimbulkan ancaman keamanan bagi perusahaan.
Proyek big data secara inheren tunduk pada masalah keamanan karena arsitektur
terdistribusi, penggunaan model pemrograman sederhana, dan kerangka layanan
terbuka. Namun, keamanan harus diimplementasikan dengan cara yang tidak merusak
kinerja, skalabilitas, atau fungsionalitas, dan harus relatif sederhana untuk dikelola dan
dipelihara.
Untuk menerapkan fondasi dasar keamanan, Anda harus merancang tumpukan teknologi
big data sehingga, setidaknya, melakukan hal berikut:

• Mengautentikasi node menggunakan protokol seperti Kerberos
• Mengaktifkan enkripsi lapisan file
• Berlangganan layanan manajemen kunci untuk kunci dan sertifikat tepercaya
• Menggunakan alat seperti Chef atau Puppet untuk validasi selama penerapan
kumpulan data atau saat menerapkan tambalan pada node virtual
• Mencatat komunikasi antar node, dan menggunakan mekanisme logging terdistribusi
untuk melacak anomali apa pun di seluruh lapisan
• Memastikan semua komunikasi antar node aman—misalnya, dengan menggunakan
Secure Sockets Layer (SSL), TLS, dan sebagainya.
8. Monitoring Layer
Banyak cluster penyimpanan data terdistribusi dan beberapa titik sumber data ingestion,
penting untuk mendapatkan gambaran lengkap tentang tumpukan teknologi big data
sehingga ketersediaan SLA terpenuhi dengan waktu henti minimum.
Sistem pemantauan harus menyadari cluster terdistribusi besar yang digunakan dalam
model federasi.
Sistem pemantauan harus menyadari sistem operasi dan perangkat keras yang berbeda.
maka mesin harus berkomunikasi dengan alat pemantauan melalui protokol seperti XML,
bukan format biner yang bergantung pada mesin. Sistem juga harus menyediakan alat
untuk penyimpanan data dan visualisasi. Performa adalah parameter kunci untuk
dipantau sehingga ada overhead yang sangat rendah dan paralelisme yang tinggi.
Alat sumber terbuka seperti Ganglia dan Nagios banyak digunakan untuk memantau
tumpukan teknologi big data.
9. Search Engine
Volume besar data untuk dianalisis, Anda memerlukan mesin pencari yang sangat cepat
dengan mekanisme penemuan data yang berulang dan kognitif. Data yang dimuat dari
berbagai aplikasi perusahaan ke dalam tumpukan teknologi big data harus diindeks dan
dicari untuk pemrosesan analitik big data. Pencarian umum tidak akan dilakukan hanya
pada baris (kunci) basis data (HBase), jadi penggunaan bidang tambahan perlu
dipertimbangkan. Berbagai jenis data dihasilkan di berbagai industry
Pic 1.8d Search data types in various industries

Penggunaan mesin pencari sumber terbuka seperti Solr berbasis Lucene memberikan
peningkatan kemampuan pencarian yang dapat berfungsi sebagai satu set indeks
sekunder. Saat Anda mendesain arsitektur, Anda perlu mempertimbangkan topik ini
dengan serius, yang mungkin mengharuskan Anda memilih produk pencarian yang
diterapkan vendor (misalnya, DataStax). Hasil mesin pencari dapat disajikan dalam
berbagai bentuk menggunakan alat dan metode visualisasi "zaman baru".
Arsitektur konseptual lapisan pencarian dan bagaimana lapisan tersebut berinteraksi
dengan berbagai lapisan tumpukan teknologi big data. Kami akan melihat pola pencarian
terdistribusi yang memenuhi persyaratan kinerja, skalabilitas, dan ketersediaan tumpukan
big data.
Pic 1.8 Search data types in various industries

10. Real-Time Engines

Memori menjadi sangat murah sehingga visibilitas yang luas dan aplikasi real-time lebih
umum digunakan dalam kasus di mana data sering berubah. Tidak selalu masuk akal
untuk menyimpan status ke disk, menggunakan memori hanya untuk meningkatkan
kinerja. Datanya sangat besar sehingga tidak masuk akal untuk menganalisisnya setelah
beberapa minggu, karena datanya mungkin sudah basi atau keuntungan bisnisnya
mungkin sudah hilang.
Untuk memanfaatkan wawasan sedini mungkin, opsi real-time (di mana data terbaru
ditemukan di memori, sementara data pada disk akhirnya menyusul) dapat dicapai
menggunakan mesin real-time dan penyimpanan data NoSQL . Analisis real-time dari lalu
lintas web juga menghasilkan sejumlah besar data yang hanya tersedia untuk waktu
yang singkat. Ini sering menghasilkan kumpulan data di mana skema tidak diketahui
sebelumnya.

Sistem berbasis dokumen dapat mengirim pesan berdasarkan lalu lintas masuk dan
dengan cepat beralih ke fungsi berikutnya. Tidak perlu menunggu tanggapan, karena
sebagian besar pesan adalah inkremen penghitung sederhana. Skala dan kecepatan
penyimpanan NoSQL akan memungkinkan penghitungan dilakukan saat data tersedia.
Dua mode dalam memori utama dimungkinkan untuk pemrosesan real-time:
a. In-Memory Caching
• Data disebarkan antara aplikasi dan database untuk mengurangi beban
database
• Ini ideal untuk menyimpan data ke memori yang diakses berulang kali.
• Data tidak direplikasi atau bertahan di seluruh server.
• Ini memanfaatkan memori agregat dari banyak mesin terdistribusi dengan
menggunakan algoritma hashing.
Pic 1.9 In-memory caching

b. In-Memory Database
• Data disebarkan di tingkat aplikasi sebagai database yang dapat disematkan—
misalnya, Derby
• Membaca dan menulis data secepat mengakses RAM. Misalnya, dengan
prosesor 1,8 GHz, transaksi baca dapat memakan waktu kurang dari 5
mikrodetik, dengan transaksi penyisipan membutuhkan waktu kurang dari 15
mikrodetik.
• Basis data cocok sepenuhnya dalam memori fisik.
• Data dikelola dalam memori dengan algoritma akses yang dioptimalkan.
• Log transaksi dan file pos pemeriksaan database disimpan ke disk.

Pic 1.10 In-memory database
11. Analytics Engine

Perusahaan perlu mengadopsi pendekatan yang berbeda untuk memecahkan masalah
yang berbeda menggunakan big data; beberapa analisis akan menggunakan data
warehouse tradisional, sementara analisis lainnya akan menggunakan big data maupun
metode intelijen bisnis tradisional. Analitik dapat terjadi pada data warehouse dengan
cara tradisional atau pada penyimpanan big data (menggunakan pemrosesan MapReduce
terdistribusi). Data warehouse akan terus mengelola data transaksional berbasis RDBMS
dalam lingkungan terpusat. Alat berbasis Hadoop akan mengelola data tidak terstruktur
yang didistribusikan secara fisik dari berbagai sumber. Mediasi terjadi ketika aliran data
antara data warehouse dan penyimpanan big data (misalnya, melalui Hive/Hbase) di
kedua arah, sesuai kebutuhan, menggunakan alat seperti Sqoop.
Analisis real-time dapat memanfaatkan penyimpanan NoSQL berlatensi rendah (misalnya,
Cassandra, Vertica, dan lainnya) untuk menganalisis data yang dihasilkan oleh aplikasi
web. Perangkat lunak analitik sumber terbuka seperti R dan Madlib telah membuat dunia
algoritme statistik kompleks ini mudah diakses oleh pengembang dan ilmuwan data di
semua bidang kehidupan.
12. Visualization Layer

Sejumlah besar big data dapat menyebabkan informasi yang berlebihan. Namun, jika
visualisasi dimasukkan sejak awal sebagai bagian integral dari tumpukan teknologi big
data, akan berguna bagi analis data dan ilmuwan untuk mendapatkan wawasan lebih
cepat dan meningkatkan kemampuan mereka untuk melihat berbagai aspek data dalam
berbagai mode visual.
Setelah big data Hadoop yang memproses keluaran agregat dimasukkan ke dalam ODS
tradisional, data warehouse, dan data mart untuk analisis lebih lanjut bersama dengan
data transaksi, lapisan visualisasi dapat bekerja di atas data agregat gabungan ini. Selain
itu, jika wawasan real-time diperlukan, mesin real-time yang didukung oleh mesin

pemrosesan peristiwa kompleks (CEP) dan arsitektur yang digerakkan peristiwa (EDA)
dapat digunakan.
Pic 1.9 Visualization conceptual architecture

Lapisan intelijen bisnis kini dilengkapi dengan alat analisis big data yang canggih, analisis
statistik dalam basis data, dan alat visualisasi tingkat lanjut seperti Tableau, Clickview,
Spotfire, MapR, revolution R, dan lainnya. Alat-alat ini bekerja di atas komponen
tradisional seperti laporan, dasbor, dan kueri.
Dengan arsitektur ini, pengguna bisnis melihat data transaksi tradisional dan big data
dalam satu tampilan yang terkonsolidasi. Kami akan melihat pola visualisasi yang
memberikan wawasan yang gesit dan fleksibel ke dalam tumpukan big data.
Anda memiliki banyak pilihan alat dan produk yang dapat Anda gunakan untuk
membangun arsitektur aplikasi Anda dari ujung ke ujung. Produk biasanya dipilih oleh
banyak perusahaan untuk memulai perjalanan big data mereka. Produk yang terdaftar
sebagian besar berbasis open source, kecuali untuk situasi di mana organisasi telah
memiliki investasi TI dalam produk dari IBM, Oracle, SAP, EMC, dan perusahaan lain dan
ingin memanfaatkan perjanjian lisensi yang ada untuk membangun lingkungan big data
di harga yang wajar, serta mendapatkan dukungan berkelanjutan dari vendor.

Pic 1.10 Big data typical software stack
Perusahaan ingin menggunakan lingkungan cloud publik untuk analitik big data mereka,
keinginan itu dibatasi oleh kendala dalam memindahkan terabyte data masuk dan keluar
dari cloud. Berikut adalah cara tradisional untuk memindahkan big data:
• Mengirimkan hard disk drive secara fisik ke penyedia cloud. Risikonya adalah mereka
mungkin tertunda atau rusak dalam perjalanan.
• Cara digital lainnya adalah dengan menggunakan metode transfer berbasis TCP
seperti FTP atau HTTP.
Kedua opsi ini sangat lambat dan tidak aman untuk memenuhi kebutuhan big data.
Untuk menjadi pilihan yang layak untuk manajemen, pemrosesan, dan distribusi big data,
layanan cloud memerlukan mekanisme transportasi non-TCP berkecepatan tinggi yang
mengatasi kemacetan jaringan, seperti penurunan kecepatan transfer yang terjadi dari
jarak jauh menggunakan protokol transfer tradisional dan hilangnya kecepatan terakhir di
dalam pusat data cloud yang disebabkan oleh antarmuka HTTP ke penyimpanan cloud
berbasis objek yang mendasarinya.
Ada produk yang menawarkan kecepatan transfer file yang lebih baik dan kemampuan
ukuran file yang lebih besar, seperti yang ditawarkan oleh Aspera, Signiant, File Catalyst,
Telestream, dan lainnya. Produk ini menggunakan kombinasi protokol UDP dan validasi
TCP paralel. Transfer UDP kurang dapat diandalkan, dan mereka memverifikasi dengan
hash atau hanya ukuran file setelah transfer selesai.

SIMPULAN
o Untuk menjelajah ke dunia analitik big data, Anda memerlukan arsitektur yang kuat
yang menangani visualisasi dan analitik real-time dan offline dan didukung oleh
platform berbasis Hadoop yang kuat. Ini penting untuk keberhasilan program Anda.
Anda memiliki beberapa opsi saat mencari produk, kerangka kerja, dan alat yang
dapat digunakan untuk mengimplementasikan komponen logis dari arsitektur
referensi big data ini. Memiliki pengetahuan holistik tentang komponen utama ini
memastikan tidak ada kesenjangan dalam fase perencanaan arsitektur yang dapat
diidentifikasi saat Anda berada di tengah perjalanan big data Anda.

DAFTAR PUSTAKA
• Balusamy. Balamurugan, Abirami.Nandhini, Kadry.R, Seifedine, & Gandomi. Amir H.
(2021). Big Data Concepts, Technology, and Architecture. 1st. Wiley. ISBN 978-1-
119-70182-8. Chapter 1 & 2
• Sawant, N. and Shah, H., (2013). Big data application architecture Q&A. A Problem-
Solution Approach. Apress, Springer Science. ISBN: 978-1-4302-6292-3. Chapter 1 &
2
• https://www.datamation.com/big-data/structured-vs-unstructured-data/
• https://www.youtube.com/watch?v=dK4aGzeBPkk
• https://www.youtube.com/watch?v=SnmI9t2DJ4Q
• https://www.youtube.com/watch?v=p0TdBqIt3fg

LN02-Big Data Architecture

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

LN02-Big Data Architecture

Diunggah oleh

Hak Cipta:

Format Tersedia

LECTURE NOTES

Big Data Technologies

Big Data Architecture

COMP6725 - Big Data Technologies

LO 1: Menjelaskan layer arsitektur dan konsep pengolahan Big Data.

OUTLINE MATERI (Sub-Topic):

• Arsitektur Big Data

COMP6725 - Big Data Technologies

1. Arsitektur Big Data

Pic 1.1 The big data architecture

COMP6725 - Big Data Technologies

Pic 1.2 The variety of data sources

COMP6725 - Big Data Technologies

b. Relational Database vs Unstructured Data

COMP6725 - Big Data Technologies

Pic 1.4 Data ingestion layer

COMP6725 - Big Data Technologies

4. Distributed (Hadoop) Storage Layer

COMP6725 - Big Data Technologies

Pic 1.5 NoSQL databases

COMP6725 - Big Data Technologies

5. Hadoop Infrastructure Layer

COMP6725 - Big Data Technologies

6. Hadoop Platform Management Layer

Pic 1.7 Big data platform architecture

COMP6725 - Big Data Technologies

COMP6725 - Big Data Technologies

Pic 1.7a Sqoop import process

o ZooKeeper adalah koordinator untuk menjaga agar berbagai instance dan

COMP6725 - Big Data Technologies

Zookeeper menjamin kualitas berikut berkaitan dengan konsistensi data:

COMP6725 - Big Data Technologies

Pic 1.8d Search data types in various industries

COMP6725 - Big Data Technologies

Pic 1.8 Search data types in various industries

10. Real-Time Engines

COMP6725 - Big Data Technologies

Pic 1.9 In-memory caching

COMP6725 - Big Data Technologies

11. Analytics Engine

12. Visualization Layer

COMP6725 - Big Data Technologies

Pic 1.9 Visualization conceptual architecture

COMP6725 - Big Data Technologies

COMP6725 - Big Data Technologies

COMP6725 - Big Data Technologies

COMP6725 - Big Data Technologies

Anda mungkin juga menyukai