Minggu 2
Outcome:
Mahasiswa mampu menjelaskan layer arsitektur dan konsep pengolahan Big Data.
2. Data Sources
Beberapa internal dan eksternal data feed yang tersedia untuk perusahaan dari berbagai
sumber. Berbagai macam data ini, masuk dengan kecepatan tinggi dan dalam volume
besar, harus digabungkan dan dikonsolidasikan dengan mulus nanti dalam tumpukan big
data sehingga mesin analitik, serta alat visualisasi, dapat beroperasi di dalamnya sebagai
satu kesatuan. kumpulan big data.
Masalah sebenarnya dengan mendefinisikan big data dimulai di lapisan sumber data, di
mana sumber data dengan volume, kecepatan, dan variasi yang berbeda bersaing satu
sama lain untuk dimasukkan dalam kumpulan big data akhir yang akan dianalisis.
a. Data Industri
Secara tradisional, industri yang berbeda merancang arsitektur manajemen data
mereka di sekitar sumber data lama. Teknologi, adaptor, database, dan alat analitik
dipilih untuk melayani protokol dan standar lama ini.
Dalam dekade terakhir, setiap industri telah melihat ledakan jumlah data yang
masuk karena peningkatan langganan, data audio, data seluler, detail kontekstual,
jejaring sosial, data meteran, data cuaca, data penambangan, data perangkat, dan
penggunaan data. Beberapa sumber data "zaman baru" yang telah mengalami
peningkatan volume, kecepatan, atau variasi.
3. Ingestion Layer
Lapisan ingestion adalah penjaga data baru perusahaan. Ini adalah tanggung jawab
lapisan ini untuk memisahkan kebisingan dari informasi yang relevan. Lapisan ingestion
harus mampu menangani volume besar, kecepatan tinggi, atau variasi data. Itu harus
memiliki kemampuan untuk memvalidasi, membersihkan, mengubah, mengurangi, dan
mengintegrasikan data ke dalam tumpukan teknologi big data untuk diproses lebih lanjut.
Ini adalah edgeware baru yang harus skalabel, tangguh, responsif, dan regulasi dalam
arsitektur big data. Jika arsitektur terperinci dari lapisan ini tidak direncanakan dengan
benar, seluruh tumpukan teknologi akan rapuh dan tidak stabil saat Anda
memperkenalkan semakin banyak kemampuan ke kerangka kerja analitik big data Anda.
Lapisan ingestion memuat informasi terakhir yang relevan, tanpa kebisingan, ke lapisan
penyimpanan Hadoop terdistribusi berdasarkan beberapa server komoditas. Itu harus
memiliki kemampuan untuk memvalidasi, membersihkan, mengubah, mengurangi, dan
mengintegrasikan data ke dalam tumpukan teknologi big data untuk diproses lebih lanjut.
Blok penyusun lapisan ingestion harus mencakup komponen berikut:
Solusi NoSQL yang berbeda sangat cocok untuk aplikasi bisnis yang berbeda. Solusi
penyimpanan data NoSQL terdistribusi harus melonggarkan jaminan seputar
konsistensi, ketersediaan, dan toleransi partisi (Teorema CAP), yang dihasilkan
dalam sistem yang dioptimalkan untuk kombinasi yang berbeda dari properti ini.
Kombinasi database relasional dan NoSQL memastikan data yang tepat tersedia saat
Anda membutuhkannya. Anda juga memerlukan arsitektur data yang mendukung
konten tidak terstruktur yang kompleks. Baik database relasional maupun database
nonrelasional harus disertakan dalam pendekatan untuk memecahkan masalah big
data Anda.
Basis data NoSQL yang berbeda sangat cocok untuk aplikasi bisnis yang berbeda
7. Security Layer
Analisis big data menjadi fungsi utama bagi perusahaan, keamanan data itu menjadi
perhatian utama. Kebiasaan berbelanja pelanggan, riwayat medis pasien, tren tagihan
utilitas, dan temuan demografis untuk penyakit genetik—semua ini dan banyak lagi jenis
dan penggunaan data perlu dilindungi, baik untuk memenuhi persyaratan kepatuhan
maupun untuk melindungi privasi individu. Metode otorisasi dan otentikasi yang tepat
harus diterapkan pada analitik. Persyaratan keamanan ini harus menjadi bagian dari
struktur big data sejak awal dan bukan setelahnya.
Pemeta tidak tepercaya atau pelacak pekerjaan simpul bernama dapat mengembalikan
hasil yang tidak diinginkan yang akan menghasilkan hasil agregat peredam yang salah.
Dengan kumpulan data yang besar, pelanggaran keamanan tersebut mungkin tidak
diketahui dan menyebabkan kerusakan signifikan pada kesimpulan dan perhitungan.
Injeksi NoSQL masih dalam masa pertumbuhan dan menjadi sasaran empuk bagi
peretas. Dengan cluster besar yang digunakan secara acak untuk string dan pengarsipan
kumpulan big data, sangat mudah untuk kehilangan jejak di mana data disimpan atau
lupa untuk menghapus data yang tidak diperlukan. Data tersebut dapat jatuh ke tangan
yang salah dan menimbulkan ancaman keamanan bagi perusahaan.
Proyek big data secara inheren tunduk pada masalah keamanan karena arsitektur
terdistribusi, penggunaan model pemrograman sederhana, dan kerangka layanan
terbuka. Namun, keamanan harus diimplementasikan dengan cara yang tidak merusak
kinerja, skalabilitas, atau fungsionalitas, dan harus relatif sederhana untuk dikelola dan
dipelihara.
Untuk menerapkan fondasi dasar keamanan, Anda harus merancang tumpukan teknologi
big data sehingga, setidaknya, melakukan hal berikut:
8. Monitoring Layer
Banyak cluster penyimpanan data terdistribusi dan beberapa titik sumber data ingestion,
penting untuk mendapatkan gambaran lengkap tentang tumpukan teknologi big data
sehingga ketersediaan SLA terpenuhi dengan waktu henti minimum.
Sistem pemantauan harus menyadari cluster terdistribusi besar yang digunakan dalam
model federasi.
Sistem pemantauan harus menyadari sistem operasi dan perangkat keras yang berbeda.
maka mesin harus berkomunikasi dengan alat pemantauan melalui protokol seperti XML,
bukan format biner yang bergantung pada mesin. Sistem juga harus menyediakan alat
untuk penyimpanan data dan visualisasi. Performa adalah parameter kunci untuk
dipantau sehingga ada overhead yang sangat rendah dan paralelisme yang tinggi.
Alat sumber terbuka seperti Ganglia dan Nagios banyak digunakan untuk memantau
tumpukan teknologi big data.
9. Search Engine
Volume besar data untuk dianalisis, Anda memerlukan mesin pencari yang sangat cepat
dengan mekanisme penemuan data yang berulang dan kognitif. Data yang dimuat dari
berbagai aplikasi perusahaan ke dalam tumpukan teknologi big data harus diindeks dan
dicari untuk pemrosesan analitik big data. Pencarian umum tidak akan dilakukan hanya
pada baris (kunci) basis data (HBase), jadi penggunaan bidang tambahan perlu
dipertimbangkan. Berbagai jenis data dihasilkan di berbagai industry
Penggunaan mesin pencari sumber terbuka seperti Solr berbasis Lucene memberikan
peningkatan kemampuan pencarian yang dapat berfungsi sebagai satu set indeks
sekunder. Saat Anda mendesain arsitektur, Anda perlu mempertimbangkan topik ini
dengan serius, yang mungkin mengharuskan Anda memilih produk pencarian yang
diterapkan vendor (misalnya, DataStax). Hasil mesin pencari dapat disajikan dalam
berbagai bentuk menggunakan alat dan metode visualisasi "zaman baru".
Arsitektur konseptual lapisan pencarian dan bagaimana lapisan tersebut berinteraksi
dengan berbagai lapisan tumpukan teknologi big data. Kami akan melihat pola pencarian
terdistribusi yang memenuhi persyaratan kinerja, skalabilitas, dan ketersediaan tumpukan
big data.
Untuk memanfaatkan wawasan sedini mungkin, opsi real-time (di mana data terbaru
ditemukan di memori, sementara data pada disk akhirnya menyusul) dapat dicapai
menggunakan mesin real-time dan penyimpanan data NoSQL . Analisis real-time dari lalu
lintas web juga menghasilkan sejumlah besar data yang hanya tersedia untuk waktu
yang singkat. Ini sering menghasilkan kumpulan data di mana skema tidak diketahui
sebelumnya.
b. In-Memory Database
• Data disebarkan di tingkat aplikasi sebagai database yang dapat disematkan—
misalnya, Derby
• Membaca dan menulis data secepat mengakses RAM. Misalnya, dengan
prosesor 1,8 GHz, transaksi baca dapat memakan waktu kurang dari 5
mikrodetik, dengan transaksi penyisipan membutuhkan waktu kurang dari 15
mikrodetik.
• Basis data cocok sepenuhnya dalam memori fisik.
• Data dikelola dalam memori dengan algoritma akses yang dioptimalkan.
• Log transaksi dan file pos pemeriksaan database disimpan ke disk.
Lapisan intelijen bisnis kini dilengkapi dengan alat analisis big data yang canggih, analisis
statistik dalam basis data, dan alat visualisasi tingkat lanjut seperti Tableau, Clickview,
Spotfire, MapR, revolution R, dan lainnya. Alat-alat ini bekerja di atas komponen
tradisional seperti laporan, dasbor, dan kueri.
Dengan arsitektur ini, pengguna bisnis melihat data transaksi tradisional dan big data
dalam satu tampilan yang terkonsolidasi. Kami akan melihat pola visualisasi yang
memberikan wawasan yang gesit dan fleksibel ke dalam tumpukan big data.
Anda memiliki banyak pilihan alat dan produk yang dapat Anda gunakan untuk
membangun arsitektur aplikasi Anda dari ujung ke ujung. Produk biasanya dipilih oleh
banyak perusahaan untuk memulai perjalanan big data mereka. Produk yang terdaftar
sebagian besar berbasis open source, kecuali untuk situasi di mana organisasi telah
memiliki investasi TI dalam produk dari IBM, Oracle, SAP, EMC, dan perusahaan lain dan
ingin memanfaatkan perjanjian lisensi yang ada untuk membangun lingkungan big data
di harga yang wajar, serta mendapatkan dukungan berkelanjutan dari vendor.
Perusahaan ingin menggunakan lingkungan cloud publik untuk analitik big data mereka,
keinginan itu dibatasi oleh kendala dalam memindahkan terabyte data masuk dan keluar
dari cloud. Berikut adalah cara tradisional untuk memindahkan big data:
• Mengirimkan hard disk drive secara fisik ke penyedia cloud. Risikonya adalah mereka
mungkin tertunda atau rusak dalam perjalanan.
• Cara digital lainnya adalah dengan menggunakan metode transfer berbasis TCP
seperti FTP atau HTTP.
Kedua opsi ini sangat lambat dan tidak aman untuk memenuhi kebutuhan big data.
Untuk menjadi pilihan yang layak untuk manajemen, pemrosesan, dan distribusi big data,
layanan cloud memerlukan mekanisme transportasi non-TCP berkecepatan tinggi yang
mengatasi kemacetan jaringan, seperti penurunan kecepatan transfer yang terjadi dari
jarak jauh menggunakan protokol transfer tradisional dan hilangnya kecepatan terakhir di
dalam pusat data cloud yang disebabkan oleh antarmuka HTTP ke penyimpanan cloud
berbasis objek yang mendasarinya.
Ada produk yang menawarkan kecepatan transfer file yang lebih baik dan kemampuan
ukuran file yang lebih besar, seperti yang ditawarkan oleh Aspera, Signiant, File Catalyst,
Telestream, dan lainnya. Produk ini menggunakan kombinasi protokol UDP dan validasi
TCP paralel. Transfer UDP kurang dapat diandalkan, dan mereka memverifikasi dengan
hash atau hanya ukuran file setelah transfer selesai.