Anggota Kelompok :
1. Muhamad afriza firmansyah (22552011336)
2. Ilham Almurtapi (22552011308)
3. Gilang Fikri (22552011309)
Big Data Processing
Big Data Processing adalah pendekatan dalam mengelola,
menganalisis, dan mengolah data dalam skala yang sangat besar.
Dalam konteks transformasi bisnis, istilah ini merujuk pada
kemampuan teknologi untuk menangani volume data yang luar
biasa besar, termasuk data terstruktur dan tidak terstruktur.
Sejarah big data
Istilah "big data" mengacu pada data yang sangat besar, cepat atau
kompleks sehingga sulit atau tidak mungkin untuk diproses
menggunakan metode tradisional. Tindakan mengakses dan
menyimpan sejumlah besar informasi untuk analitik sudah ada
sejak lama.
mendorong integrasi komponen yang digabungkan secara longgar (biasanya open source). Misalnya, DBMS NoSQL biasanya mendukung
sistem penyimpanan yang berbeda (misalnya, HDFS, dll.). Sistem ini biasanya digunakan di lingkungan komputasi awan publik atau pribadi.
Distributed Storage Systems dapat menyimpan beberapa jenis data:
File
Penyimpanan blok
Objek
GFS memiliki arsitektur master-slave, satu master yang mengelola beberapa slave (chunk
server). Data yang disimpan di dalam GFS akan di pecah-pecah ke dalam beberapa bagian
(chunk) yang kemudian di replikasi dan di simpan di seluruh chunk server yang tersedia,
sedangkan lokasi dan metadata file yang ditaruh di GFS tersebut akan disimpan oleh server
master dalam bentuk namespace. Ketika ada chunk server yang mati/rusak, maka chunk server
yang lain yang menyimpan data yang sama akan segera mereplikasi ulang, untuk menjaga
ketersediaan data yang disimpan. Sedangkan apabila server Master rusak, maka GFS akan
mendelegasikan peran master tersebut ke master bayangan (shadow master).
Combining Object Storage and File Storage
Menggabungkan penyimpanan objek dan penyimpanan file
mengacu pada pengintegrasian kedua jenis penyimpanan dalam
infrastruktur penyimpanan tunggal untuk memanfaatkan manfaat
masing-masing jenis penyimpanan. Penyimpanan objek ideal untuk
menyimpan data tidak terstruktur dalam jumlah besar, seperti
gambar, video, dan dokumen, sedangkan penyimpanan file sangat
cocok untuk beban kerja dan aplikasi berbasis file tradisional.
Dengan menggabungkan keduanya, organisasi dapat
mengoptimalkan lingkungan penyimpanannya untuk
mengakomodasi berbagai jenis data dan beban kerja secara efisien.
• Big Data Processing Framework
Big Data Processing Framework adalah perangkat lunak yang dirancang untuk mengelola,
memproses, dan menganalisis volume data yang sangat besar atau "big data". Framework ini
menyediakan alat, fungsi, dan infrastruktur yang diperlukan untuk menangani tantangan
terkait big data, seperti penyimpanan data berskalabel, pemrosesan paralel, analisis real-time,
dan integrasi dengan berbagai sumber data.
1. peyerapan data
2. tranformasi data
3. pembelajaran mesin
4. pemrosesan grafis
5. visualisasi data
Data Processing Using Spark ini digambarkan pada Gambar Hal
pertama yang dilakukan program ini
adalah membuat RDD dari data
mentah di HDFS. Kemudian,
berdasarkan keputusan pengguna
apakah akan melakukan
cache/mempertahankan RDD, sistem
melakukan persiapan yang tepat.
Kemudian, mungkin ada transformasi
tambahan untuk menghasilkan RDD
lain dan, untuk setiap transformasi,
keputusan cache/persist ditentukan.
Terakhir, pemrosesan dimulai dengan
tindakan yang ditunjukkan dalam
program. Seperti disebutkan di atas,
tindakan pertama pada RDD
mewujudkannya, dan kemudian
menerapkan tindakan tersebut.
Pemrosesan ini mengulangi
beberapa tindakan dan pekerjaan.
Stream Data Management
merupakan proses pengumpulan data secara terus-menerus dan memindahkannya ke tujuan tertentu.
Biasanya, data ini ditangani oleh software stream processing untuk menganalisis, menyimpan, dan
menindaklanjuti informasi pada suatu data.
Languages
adalah bahasa pemrograman atau bahasa kueri yang dirancang khusus untuk
mengekspresikan komputasi melalui aliran data. Bahasa-bahasa ini sering kali
menyertakan konstruksi yang disesuaikan untuk pemrosesan aliran, seperti fungsi
windowing, operator berbasis waktu, dan fitur manajemen status.
Operators
adalah fungsi atau operasi yang digunakan untuk memanipulasi dan memproses aliran
data. Operator ini biasanya mencakup operasi untuk memfilter, mentransformasikan,
menggabungkan, dan menggabungkan aliran. Contoh operator aliran termasuk peta, filter,
kurangi, gabung, jendela, dan kelompokkan berdasarkan.
menggambarkan implementasi operator seleksi sebagai contoh. Tupel yang masuk hanya disaring
berdasarkan kondisi pemilihan.
Namun, operator stateful (misalnya, gabungan) memiliki perilaku pemblokiran dalam implementasi
relasionalnya yang tidak sesuai dengan DSS. Misalnya, sebelum mengembalikan tupel berikutnya, Nested
Loops Join (NLJ) berpotensi memindai seluruh relasi dalam dan membandingkan setiap tupel di dalamnya
dengan tupel luar saat ini. Mengingat sifat data streaming yang tidak terbatas, pemblokiran seperti itu
menimbulkan masalah. Telah terbukti bahwa suatu kueri bersifat monotonik jika dan hanya jika kueri
tersebut non-pemblokiran, artinya kueri tersebut tidak perlu menunggu hingga penanda akhir masukan
sebelum memberikan hasil.
Query Processing over Data Streams.
melibatkan analisis dan ekstraksi wawasan secara terus-menerus dari aliran data secara real-time atau hampir
real-time. Hal ini penting dalam skenario di mana data terus dihasilkan dan perlu diproses dengan cepat untuk
pengambilan keputusan tepat waktu. Aspek utama pemrosesan kueri melalui aliran data meliputi:
1. Pemrosesan Berkelanjutan
2. Windowing
3. Optimasi Kueri
4. Pemrosesan Peristiwa Kompleks (CEP)
5. Skalabilitas
6. Toleransi Kesalahan
Secara keseluruhan, pemrosesan kueri melalui aliran data memerlukan teknik dan teknologi khusus untuk
menangani tantangan unik yang ditimbulkan oleh sumber data yang terus
DSS Fault-Tolerance
mengacu pada kemampuan sistem untuk terus berfungsi dengan baik bahkan ketika terjadi
kegagalan atau kesalahan. Hal ini melibatkan mekanisme seperti redundansi, deteksi
kesalahan, dan pemulihan kesalahan untuk memastikan operasi tidak terganggu dan
menjaga integritas data. Sistem ini sering kali menggunakan teknik seperti replikasi data,
sistem cadangan, dan mekanisme failover untuk mengurangi dampak kesalahan dan
menjaga keandalan.
Graph Analytics Platforms.
adalah perangkat lunak yang dirancang khusus untuk menganalisis data yang terstruktur dalam bentuk graf atau
jaringan. Mereka memungkinkan pengguna untuk menjelajahi, menganalisis, dan mendapatkan wawasan dari
data yang terhubung, seperti jaringan sosial, jaringan infrastruktur, dan data terkait lainnya. Platform ini biasanya
dilengkapi dengan berbagai fitur, termasuk algoritma analisis graf, visualisasi grafis, integrasi dengan berbagai
sumber data, dan kemampuan untuk mengeksekusi pertanyaan kompleks terhadap graf. Mereka digunakan
dalam berbagai aplikasi, termasuk analisis keamanan, analisis sosial media, pemodelan jaringan transportasi,
dan lain-lain.
ada beberapa hal lain yang dapat dijelaskan tentang Graph Analytics Platforms:
Algoritma Analisis Graf
Visualisasi Grafis
Pengolahan Big Data
Interaksi dengan Berbagai Sumber Data
Analisis Jaringan Sosial
Keamanan Informasi
Pemrosesan Paralel
Pemantauan Jaringan dan Pengelolaan Infrastruktur
Graph Partitioning
proses membagi graf besar menjadi bagian-bagian yang lebih kecil
yang disebut partisi. Tujuan dari pemisahan graf adalah untuk
mengoptimalkan keseimbangan beban dan meminimalkan jumlah
koneksi lintas partisi
Beberapa metode yang umum digunakan untuk pemisahan graf termasuk:
Pendekatan Heuristik
Pendekatan Berbasis Spektral
Algoritma Optimisasi
Pilihan metode pemisahan graf tergantung pada karakteristik graf dan tujuan analisisnya. Beberapa faktor
yang perlu dipertimbangkan meliputi ukuran graf, pola koneksi antar simpul, dan sumber daya komputasi
yang tersedia. Pemisahan graf yang efisien dapat meningkatkan kinerja analisis dan pemrosesan data
pada graf yang besar dan kompleks.
MapReduce and Graph Analytics
map reduce adalah model pemrograman dan infrastruktur komputasi yang digunakan
untuk memproses dan menghasilkan data dalam skala besar di lingkungan
terdistribusi
Graph Analytics, di sisi lain, adalah bidang analisis data yang berfokus pada graf atau
jaringan terhubung, seperti jejaring sosial, jaringan transportasi, atau graf lainnya.
Tujuan dari analisis graf adalah untuk memahami struktur, pola, dan properti jaringan
untuk mendapatkan wawasan yang berharga.
Ingatlah bahwa sistem ini melakukan komputasi paralel pada sebuah cluster yang memiliki
node master dan sejumlah node pekerja, dengan masing-masing pekerja menghosting
sekumpulan simpul grafik dan mengimplementasikan fungsi Computer. Di beberapa sistem
(misalnya GPS dan Giraph), terdapat fungsi Master.Computer tambahan yang
memungkinkan beberapa bagian algoritma dieksekusi secara serial di master. Keberadaan
fungsi-fungsi ini memberikan fleksibilitas lebih lanjut untuk implementasi algoritma dan
beberapa optimasi (seperti yang kita bahas di bawah).
Untuk beberapa algoritma, penting untuk menangkap keadaan global grafik. Untuk
memfasilitasi hal ini, agregator dapat diterapkan. Setiap simpul menyumbangkan nilai ke
agregator, dan hasil agregasi tersedia untuk semua simpul pada superstep berikutnya.
Sistem biasanya menyediakan sejumlah agregator dasar seperti min, maks, dan jumlah.
Vertex-Centric Asynchronous
merupakan salah satu pendekatan dalam pemrosesan graf paralel di mana setiap
simpul (vertex) dalam graf memproses informasi secara independen dan asinkron,
tanpa perlu sinkronisasi dengan simpul lain. Pendekatan ini umumnya digunakan
dalam pemrograman model paralel seperti Apache Giraph dan Apache Hama untuk
memproses graf yang sangat besar secara efisien. Dalam konteks ini, "asynchronous"
mengacu pada fakta bahwa setiap simpul dapat memproses informasi tanpa harus
menunggu simpul lainnya, sehingga memungkinkan kinerja yang lebih baik dalam
sistem paralel.