ISYS6332
Data Warehouse
Week 7
Big Data Analytics
INTRODUCTION
Dalam Bab ini, kami memperkenalkan big data dengan segala kejayaannya dan
menunjukkan bagaimana ia memperluas misi sistem DW / BI. Kami menyimpulkan dengan
daftar komprehensif praktik terbaik big data.
RDBMS yang ada harus membuka pintunya untuk memuat dan memproses berbagai
tipe data yang jauh lebih luas termasuk struktur kompleks seperti vektor, matriks, dan data
terstruktur khusus (hyperstructured data). Di ujung lain spektrum, RDBMS perlu memuat dan
memproses teks yang tidak terstruktur dan semi terstruktur, serta gambar, video, dan koleksi
pasangan name-value, kadang-kadang disebut data bags (kantong data).
Tetapi tidak cukup bagi RDBMS untuk hanya meng-host tipe data baru sebagai Binary
Large OBject (blob) yang akan dikirimkan di beberapa waktu kemudian ke aplikasi BI yang
dapat menginterpretasikan data, meskipun alternatif ini selalu dimungkinkan. Untuk benar-
benar memiliki data besar, RDBMS harus memungkinkan tipe data baru diproses dalam loop
internal DBMS dengan menggunakan UDF yang dibuat khusus yang ditulis oleh analis
pengguna bisnis.
MapReduce/Hadoop Architecture
Arsitektur alternatif, MapReduce / Hadoop, adalah open source proyek Apache tingkat
atas dengan banyak komponen. MapReduce adalah kerangka kerja pemrosesan yang awalnya
dikembangkan oleh Google pada awal 2000-an untuk melakukan pencarian halaman web di
ribuan mesin yang terpisah secara fisik. Pendekatan MapReduce sangat umum. Sistem
MapReduce yang lengkap dapat diimplementasikan dalam berbagai bahasa; implementasi
yang paling signifikan adalah di Java. MapReduce sebenarnya adalah kerangka kerja eksekusi
UDF, di mana "F" bisa sangat kompleks. Implementasi MapReduce yang paling signifikan
adalah Apache Hadoop, yang hanya dikenal sebagai Hadoop. Proyek Hadoop memiliki ribuan
kontributor dan seluruh industri dengan beragam aplikasi.
Comparison of Big Data Architectures
Dua pendekatan arsitektur data besar memiliki keunggulan jangka panjang yang
terpisah dan kemungkinan akan hidup berdampingan jauh di masa depan. Pada saat penulisan
ini, karakteristik dari kedua arsitektur dirangkum dalam Gambar 7.2.
Kimball, Ralph, Ross, Margy. 2013. The Data Warehouse Toolkit: The Definitive Guide to
Dimensional Modelling. 3rd Edition. John Wiley & Sons, Inc