LN7 PDF

LECTURE NOTES
ISYS6332
Data Warehouse
Week 7
Big Data Analytics
ISYS6332 – Data Warehouse

LEARNING OUTCOMES
LO3: Implementing modelling data tools
OUTLINE MATERI (Sub-Topic):

1. Big Data Overview
2. Recommended Best Practice for Big Data

ISI MATERI
INTRODUCTION
Dalam Bab ini, kami memperkenalkan big data dengan segala kejayaannya dan
menunjukkan bagaimana ia memperluas misi sistem DW / BI. Kami menyimpulkan dengan
daftar komprehensif praktik terbaik big data.
Big Data Overview

Big Data adalah data terstruktur, semi-terstruktur, tidak terstruktur, dan mentah dalam
banyak format berbeda, dalam beberapa kasus tampak sangat berbeda dari angka skalar bersih
dan teks yang telah Anda simpan di gudang data Anda selama 30 tahun terakhir. Banyak big
data yang tidak dapat dianalisis dengan apa pun yang tampak seperti SQL. Tetapi yang paling
penting, big data adalah perubahan paradigma dalam cara Anda berpikir tentang aset data, di
mana Anda mengumpulkannya, bagaimana Anda menganalisisnya, dan bagaimana Anda
mendapatkan uang dari wawasan analisis.
Pergerakan big data telah mengumpulkan momentum karena sejumlah besar kasus
penggunaan telah diakui termasuk dalam kategori analitik big data. Kasus penggunaan ini
meliputi: Peringkat pencarian, pelacakan iklan, pelacakan lokasi dan kedekatan, penemuan
faktor penyebab, CRM sosial, pengujian kesamaan dokumen, Analisis genomik, penemuan
kelompok Cohort, status pesawat dalam penerbangan, Smart utility meters, sensor Bangunan,
perbandingan gambar satelit, perbandingan pemindaian CAT, Pendeteksian dan intervensi
penipuan akun keuangan, deteksi dan intervensi peretasan sistem komputer, pelacakan gerakan
game online, analisis big data science, Generic name-value pair analysis, Analisis risiko
pinjaman dan penjaminan polis asuransi, analisis churn Pelanggan.
RDBMS dan SQL konvensional tidak bisa menyimpan atau menganalisis berbagai
kasus penggunaan ini. Untuk sepenuhnya menggunakan big data, sistem kandidat harus mampu
melakukan hal berikut:
1. Penskalaan untuk dengan mudah mendukung petabyte (ribuan terabyte) data.

2. Disebarluaskan ke ribuan prosesor, berpotensi tersebar secara geografis dan berpotensi
heterogen.
3. Menyimpan data dalam format asli saat diambil sambil mendukung permintaan dan
analisis aplikasi tanpa mengubah atau memindahkan data.
4. Waktu respons subsecond untuk kueri SQL standar yang sangat terbatas.
5. Menanamkan User-Defined Functions (UDF) kompleks dalam permintaan pemrosesan.
6. Menerapkan UDF dalam berbagai bahasa prosedural standar industri.
7. Merakit perpustakaan ekstensif UDF yang dapat digunakan kembali yang melintasi
sebagian besar atau semua kasus penggunaan.
8. Menjalankan UDFs sebagai relasi memindai set data berukuran petabyte dalam beberapa
menit.
9. Mendukung berbagai jenis data yang berkembang untuk memasukkan gambar, bentuk
gelombang, struktur data hierarki yang bersifat arbitrarily, dan koleksi pasangan name-
value.
10. Memuat data untuk siap dianalisis, dengan kecepatan sangat tinggi, setidaknya gigabytes
per detik.
11. Mengintegrasikan data dari berbagai sumber selama proses pemuatan pada tingkat yang
sangat tinggi (GB / detik).
12. Memuat data ke dalam basis data sebelum mendeklarasikan atau menemukan strukturnya.
13. Menjalankan kueri analitik streaming tertentu secara real time pada data pemuatan yang
masuk.
14. Memperbarui data di tempat dengan kecepatan pemuatan penuh.
15. Menggabungkan tabel dimensi miliar baris ke tabel fakta triliun baris tanpa menghalangi
tabel dimensi dengan tabel fakta.
16. Menjadwalkan dan menjalankan alur kerja multi-ratus simpul yang kompleks.
17. Dikonfigurasi tanpa mengalami satu titik kegagalan.
18. Memiliki failover dan memproses kelanjutan saat pemrosesan node gagal.
19. Mendukung beban kerja campuran yang ekstrem termasuk ribuan pengguna dan program
online yang tersebar secara geografis yang melakukan berbagai permintaan mulai dari
permintaan khusus hingga analisis strategis, sembari memuat data secara batch dan
streaming.

Menanggapi tantangan ini, dua arsitektur telah muncul: Extended RDBMSs dan
MapReduce / Hadoop.
Extended RDBMS Architecture

Vendor RDBMS yang ada memperluas tipe data relasional klasik untuk memasukkan
beberapa tipe data baru yang dibutuhkan oleh data besar, seperti yang ditunjukkan oleh panah
pada Gambar 7.1.
Gambar 7.1. Arsitektur DBMS relasional menampilkan ekstensi big data.
RDBMS yang ada harus membuka pintunya untuk memuat dan memproses berbagai
tipe data yang jauh lebih luas termasuk struktur kompleks seperti vektor, matriks, dan data
terstruktur khusus (hyperstructured data). Di ujung lain spektrum, RDBMS perlu memuat dan
memproses teks yang tidak terstruktur dan semi terstruktur, serta gambar, video, dan koleksi
pasangan name-value, kadang-kadang disebut data bags (kantong data).
Tetapi tidak cukup bagi RDBMS untuk hanya meng-host tipe data baru sebagai Binary
Large OBject (blob) yang akan dikirimkan di beberapa waktu kemudian ke aplikasi BI yang
dapat menginterpretasikan data, meskipun alternatif ini selalu dimungkinkan. Untuk benar-
benar memiliki data besar, RDBMS harus memungkinkan tipe data baru diproses dalam loop
internal DBMS dengan menggunakan UDF yang dibuat khusus yang ditulis oleh analis
pengguna bisnis.

Akhirnya, use case yang berharga adalah untuk memproses data dua kali melalui
RDBMS, di mana pada lintasan pertama RDBMS digunakan sebagai ekstraktor fakta pada data
asli, dan kemudian pada lintasan kedua, hasil ini secara otomatis dimasukkan kembali ke
iinputan RDBMS sebagai baris, kolom, dan tipe data relasional konvensional.
MapReduce/Hadoop Architecture
Arsitektur alternatif, MapReduce / Hadoop, adalah open source proyek Apache tingkat
atas dengan banyak komponen. MapReduce adalah kerangka kerja pemrosesan yang awalnya
dikembangkan oleh Google pada awal 2000-an untuk melakukan pencarian halaman web di
ribuan mesin yang terpisah secara fisik. Pendekatan MapReduce sangat umum. Sistem
MapReduce yang lengkap dapat diimplementasikan dalam berbagai bahasa; implementasi
yang paling signifikan adalah di Java. MapReduce sebenarnya adalah kerangka kerja eksekusi
UDF, di mana "F" bisa sangat kompleks. Implementasi MapReduce yang paling signifikan
adalah Apache Hadoop, yang hanya dikenal sebagai Hadoop. Proyek Hadoop memiliki ribuan
kontributor dan seluruh industri dengan beragam aplikasi.
Comparison of Big Data Architectures
Dua pendekatan arsitektur data besar memiliki keunggulan jangka panjang yang
terpisah dan kemungkinan akan hidup berdampingan jauh di masa depan. Pada saat penulisan
ini, karakteristik dari kedua arsitektur dirangkum dalam Gambar 7.2.
Gambar 7.2. Perbandingan Extended RDBMS dan MapReduce/Hadoop

Recommended Best Practice for Big Data
Meskipun pasar big data sama sekali tidak matang, industri ini sekarang memiliki
akumulasi pengalaman selama satu dekade. Pada waktu itu, sejumlah praktik terbaik yang
ditentukan untuk big data telah muncul. Karena itu, orang harus mengakui bahwa industri ini
memiliki serangkaian praktik terbaik yang telah teruji yang dikembangkan selama 30 tahun
terakhir untuk gudang data berbasis hubungan yang tentunya relevan dengan big data. Kami
mendaftar hal ini secara singkat yaitu:
1. Drive pilihan sumber data yang memberi masukan data warehouse dari kebutuhan bisnis.
2. Fokus tanpa henti pada kesederhanaan dan kinerja antarmuka pengguna.
3. Berpikir secara dimensi: Bagilah dunia menjadi dimensi dan fakta.
4. Integrasikan sumber data terpisah dengan conformed dimension.
5. Lacak varian waktu dengan Slowly Changing Dimensions (SCD).
6. Tambatkan semua dimensi dengan surrogate key yang tahan lama.
Di sisa bagian ini, kami membagi praktik terbaik big data ke dalam empat kategori:
manajemen, arsitektur, pemodelan data, dan tata kelola.
Management Best Practices for Big Data
Praktik terbaik berikut ini berlaku untuk pengelolaan keseluruhan lingkungan big data :
1. Struktur Lingkungan Big Data Sekitar Analytics.
2. Menunda Membangun Lingkungan Legacy.
3. Bangun Dari Hasil Sandbox.
4. Coba Aplikasi Sederhana Pertama.
Architecture Best Practices for Big Data

Praktik terbaik berikut memengaruhi struktur dan organisasi keseluruhan lingkungan big data
Anda.
1. Merencanakan Data Highway.
2. Membangun Extractor Fakta dari Big Data.
3. Bangun Ekosistem Komprehensif.
4. Rencanakan Kualitas Data.
5. Tambahkan Nilai ke Data sesegera mungkin.
6. Terapkan Backflow ke Cache Sebelumnya.

7. Terapkan Data Streaming.
8. Hindari Boundary Crashes.
9. Pindahkan Prototipe ke Cloud Pribadi.
10. Berjuang untuk Peningkatan Kinerja.
11. Monitor Sumber Daya Komputasi.
12. Memanfaatkan In-Database Analytics
Data Modeling Best Practices for Big Data

Praktik terbaik berikut memengaruhi struktur logis dan fisik data.
1. Berpikir secara Dimensi
2. Mengintegrasikan Sumber Data Terpisah dengan Conformed Dimension.
3. Menambatkan Dimensi dengan Durable Surrogate Keys.
4. Berharap Mengintegrasikan Data Terstruktur dan Tidak Terstruktur.
5. Gunakan Slowly Changing Dimensions
6. Deklarasikan Struktur Data pada Waktu Analisis.
7. Muat Data sebagai Pasangan name-value Sederhana.
8. Lakukan Prototipe Dengan Cepat Menggunakan Virtualisasi Data.
Data Governance Best Practices for Big Data

Praktik terbaik berikut ini berlaku untuk mengelola big data sebagai aset perusahaan yang
berharga.
1. Tidak Ada Hal Seperti Tata Kelola Big Data.
2. Dimensialkan Data sebelum Menerapkan Tata Kelola.
3. Privasi adalah Perspektif Tata Kelola Paling Penting.
4. Jangan Pilih Big Data daripada Tata Kelola.

SIMPULAN
Kesimpulan dari materi ini adalah:

1. Big data adalah perubahan paradigma dalam cara Anda berpikir tentang aset data,
di mana Anda mengumpulkannya, bagaimana Anda menganalisisnya, dan
bagaimana Anda mendapatkan uang dari wawasan analisis
2. Menanggapi 19 tantangan, dua arsitektur big data telah muncul yaitu Extended
RDBMSs dan MapReduce / Hadoop

DAFTAR PUSTAKA
Kimball, Ralph, Ross, Margy. 2013. The Data Warehouse Toolkit: The Definitive Guide to
Dimensional Modelling. 3rd Edition. John Wiley & Sons, Inc

LN7 PDF

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

LN7 PDF

Diunggah oleh

Hak Cipta:

Format Tersedia

LECTURE NOTES

ISYS6332 – Data Warehouse

LO3: Implementing modelling data tools

OUTLINE MATERI (Sub-Topic):

ISYS6332 – Data Warehouse

Big Data Overview

ISYS6332 – Data Warehouse

ISYS6332 – Data Warehouse

Extended RDBMS Architecture

Gambar 7.1. Arsitektur DBMS relasional menampilkan ekstensi big data.

ISYS6332 – Data Warehouse

Gambar 7.2. Perbandingan Extended RDBMS dan MapReduce/Hadoop

ISYS6332 – Data Warehouse

Architecture Best Practices for Big Data

ISYS6332 – Data Warehouse

Data Modeling Best Practices for Big Data

Data Governance Best Practices for Big Data

ISYS6332 – Data Warehouse

Kesimpulan dari materi ini adalah:

ISYS6332 – Data Warehouse

ISYS6332 – Data Warehouse

Anda mungkin juga menyukai