STMIK Amikom Purwokerto
“Sarana Pasti Meraih Prestasi”
Data Mining dan Data
Warehouse
Wiga Maulana Baihaqi, S.Kom., M.Eng.
12/5/20 Wiga Maulana Baihaqi, S.Kom., M.Eng. 1
STMIK Amikom Purwokerto
“Sarana Pasti Meraih Prestasi”
Outline
• Database vs Data Warehouse: Key Differences
• Characteristics of Data warehouse
• Data Warehouse Architectures
• Data Warehousing - Terminologies
12/5/20 Nama Dosen 2
STMIK Amikom Purwokerto
Database vs Data Warehouse: Key
“Sarana Pasti Meraih Prestasi”
Differences
What is Database? What is a Data Warehouse?
• Database adalah kumpulan data • Gudang data adalah sistem informasi yang
menyimpan data historis dan komutatif
terkait yang mewakili beberapa dari sumber tunggal atau ganda. Ini
elemen dunia nyata. Ini dirancang untuk menganalisis,
dirancang untuk dibangun dan melaporkan, mengintegrasikan data
diisi dengan data untuk tugas transaksi dari berbagai sumber.
tertentu. Ini juga merupakan • Gudang Data memudahkan proses analisis
dan pelaporan suatu organisasi. Ini juga
blok bangunan dari solusi data merupakan versi tunggal kebenaran bagi
Anda. organisasi untuk pengambilan keputusan
dan proses peramalan.
12/5/20 Nama Dosen 3
STMIK Amikom Purwokerto
“Sarana Pasti Meraih Prestasi”
Why use a Database?
Di sini, adalah alasan utama untuk menggunakan sistem Database:
• Ia menawarkan keamanan data dan aksesnya
• Database menawarkan berbagai teknik untuk menyimpan dan mengambil
data.
• Basis data bertindak sebagai penangan yang efisien untuk menyeimbangkan
kebutuhan beberapa aplikasi menggunakan data yang sama
• DBMS menawarkan kendala integritas untuk mendapatkan perlindungan
tingkat tinggi untuk mencegah akses ke data yang dilarang.
• Basis data memungkinkan Anda untuk mengakses data bersamaan
sedemikian rupa sehingga hanya satu pengguna yang dapat mengakses data
yang sama pada suatu waktu.
12/5/20 Nama Dosen 4
STMIK Amikom Purwokerto
“Sarana Pasti Meraih Prestasi”
Disadvantages of Database
• Biaya Perangkat Keras dan Perangkat Lunak dari sistem Database
pelaksana tinggi yang dapat meningkatkan anggaran organisasi
Anda.
• Banyak sistem DBMS seringkali merupakan sistem yang
kompleks, sehingga diperlukan pelatihan bagi pengguna untuk
menggunakan DBMS.
• Pemilik data dapat kehilangan kendali atas data mereka,
meningkatkan masalah keamanan, kepemilikan, dan privasi.
12/5/20 Nama Dosen 5
STMIK Amikom Purwokerto
“Sarana Pasti Meraih Prestasi”
Applications of Database
Sector Usage
Banking Digunakan di sektor perbankan untuk informasi pelanggan, kegiatan terkait akun,
pembayaran, deposito, pinjaman, kartu kredit, dll.
Airlines Digunakan untuk pemesanan dan informasi jadwal.
Universities Untuk menyimpan informasi siswa, pendaftaran kursus, perguruan tinggi, dan hasil.
Telecommunication Ini membantu untuk menyimpan catatan panggilan, tagihan bulanan, pemeliharaan
keseimbangan, dll.
Finance Membantu Anda menyimpan informasi terkait stok, penjualan, dan pembelian saham
dan obligasi.
Sales & Production Digunakan untuk menyimpan rincian pelanggan, produk dan penjualan..
Manufacturing Ini digunakan untuk manajemen data rantai pasokan dan untuk melacak produksi
barang, status persediaan.
HR Management Detail tentang gaji, pengurangan, pembuatan gaji karyawan, dll.
12/5/20 Nama Dosen 6
STMIK Amikom Purwokerto
“Sarana Pasti Meraih Prestasi”
Difference between Database and Data
Warehouse
12/5/20 Nama Dosen 7
STMIK Amikom Purwokerto
“Sarana Pasti Meraih Prestasi”
Difference between Database and Data
Warehouse
Parameter Database Data Warehouse
Purpose Is designed to record Is designed to analyze
Processing The database uses the Online Transactional Data warehouse uses Online Analytical
Method Processing (OLTP) Processing (OLAP).
Usage The database helps to perform Data warehouse allows you to analyze
fundamental operations for your business your business.
Tables and Joins Tables and joins of a database are complex Table and joins are simple in a data
as they are normalized. warehouse because they are denormalized.
Orientation Is an application-oriented collection of It is a subject-oriented collection of data
data
Storage limit Generally limited to a single application Stores data from any number of
applications
12/5/20 Nama Dosen 8
STMIK Amikom Purwokerto
“Sarana Pasti Meraih Prestasi”
Difference between Database and Data
Warehouse
Parameter Database Data Warehouse
Availability Data is available real-time Data is refreshed from source systems as and
when needed
Usage ER modeling techniques are used for designing. Data modeling techniques are used for designing.
Technique Capture data Analyze data
Data Type Data stored in the Database is up to date. Current and Historical Data is stored in Data
Warehouse. May not be up to date.
Storage of Flat Relational Approach method is used for data Data Ware House uses dimensional and
data storage. normalized approach for the data structure.
Example: Star and snowflake schema.
Query Type Simple transaction queries are used. Complex queries are used for analysis purpose.
Data Detailed Data is stored in a database. It stores highly summarized data.
Summary
12/5/20 Nama Dosen 9
STMIK Amikom Purwokerto
“Sarana Pasti Meraih Prestasi”
Characteristics of Data warehouse
• Subject-Oriented
• Integrated
• Time-variant
• Non-volatile
12/5/20 Nama Dosen 10
STMIK Amikom Purwokerto
“Sarana Pasti Meraih Prestasi”
Subject-Oriented
• Gudang data berorientasi pada subjek karena menyediakan
informasi seputar subjek daripada operasi berkelanjutan
organisasi.
• Subjek-subjek ini dapat berupa produk, pelanggan, pemasok,
penjualan, pendapatan, dll. Gudang data tidak fokus pada operasi
yang sedang berlangsung, melainkan berfokus pada pemodelan
dan analisis data untuk pengambilan keputusan.
12/5/20 Nama Dosen 11
STMIK Amikom Purwokerto
“Sarana Pasti Meraih Prestasi”
Integrated
• Di Gudang Data, integrasi berarti pembentukan satuan ukuran umum
untuk semua data yang serupa dari basis data yang berbeda. Data juga
perlu disimpan di Datawarehouse secara umum dan diterima secara
universal.
• Gudang data dikembangkan dengan mengintegrasikan data dari
berbagai sumber seperti mainframe, database relasional, file flat, dll.
Selain itu, data warehouse harus tetap konsisten dengan konvensi
penamaan, format, dan pengkodean.
• Integrasi ini membantu dalam analisis data yang efektif. Konsistensi
dalam konvensi penamaan, ukuran atribut, struktur pengkodean dll.
Harus dipastikan.
12/5/20 Nama Dosen 12
STMIK Amikom Purwokerto
“Sarana Pasti Meraih Prestasi”
Integrated
12/5/20 Nama Dosen 13
STMIK Amikom Purwokerto
“Sarana Pasti Meraih Prestasi”
Integrated
• Pada contoh di atas, ada tiga aplikasi berlabel A, B, dan C. Informasi yang
disimpan dalam aplikasi ini adalah Jenis Kelamin, Tanggal, dan Saldo.
Namun, setiap data aplikasi disimpan dengan cara yang berbeda.
• Dalam Aplikasi Bidang gender menyimpan nilai-nilai logis seperti M atau F
• Dalam bidang B gender Aplikasi adalah nilai numerik,
• Dalam aplikasi C aplikasi, bidang gender disimpan dalam bentuk nilai
karakter.
• Sama halnya dengan Tanggal dan saldo
• Namun, setelah proses transformasi dan pembersihan semua data ini
disimpan dalam format umum di Gudang Data.
12/5/20 Nama Dosen 14
STMIK Amikom Purwokerto
“Sarana Pasti Meraih Prestasi”
Time-Variant
• Cakrawala waktu untuk data warehouse cukup luas dibandingkan
dengan sistem operasional. Data yang dikumpulkan di gudang data
diakui dengan periode tertentu dan menawarkan informasi dari sudut
pandang historis. Ini mengandung unsur waktu, secara eksplisit atau
implisit.
• Satu tempat di mana varians waktu tampilan data Datawarehouse
berada dalam struktur kunci rekaman. Setiap kunci utama yang
terkandung dalam DW harus memiliki elemen waktu baik secara
implisit maupun eksplisit. Seperti hari, bulan minggu, dll.
• Aspek lain dari varian waktu adalah bahwa begitu data dimasukkan ke
dalam gudang, itu tidak dapat diperbarui atau diubah.
12/5/20 Nama Dosen 15
STMIK Amikom Purwokerto
“Sarana Pasti Meraih Prestasi”
Non-volatile
• Data warehouse juga non-volatile artinya data sebelumnya tidak terhapus
ketika data baru dimasukkan di dalamnya.
• Data hanya baca dan di-refresh secara berkala. Ini juga membantu untuk
menganalisis data historis dan memahami apa & kapan terjadi. Itu tidak
memerlukan proses transaksi, pemulihan dan mekanisme kontrol konkurensi.
• Kegiatan seperti menghapus, memperbarui, dan memasukkan yang dilakukan
di lingkungan aplikasi operasional dihilangkan di lingkungan data warehouse.
Hanya dua jenis operasi data yang dilakukan di Gudang Data
• Pemuatan data
• Akses data
12/5/20 Nama Dosen 16
STMIK Amikom Purwokerto
“Sarana Pasti Meraih Prestasi”
Data Warehouse Architectures
• Single-tier architecture
• Two-tier architecture
• Three-tier architecture
12/5/20 Nama Dosen 17
STMIK Amikom Purwokerto
“Sarana Pasti Meraih Prestasi”
Single-tier architecture
• Tujuan dari satu lapisan adalah untuk meminimalkan jumlah data
yang disimpan.
• Tujuan ini adalah untuk menghapus redundansi data.
• Arsitektur ini tidak sering digunakan dalam praktik.
12/5/20 Nama Dosen 18
STMIK Amikom Purwokerto
“Sarana Pasti Meraih Prestasi”
Two-tier architecture
• Arsitektur dua lapis memisahkan sumber dan gudang data yang
tersedia secara fisik.
• Arsitektur ini tidak dapat diperluas dan juga tidak mendukung
sejumlah besar pengguna akhir.
• Ini juga memiliki masalah konektivitas karena keterbatasan
jaringan.
12/5/20 Nama Dosen 19
STMIK Amikom Purwokerto
“Sarana Pasti Meraih Prestasi”
Three-tier architecture
• Tingkat Bawah: Basis data server Datawarehouse sebagai tingkat terbawah.
Ini biasanya merupakan sistem basis data relasional. Data dibersihkan, diubah,
dan dimuat ke dalam lapisan ini menggunakan alat back-end.
• Tingkat Tengah: Tingkat menengah di gudang Data adalah server OLAP yang
diimplementasikan menggunakan model ROLAP atau MOLAP. Untuk
pengguna, tier aplikasi ini menyajikan tampilan abstrak dari database. Lapisan
ini juga bertindak sebagai mediator antara pengguna akhir dan basis data.
• Tingkat Atas: Tingkat atas adalah lapisan klien ujung depan. Tingkat teratas
adalah alat dan API yang Anda sambungkan dan dapatkan data dari gudang
data. Ini bisa berupa alat Kueri, alat pelaporan, alat kueri terkelola, alat
Analisis dan alat data mining.
12/5/20 Nama Dosen 20
STMIK Amikom Purwokerto
“Sarana Pasti Meraih Prestasi”
Data Warehouse Architectures
• Core elements of the Kimball DW/BI architecture.
12/5/20 Nama Dosen 21
STMIK Amikom Purwokerto
“Sarana Pasti Meraih Prestasi”
Components of Data Warehouse
• Operational Source Systems
• Extract, Transformation, and Load System
• Presentation Area to Support Business Intelligence
• Business Intelligence Applications
12/5/20 Nama Dosen 22
STMIK Amikom Purwokerto
“Sarana Pasti Meraih Prestasi”
Operational Source Systems
• Sistem operasional adalah istilah yang digunakan dalam data
warehouse untuk merujuk pada sistem yang digunakan untuk
memproses transaksi sehari-hari suatu organisasi. Sistem ini
dirancang sedemikian rupa sehingga pemrosesan transaksi sehari-
hari dilakukan secara efisien dan integritas data transaksional
dipertahankan.
• Terkadang sistem operasional disebut sebagai basis data operasional,
sistem pemrosesan transaksi, atau sistem pemrosesan transaksi
online (OLTP). Namun, penggunaan dua istilah terakhir sebagai
sinonim mungkin membingungkan, karena sistem operasional dapat
menjadi sistem pemrosesan batch juga.
12/5/20 Nama Dosen 23
STMIK Amikom Purwokerto
“Sarana Pasti Meraih Prestasi”
Operational Source Systems
• Perusahaan apa pun harus memelihara banyak data tentang
operasinya.
Organization Probably
Manufacturing Company Product data
Bank Account Data
Hospital Patient Data
University Student Data
Government Department Planning data
12/5/20 Nama Dosen 24
STMIK Amikom Purwokerto
“Sarana Pasti Meraih Prestasi”
Extract, Transformation, and Load System
• Ekstrak, transformasi, dan sistem beban (ETL) dari lingkungan DW
/ BI terdiri dari area kerja, struktur data yang dipakai, dan
serangkaian proses.
• Sistem ETL adalah segalanya antara sistem sumber operasional
dan area presentasi DW / BI.
12/5/20 Nama Dosen 25
STMIK Amikom Purwokerto
“Sarana Pasti Meraih Prestasi”
Extract
• Ekstraksi adalah langkah pertama dalam proses memasukkan
data ke lingkungan data warehouse.
• Mengekstraksi berarti membaca dan memahami sumber data
dan menyalin data yang diperlukan ke sistem ETL untuk
manipulasi lebih lanjut.
• Pada titik ini, data milik gudang data.
12/5/20 Nama Dosen 26
STMIK Amikom Purwokerto
“Sarana Pasti Meraih Prestasi”
Transformation
• Setelah data diekstraksi ke sistem ETL, ada banyak transformasi
potensial, seperti membersihkan data (mengoreksi kesalahan ejaan,
menyelesaikan konflik domain, menangani elemen yang hilang, atau
memilah ke dalam format standar), menggabungkan data dari berbagai
sumber, dan duplikasi data.
• Sistem ETL menambah nilai pada data dengan tugas pembersihan dan
penyesuaian ini dengan mengubah data dan meningkatkannya.
• Selain itu, kegiatan ini dapat dirancang untuk menciptakan metadata
diagnostik, yang pada akhirnya mengarah ke rekayasa ulang proses
bisnis untuk meningkatkan kualitas data dalam sistem sumber dari
waktu ke waktu.
12/5/20 Nama Dosen 27
STMIK Amikom Purwokerto
“Sarana Pasti Meraih Prestasi”
Load System
• Langkah terakhir dari proses ETL adalah penataan fisik dan
pemuatan data ke dalam model dimensi target area presentasi.
• Karena misi utama sistem ETL adalah menyerahkan dimensi dan
tabel fakta dalam langkah pengiriman, subsistem ini sangat
penting.
12/5/20 Nama Dosen 28
STMIK Amikom Purwokerto
“Sarana Pasti Meraih Prestasi”
Presentation Area to Support Business
Intelligence
• Area presentasi DW / BI adalah tempat data disusun, disimpan,
dan disediakan untuk permintaan langsung oleh pengguna,
penulis laporan, dan aplikasi BI analitik lainnya.
• Karena sistem ETL ruang belakang terbatas, area presentasi
adalah lingkungan DW / BI sejauh menyangkut komunitas bisnis;
itu semua bisnis melihat dan menyentuh melalui alat akses dan
aplikasi BI mereka.
12/5/20 Nama Dosen 29
STMIK Amikom Purwokerto
“Sarana Pasti Meraih Prestasi”
Business Intelligence Applications
• Komponen utama terakhir dari arsitektur Kimball DW / BI adalah
aplikasi business intelligence (BI).
• Istilah aplikasi BI secara longgar mengacu pada berbagai
kemampuan yang diberikan kepada pengguna bisnis untuk
memanfaatkan area presentasi untuk pengambilan keputusan
analitik.
12/5/20 Nama Dosen 30
STMIK Amikom Purwokerto
“Sarana Pasti Meraih Prestasi”
Data Warehousing - Terminologies
• Metadata
• Metadata Repository
• Data Cube
• Data Mart
12/5/20 Nama Dosen 31
STMIK Amikom Purwokerto
“Sarana Pasti Meraih Prestasi”
Metadata
• Metadata secara sederhana didefinisikan sebagai data tentang
data.
• Data yang digunakan untuk mewakili data lain dikenal sebagai
metadata.
• Misalnya, indeks buku berfungsi sebagai metadata untuk konten
dalam buku.
• Dengan kata lain, kita dapat mengatakan bahwa metadata adalah
data yang dirangkum yang mengarahkan kita ke data yang
terperinci.
12/5/20 Nama Dosen 32
STMIK Amikom Purwokerto
“Sarana Pasti Meraih Prestasi”
Metadata
12/5/20 Nama Dosen 33
STMIK Amikom Purwokerto
“Sarana Pasti Meraih Prestasi”
Metadata
12/5/20 Nama Dosen 34
STMIK Amikom Purwokerto
“Sarana Pasti Meraih Prestasi”
Metadata
Dalam hal data warehouse, kita dapat mendefinisikan metadata
sebagai berikut:
• Metadata adalah peta jalan ke gudang data.
• Metadata di gudang data mendefinisikan objek gudang.
• Metadata bertindak sebagai direktori. Direktori ini membantu
sistem pendukung keputusan untuk menemukan konten gudang
data.
12/5/20 Nama Dosen 35
STMIK Amikom Purwokerto
“Sarana Pasti Meraih Prestasi”
Data Cube
• Kubus data membantu kami merepresentasikan data dalam
berbagai dimensi. Ini didefinisikan oleh dimensi dan fakta.
• Dimensi adalah entitas sehubungan dengan perusahaan yang
menyimpan catatan.
12/5/20 Nama Dosen 36
STMIK Amikom Purwokerto
“Sarana Pasti Meraih Prestasi”
Illustration of Data Cube
• Misalkan sebuah perusahaan ingin melacak catatan penjualan
dengan bantuan gudang data penjualan sehubungan dengan
waktu, barang, cabang, dan lokasi.
• Dimensi ini memungkinkan untuk melacak penjualan bulanan
dan di cabang mana barang-barang itu dijual.
• Ada tabel yang terkait dengan setiap dimensi. Tabel ini dikenal
sebagai tabel dimensi. Misalnya, tabel dimensi "item" mungkin
memiliki atribut seperti item_name, item_type, dan item_brand.
12/5/20 Nama Dosen 37
STMIK Amikom Purwokerto
“Sarana Pasti Meraih Prestasi”
Illustration of Data Cube
12/5/20 Nama Dosen 38
STMIK Amikom Purwokerto
“Sarana Pasti Meraih Prestasi”
Illustration of Data Cube
12/5/20 Nama Dosen 39
STMIK Amikom Purwokerto
“Sarana Pasti Meraih Prestasi”
Illustration of Data Cube
12/5/20 Nama Dosen 40
STMIK Amikom Purwokerto
“Sarana Pasti Meraih Prestasi”
Data Mart
• Data mart berisi bagian dari data seluruh organisasi yang
berharga untuk kelompok orang tertentu dalam suatu organisasi.
Dengan kata lain, data mart hanya berisi data yang khusus untuk
grup tertentu.
• Misalnya, data mart pemasaran mungkin hanya berisi data yang
terkait dengan barang, pelanggan, dan penjualan. Data mart
terbatas pada subjek.
12/5/20 Nama Dosen 41
STMIK Amikom Purwokerto
“Sarana Pasti Meraih Prestasi”
Data Mart
12/5/20 Nama Dosen 42
STMIK Amikom Purwokerto
“Sarana Pasti Meraih Prestasi”
• https://www.growthaccelerationpartners.com/blog/reporting-on
-multiple-data-sources-with-pentaho-data-integration/
• https://www.hitachivantara.com/en-us/video/pentaho-data-inte
gration-enriching-demo.html
12/5/20 Nama Dosen 43
STMIK Amikom Purwokerto
“Sarana Pasti Meraih Prestasi”
Thank You
Any Questions?
12/5/20 Nama Dosen 44