Datawarehouse Olap PDF
Datawarehouse Olap PDF
(Overview)
yudi@upi.edu
Diambil dari presentasi
Jiawei Han / Chirayu
Versi dok: 0.8/ Sept 14
Kasus: Indomaret
Jutaan data per hari
Dimensi (jumlah field) data besar
Produk, jenis produk, waktu expire, pemasok,
tranksaksi harian, kepegawaian, keuangan, gudang
Sumber data beragam
Software beragam (beda vendor, beda versi). Ada data
dalam file teks, Excel, database. belum tentu
konsisten!
2
Kasus (lanj)
Kebutuhan pengambil keputusan:
3
Kasus (lanj)
Kebutuhan pengambil keputusan:
Searching, filtering, query kompleks
padahal...
Laporan harus cepat dan realtime!
4
Apa Data warehouse?
Database pendukung keputusan yang
terpisah dengan database operasional
Apa database operasional?
Platform untuk integrasi data historis untuk
analisis
Berdasarkan subyek, terintegrasi,
berdasarkan waktu, non volatile (permanen)
dibahas di halaman selanjutnya
5
Kegunaan Datawarehouse
Pemrosesan Informasi
querying, analisis statistik, pelaporan,grafik
Analisis
Analisis Multidimensi
Operasi OLAP: slice-dice, drilling, pivot
Data mining
Pengetahuan dari pola tersembunyi.
Asosasi, klasifikasi, prediksi
6
Berdasarkan Subyek
Dikelola berdasarkan subyek-subyek
penting. Misalnya: pelanggan, produk,
penjualan, keuangan.
Fokus pada model dan analisis data untuk
pengambil keputusan, bukan operasi
harian.
Memberikan view yang lebih sederhana
untuk subyek tertentu
membuang data yang tidak diperlukan
7
Terintegrasi
Dibuat dengan menggabungkan beberapa
sumber data:
Database relational, flat file
Teknik pembersihan dan integrasi
diterapkan
Konsistensi nama, atribut
Konversi saat data pindah ke warehouse
8
Berdasarkan Waktu
Time horizon lebih panjang dari sistem
yang operasional
Database operasional: data kini (current)
Datawarehouse: perspektif historis (5-10
tahun)
Setiap struktur pada data warehouse:
Mengandung elemen waktu (implisit/eksplisit)
Tidak demikian dengan database operasional
9
Non volatile (permanen)
Penyimpanan data terpisah dengan data
operasional
Tidak memerlukan update
Tidak memerlukan transaksi, recovery dan
concurrency
Hanya memiliki dua operasi:
Loading awal
Akses data
10
Kegunaan Datawarehouse
Pemrosesan Informasi
querying, analisis statistik, pelaporan,grafik
Analisis
Analisis Multidimensi
Operasi OLAP: slice-dice, drilling, pivot
Data mining
Pengetahuan dari pola tersembunyi.
Asosasi, klasifikasi, prediksi
11
OLAP dan OLTP
Data warehouse: OLAP
Operasional DB: OLTP
12
OLTP vs OLAP
Orientasi user
Operator vs knowledge worker
Isi sistem
current, detail vs historical, konsolidasi
Rancangan:
ER+Aplikasi vs Star + subject
View
current, local vs , integrated
Model akses
update vs read only tapi kompleks
13
OLTP vs OLAP
OLTP OLAP
users clerk, IT professional knowledge worker
fungsi harian pengambilan keputusan
DB design ER+applikasi subject-oriented
data current, up-to-date historical,
detailed, flat relational summarized, multidimensional
isolated integrated, consolidated
penggunaan repetitive (sama berulang2) ad-hoc (tergantung situasi)
Model akses read/write banyak scans (ambil seluruh data)
index/hash berdasarkan
prim. key
satuan pekerjaan pendek, transaksi sederhana complex query
# records accessed Ratus sd ribuan Jutaan sd Milyar
#users ribuan ratusan
Ukuran DB 100MB-GB Tera - Petabyte
Ukuran kinerja transaction throughput query throughput, response
14
Mengapa memisahkan
data warehouse dengan database
operasional?
15
Mengapa Memisahkan
Data Warehouse dengan DB OLTP
17
Implementasi
Heterogen DBMS: query driven
Buat pembungkus/mediator di atas database
Query diterjemahkan menjadi query yang mengakses
DBMS yang terkait
Filter informasi yang kompleks
Lambat
Data warehouse: update-driven
Informasi dari database yang heterogen telah
digabung.
Kinerja lebih bagus
18
Pemodelan:
Data warehouse vs DB OLTP
DB OLTP
Model Entitas Relationship (ER)
Data warehouse
Multidimensional Data Model
19
Multi-Dimensi Model
Dimensi menjadi faktor yang
paling penting.
Data dilihat dalam bentuk data
cube
20
Contoh Datacube
Tot penjualan tahunan
Waktu TV Di U.S.A.
1Qtr 2Qtr 3Qtr 4Qtr sum
uk
TV
od
PC U.S.A
Pr
VCR
Neagara
sum
Canada
Mexico
sum
21
Data Multidimensi
Kantor Hari
Bulan
22
Data Cube
Satu data cube, misalnya penjualan dapat
dilihat dari berbagai dimensi:
Tabel dimensi: misalnya, barang
(nama_barang, merk, tipe), waktu (hari,
minggu, bulan, tahun)
Tabel measures: uang yang terjual, jumlah
barang yang terjual
23
Operator OLAP
Rollup rangkum
Drilldown kebalikan rollup
Slice and Dice ambil dimensi yang
diinginkan
Pivot transpose
24
Operator OLAP: SLICE
25
Operator OLAP: Drilldown
26
Rollup
27
Operator OLAP: Dice
28
Model Konseptual Data Warehouse
Star schema: tabel fakta dihubungkan
dengan tabel dimensi
Snowflake: perbaikan star schema, hirarki
dimensi di normalisasi
Fact constellations: multiple tabel fakta
berbagi tabel dimensi
29
Contoh Star Schema
time
time_key item
day item_key
day_of_the_week Sales Fact Table item_name
month brand
quarter time_key type
year supplier_type
item_key
branch_key
branch location
location_key
branch_key location_key
branch_name units_sold street
branch_type city
dollars_sold state_or_province
country
avg_sales
Measures
30
Contoh Snowflake Schema
time
time_key item
day item_key supplier
day_of_the_week Sales Fact Table item_name supplier_key
month brand supplier_type
quarter time_key type
year item_key supplier_key
branch_key
location
branch location_key
location_key
branch_key
units_sold street
branch_name
city_key
branch_type
dollars_sold city
city_key
avg_sales city
state_or_province
Measures country
31
time
Fact constellations
time_key item Shipping Fact Table
day item_key
day_of_the_week Sales Fact Table item_name time_key
month brand
quarter time_key type item_key
year supplier_type shipper_key
item_key
branch_key from_location
Desa zz ... mm
33
Operator OLAP: Pivot
34
Star-Net Query
Customer Orders
Shipping Method
Customer
CONTRACTS
AIR-EXPRESS
ORDER
TRUCK
PRODUCT LINE
Time Product
ANNUALY QTRLY DAILY PRODUCT ITEM PRODUCT GROUP
CITY
SALES PERSON
COUNTRY
DISTRICT
REGION
DIVISION
Location Each circle is
called a footprint Promotion Organization
35
Arsitektur Datawarehouse
4 sudut pandang dalam perancangan datawarehouse
Data source view
Informasi yang dikelola sistem operasional (db biasa, OLTP)
Top-down view
Informasi yang relevan untuk datawarehouse
Data warehouse view
Tabel fakta dan dimensi
Business query view
Data pada datawarehouse dari sudut pandang user
36
Proses Perancangan DW
Pilih proses bisnis yang akan dimodelkan,
contoh: pesanan, tagihan dsb.
Pilih data terkecil pada proses bisnis tersebut.
Misal: record transaksi
Pilih dimensi untuk tabel fakta
Pilih measure yang akan mengisi tabel fakta.
37
DW: Multi Tiered
Monitor
& OLAP Server
Sumber Metadata
lain Integrator
Analisis
Operational Extract Query
DB Transform Data Serve Reports
Load
Refresh
Warehouse Data mining
Data Marts
39
Arsitektur OLAP server
Relational OLAP (ROLAP)
Menggunakan relational atau extended-relational DBMS untuk menyimpan dan
memanage warehouse dan OLAP
Optimization DBMS, implementasi navigasi agregasi dan tools tambahan
Scalable.
Multidimensional OLAP (MOLAP)
Storage engine: sparse array-based
Fast indexing, pre-computed summarized data
Hybrid OLAP (HOLAP) (Microsoft SQLServer)
Fleksibel. low level: relational, high-level: array
Specialized SQL servers (Redbricks)
support SQL queries pada star/snowflake schemas
40
41