Anda di halaman 1dari 31

Desain Data Warehouse (I):

(Dimensional Modelling)

Lecture 2a
Data warehouse & data mining
Syukri 2014

Pokok Bahasan

Merancang Sebuah Data Warehouse


Skema Perancangan Database
Skema Perancangan Data Warehouse
Rancangan Berdimensi
Tahapan dan Proses Perancangan
Contoh kasus: Retail

Mendisain Sebuah Data Warehouse

Mendisain database untuk data


warehouse adalah problem utama
dalam mendisain data warehouse
Ada dua pendekatan utama dalam
perancangan data warehouse

Pemodelan dan normalisasi entity


relationship (ER)
Pemodelan berdimensi

Schema Entity Relationship (Simple)

Perancangan Database Menggunakan


Pendekatan E-R yang Tradisional

Entities and Relationships


Aturan Normalisasi

Umumnya 3NF
Menjaga integritas database dengan
menghindari anomalies

Pemikiran yang berbeda antara logical


dan physical

Contoh Normalisasi

Sebuah perusahaan manufaktur membuat produk dari beberapa


komponen. Setiap produk mempunyai suatu nomor produk yang
tersendiri, nama dan waktu perakitan. Semua komponen mempunyai
nomor komponen tersendiri, diskripsi, kode supplier dan harga.

Database Yang Sudah Dinormalisasikan

Product (ProductCode, Name, Time)


Parts (ProductCode, ComponentCode, Qty)
Component (ComponentCode, Description, Supplier, Cost)
Parts
Product
Component

Isi Database Ternormalisasi

Conceptual Modeling of Data


Warehouses

Modeling data warehouses: (Dimensional Modeling)

Star schema: A fact table in the middle connected to a set


of dimension tables

Snowflake schema: A refinement of star schema where

some dimensional hierarchy is normalized into a set of


smaller dimension tables, forming a shape similar to
snowflake

Fact constellations: Multiple fact tables share dimension


tables, viewed as a collection of stars, therefore called
galaxy schema or fact constellation

time

Example of Star Schema


item

time_key
day
day_of_the_week
month
quarter
year

Sales Fact Table


time_key
item_key
branch_key

branch

location_key

branch_key
branch_name
branch_type

units_sold

dollars_sold
avg_sales

Measures

item_key
item_name
brand
type
supplier_type

location
location_key
street
city
province_or_street
country

time

Example of Snowflake Schema

time_key
day
day_of_the_week
month
quarter
year

item
Sales Fact Table

time_key
item_key
branch_key

branch

location_key

branch_key
branch_name
branch_type

units_sold
dollars_sold
avg_sales

Measures

item_key
item_name
brand
type
supplier_key

supplier
supplier_key
supplier_type

location
location_key
street
city_key

city

city_key
city
province_or_street
country

Example of Fact Constellation


time
time_key
day
day_of_the_week
month
quarter
year

item
Sales Fact Table
time_key

item_key
item_name
brand
type
supplier_type

item_key

location_key

branch_key
branch_name
branch_type

units_sold
dollars_sold
avg_sales

Measures

time_key

item_key
shipper_key

from_location

branch_key
branch

Shipping Fact Table

location

to_location

location_key
street
city
province_or_street
country

dollars_cost
units_shipped
shipper
shipper_key
shipper_name
location_key
shipper_type

Apa sebenarnya multi-dimensional


database?

Suatu pendekatan pada perancangan


database yang dapat memberikan database
yang mudah dimengerti dan mudah
dinavigasikan

Tujuannya adalah untuk mendorong pengertian,


eksplorasi dan dan pembelajaran

Setiap nomor mempunyai satu set atribut


yang terasosiasikan

Apa yang direpresentasikan, kapan dibuat,


darimana datangnya, produk apa saja yang
terkait, promosi apa, dll

Multi-Dimensionality

Biasanya mengenai ruangan informasi dalam


bentuk cubes atau hyper cubes atau n-cubes
Setiap atribut terkait dengan setiap nomor
merepresentasikan suatu dimensi

Ukuran, waktu, tempat, produk, lokasi dll

Tampilan database yang dihasilkan mudah


untuk dinavigasikan dan dipindahkan

Slice and dice


Report template
Vivot table

Multidimensional Data

Sales volume as a function of product, month, and region


Dimensions: Product, Location, Time
Hierarchical summarization paths
Industry Region

Year

Product

Category Country Quarter


Product

City
Office

Month

Month Week
Day

A Sample Data Cube


2Qtr

3Qtr

4Qtr

sum

U.S.A
Canada
Mexico
sum

Country

TV
PC
VCR
sum

1Qtr

Date

Total annual sales


of TV in U.S.A.

Pendekatan Kimball (1996) terhadap


disain berdimensi

Pendekatan Kimball (1996)

Kelebihan

Pemodelan berdimensi, mudah untuk


dimengerti
Performance fisiknya sangat mengesankan

Kekurangan

Integrasi
Mapping dari pemodelan berdimensi ke
sistem yang sudah ada

Tahapan dalam Proses Disain


1. Memilih proses bisnis
2. Memilih inti dari fact table
3. Memilih dimensi
4. Memilih fact yang terukur (umumnya
numeric, additive quantities)
5. Melengkapi tabel dimensi
(Kimball, 1996)

Tahapan Ekstra Dalam Proses Disain


6.

7.

8.
9.

Menentukan strategi untuk mengubah


dimensi secara pelan-pelan
Membuat agregat dan komponen
penyimpanan fisik lainnya
Menentukan waktu histori dari database
Menentukan tingkat keperluan data yang
mana yang perlu diekstrak dan diload ke
dalam data warehouse
KimbalL (1996)

Contoh: Usaha Retail

Perusahaan grocery besar dengan


perkiraan 500 outlet
Setiap outlet mempunyai sekitar 60000
produk dalam tampilannya
SKU Stock Keeping Unit
UPC Universal Product Code

Usaha Retail

Perlu untuk memaksimalkan keuntungan dan


tetap menjaga stok agar tetap ada
Keputusan penting untuk masalah harga dan
promosi
Tipe promosi adalah:

Discount harga sementara


Reklame surat kabar
Tampilan lemari dan lorong
Kupon

Usaha Retail

Memilih Proses Bisnis

Memilih inti dari tabel fact

Pergerakan barang harian

SKU by store by promotion by day

Memilih dimensi

Waktu, Produk, Toko dan Promosi

Dimensi Usaha Retail

Usaha Retail

Memilih fact terukur

Usaha Retail: Dimensi

Lengkapi tabel dimensi

Usaha Retail: Dimensi Produk

Usaha Retail: Dimensi Toko

Usaha Retail: Dimensi Promosi

Catatan Untuk Masalah Hierarchies

Hirarki yang jelas tidak diperlukan untuk


mendukung drilling down
Detailnya sering harus disimpan secara
eksplisit
Hirarki di dalam dimensi sangat penting

Memungkinkan untuk melakukan drill up dan drill


down
Contoh: day, week, month, quarter, year
Hirarki independen yang berkelipatan

Sekian

Next
Pemodelan Berdimensi (Lanj.)
Model Agregat

Anda mungkin juga menyukai