1 Datawarehouse
proses query, membuat laporan dan analisa [5]. Data yang disimpan adalah data
business history dari sebuah organisasi /perusahaan, dimana data tersebut tidak
tersimpan secara rinci/detil. Sehingga data dapat bertahan lebih lama berbeda
software, platform dan jaringan yang beda. Data tersebut adalah hasil dari proses
berbeda beda tadi, maka data pada datawarehouse harus tersimpan dalam sebuah
dianalisa oleh para pengambil kebijakan. Akan tetapi datawarehouse tidak dapat
yang dapat membuat user menjadi lebih paham dalam membuat kebijakan
strategis.
transaksional (OLTP)
7
Data dibuat konsisten
Data tersimpan dalam format yang tepat sehinngga proses query dan
Kadang kala kita sulit untuk membedakan antara datawarehouse dan data
mart karena keduanya hampir sama. Namun, jika dikaji lebih jauh ada beberapa
beberapa data mart dan levelnya berada pada perusahaan atau organisasi.
Sedangkan data mart merupakan bagian dari datawarehouse dan berada level
sebuah business proses, misalkan penjualan, maka hanya proses penjualan saja
Tiga fungsi utama yang perlu dilakukan untuk membuat data siap
Ketiga fungsi ini terdapat pada staging area. Pada data staging ini, disediakan
tempat dan area dengan beberapa fungsi seperti data cleansing, change, convert,
8
2.1.2.1 Extraction
diproses pada tahap berikutnya [2]. Pada fungsi ini, kita akan banyak
berhubungan dengan berbagai tipe sumberdata. Format data, mesin yang berbeda,
software dan arsitektur yang tidak sama. Sehingga sebelum proses ini kita
lakukan, sebaiknya perlu kita definisikan requirement terhadap sumber data yang
akan kita butuhkan untuk lebih memudahkan pada extraction data ini.
2.1.2.2 Transformation
berbagai format sehingga jarang kita temui data yang konsisten antara aplikasi-
aplikasi yang ada. Transformasi data ditujukan untuk mengatasi masalah ini.
Dengan proses transformasi data ini, kita melakukan standarisasi terhadap data
tersenut dapat diakibatkan oleh tipe data yang berbeda, data length dan lain
sebagainya. Untuk lebih jelasnya dapat dilihat pada tabel 2.1 yang menunjukkan
9
Unit Tinggi Tinggi Tinggi
centimeter meter inch
Encoding Sex Sex Sex
Yes = Laki-laki L = laki-laki 1 = Laki-laki
No = Perempuan P = Perempuan 0 = Perempuan
Keterangan :
Elemen data tersebut dapat tersimpan dalam format text, integer dan
datawarehouse.
format pada data. Oleh karena itu perlu diambil salah satu dari deskripsi
yang komplek. Jika user tidak mengetahui adanya perbedaan ini dan
penghitungan matematis.
Encoding, huruf atau nomor dapat dijadikan label sebagi identifikasi suatu
2.1.2.3 Loading
loading data yang kita lakukan pada datawarehouse. Pertama adalah inisial load,
10
proses ini dilakukan pada saat kita telah selesai mendesign dan membangun
datawarhouse. Data yang kita masukkan tentunya akan sangat besar dan memakan
waktu yang relati lebih lama. Kedua Incremental load, dilakukan ketka
Untuk inisial load dilakukan sekali saja, namun untuk incremental load
dapat kita jadwalkan sesuai dengan kebutuhan, bisa setiap hari, bulan, kuartal atau
Seperti dijelaskan diatas, pada data staging terdapat fungsi data cleansing.
Adapun tujuan dari data cleansing ini adalah untuk menghilangkan kesalah-
data cleansing ini salah maka hal yang terburuk yang terjadi adalah pemberian
informasi yang salah kepada pengambil kebijakan. Jika informasi yang salah ini
dipercayai maka keputusan yang diambil akan jatuh dan bisa mengakibatkan
11
Gambar 2.1 Datawarehouse dan komponennya
Selama ini kita mengenal adanya tabel relasional. Jika kita perhatikan tabel
relasional tersebut, maka dapat kita ketahui karakteristiknya. Secara jelas dapat
kita lihat bahwa tabel relasional dibangun oleh baris dan kolom. Hal ini
menunjukkan adanya dua sudut pandang, baris sebagai sumbu x dan kolom sebagi
sumbu y. tapi sebenarnya tabel relasional tersebut hanya mempunyai satu dimensi.
Pada gambar terlihat karekteristik dari tabel mahasiswa, dimana setiap record atau
baris lainnya diidentifikasikan dengan sebuah key yaitu primary key. Sedangkan
bagian kolom seperti, nama, alamat, telepon menyimpan fakta yang sama atau
sejenis, dimana setiap fakta tersebut merujuk pada primary key yaitu NRP. Hal
inilah yang menunjukkan bahwa tabel relasional hanya mempunyai satu dimensi.
12
Primary key Satu dimensi
KodeBuku
KodeBuku Judul Jenis ---- Penerbit Judul
001 Jenis
002 ------
003 Penerbit
004
dapat melihat sebuah data dari berbagai sudut pandang atau dimensi. Sebagai
contoh, penjualan buku dapat dilihat dari segi lokasi Buku, waktu, lokasi
penjualan / toko dan sebagainya. Jika digambarkan , maka akan terdapat tiga
koordinat yaitu sumbu x mewakili buku, sumbu y mewakili dimensi waktu dan
sumbu z untuk dimensi lokasi. Hal inilah yang menjadi perbedaan mendasar
Spreadshet merupakan salah satu contoh dari data multidimensi ini. Fungsi
yang ia sediakan seperti perhitungan sederhana dan dapat juga diubah pada
dimensi tunggal.
IDBuku
Buku IDToko 3 dimensi
Waktu
IDPengarang
------
Lokasi Nilai
13
Cube merupakan contoh data multidimensi selain spreadsheet. Dengan
cube data menjadi lebih mudah untuk dimanipulasi. Setiap sumbu cube mewakili
kita analisa. Biasanya measure berupa nilai penjualan, biaya, budget dan
kita ingin meganalisa penjualan buku, total penjualan (sebagai measure) untuk
suatu jenis buku tertentu (dimensi) pada lokasi / toko buku yang berbeda-beda
(lokasi dapat dipilih sesuai dengan kebutuhan seperti negara, propinsi dll) pada
2003
2004
2001
Bangkalan
Kamal
Buku A
Buku B
Buku C
Nilai penjualan
( Buku A, Lokasi Kamal, 2004 )
Gambar 2.4 Cube
cepat untuk query dan analisis yang kompleks [4]. Data yang disajikan biasanya
14
merupakan suatu fungsi agregasi seperti summary, max, min, average dan lain-
lain.
level yang lebih detil atau roll up untuk agregasi dari satu dimensi atau
beberapa dimensi
Menampilkan hasil dalam bentuk number termasuk dalam tabel dan garfik
2.3.1.1 Rotation/Pivoting
berbagai sudut pandang (view point). kita dapat memutar-mutar sumbu pada cube
sehingga kita memperoleh data yang kita inginkan sesuai dengan sudut pandang
Pemilahan data dapat kita lakukan dengan proses slicing dan dicing.
Slicing merupakan pemotongan sisi dari cube, artinya data yang kita potong
15
berdasarkan kategori tertentu. Sedangkan dicing merupakan penyaringan subset
Agregasi data bisa kita lakukan dengan drill down dan consolidation.
Penampilan data yang lebih detil dapat dilakukan dengan drill down dan
sebaliknya untuk menyatukan data ke dalam hieraki yang lebih tinggi dapat
Fact table mempunyai sebuah nilai aggregate dari data-data yang berasal
many)
16
Primary key pada tabel dimensi akan menjadi key pada fact table atau
dapat diakatakan bahwa fact table memiliki kombinasi key dari tabel
dimensi tersebut
Adapun kelebihan model star adalah lebih simple dan mudah dipahami.
Hasil dari proses query juga relatif lebih cepat.. Akan tetapi model ini lebih boros
dalam space.
mempunyai satu atau lebih dimensi. Hanya saja pada snowflake, tabel yang
berelasi pada fact table hanya tabel dimensi utama, sedangkan tabel yang lain
dihubungkan pada tabel dimensi utama. Model snowflake ini hampir sama seperti
teknik normalisasi
17
Dimensi Buku
IDBuku
Dimensi Waktu IDJenisBuku Dimensi Jenis Buku
IDWaktu Fact Penjualan Judul IDJenisBuku
Bulan ……….. JenisBuku
IDBuku
Tahun IDToko ………..
Kuartal IDWaktu
IDPengarang
JumlahPenjualan Dimensi Toko
IDPengarang Nilai
NamaPengarang IDToko
AlamatPengarang NamaToko
………………. AlamatToko
………….
Dimensi Pengarang
Gambar 2.6 Snowflake schema
MOLAP
ROLAP
HOLAP
18
2.3.3.1 MOLAP
dan aggregasi pada struktur data multidimensi. Struktur MOLAP ini tidak
performa query yang dihasilkan olehnya sangat bagus. Model penyimpanan ini
2.3.3.2 ROLAP
sebuah query. Sehingga query pada ROLAP mempunyai response time yang lebih
untuk menyimpan data yang besar dan jarang dilakukannya proses query.
Misalkan, data histori dalam jumlah besar dari beberapa tahun yang sebelumnya.
19
Gambar 2.8 ROLAP
2.3.3.3 HOLAP
Gabungan model MOLAP dan ROLAP dapat kita peoleh dari HOLAP
(Hibrid online analitycal processing) Detil data tersmpan pada tabel relasional
tapi aggregasi data disimpan dalam format multidimensi. Misalkan proses drill
down dilakukan pada sebuah tabel fakta, maka retrive data akan dilakukan dari
tabel database relasional sehingga query tidak secepat MOLAP. Kubus HOLAP
lebih kecil daripada kubus MOLAP tapi response time query masih lebih cepat
sesuai untuk kubus yang membutuhkan performa query yang bagus dengan
20