Anda di halaman 1dari 12

BAB II

TINJAUAN PUSTAKA
1.1 Data Warehouse
Data warehouse merupakan sebuah teknologi penyimpanan data yang dapat
membantu para pimpinan organisasi untuk mengatur, memahami, dan menggunakan
data tersebut untuk mengambil sebuah keputusan (Han & Kamber, 2006).
Menurut William H. nmon !data warehouse adalah sekumpulan data berorientasi
sub"ek, terintegrasi, time#$ariant, dan non#$olatile untuk mendukung mana"emen dalam
mengambil sebuah keputusan%(nmon, &''6). (en"elasan lebih rin)i adalah sebagai
berikut(Han & Kamber, 2006) *
+erorientasi sub"ek
(enyusunan data warehouse berdasarkan sub"ek utama, misalnya pelanggan,
produk, dan pen"ualan. ,ampilan data dalam data-arehouse sangat sederhana dan
ringkas dengan menghilangkan se"umlah data yang tidak berguna.
,erintegrasi
Data warehouse biasanya terintegrasi dari berbagai sumber yang berbeda
misalnya, basis data relational, .lat .ile, dan data transaksi on#line. ,eknik integrasi
dan pembersihan data dilakukan untuk men"aga data agar tetap konsisten.
,ime#/ariant
0ata disimpan untuk menyediakan in.ormasi dalam kurun -aktu tertentu.
1etiap struktur kun)i pada data warehouse mengandung elemen -aktu baik itu
se)ara implisit ataupun eksplisit.
2on#/olatile
(enyimpanan data warehouse terpisah dari basis data lainnya. 3adi data
warehouse tidak melakukan transaksi data, re)o$er, dan )on)urren)y )ontrol tetapi
hanya memba)a data.
Data warehouse memiliki arsitektur yang terdiri dari sumber data 45,(, 6,5
(67tra)t, ,rans.orm, 5oad), data mart, dan )ube. 1umber data pada data warehouse
adalah data operasional yang terdapat pada transaksi yang nantinya akan diproses (6,5)
sebelum disimpan dalam data warehouse. 1edangkan data mart dan )ube merupakan
tempat data#data yang nantinya digunakan untuk proses bisnis. 8ambar 2.& merupakan
arsitektur dari data warehouse (0arudiato, 20&0).
5
8ambar 2.& 9rsitektur Data warehouse (0arudiato, 20&0).
1.2 Model Data Multidimensi
Model database dari data-arehouse dinamakan model data multidimensi. Model
ini melihat data dalam bentuk kubus data. Kubus data memingkinkan data yang akan
dimodelkan dan dilihat dalam multidimensi. Hali tersebut dide.inisikan oleh dimensi
dan .akta.
0imensi adalah persepekti. atau entitas yang digunakan sebagai tempat
penyimpanan beberapa re)ord yang saling berhubungan. Masing#masing dimensi
memiliki sebuah tabel yang terkait dengannya, disebut sebagai tabel dimensi.
:akta adalah ukuran#ukuran numerik. :akta merupakan kuantitas yang akan
dianalisis hubungan antar dimensi, tabel .akta berisi nama dari .akta (ukuran) dan
foreign-key dari tabel dimensi yang bersangkutan.
(ada data warehouse sekumpulan tabel yang saling berhubungan dinamakan
skema. 1kema digunakan untuk menun"ukkan hubungan antar tabel dimensi dengan
tabel .akta. ,ipe#tipe skema multidimensi antara lain (Han & Kamber, 2006)*
1kema bintang (Star schema)
1kema yang paling umum digunakan pada data warehouse adalah skema
bintang. 1kema bintang merupakan struktur logikan yang memiliki tabel .akta di
tengah dan dikelilingi oleh tabel dimensi sebagai re.erensi data.
Keuntungan dari skema bintang adalah peningkatan kiner"a data warehouse,
pemrosesan query yang lebih e.isien, dan -aktu respon yang )epat. +entuk skema
bintang dapat dilihat pada 8ambar 2.2.
6
8ambar 2.2. 1kema bintang (Han & Kamber, 2006).
1kema kepingan sal"u (snowflake schema)
1kema kepingan sal"u adalah $ariasi dari skema bintang yang beberapa tabel
dimensi dinormalisasi sehingga membagi data kedalam tabel tambahan. (erbedaan
utama antara skema kepingan sal"u dengan skema bintang adalah tabel dimensi dari
model kepingan sal"u dapat disimpan dalam bentuk normalisasi untuk mengurangi
redudansi. 1elan"utnya struktur kepingan sal"u dapat menghemat penggunaan
memori, tapi -aktu yang dibutuhkan untuk pemroresan query men"adi lebih lama
akibat kiner"a sistem dapat berdampak buruk. +entuk skema kepingan sal"u dapat
dilihat pada 8ambar 2.;.
8ambar 2.;. 1kema kepingan sal"u (Han & Kamber, 2006).
1kema galaksi (fact constellation)
1kema galaksi dapat dikatakan sebagai kumpulan dari skema bintang. 1kema
ini biasanya digunakan pada aplikasi yang )anggih. Keuntungan menggunakan
skema ini adalah menghemat memori dan mengurangi kesalahn yang mungkin
ter"adi. +entuk skema galaksi dapat dilihat pada 8ambar 2.<.
7
8ambar 2.<. 1kema galaksi (Han & Kamber, 2006).
1.3 Arsitetur Three!Tier Data Warehouse
9rsitektur three-tier merupakan arsitektur yang sering kali diadopsi oleh data
warehouse. =ontoh arsitektur three-tier dapat dilihat pada 8ambar 2.>. 5apisan#lapisan
arsitektur data warehouse tersebut adalah (Han & Kamber, 2006)*
5apis ba-ah (bottom tier)
(ada lapis ba-ah adalah ser$er data warehouse yang biasanya sebuah basis
data relasional. (ada lapis ini data diambil dari basis data operasional dan sumber
eksternal lainnya, diekstrak, dibersihkan, dan ditrans.ormasi. 0ata disimpan sebagai
data warehouse.
5apis tengah (middle tier)
5apis tengah adalah 459( ser$er yang bisanya diimplementasikan dengan
459( ?ealsional (?459() atau 459( Multidimensional (M459().
5apis atas (top tier)
(ada lapis atas adalah lapisan front-end client, berisi query dan perangkat
pelaporan, perangkat analisis, dan@atau perangkat data mining (seperti * analisis
tren, prediksi, dan lainnya).
8
8ambar 2.> 9rsitektur three-tier data warehouse (Han & Kamber, 2006)
1." #T$ %#&tra't( Trans)orm( $oad*
6,5 merupakan proses yang sangat penting dalam data warehouse, dengan 6,5
inilah data operasional dapat dimasukkan ke dalam data warehouse. 6,5 "uga dapat
digunakan untuk mengintegrasikan data dengan sistem yang sudah ada sebelumnya.
,u"uan 6,5 adalah mengumpukan, menyaring, mengolah dan menggabungkan data#
data yang rele$an dari berbagai sumber untuk disimpan ke dalam data warehouse. Hasil
dari proses 6,5 adalah dihasilkannya data yang memenuhi kriteria data warehouse
seperti yang historis, terpadu, terangkum, statis, dan memiliki struktur yang diran)ang
untuk keperluan proses analisis (ponniah, 200&).
6kstraksi
6kstraksi merupakan langkah pertama pada proses 6,5. 6kstraksi adalah
mengubah data dalam satu .ormat yang berguna untuk proses trans.ormasi. Karena
sumber data dari data warehouse berbeda#beda, kemungkinan .ormat data yang
digunakan pada masing#masing sumber data berbeda (0arudiato, 20&0).
,rans.ormasi
Merupakan serangkaian aturan untuk memilih, merapikan, dan memberikan
atribut tambahan agar data pada proses ekstraksi dapat masuk dan )o)ok dengan
skema data warehouse yang telah kita buat. +erikut adalah hal#hal yang dapat
dilakukan dalam tahapan trans.ormasi (0arudiato, 20&0) *
Hanya memilih kolom tertentu sa"a untuk dimasukkan ke dalam data
warehouse.
Menter"emahkan nilai#nilai yang berupa kode.
9
Mengkodekan nilai#nilai dalam bentuk bebas (=ontohnya memetakan !(ria%
dengan !(% dan !Wanita% dengan !W%).
Melakukan perhitungan nilai#nilai baru (=ontohnya nilai A Bty
ChargaDsatuan).
Menggabungkan data se)ara bersama#sama dari berbagai sumber.
Membuat ringkasan dari sekumpulan basis data.
Men#generate nilai surrogate key.
Transposing atau pivoting (mengubah sekumpulan kolom men"adi
sekumpulan baris atau sebaliknya).
Memisahkan sebuah kolom men"adi berbagai kolom.
Menggunakan berbagai $alidasi data baik yang sederhana maupun kompleks.
5oad
Merupakan tahapan untuk memasukkan data ke dalam skema data warehouse
yang telah kita buat. 3angka -aktu pada proses ini tergantung pada kebutuhan
organisasi (0arudiato, 20&0).
1.+ Pemodelan Proses #T$ den,an UM$
(roses 6,5 "uga dapat digambarkan dengan EM5. (ada tabel 2.& adalah beberapa
simbol serta mekanismenya pada proses 6,5 (Mora, 200>).
,abel 2.&. Mekanisme 6,5 beserta i)on.
Meanisme
#T$
Desri-si I'on
Agreagation Mengagregasikan data
berdasarkan beberapa
kriteria.
onversion Mengubah tipe data dan
.ormat atau menambahkan
data baru pada data yang
sudah ada.
!ilter Mem.ilter dan
mem$eri.ikasi data.
"ncorrect Mengubah data yang tidak
benar.
#oin Menggabungkan dua
sumber data yang
berhungungan satu sama
lain dengan beberapa
atribut.
$oader Memasukkan data ke target
dari proses 6,5.
10
Meanisme
#T$
Desri-si I'on
$og Men)atat akti.itas dari
mekanisme 6,5.
%erge Mengintegrasikan dua atau
lebih sumber data dengan
atribut yang kompetibel.
Surrogate Menambahkan kun)i
pengganti unik.
&raper Mengubah sumber data asli
men"adi sumber data
record.
1.. /$AP %/n!line Analit0'al Pro'essin,*
459( ('n-line Analitycal (rocessing) merupakan sebuah teknologi untuk
menganalisis dan mengakses data se)ara khusus. 459( memiliki )ara pandang
multidimensional yang memberikan teknik dasar kalkulasi dan analisis data pada
aplikasi bisnis (Munandar, 2002).
459( menyediakan lingkungan yang user-friendly untuk analisis data se)ara
interakti.. +eberapa operasi 459( adalah sebagai berikut (Han & Kamber, 2006)*
)oll up *drill up+ * roll up merupakan )ara untuk menaikkan tinggkat hierarki atau
mereduksi "umlah dimensi.
Drill down * drill down merupakan kebalikan dari roll up. 4perasi ini
merepresentasikan data se)ara lebih detail.
(ivot * Merotasikan sumbu data untuk memberikan alternati. dalam presentasi data.
Slice and Dice * slice melakukan seleksi pada satu dimensi kubus sehingga
menghasilkan subcube. Dice merupakan proses mende.inisikan subcube dengan
memilih dua atau lebih dimensi.
Server 459( mem.asilitasi pengguna dengan data multidimensi dari data
warehouse atau data mart, tanpa mempermasalahkan tentang bagaimana atau dimana
data disimpan. 2amun, arsitektur .isik dan implementasi 459( ser$er harus
mempertimbangkan masalah penyimpanan data. +erikut ini adalah beberapa
implementasi dari 459( server ( +ouman & 0oungen, 200')*
M459( (%ultidimensional 459()
M459( menyimpan data dan aggregasi pada struktur data multidimensi.
1truktur M459( ini tidak tersimpan dalam data warehouse tapi tersimpan pada
459( serve, sehingga performa query yang dihasilkan sangat bagus. Model
penyimpanan ini sesusai untuk database dengan ukuran ke)il sampai sedang.
11
?459( ()elational 459()
?459( menggunakan tabel pada relational database untuk menyimpan
detail data dan agregasi kubus. +erbeda dengan M459(, ?459( tidak menyimpan
salinan database tapi mengakses langsung pada tabel .akta ketika membutuhkan
"a-aban sebuah query, sehingga query pada ?459( mempunyai response time
yang lebih lambat. 0ibandingkan dengan M459( maupun H459(. Karakteristik
model ini digunakan untuk menyimpan data yang besar dan "arang digunakan
proses query.
H459( (,ybrid 459()
H459( menggabungkan teknologi ?459( dan M459(. H459(
menggabungkan kelebihan#kelebihan yang ada pada keduanya, tempat penimpanan
yang lebih besar dari ?459( dan perhitungan yang lebih )epat dari M459(.
H459( menggunakan relational database untuk menyimpan detail data dan
menggunakan multidimentional database untuk menyimpan agregasinya.
1.1 Kom-onen /$AP Pentaho
Mondrian merupakan aplikasi server 459( berbasis open source yang sangat
populer dan saat ini bernaung di ba-ah (entaho =orporation. (royek mondrian ini
merupakan kombinasi yang sanat baik dengan 3(i$ot F interface berbasis -eb yang "uga
merupakan proyek open source. Komponen 459( (entaho akan digambarkan pada
8ambar 2.6. Erutan (eristi-a pada 8ambar > men"elaskan apa yang ter"adi ketika
menggunakan aplikasi 459( (entaho (+ouman & 0oungen, 200').
8ambar 2.6 8ambaran komponen pentaho 459( (+ouman & 0oungen, 200').
12
-. (engguna -eb bro-ser menggunakan sebuah H,,( request untuk melihat, browse,
atau drill down kedalam tabel pi$ot 459(.
.. 3(i$ot ser$let menerima request dari pengguna dan mener"emahkan request
tersebut kedalam sebuah M0G query. M0G query ini kemudian dikirimkan ke
Mondrian engine.
/. Mondrian mengintepretasikan M0G query dan mener"emahkannya kedalam satu
atau lebih 1H5 query. ,eknik khusus ini disebut sebagai ?459(.
0. )elational Database %anagement System (?0+M1) mengeksekusi query yang
diberikan oleh Mondrian. Mondrian menerima hasil query dalam bentuk relational.
1. Mondrian memproses hasil yang diterima dari ?0+M1 dan mener"emahkan
kedalam result-set multidimensi. ni sebenarnya adalah hasil query M0G dari
query M0G yang dikirim ke Mondrian pada langkah 2.
2. 3(i$ot menggunakan hasil multidimensi untuk membuat halaman H,M5
menampilkan data. nilah yang kemudian dikirim ke browser untuk ditun"ukkan
kepada pengguna.
1.2 Normalisasi Data
0alam data mining, untuk menghasilkan perhitungan yang lebih baik biasanya
dalam perhitungan "arak antara beberapa titik dalam ruang n dimensi diperlukan suatu
normalisasi data. 2ilai yang diukur dapat dapat ditingkatkan untuk rentang tertentu,
misalnya I#&,&J atau I0,&J. +erikut ini adalah tiga teknik normalisasi sederhana dan
e.ekti. (KantardKi), 20&&) *
Decimal Scaling
Menggerakkan titik desimal tetapi masih memelihara kebanyakan nilai digit
asal. 1kala khusus memelihara nilai dalam range #& sampai &. (ersamaan berikut
menggambarkan penskalaan desimal, dimana $(i) adalah nilai feature $ untuk kasus
i dan $L(i) adalah nilai yang diskala.
k
i v
i v
&0
) (
) ( M = (2.&)
Entuk k terke)il sehingga ma7 ($L(i))N&. Misalkan nilai terbesar data set <>> dan
terke)il #O;<, maka nilai absolut maksimum men"adi .O;<, dan pembagi untuk
semua $(i) adalah &000 (kA;).
1.3 Metode #&-onential Smoothin,
Menurut Makridakis, Wheelright, dan M)8ee(pP',&'OO), dasar metode
e7ponential smoothing adalah metode yang menun"ukkan pembobotan menurun se)ara
eksponensial terhadap nilai pengamatan yang lebih tua. Metode e7ponential smoothing
13
terdiri atas tunggal, ganda, dan metode lainnya yang lebih rumit. 1emuanya
mempunyai si.at yang sama yaitu harus diberi bobot yang relati. besar dibanding nilai
pengamatan yang lebih lama. 0alam e7ponential smoothing, terdapat satu atau lebih
parameter pemulusan yang ditentukan se)ara eksplisit, dan hasil pemilihan ini
menentukan bobot yang dikenakan pada nilai obser$asi. +erikut ini akan di"elaskan
"enis#"enis metode e7ponential smoothing.
Metode Single 34ponential Smoothing (5rown)
Metode 34ponential Smoothing didasarkan pada metode Single 34ponential
Smoothing, dimana metode ini digunakan saat pola data stasioner dan untuk
meramal ke depan hanya dibutuhkan sedikit in.ormasi, obser$asi terakhir, ramalan
terakhir dan konstanta pemulusan Q. 2ilai Q bisanya berkisar antara 0 sampai &.
1asaran dari pemulusan eksponensial adalah membedakan antara .ruktuasi random
dengan pola dasar yang ada dalam nilai#nilai peubah obser$asi.
?amalan yang dihasilkan dari metode ini se)ara sederhana merupakan
ramalan yang lalu ditambah suatu penyesuaian untuk galat yang ter"adi pada
ramalan yang terakhir. 1e)ara matematis, persamaannya dapat ditulis *
t t t
! 6 ! ) & ( .
) & (
+ =
+ (2.2)
=ara lain untuk menuliskan persamaan diatas adalah dengan susunan sebagai
berikut *

) (
) ( ) & ( t t t t
! 6 ! ! + =
+

(2.;)
atau

t t t
e ! ! + =
+ ) & ( (2.<)
0ari persamaan diatas merupakan kesalahan peramalan masa lalu, sehingga nilai
permalan yang baru diperoleh dengan menambahkan nilai peramalan lama
(sebelumnya) dengan Q kali kesalahan peramalan lama (Makridakis dkk, &'OO).
(erlu diperhatikan bah-a metode single e7ponential smoothing, tidak dapat
mengikuti trend yang ada dalam pola data yang sebenarnya, karena yang dapat
dilakukan tidak lebih dari mengatur ramalan mendatang dengan suatu persentase
dari kesalahan yang terakhir (Makridakis dkk, &'OO).
1.14 P# %Percentage Error* dan MAP# %Mean Absolute Percentage Error*
(6 ((ercentage 3rror) adalah nilai akurasi antara hasil pengu"ian dengan data
aktual. (erhitungan percentage error ini digunakan untuk mengetahui akurasi pada
suatu peramalan. (6 ((ercentage 3rror) dapat dirumuskan sebagai berikut (Makridakis
dkk, &'OO) *
14
&00R
i i
i
i
6 !
(3
6

=
(2.>)
0imana*
G
i
A nilai sebenarnya pada periode i
:
i
A nilai ramalan pada periode i
(3
i
A nilai presentase error pada periode i
M9(6 (%ean Absolute (ercentage 3rror) adalah rata#rata absolute dari
percentage error. M9(6 dapat dirumuskan sebagai berikut (Makridakis dkk, &'OO) *
&
7
i
i
(3
%A(3
7
=
=

(2.6)
0imana *
8(3
i
8 A nilai absolute presentase error pada periode i
2 A "umlah data kesalahan dalam peramalan
15
16

Anda mungkin juga menyukai