Anda di halaman 1dari 20

1

Perbedaan Istilah Data Warehouse dan Data Mining

Pertanyaan soal
perbedaan kedua
istilah ini
terkadang sulit
untuk dipahami,
sering kali kita
bingung karena
kedua istilah
tersebut mirip-
mirip, sering
dipertukarkan dan
banyak
bersinggungan
dalam konteks
yang sama.

Kita mulai cari definisi data warehouse dulu. 


Saya coba ambil salah satu definisi yang ada
pada bukunya Vincent Rainardi - Building a
Data Warehouse With Examples in SQL
Server.  Beliau menyampaikan definisi sebagai
berikut.

A data warehouse is a system that retrieves


and consolidates data periodically from the
source systems into a dimensional or
normalized data store. It usually keeps years of
history and is queried for business intelligence
or other analytical activities. It is typically

Beka Kongregasi Pasionis Indonesia Edisi Juli 2010


2

updated in batches, not every time a


transaction happens in the source system.

Jadi data warehouse merupakan suatu sistem


yang mengkonsolidasikan data secara periodik
dari sistem-sistem yang ada (OLTP) ke dalam
suatu penyimpanan dimensional. Pada
umumnya, data warehouse menyimpan data
histori beberapa tahun dan di-quey untuk
keperluan business intelligence atau aktifitas
analisis lainnya.  Data warehouse diremajakan
secara batch, tidak serta-merta setiap terjadinya
transaksi pada sistem-sistem sumber tersebut.

Dari penjelasan di atas terlihat jelas perbedaan


antara data warehouse dibandingkan business
intelligence ataupun data mining. 

Sebagai tambahan informasi, perkembangan


saat ini data warehouse digunakan sebagai
sumber data untuk Business Intelligence (BI),
penyempurnaan CRM (Customer Relationship
Management) ataupun Data Mining (DM). 

Lalu, apa yang dimaksud dengan Data Mining?

Coba kita buka lagi, definisi data mining dari


buku tersebut.  Dalam buku tersebut, kita coba
telaah paragraph berikut ini :

Data mining is a field that has been growing


fast in the past few years. It is also known as
knowledge discovery, because it includes
Beka Kongregasi Pasionis Indonesia Edisi Juli 2010
3

trying to find meaningful and useful


information from a large amount of data. It is
an interactive or automated process to find
patterns describing the data and to predict the
future behavior of the data based on these
patterns.

Data Mining disebut juga knowledge discovery


karena merupakan bidang yang berupaya untuk
menemukan informasi yang punya arti dan
berguna dari jumlah data yang besar.  Data
mining merupakan suatu proses yang interaktif
atau terotomatisasi untuk menemukan pola
(pattern) data tersebut dan memprediksi
kelakuan (trend) di masa mendatang
berdasarkan pola data tersebut.

Sekilas tentang Business Intelligence

Pada tulisan sebelumnya saya sudah bahas


perbedaan antara Data Warehouse dan Data
Mining. Tulisan kali ini akan memberikan
paparan singkat mengenai Business
Intelligence (BI).

Mari kita cari definisi Business Intelligence


tersebut, saya ambil sebuah potongan
paragraph dari bukunya Steve and Nancy
Williams “The Profit Impact of Business
Intelligence”.

BI as business information and business


analyses within the context of key business
Beka Kongregasi Pasionis Indonesia Edisi Juli 2010
4

processes that lead to decisions and actions


and that result in improved business
performance. In particular, BI means
leveraging information assets within key
business processes to achieve improved
business performance.

Dari kutipan di atas bisa kita simpulkan tujuan


utama BI adalah improvisasi performance
business via keputusan-keputusan dan aksi
yang dilakukan berdasarkan informasi business
dan hasil analisis business dari BI ini.  Nah,
karena itu, betapa krusialnya laporan-laporan
(report) (aka informasi business) yang harus
dihasilkan dari BI ini.  Laporan-laporan yang
dihasilkan bukan seperti laporan biasa, seperti
laporan yang dihasilkan sistem OLTP biasa,
tetapi lebih dari itu, merupakan laporan-laporan
yang lebih analitis.

Laporan yang analitis merupakan laporan yang


bisa dilihat dari banyak parameter, sehingga
bisa membantu analisis dari berbagai
perspektif.  Yang nantinya hal ini akan terkait
dengan istilah cube di dalam BI. 

Seperti yang sudah kita bahas, Business


Intelligence merupakan salah satu
implementasi dari  Data Warehouse. 
Perhatikan gambar di bawah ini.

Beka Kongregasi Pasionis Indonesia Edisi Juli 2010


5

Dari gambar tersebut, terlihat secara sederhana


bagaimana posisi suatu Data Warehouse pada
sebuah Business Intelligence Platform. 

Di sana digambarkan bahwa beberapa hal. 


Pertama, sumber data “mentah” berasal dari
data ERP (Enterprise Resource Planning),
CRM (Customer Relationship Management)
dan LOB (Line of Business) Data.   Dari
sumber-sumber data tersebut data
ditransformasikankan menjadi suatu data
warehouse.  Proses transformasi data ini lebih
dikenal dengan istilah ETL (Extract Transform
and Loading). Dari istilah ETL itu sendiri
tergambar adanya 3 proses utama yaitu proses
ekstraksi data dari sumber data, transformasi
data dan loading data ke data warehouse.  Data
dari sumber data dipilih dan dipilah,
dibersihkan (cleansing), digabungkan dan
kemudian  dimuat (load) ke data warehouse. 
Salah satu tools yang dapat kita gunakan untuk
menjalankan proses ini adalah Microsoft SQL
Server 2005/2008 Integration Services (SSIS).

Beka Kongregasi Pasionis Indonesia Edisi Juli 2010


6

Seperti penjelasan di atas, Business


Intelligence harus bisa menghasilkan  laporan
dan query yang analitis.  Maka, kita harus
melakukan proses analisis dari data warehouse
(Data Analysis).  Pada data warehouse sudah
terdefinisi penyimpanan data dalam bentuk
tabel-tabel Fact dan Dimension.  Table Fact
berisi nilai-nilai yang nantinya akan
dilaporkan, sedangkan dimensi akan menjadi
parameter (perfective) nilai-nilai Fact tersebut. 
Berdasarkan tabel-tabel Fact dan Dimension
inilah kita membangun cube.  Pada cube ini
kita definisi ukuran-ukuran (measures), target
monitoring (KPI – Key Performance Indicator)
dan lain-lain.  Kita bisa gunakan Microsoft
SQL Server 2005/2008 Analysis Services
(SSAS) untuk membantu merealisasikan proses
analisis ini. Dan jika diperlukan juga aspek-
aspek menemukan pola (pattern) atau trend
berdasarkan data pada data warehouse tersebut
SSAS juga menyediakan fitur-fitur yang terkait
dengan Data Mining.

Proses terakhir, kita tinggal berdeliver laporan-


laporan dan query hasil analisis tersebut ke
berbagai media yang diperlukan.  Kita bisa
gunakan  Microsoft SQL Server 2005/2008
Reporting Services (SSRS) atau Microsoft
Office Excel dan lain-lain.

Beka Kongregasi Pasionis Indonesia Edisi Juli 2010


7

OPTIMASI QUERY UNTUK


PENCARIAN DATA

DENGAN SUBSET QUERY

Kusrini, S.Kom

Abstract

There are several query models for accessing


data from two or more tables in a relational
database. Two models that have been observed
are cross product and subset query, since those
models can be used to produce same query
result. To get an optimal system performance,
it is needed to find the best model in specific
conditions.

By using Borland Delphi version 6 software


program and Interbase version 6 as database
system, the researcher was trying to prove the
optimization query theory with heuristic model.
Beka Kongregasi Pasionis Indonesia Edisi Juli 2010
8

The theory says that one method to optimize a


query is by changing the cross product model
into subset query.

Kata kunci : database, query, optimasi,


heuristic

1. Pendahuluan

1.1. Latar Belakang Masalah

Perkembangan aplikasi sistem informasi saat


ini lebih cenderung ke client server, web base
dan bahkan ke arah mobile aplication.
Aplikasi-aplikasi ini akan mengakses basis data
secara bersama-sama sehingga diperlukan
kecepatan akses yang cukup tinggi.

Dalam system basis data relasional sering


terjadi dibutuhkan pengaksesan data terhadap
beberapa tabel sekaligus. Ada beberapa cara
dalam melakukan akses ini, namun perlu
diperhatikan cara mana yang paling optimal
sehingga diperoleh kecepatan akses tertinggi.
Beka Kongregasi Pasionis Indonesia Edisi Juli 2010
9

1.2. Rumusan Masalah

Dengan menggunakan basis data Interbase dan


bahasa pemrograman Delphi 6, akan dibuat
sebuah aplikasi untuk menghitung waktu yang
diperlukan untuk melakukan pencarian dengan
2 model query yaitu dengan cross product dan
subset query.

1.3. Tujuan Penelitian

Membuktikan bahwa penggunaan subset query


lebih efektif dibandingkan dengan
menggunakan cross product.

2. Kajian Pustaka

Teknik optimasi dapat dilakukan dengan


beberapa cara. Terdapat 2 pendekatan optimasi
yang umum digunakan sebagaimana
diungkapkan oleh Chanowich (2001), yakni:

Beka Kongregasi Pasionis Indonesia Edisi Juli 2010


10

a. Heuristik atau rule-based


Teknik ini mengaplikasikan aturan heuristik
untuk mempercepat proses query. Optimasi
jenis ini mentransformasikan query dengan
sejumlah aturan yang akan meningkatkan
kinerja eksekusi, yakni:

- melakukan operasi selection di awal untuk


mereduksi jumlah baris
- melakukan operasi projection di awal untuk
mereduksi jumlah atribut
- mengkonversikan query dengan banyak join
menjadi query dengan banyak subquery
- melakukan operasi selection dan join yang
paling kecil keluarannya sebelum operasi lain

b. Cost-based
Teknik ini mengoptimasikan cost yang
dipergunakan dari beberapa alternatif untuk
kemudian dipilih salah satu yang menjadi cost
terendah. Teknik ini mengoptimalkan urutan
join terbalik yang dimungkinkan pada relasi-
relasi r1  r2  ... rn. Teknik ini dipergunakan
untuk mendapatkan pohon left-deep join yang
akan menghasilkan sebuah relasi sebenarnya
pada node sebelah kanan yang bukan hasil dari
sebuah intermediate join.

Beka Kongregasi Pasionis Indonesia Edisi Juli 2010


11

3. Metodologi Penelitian

Untuk membuktikan bahwa subset query lebih


baik dari query degan banyak join atau cross
product, peneliti membuat sebuah basis data
percobaan dengan menggunakan interbase 6,
basis data tersebut memuat 2 buah tabel
percobaan,yaitu:

Nama Field Tipe

NIM Integer

Nama Varchar(30)

Alamat Varchar
(80)

Tabel 1. Tabel Mahasiswa

Nama Field Tipe

NIM Integer
Beka Kongregasi Pasionis Indonesia Edisi Juli 2010
12

MataKuliah Varchar(30)

Tabel 2. Tabel Kuliah

Untuk memasukkan data ke tabel-tabel tersebut


diatas, dibuat program pengisi data dengan
menggunakan delphi 6.

Untuk melihat kinerja system dengan 2 model


query yaitu cross product dan subset query,
dibuat query berikut:

a. Query dengan model cross product diwakili


oleh query berikut ini:

SELECT M.NIM, M.Nama, M.Alamat

FROM Mahasiswa M, Kuliah K

WHERE M.NIM = K.NIM


Beka Kongregasi Pasionis Indonesia Edisi Juli 2010
13

b. Query dengan model subset query diwakili


oleh query berikut ini:

SELECT NIM, Nama, Alamat

FROM Mahasiswa

WHERE NIM in ( SELECT NIM FROM Kuliah)

Kedua query tersebut akan menghasilkan


informasi yang sama, yaitu menampilkan data
NIM, Nama dan Alamat dari tabel Mahasiswa
yang NIM-nya terdapat dalam table Kuliah.

Untuk menyimpan hasil percobaan query data,


dibuat tabel waktu dengan struktur sebagai
berikut:

Tabel Waktu

N Ti Ketera
a p
Beka Kongregasi Pasionis Indonesia Edisi Juli 2010
14

m e ngan
a
F
i
e
l
d

J In Jumlah
m te record
l g hasil
er query

Q In Waktu
1 te yang
g diperlu
er kan
untuk
query
dengan
mengg
unakan
cross
produc
t

Q In Waktu
2 te yang
g diperlu
er kan

Beka Kongregasi Pasionis Indonesia Edisi Juli 2010


15

untuk
query
dengan
mengg
unakan
subset
query

Tabel 3. Tabel Waktu

Untuk menghitung waktu yang diperlukan


untuk mengakses data, dibuat sebuah program
aplikasi dengan menggunakan Delphi.

4. Hasil Penelitian dan Pembahasan

Setelah melakukan percobaan dengan beberapa


data, diperoleh waktu hasil seperti ditunjukkan
dalam tabel 4 berikut ini:

J 1 10 50 100 1000 10000 25000


u
m
l
a
h
Beka Kongregasi Pasionis Indonesia Edisi Juli 2010
16

D
a
t
a

W 4 5 9 10 47 425 1162
a
k
t
u

C
P

(
m
s
)

W 5 5 22 45 42 56 121
a
k
t
u

S
Q

(
m
s
)

Beka Kongregasi Pasionis Indonesia Edisi Juli 2010


17

Tabel 4. Waktu query

Adapun grafik hasilnya, tampak dalam gambar


1.

Gambar 1. Grafik Waktu Pengambilan Data

Dari hasil yang ditunjukkan oleh tabel 4 dan


gambar 1, dapat dilihat bahwa:
Beka Kongregasi Pasionis Indonesia Edisi Juli 2010
18

a. Pada data dengan jumlah record sedikit


penggunaan cross product dan subset query
menunjukkan kinerja yang sama
b. Pada data dengan jumlah record banyak,
subset query menunjukkan kinerja yang jauh
lebih baik dibanding dengan cross product

Dari data di atas dapat dihitung persamaan


untuk waktu akses dengan query cross roduct
adalah :

Y = 0.0031265 x + 5165.1148
1)

Sedangkan persamaan untuk waktu akses


dengan subset query adalah :

Y = 0.0184276 x + 5165.0779
2)

Dengan Y adalah jumlah data hasil query dan x


waktu yang diperlukan dalam mili detik.

Beka Kongregasi Pasionis Indonesia Edisi Juli 2010


19

Dari persamaan 1) dan 2) bisa dihitung bahwa


pada jumlah record 5165 akan diperlukan
waktu yang sama yaitu 2.412398 mili detik

5. Kesimpulan

Dengan menggunakan Interbase 6, untuk data


hasil query lebih dari kurang dari atau sama
dengan 5165 record, penggunaan query dengan
cross product membutuhkan waktu yang lebih
kecil dibanding dengan metode subset query.
Sebaliknya untuk data lebih besar dari 5165
record, penggunaan subset query jauh lebih
cepat disbanding dengan menggunakan cross
product.

6. Daftar Pustaka

Beka Kongregasi Pasionis Indonesia Edisi Juli 2010


20

Chanowich, E. dan Sendelbach, E., 2001,


“Query Optimization” in CSE 498G –
Advanced Database.

Korth, H.F., dan Silberschatz, A., 1991,


Database System Concepts, McGraw Hill,
Singapura.

Setiawan, M.A., 2004, Optimasi SQL Query


untuk Informasi Retrievel pada Aplikasi
Berbasis Web, Proceedings Seminar Nasional
Aplikasi Teknologi Informasi UII, Yogyakarta

Beka Kongregasi Pasionis Indonesia Edisi Juli 2010

Anda mungkin juga menyukai