Anda di halaman 1dari 27

DATA MINING &

DATA WAREHOUSE

Oleh :

PRABOWO BUDI UTOMO


NIM : 17.52.1003

DATA MINING & DATA WAREHOUSE – PRABOWO BUDI UTOMO 1


BAB I
DATA MINING

1.1 Pengertian Data mining


Kemajuan teknologi pengetahuan dan teknologi beserta aplikasinya disegala bidang tidak bisa lepas
dari perangkat komputer. Penggunaan komputer sudah menjangkau hampir segala bidang dalam aktivitas
kehidupan manusia, baik dalam lingkungan pendidikan, organisasi, perusahaan maupun masyarakat umum.
Penggunaan komputer terbukti banyak membantu kita dalam melakukan pekerjaan dengan lebih baik.
Pertumbuhan yang sangat pesat dari akumulasi data telah menciptakan kondisi kaya akan data tapi minim
informasi. Data mining merupakan penambangan atau penemuan informasi baru dengan mencari pola atau
aturan tertentu dari sejumlah data dalam jumlah besar yang diharapkan dapat mengatasi kondisi tersebut.
Berdasarkan pada perkembangan diatas maka dapat disimpulkan bahwa data mining merupakan
suatu metode pengolahan data untuk menemukan informasi yang tersembunyi dari data tersebut. Hasil dari
pengolahan data dalam data mining dapat digunakan untuk mengambil keputusan. [1] dalam proses untuk
mendapatkan informasi, data mining menggunakan teknik statistik, matematika, kecerdasan buatan dan
mechine learning sebagai upaya untuk mengidentifikasi dan mengekstraksi informasi yang bermanfaat dan
pengetahuan dari data yang tersedia. Data mining, sering juga disebut Knowledge Discovery in Database atau
disingkat menjadi KDD yaitu kegiatan yang meliputi pengumpulan, pemakaian data historis untuk
menemukan keteraturan, pola atau hubungan dalam set data berukuran besar [2]. Gambar tahapan
pembuatan aplikasi data mining ditunjukkan pada gambar 1.1.

Gambar 1.1 Data mining sebagai Knowledge Discovery in Database

DATA MINING & DATA WAREHOUSE – PRABOWO BUDI UTOMO 2


Terdapat 7 tahapan dalam proses data mining, yaitu :
1. Data Cleaning (pembersihan data)
Data cleaning merupan proses menghilangkan noise/gangguan dan data yang tidak konsisten atau
data yang tidak relevan. Proses ini dilakukan untuk menghilangkan data-data yang tidak valid atau
salah ketik, data yang tidak relevan dengan hipotesa yang diinginkan, atau data dengan atribut
yang salah.
2. Data Integration (Integrasi Data)
Integrasi data merupakan penggabungan data dari berbagai basis data ke dalam suatu basis data
baru. Data yang diperlukan untuk data mining tidak hanya berasal dari satu basis data tetapi juga
berasal dari beberapa basis data. Integrasi data dilakukan pada atribut - atribut yang
mengidentifikasikan entitas yang unik seperti atribut nama, jenis produk, nomor pelanggan, dan
lainnya.
3. Data Selection (Seleksi data)
Data yang ada pada basis data seringkali tidak semuanya dipakai, oleh karena itu hanya data yang
sesuai untuk proses analisis yang akan diambil dari basis data. Sebagai contoh, sebuah kasus yang
meneliti faktor kecenderungan orang membeli dalam kasus analisis keranjang belanja, tidak perlu
mengambil nama pelanggan, cukup dengan id pelanggan.
4. Data Transformation
Data diubah atau digabung ke dalam format yang sesuai untuk diproses dalam data mining.
Beberapa metode data mining membutuhkan format data yang khusus sebelum bisa
diaplikasikan..
5. Proses mining
Proses mining merupakan proses utama saat metode diterapkan untuk menemukan pengetahuan
berharga dan tersembunyi dari data.
6. Pattern Evaluation (Evaluasi pola)
Evaluasi pola bertujuan untuk menemukan pola – pola menarik ke dalam basis pengetahuan yang
ditemukan. Dalam tahap ini hasil dari teknik data mining berupa pola – pola yang khas maupun
model prediksi dievaluasi untuk menilai apakah hipotesa yang ada memang tercapai.
7. Presentasi pengetahuan (knowledge presentation)
Presentasi pengetahuan merupakan visualisasi dan penyajian pengetahuan mengenai metode yang
digunakan untuk memperoleh pengetahuan yang akan digunakan pengguna.
Berdasarkan pada tahapan diatas, maka data mining memiliki sebutah arsitektur yang mengambarkan
alur dalam proses pengambilan informasi, sebagaimana digambarkan pada Gambar 1.2 berikut.

DATA MINING & DATA WAREHOUSE – PRABOWO BUDI UTOMO 3


Gambar 1.2 Arsitektur sistem data mining [3]
Bagian – bagian arsitektur sistem data mining antara lain :
1. Basis data, data warehouse, atau media penyimpanan lainnya Media dalam hal ini dapat berupa basis
data, data warehouse, spreadsheets, atau jenisjenis penampungan informasi lainnya. Pembersihan
data, integrasi data, dan seleksi data dilakukan pada bagian tersebut.
2. Server basis data/data warehouse Server basis data/data warehouse bertanggung jawab dalam
menyediakan data yang relevan berdasarkan permintaan pengguna data mining.
3. Basis pengetahuan Pengetahuan yang digunakan dalam pencarian hubungan dari pola yang
dihasilkan, seperti concept hierarchies digunakan untuk mengorganisasikan nilai atribut atau atribut-
atribut ke dalam level abstraksi yang berbeda.
4. Mesin data mining Mesin data mining merupakan bagian dari perangkat lunak yang menjalankan
program berdasarkan algoritma yang ada.
5. Model evaluasi pola Model evaluasi pola merupakan bagian dari perangkat lunak yang berfungsi
untuk menemukan pola-pola yang terdapat dalam basis data yang diolah sehingga nantinya proses
data mining dapat menemukan pengetahuan yang sesuai.
6. GUI, Bagian ini merupakan sarana antar pengguna dan sistem data mining untuk berkomunikasi,
dimana pengguna dapat berinteraksi dengan sistem melalui data mining query, untuk menyediakan
informasi yang dapat membantu dalam pencarian pengetahuan. Bagian ini mengijinkan pengguna
untuk melakukan browsing pada basis data dan data warehouse, mengevaluasi pola tersebut dengan
tampilan yang berbeda-beda.

DATA MINING & DATA WAREHOUSE – PRABOWO BUDI UTOMO 4


1.2 Classification/klasifikasi
Classification/klasifikasi merupakan proses dalam data mining yang bertujuan untuk menemukan
model (fungsi) yang menggambarkan dan membedakan data atau konsep agar bisa digunakan untuk
memprediksi informasi yang belum diketahui. Sebagai bagian dari data mining maka proses Klasifikasi
digunakan untuk menguraikan penemuan pengetahuan dari dalam database.
Proses klasifikasi didasarkan pada empat komponen [4], yaitu :
1. Kelas
Variabel dependen yang berupa kategorikal yang merepresentasikan ‘label’ yang terdapat pada
objek. Contohnya: resiko penyakit jantung, resiko kredit, customer loyalty, jenis gempa.
2. Predictor
Variabel independen yang direpresentasikan oleh karakteristik (atribut) data. Contohnya:
merokok, minum alkohol, tekanan darah, tabungan, aset, gaji.
3. Training dataset
Satu set data yang berisi nilai dari kedua komponen di atas yang digunakan untuk menentukan
kelas yang cocok berdasarkan predictor.
4. Testing dataset
Berisi data baru yang akan diklasifikasikan oleh model yang telah dibuat dan akurasi klasifikasi
dievaluasi.
Dalam klasifikasi terdapat target variable kategori. Metode-metode / model-model yang telah
dikembangkan oleh periset untuk menyelesaikan kasus klasifikasi antara lain[4]:
1. Pohon keputusan/Decision Tree
2. Pengklasifikasi bayes/naive bayes
3. Jaringan saraf tiruan
4. Analisis statistik
5. Algoritma genetic
6. Rough sets
7. Pengklasifikasi k-nearest neighbor
8. Metode berbasis aturan
9. Memory based reasoning
10. Support vector machine
Contoh penerapan metode klasifikasi dalam bisnis dan penelitian adalah :
a. Menentukan apakah suatu transaksi kartu kredit merupakan transaksi yang curang atau bukan.
b.Memperkirakan apakah suatu pengajuan hipotek oleh nasabah merupakan suatu kredit yang baik
atau buruk.

DATA MINING & DATA WAREHOUSE – PRABOWO BUDI UTOMO 5


1.3 K‐Nearest Neighbour
K-Nearest Neighbour merupakan salah satu algoritma dalam data mining yang digunakan untuk
melakukan klasifikasi terhadap objek berdasarkan data pembelajaran yang jaraknya paling dekat dengan
objek tersebut. Algoritma ini termasuk dalam algoritma supervised learning karena Ketepatan algoritma k-
NN ini sangat dipengaruhi oleh ada atau tidaknya fiturfitur yang tidak relevan, atau jika bobot fitur tersebut
tidak setara dengan relevansinya terhadap klasifikasi. Tujuan dari algoritma ini adalah mengklasifikasikan
obyek baru berdasarkan atribut dantraining sample. menurut (Wu, 2009 ) KNN juga merupakan contoh
teknik lazy learning, yaitu teknik yang menunggu sampai pertanyaan (query) datang agar sama dengan data
training[5].
Beberapa hal yang menjadi perhatian dalam penggunaan algoritma ini adalah penggunaan pilihan k
tergantung pada data, jika k sangat kecil maka akan memperbesar efek noise. Sebaliknya jika terlalu besar
dapat mengurangi efek noise pada klasifikasi, tetapi akan membuat batasan antar setiap kelas menjadi lebih
kabur. Algoritma metode K-NN sangatlah sederhana, karena bekerja berdasarkan jarak terpendek dari query
instance ke training sample untuk menentukan K-NN-nya. Training sample diproyeksikan ke ruang
berdimensi banyak, dimana masing-masing dimensi merepresentasikan fitur dari data. Ruang ini dibagi
menjadi bagian-bagian berdasarkan klasifikasi training sample. Ada banyak cara untuk mengukur jarak
kedekatan antara data baru dengan data lama (data training), diantaranya euclidean distance dan manhattan
distance (city block distance), yang paling sering digunakan adalah euclidean distance (Bramer, 2007), yaitu :
[6]

Contoh penerapan algoritma K-NN pada usaha retail, sebagai berikut.


Didalam sebuah supermarket telah dilakukan survey tentang kualitas sayuran yang dijual, apakah
tergolong bagus atau jelek berdasarkan pada ketahanan pada suhu ruangan (berapa lama sayuran tetap
segar) dan kualitas (apakah cepat layu atau rusak). Dari survey tersebut diperoleh data seperti pada Tabel 1.
Tabel 1 Data Survey Sayuran
Daya tahan (menit) Kualitas (hari)
8 3
5 3
9 8
7 4
4 6
7 7
Menurut manajemen sayuran yang bagus adalah sayuran dengan nilai ketahanan yang tinggi serta
memiliki kualitas yang baik. Sayuran yang bagus bilamana mampu bertahan disuhu ruangan minimal 7
menit dengan kualitas tetap bertahan minimal selama 4 hari. Sehingga diperoleh data sayuran seperti pada
Tabel 2.
Tabel 2 Sayuran
Daya tahan (menit) Kualitas (hari) Klasifikasi
8 3 Jelek
5 3 Jelek
9 8 Baik
7 4 Baik
4 6 Jelek
7 7 Baik
Berdasarkan pada Tabel 2, maka dapat diklasifikasikan bahwa terdapat 2 atribut untuk menguji
sayuran yaitu X1 = Daya Tahan dan X2 = Kualitas. Kemudian supermarket menyediakan sayuran baru
dengan nilai atribut X1 = 6 dan X2 = 4, maka bagaimanakah klasifikasi yang didapat oleh sayuran tersebut?
DATA MINING & DATA WAREHOUSE – PRABOWO BUDI UTOMO 6
Langkah pertama kita hitung jarak antara data baru dengan semua data yang ada di data training
menggunakan rumus diatas, sehingga menghasilkan data seperti pada Tabel 3.
Tabel 3 Hasil Hitungan jarak
X1 = Daya tahan Square distance ke
X2 = Kualitas Jarak
(menit) data baru (6,4)
8 3 (8-6)2 + (3-4)2 5
5 3 (5-6)2 + (3-4)2 2
9 8 (9-6) + (8-4)
2 2 25
7 4 (7-6)2 + (4-4)2 1
4 6 (4-6)2 + (5-6)2 8
7 7 (7-6) + (7-4)
2 2 10
Kemudian dilakukan pengurutan dari nilai jarak terkecil hingga terbesar dengan sebelumnya
ditentukan nilai k, yaitu sebesar k = 4. Setelah dilakukan pengurutan akan dilakukan klasifikasi berdasar
urutan yang paling kecil hingga sesuai dengan nilai k, sebagimana ditunjukkan oleh Tabel 4 berikut.
Tabel 4 Hasil Pengolahan berdasar nilai k
Apakah
Klasfisikasi
X1 = Daya tahan Square distance ke termasuk
X2 = Kualitas Jarak berdasar nilai
(menit) data baru (6,4) nearest
k
neighbor (k)
8 3 (8-6)2 + (3-4)2 5 Ya Jelek
5 3 (5-6)2 + (3-4)2 2 Ya Jelek
9 8 (9-6)2 + (8-4)2 25 Tidak Baik
7 4 (7-6) + (4-4)
2 2 1 Ya Baik
4 6 (4-6)2 + (5-6)2 8 Ya Jelek
7 7 (7-6)2 + (7-4)2 10 Tidak Baik
Dengan mengurutkan jarak terkecil, semisal diambil k = 4, maka perbandingannya adalah 3 (Jelek) > 1
(Baik). Maka dapat disimpulkan bahwa sayuran dengan attribu X1 = 6 dan X2 = 4 masuk pada klasifikasi
JELEK.

1.4 Naïve Bayes


Naïve Bayes merupakan metode pengklasifikasian yang menggunakan statistik sehingga dapat
digunakan untuk memprediksi probabilitas dengan menjumlahkan frekuensi dan kombinasi nilai dari
dataset yang diberikan pada suatu class. Algoritma mengunakan teorema Bayes dan mengasumsikan semua
atribut independen atau tidak saling ketergantungan yang diberikan oleh nilai pada variabel kelas.
Naïve Bayes didasarkan pada asumsi penyederhanaan bahwa nilai atribut secara kondisional saling
bebas jika diberikan nilai output. Dengan kata lain, diberikan nilai output, probabilitas mengamati secara
bersama adalah produk dari probabilitas individu.
Persamaan dari teorema Naïve Bayes adalah [7]:

Di mana :
X :Data dengan class yang belum diketahui
H : Hipotesis data merupakan suatu class spesifik
P(H|X) :Probabilitas hipotesis H berdasar kondisi X (posteriori probabilitas)
P(H) : Probabilitas hipotesis H (prior probabilitas)
P(X|H) :Probabilitas X berdasarkan kondisi pada hipotesis
HP(X) : Probabilitas X
Alur dari metode Naive Bayes dapat dilihat pada gambar 1.3 sebagai berikut. [7]

DATA MINING & DATA WAREHOUSE – PRABOWO BUDI UTOMO 7


Gambar 1.3 Alur dari metode Naïve Bayes
Dari gambar 1.3 diatas dapat diketahui bahwa Naïve Bayes melakukan pembacaan terlebih dahulu
pada data training untuk kemudian melakukan perhitungan probabilitas pada kelas. Ketika sudah dihitung
baru dibuat semacam tabel dengan standar deviasi tertentu untuk kemudian ditarik solusi.
Keuntungan penggunaan Naïve Bayes adalah bahwa metode ini hanya membutuhkan jumlah data
pelatihan (Training Data) yang kecil untuk menentukan estimasi paremeter yang diperlukan dalam proses
pengklasifikasian. Naïve Bayes sering bekerja jauh lebih baik dalam kebanyakan situasi dunia nyata yang
kompleks dari pada yang diharapkan.
Contoh penerapan metode Naïve Bayes sebagai berikut.
Terdapat data penjualan toko kelontong “Cak Mamad” selama 3 hari terahir, sebagaimana terdapat
pada tabel 5 berikut.
Tabel 5 Pembelian toko “Cak Mamad”
Id Usia Gaji Status Beli Sayuran
1 31 - 35 1 - 1.5 juta Sudah Menikah tidak
2 26 - 30 <= 1 juta Belum Menikah tidak
3 31 - 35 1 - 1.5 juta Belum Menikah ya
4 21 - 25 >= 3 juta Belum Menikah ya
5 31 - 35 1 - 1.5 juta Sudah Menikah tidak
6 26 - 30 1 - 1.5 juta Belum Menikah ya
7 41 - 45 >= 3 juta Sudah Menikah tidak
8 36 - 40 <= 1 juta Sudah Menikah ya
9 31 - 35 1.5 - 2 juta Sudah Menikah ya
10 46 - 50 2 - 2.5 juta Sudah Menikah ya
Dari data pada tabel 5, penjual (cak Mamad) ingin memperoleh data apabila terdapat pelanggan
dengan usia 31 – 35, gaji 1 – 1.5 juta dan sudah menikah, apakah tetap membeli sayuran?
Langkah pertama : kita tentukan parameter yang ingin dihitung, yaitu : usia 31 – 35, gaji 1 – 1.5 juta
status sudah menikah, serta apakah tetap membeli sayuran.
Langkah kedua : P(H) dari data yang ada, yaitu seperti berikut

DATA MINING & DATA WAREHOUSE – PRABOWO BUDI UTOMO 8


P (H) -> * P(beli_sayuran=“ya”) = 6/10 = 0.6
* P(beli_sayuran=“tidak”) = 4/10 = 0.4
Langkah ketiga : P(X|H) dari data yang ada, yaitu seperti berikut
P(age = “31 - 35” | beli_sayuran =“ya”) = 2/6 = 0.333
P(age = “31 - 35” | beli_sayuran =“tidak”) = 2/4 = 0.5
P(Gaji = “1 – 1.5 juta” | beli_sayuran =“ya”) = 2/6 = 0.333
P(Gaji = “1 – 1.5 juta” | beli_sayuran =“tidak”) = 2/4 = 0.5
P(Gaji = “sudah menikah” | beli_sayuran =“ya”) = 3/6 = 0.5
P(Gaji = “sudah menikah” | beli_sayuran =“tidak”) = 3/4 = 0.75
Langkah keempat : menentukan nilai P(X|H) klasifikasi
P(X | beli_sayuran =“ya”) = 0.333 x 0.333 x 0.5 = 0.056
P(X | beli_sayuran =“tidak”) = 0.5 x 0.5 x 0.75= 0.188
Langkah Kelima : pengabungan nilai P(H) dan P(X|H) untuk mengetahui nilai yang besar
P(X | beli_sayuran =“ya”) x P(beli_sayuran=“ya”) = 0.056 x 0.6 = 0.0336
P(X | beli_sayuran =“ tidak”) x P(beli_sayuran=“tidak”) = 0.188 x 0.4 = 0.0752
P(X | beli_sayuran =“ tidak”) x P(beli_sayuran=“tidak”) > P(X | beli_sayuran =“ya”) x
P(beli_sayuran=“ya”)
Dari perhitungan diatas maka pelanggan dengan kriteria usia 31 – 35, gaji 1 – 1.5 juta dan sudah
menikah, TIDAK membeli sayuran.

1.5 Decision Tree


Decision Tree merupakan salah satu metode klasifikasi yang menggunakan flowchart untuk
merepresentasikan sturktur pohon yang berisi alternatif pemecahan masalah. Pohon ini juga menunjukkan
faktor-faktor yang mempengaruhi hasil alternatif dari keputusan tersebut disertai dengan estimasi hasil
akhir bila kita mengambil keputusan tersebut. Alur pada Decision Tree ditelusuri dari simpul ke akar ke
simpul daun yang memegang prediksi kelas. Peranan Decision Tree adalah sebagai Decision Support Tool
yang membantu manusia dalam mengambil suatu keputusan, disamping juga mampu melakukan break
down proses pengambilan keputusan yang kompleks menjadi lebih simple sehingga pengambil keputusan
akan lebih menunjukkan solusi dari permasalahan. Decision Tree juga berguna untuk mengeksplorasi data
yang sudah melewati tahap preprocessing dan menemukan model yang tersembunyi dari data dengan
sebuah target variabel sehingga dapat digunakan untuk membagi kumpulan data yang besar menjadi
himpunan record yang lebih kecil dengan memperhatikan variabel tujuannya.
Decision Tree menggunakan struktur hierarki untuk pembelajaran supervised. Proses dari Decision
Tree dimulai dari root node hingga leaf node yang dilakukan secara rekursif. Di mana setiap percabangan
menyatakan suatu kondisi yang harus dipenuhi dan pada setiap ujung pohon menyatakan kelas dari suatu
data. Pada Decision Tree terdiri dari tiga bagian yaitu [8]:
a. Root node
Node ini merupakan node yang terletak paling atas dari suatu pohon.
b. Internal node
Node ini merupakan node percabangan, hanya terdapat satu input serta mempunyai minimal dua
output.
c. Leaf node.
Node ini merupakan node akhir, hanya memiliki satu input, dan tidak memiliki output.
Decision Tree dibangun dengan cara membagi data secara rekursif hingga tiap bagian terdiri dari data
yang berasal dari kelas yang sama. Bentuk pemecahan (split) yang digunakan untuk membagi data
tergantung dari jenis atribut yang digunakan dalam split. dalam membangun Decision Tree dilakukan
beberapa hal, diataranya :

DATA MINING & DATA WAREHOUSE – PRABOWO BUDI UTOMO 9


a.Pilih atribut sebagai akar
b. Buat cabang untuk masing-masing nilai
c. Bagi kasus dalam cabang
d. Ulangi proses untuk masing-masing cabang sampai semua kasus pada cabang memiliki kelas yang
sama.
Untuk memilih atribut sebagai akar, didasarkan pada nilai gain tertinggi dari atribut – atribut yang
ada. Untuk menghitung gain digunakan rumus seperti yang tertera berikut [9] :

Dimana :
S : Himpunan kasus
A : Atribut
n : Jumlah partisi atribut A
|Si| : Jumlah kasus pada partisi ke i
|S| : Jumlah kasus dalam S
Sebelum mendapatkan nilai Gain adalah dengan mencari nilai Entropi. Entropi digunakan untuk
menentukan seberapa informatif sebuah masukan atribut untuk menghasilkan sebuah atribut. Rumus dasar
dari Entropi adalah sebagai berikut [10]:

Dimana :
S : Himpunan Kasus
n : Jumlah partisi S
pi : Proporsi dari Si terhadap S
contoh kasus penerapan Decision Tree pada bidang retail sebaiag berikut.
Terdapat sebuah data tentang kondisi cuaca untuk pengiriman barang sebagai berikut.
Tabel 6 Data Pengiriman Barang menurut cuaca
No Outlook Temperature Humidity Windy Keterangan
1 sunny hot high false Tidak Kirim
2 sunny hot high true Tidak Kirim
3 overcas hot high false Kirim
4 t
rain mild high false Kirim
5 rain cool normal false Kirim
6 rain cool normal true Tidak Kirim
7 overcas cool normal true Kirim
8 t
sunny mild high false Tidak Kirim
9 sunny cool normal false Kirim
10 rain mild normal false Kirim
11 sunny mild normal true Kirim
12 overcas mild high true Kirim
13 t
overcas hot normal false Kirim
14 t
rain mild high true Tidak Kirim

Dari contoh data training tersebut, atribut kategori menentukan apakah barang perlu dikirim (kirim)
atau tidak (tidak kirim). Sedangkan atribut non-kategori yaitu :

DATA MINING & DATA WAREHOUSE – PRABOWO BUDI UTOMO 10


Tabel 7 pengelompokkan atribut
ATRIBUT Nilai yangmungkin
Outlook sunny, overcast, rain
temperature hot, mild, cool
Humidity high, normal
Windy true, false
• Langkah menentukan Data yang terpilih menjadi Tree :
• Menentukan Node Terpilih
– Untuk menentukan node terpilih, gunakan nilai enthropy dari setiap kriteria dengan data
sample yang ditentukan. Node terpilih adalah kriteria dengan Entropy yang paling kecil.
• Kemudian memberikan keterangan :
– Pernyataan Kirim (+)
– Pernyataan Tidak Kirim (-)
• Kemudian dicari nilai Tree untuk masing – masing atribut
1. Outlook
Misal :
B1:sunny terdapat 2 kirim(+) dan 3 tidak kirim(-)
B2:overcast terdapat 4 kirim(+)
B3:rain terdapat 3 kirim(+) dan 2 kirim(-)
average entropy untuk Outlook
= 5/14 [ -3/5 log (3/5) – 2/5 log (2/5)] + 4/14 ( -log 1) + 5/14 [-3/5 log (3/5) – 2/5 log
2 2 2 2 2
(2/5)]
= 0.686 ~~ 0.691
2. Temperature
Misal:
B1: hot terdapat 2 (+) dan 2 (-)
B2: mild terdapat 4 (+) dan 2 (-)
B3: cool terdapat 3(+) dan 1(-)
average entropy untuk Temperature
= 4/14 [-2/4 log2 (2/4) – 2/4 log2 (2/4)] + 6/14 [- /6 log2 (4/6) – 2/6 log2 (2/6)] + 4/14 [-3/4
log2 (3/4) – 1/4 log2 (1/4)]
= 0.82
3. Humidity
Misal :
B1: high terdapat 3 (+) dan 4 (-)
B2: normal terdapat 6 (+) dan 1 (-)
average entropy untuk Humidity
= 7/14 [-3/7 log2 (3/7) – 4/7 log2 (4/7)] + 7/14 [-6/7 log2 (6/7) – 1/7 log2 (1/7)]
= 0.785
4. Windy
Misal :
B1: false terdapat 6 (+) dan 2 (-)
B2: true terdapat 3 (+) dan 3 (-)
average entropy untuk Humidity
= 8/14 [-6/8 log2 (6/8) – 2/8 log2 (2/8)] + 6/14 [-3/6 log2 (3/6) – 3/6 log2 (3/6)]
= 0.8922
DATA MINING & DATA WAREHOUSE – PRABOWO BUDI UTOMO 11
Tabel 8 Hasil semua average entropy
Attribute Average entropy
Outlook 0.686
Temperature 0.820
Humidity 0.785
Windy 0.8922
Setelah menghitung masing-masing nilai entropi dari setiap atribut, didapatkan nilai entropi terkecil
sebesar 0.686 yaitu atribut Outlook. Oleh karena itu atribut Outlook terpilih sebagai root. Sehingga dapat
digambar untuk penyusunan Tree seperti pada Gambar 1.4 berikut.

Gambar 1.4 Penyusunan Tree awal

1.6 K-Means Clustering


Clustering adalah salah satu sub - kategori data mining dan merupakan proses di mana sampel yang
sama dibagi menjadi kelompok-kelompok yang disebut cluster . Menurut (Larose, 2005) [11] clustering
mengacu pada pengelompokkan data, observasi atau kasus berdasar kemiripan objek yang diteliti. Sebuah
cluster adalah suatu kumpulan data yang mirip dengan lainnya atau ketidakmiripan data pada kelompok
lain. clustering ditujukan untuk membagi objek data (bentuk, entitas, contoh, ketaatan, unit) ke dalam
beberapa jumlah kelompok (grup, bagian atau kategori).
Algoritma K-Means merupakan salah satu algoritma clustering yang mengelompokkan
data berdasarkan titik pusat klaster (centroid) terdekat dengan data. Tujuan dari K-Means adalah
pengelompokkan data dengan memaksimalkan kemiripan data dalam satu klaster dan meminimalkan
kemiripan data antar klaster. Nilai centroid awal yang dipilih secara acak yang menjadi titik pusat awal[10],
akan dihitung jarak dengan semua data menggunakan rumus Euclidean Distance. Data yang memiliki jarak
pendek terhadap centroid akan membuat sebuah cluster. Proses ini berkelanjutan sampai tidak terjadi
perubahan pada setiap kelompok.
Algoritma K-Means memiliki keuntungan yaitu :
1. Dalam implementasi menyelesaikan masalah, algoritma K-Means sangat simple serta fleksibel.
Artinya perhitungan komputasinya tidak terlalu rumit dan algoritma ini dapat diimplementasikan
pada segala bidang.
2. Algoritma K-Means sangat mudah untuk dipahami, terutama dalam implementasi data yang sangat
besar serta dapat mengurangi kompleksitas data yang dimiliki
Kelemahan yang dimiliki oleh algoritma K-Means yaitu :

DATA MINING & DATA WAREHOUSE – PRABOWO BUDI UTOMO 12


1. Di Algoritma K-Means user memerlukan angka yang tepat dalam menentukan jumlah cluster
sebanyak k karena terkadang pusat cluster awal dapat berubah sehingga kejadian ini bisa
mengakibatkan pengelompokan data menjadi tidak stabil
2. Algoritma K-Means tidak bisa maksimal dalam menentukan atau menginisialkan nilai centroid
awalnya, karena pada pengelompokan data dengan algoritma K-Means sangat bergantung pada
nilai centroidnya
3. Output dari K-Means tergantung pada nilai – nilai pusat yang dipilih pada clustering. Sehingga pada
algoritma ini nilai awal titik pusat cluster menjadi dasar dalam penentuan cluster. Pemilihan
centroid cluster awal secara acak akan memberikan pengaruh terhadap kinerja cluster tersebut.
Pada umumnya pembentukan titik awal centroid dibangkitkan secara acak. Jumlah centroid yang
dibangkitkan sesuai dengan jumlah klaster yang ditentukan di awal. Setelah k centroid terbentuk kemudian
dihitung jarak tiap data ci. Terdapat beberapa ukuran jarak yang digunakan sebagai ukuran kemiripan suatu
instance data, salah satunya adalah jarak Euclid. Perhitungan jarak Euclidean seperti pada Persamaan[11]

Contoh penerapan algoritma K-Means Clustering pada bidang retail sebagai berikut
Diketahui sebuah supermarket mempunyai sebuah data sharing keuntungan penjualan antara
pedagang grosir dengan reseller
Tabel 9 Daftar sharing keuntungan penjualan
Laba Grosir Laba
No Nama Barang
(40%/brg) Reseller(60%/brg)
1 Kubis 56 71
2 Wortel 49 81
3 Jagung Manis 98 78
4 Kangkung 42 32
5 Bayam 48 29
6 Kacang Panjang 85 71
7 Kentang 87 97
8 Bawang Merah 80 90
9 Bawang Putih 69 47
10 Sawi Hijau 45 31
11 Cabai Merah Besar 24 25
12 Cabai Hijau Besar 97 63
13 Cabai Rawit 84 75
14 Kecambah 52 87
15 Pakcoy 70 43
16 Daun Bawang 63 53
17 Brokolli 25 46
18 Tomat 69 80
19 Gambas 56 26
20 Nanas 78 46
DATA MINING & DATA WAREHOUSE – PRABOWO BUDI UTOMO 13
Dari data diatas didapatkan bahwa telah terjadi kesepakatan antara pedagang grosir dan pedang
reseller bahwa akan dilakukan bagi hasil dari setiap transaksi yang dilakukan. Dari data tersebut diketahui
bahwa nilai delta =0,1, Diinginkan untuk membagi menjadi 3 kelas (C,B dan A). dari hal tersebut tentukan
centroid masing-masing kelas.
Langkah pertama kita tentukan nilai rataan dari data diatas, sehingga menjadi tabel 10
Tabel 10 Rataan laba per item
Laba Grosir Laba
No Rataan
(40%/brg) Reseller(60%/brg)
1 56 71 65
2 49 81 68.2
3 98 78 86
4 42 32 36
5 48 29 36.6
6 85 71 76.6
7 87 97 93
8 80 90 86
9 69 47 55.8
10 45 31 36.6
11 24 25 24.6
12 97 63 76.6
13 84 75 78.6
14 52 87 73
15 70 43 53.8
16 63 53 57
17 25 46 37.6
18 69 80 75.6
19 56 26 38
20 78 46 58.8
Untuk selanjutnya dihitung nilai centroid masing – masing kelas mengunakan rumus diatas, untuk
kemudian ditemukan nilai centroid-nya adalah
C1 36
C2 58.8
C3 81.6
Dengan nilai toleransi error sebesar 6.84, maka akan ditemukan data hasil Iterasi 1 seperti berikut.
Tabel 11 Data hasil Iterasi ke-1
Jarak Dengan Kelas
Data Kelas
36 58.8 81.6
65 29 6.2 16.6 2
68.2 32.2 9.4 13.4 2
86 50 27.2 4.4 3
36 0 22.8 45.6 1
36.6 0.6 22.2 45 1
76.6 40.6 17.8 5 3
93 57 34.2 11.4 3
86 50 27.2 4.4 3
55.8 19.8 3 25.8 2
36.6 0.6 22.2 45 1
24.6 11.4 34.2 57 1
76.6 40.6 17.8 5 3
78.6 42.6 19.8 3 3
73 37 14.2 8.6 3
53.8 17.8 5 27.8 2

DATA MINING & DATA WAREHOUSE – PRABOWO BUDI UTOMO 14


Jarak Dengan Kelas
Data Kelas
36 58.8 81.6
57 21 1.8 24.6 2
37.6 1.6 21.2 44 1
75.6 39.6 16.8 6 3
38 2 20.8 43.6 1
58.8 22.8 0 22.8 2
Untuk selanjutnya dihitung nilai centroid per kelas sehingga menjadi seperti berikut.
Rerata
Kelas Rerata Centroid
Centroid
1 34.9 36 1.1

2 59.76667 58.8 0.966667

3 80.675 81.6 0.925

1.00
Dikarena nilai Rerata centroid-nya belum 0, maka dilakukan iterasi lagi dengan nilai rerata menjadi
centroid pengurang, seperti tabel 12 berikut.
Tabel 11 Data hasil Iterasi ke-2
Jarak Dengan Kelas
Data Kelas
34.9 59.8 80.7
65 30.10 5.23 15.68 2
68.2 33.30 8.43 12.48 2
86 51.10 26.23 5.32 3
36 1.10 23.77 44.68 1
36.6 1.70 23.17 44.08 1
76.6 41.70 16.83 4.08 3
93 58.10 33.23 12.33 3
86 51.10 26.23 5.32 3
55.8 20.90 3.97 24.88 2
36.6 1.70 23.17 44.08 1
24.6 10.30 35.17 56.08 1
76.6 41.70 16.83 4.08 3
78.6 43.70 18.83 2.08 3
73 38.10 13.23 7.68 3
53.8 18.90 5.97 26.88 2
57 22.10 2.77 23.68 2
37.6 2.70 22.17 43.08 1
75.6 40.70 15.83 5.08 3
38 3.10 21.77 42.68 1
58.8 23.90 0.97 21.88 2
Sehingga akan didapatkan nilai seperti berikut.
Rerata
Kelas Rerata Centroid
Centroid
1 34.9 34.9 0
2 59.76667 59.8 0
3 80.675 80.7 0
0.00
Karena centroid sudah bernilai 0 maka proses clustering selesai.

DATA MINING & DATA WAREHOUSE – PRABOWO BUDI UTOMO 15


1.7 Estimation & Prediction
Estimasi merupakan salah satu fitur dalam data mining. Sebagai metode dalam data mining estimasi
ditujukan untuk dapat memperkirakan nilai Populasi dengan memakai nilai sampel. Estimasi biasanya
diperlukan untuk mendukung keputusan yang baik,menjadwalkan pekerjaan, menentukan berapa lama
proyek perlu dilakukan dan berapa biayanya, menentukan apakah proyek layak dikerjakan,
mengembangkan kebutuhan arus kas, menentukan seberapa baik kemajuan proyek, menyusun anggaran
time phased dan menetapkan baseline proyek.
Berdasarkan pada penjelasan diatas bisa disimpulkan bahwa Algoritma estimasi mirip dengan
algoritma klasifikasi, Estimasi menentukan nilai dari variable target berdasarkan nilai dari variabel
predictor (atribut), hal ini yang membedakan dengan klasifikasi. Algoritma estimasi memiliki hubungan
yang erat dengan fitur prediksi pada data mining. Kemampuan untuk menentukan variable sangat
menunjang dalam proses memprediksi, beberapa algoritma estimasi + prediksi yang biasa digunakan
adalah: Linear Regression, Neural Network, Support Vector Machine
Contoh kasus Metode Regresi Linear pada bidang Retail
Seorang Manajer ingin mempelajari Hubungan antara Suhu Ruangan dengan Jumlah Item
Barang yang dibeli, sehingga dapat memprediksi atau meramalkan jumlah item barang yang dibeli
jika suhu ruangan tersebut tidak terkendali. Manajer tersebut kemudian mengambil data selama 30
hari terhadap rata-rata (mean) suhu ruangan dan Jumlah barang yang dibeli.
Penyelesaian :
Penyelesaian dilakukan dengan mengikuti langkah-langkah dalam Analisa Regresi Linear
sebagai berikut :
1. Tahap Pertama, menentukan tujuan
Tujuan : memprediksi jumlah item barang yang dibeli jika suhu ruangan tidak terkendali
2. Mengidentifikasi Variabel Faktor Penyebab (Predictor) dan Variabel Akibat (Response)
Variabel Faktor Penyebab (Predictor) – X = suhu ruangan
Variabel Akibat (Response) – Y = jumlah item barang yang dibeli
3. Lakukan Pengumpulan Data
Berikut data penjualan barang selama 30 hari, sebagaimana ditunjukkan pada tabel 13
berikut
Tabel 13 Dataset suhu ruang dan jumlah barang yang dibeli
Rata-Rata Suhu ruangan Jumlah item Barang yang
No
(X) dibeli (Y)
1 24 8
2 25 9
3 24 7
4 26 9
5 27 6
6 28 12
7 24 13
8 24 15
9 23 17
10 22 11
11 23 11
12 23 9
13 24 7

DATA MINING & DATA WAREHOUSE – PRABOWO BUDI UTOMO 16


Rata-Rata Suhu ruangan Jumlah item Barang yang
No
(X) dibeli (Y)
14 25 9
15 27 13
16 21 15
17 23 10
18 23 9
19 24 8
20 21 9
21 22 13
22 23 11
23 21 12
24 21 14
25 23 16
26 24 15
27 25 14
28 26 14
29 23 13
30 24 19
Tabel 7 Data rata-rata Suhu dan Jumlah Item Barang
4. Lakukan perhitungan X², Y², XY dan total dari masing-masingnya, seperti pada Tabel 14 berikut
Tabel 14 Tabel hasil olahan Data rata-rata Suhu dan Jumlah Item Barang
Rata-Rata Jumlah item
No Suhu Barang yang X² Y² XY
ruangan (X) dibeli (Y)
1 24 8 576 64 192
2 25 9 625 81 225
3 24 7 576 49 168
4 26 9 676 81 234
5 27 6 729 36 162
6 28 12 784 144 336
7 24 13 576 169 312
8 24 15 576 225 360
9 23 17 529 289 391
10 22 11 484 121 242
11 23 11 529 121 253
12 23 9 529 81 207
13 24 7 576 49 168
14 25 9 625 81 225
15 27 13 729 169 351
16 21 15 441 225 315
17 23 10 529 100 230
18 23 9 529 81 207
19 24 8 576 64 192
20 21 9 441 81 189
21 22 13 484 169 286
22 23 11 529 121 253

DATA MINING & DATA WAREHOUSE – PRABOWO BUDI UTOMO 17


Rata-Rata Jumlah item
No Suhu Barang yang X² Y² XY
ruangan (X) dibeli (Y)
23 21 12 441 144 252
24 21 14 441 196 294
25 23 16 529 256 368
26 24 15 576 225 360
27 25 14 625 196 350
28 26 14 676 196 364
29 23 13 529 169 299
30 24 19 576 361 456
Total (∑) 713 348 17041 4344 8241
5. Hitung a dan b berdasarkan rumus Regresi Linear
Menghitung Konstanta (a) :

a = 19,03
Menghitung Koefisien Regresi (b)

b = -0.31
6. Buat Model Persamaan Regresi
Y = a + bX
Y = 19,03 - 0,31X
7. Lakukan Prediksi atau Peramalan terhadap Variabel Faktor Penyebab atau Variabel Akibat
I. Prediksikan Jumlah Item Barang yang dibeli jika suhu dalam keadaan tinggi (Variabel X),
contohnya : 30°C
X = 30
Y = 19,03 – 0,31X
Y = 19,03 – 0,31(30)
Y = 9,73
Jadi Jika Suhu ruangan mencapai 30°C, maka akan diprediksikan akan terdapat 9,73 item
barang yang dibeli oleh konsumen.
II. Jika Item barang yang dibeli (Variabel Y) yang ditargetkan sebanyak 15 unit, maka berapakah
suhu ruangan yang diperlukan untuk mencapai target tersebut ?
Y = 19,03 – 0,31X
15 = 19,03 – 0,31X
15 – 19,03 = - 0,31X
-4,03/-0,31 = X
13 = X
Jadi untuk mencapai penjualan dengan jumlah item sebanyak 15 unit, maka akan diprediksikan
akan terjadi pada suhu ruangan 13°C.

DATA MINING & DATA WAREHOUSE – PRABOWO BUDI UTOMO 18


1.8 Association & Apriori
Association adalah suatu fitur data mining untuk mencari hubungan antar item suatu dataset yang
telah ditentukan. Association mencari dan menemukan hubungan antar item yang ada pada suatu dataset.
Penerapan data mining dengan aturan asosiasi bertujuan menemukan informasi item-item yang saling
berhubungan dalam bentuk aturan/rule. Aturan asosiasi adalah teknik data mining untuk menemukan
aturan asosiasi antara suatu kombinasi item [2]. Dalam menentukan suatu aturan asosiasi, terdapat suatu
ukuran ketertarikan (interestingness measure) yang didapatkan dari hasil pengolahan data dengan data
perhitungan tertentu. Pada umumnya terdapat dua ukuran ketertarikan dalam aturan asosiasi, yaitu :
1. Support adalah probabilitas konsumen membeli beberapa produk secara bersamaan dari jumlah
seluruh transaksi [4]. Ukuran ini menentukan apakah suatu item/itemset layak untuk dicari nilai
confidence-nya (misal dari keseluruhan transaksi yang ada, seberapa besar tingkat dominasi yang
menunjukkan bahwa item X dan Y dibeli bersamaan)
2. Confidence atau tingkat kepercayaan merupakan probabilitas kejadian beberapa produk yang dibeli
bersamaan dimana salah satu produk sudah pasti dibeli (misal, seberapa sering item Y dibeli
apabila konsumen membeli item X)
Langkah-langkah dalam pembentukan aturan asosiasi meliputi dua tahap, yaitu :
1. Analisis pola frekuensi tinggi
Tahap ini mencari kombinasi item yang memenuhi syarat minimum dari nilai support dalam basis
data. Support untuk aturan “X => Y” adalah probabilitas atribut atau kumpulan atribut X dan Y yang
terjadi bersamaan dalam suatu transaksi. Bentuk persamaan matematika dari nilai support [2]
adalah :

Dengan keterangan :
X => Y = item yang muncul bersamaan
P (X ∩ Y) = probabilitas transaksi yang
mengandung X dan Y dibagi dengan jumlah transaksi seluruhnya.
2. Pembentukan aturan asosiasi
Setelah semua pola frekuensi tinggi ditemukan, kemudian dicari aturan asosiasi yang memenuhi
syarat minimum untuk confidence dengan menghitung confidence dari aturan if X then Y. Bentuk
rumus matematika dari confidence [2] adalah :

Dengan keterangan :
X => Y = item yang muncul bersamaan
P ( Y | X) = probabilitas jumlah transaksi yang mengandung X dan Y dibagi dengan jumlah transaksi
yang mengandung X.
Contoh asosiasi dalam bisnis dan penelitian adalah :
a.Meneliti jumlah pelanggan dari perusahaan telekomunikasi seluler yang diharapkan untuk
memberikan respons positif terhadap penawaran upgrade layanan yang diberikan.

DATA MINING & DATA WAREHOUSE – PRABOWO BUDI UTOMO 19


b. Menemukan barang dalam supermarket yang dibeli secara bersamaan dan barang yang tidak
pernah dibeli secara bersamaan.
Apriori adalah algoritma yang digunakan dalam melakukan pencarian frequent itemset untuk
mendapatkan aturan asosiasi [2]. Sesuai dengan namanya, algoritma ini menggunakan prior knowledge
mengenai frequent itemset properties yang telah diketahui sebelumnya untuk memproses informasi
selanjutnya. Apriori menggunakan pendekatan secara iterative yang disebut juga sebagai level-wish search
dimana kitemset digunakan untuk mencari (k+1)-itemset. Pertama-tama dicari set dari frequent 1-itemset, set
ini dinotasikan sebagai L1. L1 yaitu large itemset pertama yang digunakan untuk menemukan L2, kemudian
set dari frequent 2- itemset digunakan untuk menemukan L3, dan seterusnya sampai tidak ada lagi frequent
kitemset yang dapat ditemukan. Large itemset adalah itemset yang sering terjadi atau itemset.
Contoh kasus Algoritma Apriori pada bidang Retail
Supermarket “Bang Ojak” memiliki data penjualan yang ditunjukkan pada tabel 15 dibawah ini. Dari
data tersebut supermarket ingin mengetahui kombinasi penjualan barang mana yang paling banyak,
sehingga akan dilakukan pen-stok-an barang yang lebih pada brang tersebut. Adapun data penjualannya
sebagai berikut.
Tabel 15 Data Penjualan Supermarket “Bang Ojak”
No No.Transaksi Produk
1 10001 Teh Sari Wangi, Gulaku, Indomilk
2 10002 Pepsodent Action
3 10003 Teh Sari Wangi, Pepsodent Action, Sikat Gigi Formula,Gulaku
4 10004 Indomilk, Gulaku
5 10005 Pepsodent Action, Sikat Gigi Formula
6 10006 Gulaku, Detolt 300 g
7 10007 Teh Sari Wangi, Indomilk, Close UP,Gulaku
8 10008 Gulaku, Indomilk
9 10009 Molto 800 g, Teh Sari Wangi, gulaku
10 10010 Gulaku, Indomilk,Teh Sari Wangi
Dari data diatas, dibentuk pola pengelompokkan item seperti pada tabel 16 berikut.
Tabel 16 Pola Pengelompokan Item
Produk Item Jumlah Support
Teh Sari Wangi 5 50%
Gulaku 8 80%
Indomilk 5 50%
Closep UP 1 10%
Detolt 300 g 1 10%
Sikat Gigi Formula 2 20%
Molto 800 g 1 10%
Pepsodent Action 3 30%
Sebagai pemilik supermarket, Bang Ojak ingin mengetahui jumlah barang yang dijual dengan nilai
support transaksi lebih dari/minimal 25%, sehingga diketemukan data seperti pada tabel 17 berikut.

DATA MINING & DATA WAREHOUSE – PRABOWO BUDI UTOMO 20


Tabel 17 Hasil pengelompokkan data
Produk Item Jumlah Support
Teh Sari Wangi 5 50%
Gulaku 8 80%
Indomilk 5 50%
Pepsodent Action 3 30%
Dari pola kombinasi 1(satu) itemsets yang memenuhi support minimal dibentuk pola kombinasi
2(dua) itemsets. Seperti pada tabel 18 berikut.
Tabel 18 Pengelompokkan dengan 2 itemset
Produk Item Jumlah Support
Teh Sari Wangi, Gulaku 5 50%
Teh Sari Wangi, Indomilk 3 30%
Teh Sari Wangi, Pepsodent Action 1 10%
Gulaku, Indomilk 5 50%
Gulaku, Pepsodent Action 1 10%
Indomilk, Pepsodent Action 0 0%
Dari pola kombinasi 2(dua) itemsets yang memenuhi support minimal 25% maka dibentuk lagi
kombinasi 3(tiga) itemsets. Seperti pada tabel 19 berikut.
Tabel 19 Pengelompokkan dengan 3 itemset
Produk Item Jumlah Support
Teh Sari Wangi ,Gulaku, Indomilk 3 30%

Kombinasi selanjutnya tidak bisa dibuat karena data yang dibentuk dari pengelompokkan yang
terakhir hanya 1, jadi kesimpulannya adalah barang yang paling banyak dibeli adalah kombinasi Teh Sari
Wangi ,Gulaku, Indomilk. Maka Bang Ojak akan menyediakan stok yg lebih untuk barang tersebut.

DATA MINING & DATA WAREHOUSE – PRABOWO BUDI UTOMO 21


BAB II
DATA WAREHOUSE

2.1 Data Warehouse


Data warehouse merupakan sebuah sistem penyimpanan data yang berkapasitas besar yang berasal
dari berbagai sumber, dimana data tersebut saling diintegrasikan menggunakan querying dan
reporting dengan tujuan untuk mendukung pengambilan keputusan. Menurut McLeod, data warehouse
adalah sebuah sistem penyimpanan data yang berkapasitas besar, dimana data dikumpulkan dengan
menambahkan record baru daripada meng-update record yang sudah ada dengan informasi baru. Data jenis
ini digunakan hanya untuk proses pengambilan keputusan dan bukan untuk kegiatan operasional
perusahaan sehari-hari. (Indrajani, 2011)[13]
Berdasarkan definisi menurut W.H. Inmon[13], karakteristik data warehouse adalah sebagai berikut:
1. Subject oriented, yaitu data dikelompokkan berdasarkan fungsi utama atau subjek tertentu dalam
bisnis, bukan berorientasi pada proses. Misalnya, pada perusahaan subjek utamanya yaitu
pelanggan, produk, departemen, dll. Dan bukan berdasarkan proses bisnis, seperti penjualan , stok
barang.

Gambar 1.5 Data warehouse berorientasi obyek


2. Integrated, yaitu Data Warehouse dapat menyimpan datadata yang berasal dari sumber-sumber
yang terpisah ke dalam suatu format yang konsisten dan saling terintegrasi satu dengan lainnya.

Gambar 1.6 Data warehouse bersifat integrated


3. Variant, yaitu data pada data warehouse hanya valid (berguna) pada interval waktu tertentu
(semester , kuartal , tahun). Misalnya, data mengenai penjualan produk yang terlaris pertahun
4. Nonvolatile, yaitu Data pada data warehouse tidak dapat mengalami perubahan, tidak dapat di-
update secara real time tetapi dapat di refresh dari sistem operasional
Arsitektur Data Warehouse terdiri dari[14].
a) operational Data, merupakan sumber data untuk data warehouse ;
b) operational Data Store, merupakan penampung data operasional yang telah terintegrasi, yang
digunakan untuk analisis;
DATA MINING & DATA WAREHOUSE – PRABOWO BUDI UTOMO 22
c) load Manager, melakukan semua operasi yang berhubungan dengan ekstraksi dan pemuatan data
ke dalam data warehouse;
d) Warehouse Manager, melakukan operasi-operasi yang berhubungan dengan manajemen data yang
ada dalam data warehouse.;
e) Query Manager, melakukan operasi-operasi yang berhubungan dengan manajemen query dari user;
f) Detailed Data, menyimpan semua data detil di dalam skema basis data. Pada umumnya, data detil
tersedia dengan melakukan agregasi;
g) Lightly and Highly Summarized Data, menyimpan data lightly and highly summarized (teragregasi)
yang dihasilkan oleh Warehouse Manager;
h) Archive / Backup Data., menyimpan data detil dan data ringkas dengan tujuan backup dan
archiving;
i) Metadata, Metadata mempermudah end user dalam melakukan analisis dan menghemat waktu; dan
j) End-User Access Tools, merupakan tool yang memanfaatkan kegunaan dari data warehouse, seperti
dalam pembuatan laporan, OLAP, data mining, informasi eksekutif .

Gambar 1.7 Arsitektur Data warehouse[15]


Dalam data warehouse sebuah data akan melalui beberapa proses terlebih dahulu sebelum diolah
dalam data mining. Seperti yang ditunjukkan pada gambar 1.7 diatas, terlebih dahulu data yang berasal dari
luar ditampung dalan database pusat, kemudian data dipindahkan ke data warehouse memalui proses
extract, transform, load (ETL). Data yang telah diolah pada proses ETL inilah yang akan dilakukan proses
data mining terhadapnya.

2.2 Data Mart


Data mart pada dasarnya adalah versi yang lebih kecil dari data warehouse, yang melayani kebutuhan
analitis dari suatu departemen tertentu atau divisi dalam organisasi, sedangkan menurut Connoly [15], data
mart adalah subset dari data warehouse yang mendukung kebutuhan informasi dari departemen atau fungsi
bisnis tertentu. Perbedaan data warehouse dan data mart memang memiliki batasan yang sangat tipis,
namun kita tidak perlu khawatir dengan perbedaan ini karena secara subtansi tujuan dari pembuatannya

DATA MINING & DATA WAREHOUSE – PRABOWO BUDI UTOMO 23


memiliki kesamaan. Karakteristik yang membedakan antara data mart dan data warehouse adalah sebagai
berikut:
 Data mart memfokuskan hanya pada kebutuhan-kebutuhan pemakai yang terkait dalam sebuah
departemen atau fungsi bisnis.
 Data mart biasanya tidak mengandung data operasional yang rinci seperti pada data warehouse.
 Data mart hanya mengandung sedikit informasi dibandingkan dengan data warehouse. Data mart
lebih mudah dipahami.

2.3 OLTP & OLAP


Online Transaction Processing atau yang sering disebut dengan OLTP adalah system yang berorientasi
proses yang memproses suatu transaksi secara langsung melalui komputer yang terhubung dalam jaringan
Seperti misalanya kasir pada sebuah super market yang menggunakan mesin dalam proses transaksinya.
Sedangkan OLAP (Online Analytical Processing) yang merupakan bagian dari Business Intelligencey yang
berguna untuk menyediakan laporan analisis, seperti penjualan, marketing, BPM (Business Process
Management), budgeting, forecasting, keuangan dan sebagainya. model multidimensi, yang mengijinkan
query analisis yang kompleks dengan kecepatan eksekusi yang tinggi .
Dengan dua sumber diatas, dapat kita ketahui jika OLTP dan OLAP adalah berbeda, walaupun sama –
sama online. Seperti yang disampaikan (Devi Munandar, [14]) dalam makalahnya yang berjudul ”OLAP dan
Terminologi Multi-Dimensional Database” yang menceritakan bahwa OLTP dan OLAP adalah suatu
pernyataan yang bertolak belakang atau sangat kontras. Dimana dalam makalah tersebut juga disebutkan
bahwa OLAP menggambarkan sebuah kelas teknologi yang dirancang untuk analisa dan akses data secara
khusus sedangkan OLTP mempunyai karakteristik beberapa user dapat creating, updating, retrieving untuk
setiap record data, lagi pula OLTP sangat optimal untuk updating data.
Dari pernyataan diatas dapat disimpulkan bahwa, OLTP & OLAP sangat erat kaitannya dengan
database ataupun data warehouse dan keduanya sama – sama online. Namun, OLTP merupakan suatu
sistem yang berorientasi proses, yang berfungsi sebagai operasi harian dan datanya dapat di-edit, di-ganti,
atau di-hapus. Sedangkan OLAP suatu sistem yang berorientasi subjek, yang fungsinya lebih diutamakan
dalam mendukung pengambilan keputusan dalam data warehouse sehingga data – data disini bukanlah data
yang bisa di-edit, di-ganti, atau di-hapus seperti data – data yang ada dalam OLTP. OLAP biasanya digunakan
oleh manager dalam mencari suatu keputusan. Secara tabel perbedaan OLTP dan OLAP dapat ditunjukan
pada tabel 8 berikut.

DATA MINING & DATA WAREHOUSE – PRABOWO BUDI UTOMO 24


Tabel 8 Perbedaan OLTP & OLAP [16]

1. User
Dalam OLTP, penggunanya adalah IT PRoffesional sedangkan OLAP penggunanya adalah Knowledge
worker maksdunya penggunanya adalah seorang yang bertindak dalam subyek tertentu, atau
petinggi dalam suatu perusahaan.
2. Function
OLTP digunakan sehari-hari untuk proses bisnis seperti toko atau swalayan, sedangkan OLAP
digunakan untuk pengambilan keputusan.
3. Design DB
Desain dalam OLTP bersifat Entity Relational atau databasenya dinormalisasi dulu sebelum
digunakan. Untuk OLAP desain databasenya di de-normalisasi.
4. Data
Dalam OLTP datanya adalah hari ini, update setiap saat sedangkan OLAP datanya adalah sekarang
dan hari ini yang berguna untuk melakukan analisis ke depan.
5. Penggunaan
OLTP digunakan setiap saat, sedangkan OLAP digunakan seperlunya saja.
6. Access
OLTP aksesnya bisa write, read dan lain-lain. Sedangkan OLAP sering dibaca karena digunakan
untuk analisa.
7. Unit Pekerjaan
Kalau OLTP pekerjaannya hanya sederhana misalnya transaksi dalam swalayan. Untuk OLAP query
untuk menampilkan data sangat kompleks
8. Jumlah rekaman yang di akses

DATA MINING & DATA WAREHOUSE – PRABOWO BUDI UTOMO 25


Kalau OLTP sekitar ratusan sampai ribuan, tapi jika OLAP data yang diakses bisa sampai jutaan
bahkan milyaran.
9. Jumlah Pengguna
Untuk OLTP penggunanya adalah puluhan, tapi kalau OLAP penggunanya bisa sampai ratusan
bahkan ribuan
10. Ukuran Database
Ukuran database untuk OLTP sekitar MB-GB, sedangkan OLAP bisa sampai GB-TB.
2.4 ETL (Extract, Transform, Load), Data Cleaning & Cube
Data warehouse umumnya dicirikan dengan adanya proses Extract, Transform, Load (ETL) yang
memungkinkan penggabungan data dari berbagai sumber, penyesuaian format dan pembuatan datamart
untuk berbagai kebutuhan. [17] Kesuksesan dalam pembangunan data warehouse bergantung pada
kesuksesan proses Extract, Transform, Load (ETL) dari basis data Online Transactional Processing (OLTP) ke
dalam data warehouse. Extract, Transform dan Load juga merupakan kumpulan proses persiapan data dari
OLTP (Online Transaction Process). ETL merupakan fase pemrosesan data dari sumber data masuk ke dalam
data warehouse. Tujuan dari ETL adalah mengumpulkan, menyaring, mengolah dan menggabungkan data-
data yang relevan dari berbagai sumber untuk disimpan ke dalam data warehouse.

DATA MINING & DATA WAREHOUSE – PRABOWO BUDI UTOMO 26


DAFTAR PUSTAKA

[1] Heni Sulastri, Acep Irham Gufroni, "Penerapan Data Mining dalam Pengelompokan Penderita
Thalassaemia", Jurnal Teknologi Dan Sistem Informasi - Vol. 03 No. 02, 2017
[2] Hapsari Dita Anggraeni, Ragil Saputra, Beta Noranita, "Aplikasi Data Mining Analisis Data Transaksi
Penjualan Obat Menggunakan Algoritma Apriori (Studi Kasus di Apotek Setya Sehat Semarang)", Jurnal
Masyarakat Informatika, Volume 4, Nomor 7, 2013
[3] Han, J. and Kamber, M, 2006, “Data Mining Concepts and Techniques Second Edition”. Morgan Kauffman,
San Francisco.
[4] Sumarlin, "Implementasi Algoritma K-Nearest Neighbor Sebagai Pendukung Keputusan Klasifikasi
Penerima Beasiswa PPA dan BBM", Jurnal Sistem Informasi Bisnis Vol. 01, 2015,
[5] Sari Dewi, "Komparasi 5 Metode Algoritma Klasifikasi Data Mining Pada Prediksi Keberhasilan
Pemasaran Produk Layanan Perbankan", Jurnal Techno Nusa Mandiri Vol. XIII, No. 1 Maret 2016
[6] Jodi Irjaya Kartika, Edy Santoso, Sutrisno, "Penentuan Siswa Berprestasi Menggunakan Metode K-Nearest
Neighbor dan Weighted Product (Studi Kasus : SMP Negeri 3 Mejayan)", Jurnal Pengembangan
Teknologi Informasi dan Ilmu Komputer Vol. 1, No. 5, Mei 2017
[7] Alfa Saleh, "Implementasi Metode Klasifikasi Naïve Bayes Dalam Memprediksi Besarnya Penggunaan
Listrik Rumah Tangga", Citec Journal, Vol. 2, No. 3, Mei 2015 – Juli 2015
[8] Ratih Ariadni, Isye Arieshanti,"Implementasi Metode Pohon Keputusan Untuk Klasifikasi Data Dengan
Nilai Fitur Yang Tidak Pasti", 2015, Institut Teknologi Sepuluh Nopember
[9] Sofi Defiyanti, Mohamad Jajuli, "Integrasi Metode Klasifikasi Dan Clustering dalam Data Mining",
Konferensi Nasional Informatika (KNIF) 2015
[10] Triowali Rosandy, "Perbandingan Metode Naive Bayes Classifier Dengan Metode Decision Tree (C4.5)
Untuk Menganalisa Kelancaran Pembiayaan (Study Kasus : KSPPS / BMT Al-Fadhila)", Jurnal TIM
Darmajaya Vol. 02 No. 01 Mei 2016
[11] Brilian Rahmat C.T.I., Agum Agidtama Gafar, Nurul Fajriani, Umar Ramdani, Fitria Rihin Uyun, Yuwanda
Purnamasari P., Natalis Ransi, "Implemetasi K-Means Clustering Pada Rapidminer Untuk Analisis
Daerah Rawan Kecelakaan", Seminar Nasional Riset Kuantitatif Terapan 2017
[12] https://informatikalogi.com/algoritma-k-means-clustering/
[13] Khusnul Khotimah, Sriyanto, "Perancangan Dan Implementasi Data Warehouse Untuk Mendukung
Sistem Akademik (Studi Kasus Pada Stkip Muhammadiyah Kotabumi)", Jurnal TIM Darmajaya Vol. 02
No. 01 Mei 2016
[14] STEVEN LIM, "Data Warehouse Untuk Pengelolaan Penjualan Pada PT. Lippo Karawaci, TBK.", Jurnal
Ilmiah SISFOTENIKA, Vol. 2, No. 1, Januari 2012
[15] Dyah Paramita, Firdaus, Mira Afrina, "Penerapan Data Mart Penjualan Hypermarket XYZ Menggunakan
Metode From Enterprise Models To Dimensional Models", Jurnal Sistem Informasi (JSI), VOL. 4, NO. 2,
Okotober 2012
[16] Andri, Baibul Tujni, "Perancangan Data Warehouse Perpustakaan", Jurnal Ilmiah Matrik Vol.x No.x, April
2012
[17] Rina Trisminingsih, Intan Yuli Kiswari, "Modul Extract, Transform, Load Untuk Data Warehouse
Komoditas Pertanian Indonesia Menggunakan Talend", Jurnal Siliwangi Vol.2. No.2. November 2016

DATA MINING & DATA WAREHOUSE – PRABOWO BUDI UTOMO 27

Anda mungkin juga menyukai