DATA WAREHOUSE
Oleh :
Di mana :
X :Data dengan class yang belum diketahui
H : Hipotesis data merupakan suatu class spesifik
P(H|X) :Probabilitas hipotesis H berdasar kondisi X (posteriori probabilitas)
P(H) : Probabilitas hipotesis H (prior probabilitas)
P(X|H) :Probabilitas X berdasarkan kondisi pada hipotesis
HP(X) : Probabilitas X
Alur dari metode Naive Bayes dapat dilihat pada gambar 1.3 sebagai berikut. [7]
Dimana :
S : Himpunan kasus
A : Atribut
n : Jumlah partisi atribut A
|Si| : Jumlah kasus pada partisi ke i
|S| : Jumlah kasus dalam S
Sebelum mendapatkan nilai Gain adalah dengan mencari nilai Entropi. Entropi digunakan untuk
menentukan seberapa informatif sebuah masukan atribut untuk menghasilkan sebuah atribut. Rumus dasar
dari Entropi adalah sebagai berikut [10]:
Dimana :
S : Himpunan Kasus
n : Jumlah partisi S
pi : Proporsi dari Si terhadap S
contoh kasus penerapan Decision Tree pada bidang retail sebaiag berikut.
Terdapat sebuah data tentang kondisi cuaca untuk pengiriman barang sebagai berikut.
Tabel 6 Data Pengiriman Barang menurut cuaca
No Outlook Temperature Humidity Windy Keterangan
1 sunny hot high false Tidak Kirim
2 sunny hot high true Tidak Kirim
3 overcas hot high false Kirim
4 t
rain mild high false Kirim
5 rain cool normal false Kirim
6 rain cool normal true Tidak Kirim
7 overcas cool normal true Kirim
8 t
sunny mild high false Tidak Kirim
9 sunny cool normal false Kirim
10 rain mild normal false Kirim
11 sunny mild normal true Kirim
12 overcas mild high true Kirim
13 t
overcas hot normal false Kirim
14 t
rain mild high true Tidak Kirim
Dari contoh data training tersebut, atribut kategori menentukan apakah barang perlu dikirim (kirim)
atau tidak (tidak kirim). Sedangkan atribut non-kategori yaitu :
Contoh penerapan algoritma K-Means Clustering pada bidang retail sebagai berikut
Diketahui sebuah supermarket mempunyai sebuah data sharing keuntungan penjualan antara
pedagang grosir dengan reseller
Tabel 9 Daftar sharing keuntungan penjualan
Laba Grosir Laba
No Nama Barang
(40%/brg) Reseller(60%/brg)
1 Kubis 56 71
2 Wortel 49 81
3 Jagung Manis 98 78
4 Kangkung 42 32
5 Bayam 48 29
6 Kacang Panjang 85 71
7 Kentang 87 97
8 Bawang Merah 80 90
9 Bawang Putih 69 47
10 Sawi Hijau 45 31
11 Cabai Merah Besar 24 25
12 Cabai Hijau Besar 97 63
13 Cabai Rawit 84 75
14 Kecambah 52 87
15 Pakcoy 70 43
16 Daun Bawang 63 53
17 Brokolli 25 46
18 Tomat 69 80
19 Gambas 56 26
20 Nanas 78 46
DATA MINING & DATA WAREHOUSE – PRABOWO BUDI UTOMO 13
Dari data diatas didapatkan bahwa telah terjadi kesepakatan antara pedagang grosir dan pedang
reseller bahwa akan dilakukan bagi hasil dari setiap transaksi yang dilakukan. Dari data tersebut diketahui
bahwa nilai delta =0,1, Diinginkan untuk membagi menjadi 3 kelas (C,B dan A). dari hal tersebut tentukan
centroid masing-masing kelas.
Langkah pertama kita tentukan nilai rataan dari data diatas, sehingga menjadi tabel 10
Tabel 10 Rataan laba per item
Laba Grosir Laba
No Rataan
(40%/brg) Reseller(60%/brg)
1 56 71 65
2 49 81 68.2
3 98 78 86
4 42 32 36
5 48 29 36.6
6 85 71 76.6
7 87 97 93
8 80 90 86
9 69 47 55.8
10 45 31 36.6
11 24 25 24.6
12 97 63 76.6
13 84 75 78.6
14 52 87 73
15 70 43 53.8
16 63 53 57
17 25 46 37.6
18 69 80 75.6
19 56 26 38
20 78 46 58.8
Untuk selanjutnya dihitung nilai centroid masing – masing kelas mengunakan rumus diatas, untuk
kemudian ditemukan nilai centroid-nya adalah
C1 36
C2 58.8
C3 81.6
Dengan nilai toleransi error sebesar 6.84, maka akan ditemukan data hasil Iterasi 1 seperti berikut.
Tabel 11 Data hasil Iterasi ke-1
Jarak Dengan Kelas
Data Kelas
36 58.8 81.6
65 29 6.2 16.6 2
68.2 32.2 9.4 13.4 2
86 50 27.2 4.4 3
36 0 22.8 45.6 1
36.6 0.6 22.2 45 1
76.6 40.6 17.8 5 3
93 57 34.2 11.4 3
86 50 27.2 4.4 3
55.8 19.8 3 25.8 2
36.6 0.6 22.2 45 1
24.6 11.4 34.2 57 1
76.6 40.6 17.8 5 3
78.6 42.6 19.8 3 3
73 37 14.2 8.6 3
53.8 17.8 5 27.8 2
1.00
Dikarena nilai Rerata centroid-nya belum 0, maka dilakukan iterasi lagi dengan nilai rerata menjadi
centroid pengurang, seperti tabel 12 berikut.
Tabel 11 Data hasil Iterasi ke-2
Jarak Dengan Kelas
Data Kelas
34.9 59.8 80.7
65 30.10 5.23 15.68 2
68.2 33.30 8.43 12.48 2
86 51.10 26.23 5.32 3
36 1.10 23.77 44.68 1
36.6 1.70 23.17 44.08 1
76.6 41.70 16.83 4.08 3
93 58.10 33.23 12.33 3
86 51.10 26.23 5.32 3
55.8 20.90 3.97 24.88 2
36.6 1.70 23.17 44.08 1
24.6 10.30 35.17 56.08 1
76.6 41.70 16.83 4.08 3
78.6 43.70 18.83 2.08 3
73 38.10 13.23 7.68 3
53.8 18.90 5.97 26.88 2
57 22.10 2.77 23.68 2
37.6 2.70 22.17 43.08 1
75.6 40.70 15.83 5.08 3
38 3.10 21.77 42.68 1
58.8 23.90 0.97 21.88 2
Sehingga akan didapatkan nilai seperti berikut.
Rerata
Kelas Rerata Centroid
Centroid
1 34.9 34.9 0
2 59.76667 59.8 0
3 80.675 80.7 0
0.00
Karena centroid sudah bernilai 0 maka proses clustering selesai.
a = 19,03
Menghitung Koefisien Regresi (b)
b = -0.31
6. Buat Model Persamaan Regresi
Y = a + bX
Y = 19,03 - 0,31X
7. Lakukan Prediksi atau Peramalan terhadap Variabel Faktor Penyebab atau Variabel Akibat
I. Prediksikan Jumlah Item Barang yang dibeli jika suhu dalam keadaan tinggi (Variabel X),
contohnya : 30°C
X = 30
Y = 19,03 – 0,31X
Y = 19,03 – 0,31(30)
Y = 9,73
Jadi Jika Suhu ruangan mencapai 30°C, maka akan diprediksikan akan terdapat 9,73 item
barang yang dibeli oleh konsumen.
II. Jika Item barang yang dibeli (Variabel Y) yang ditargetkan sebanyak 15 unit, maka berapakah
suhu ruangan yang diperlukan untuk mencapai target tersebut ?
Y = 19,03 – 0,31X
15 = 19,03 – 0,31X
15 – 19,03 = - 0,31X
-4,03/-0,31 = X
13 = X
Jadi untuk mencapai penjualan dengan jumlah item sebanyak 15 unit, maka akan diprediksikan
akan terjadi pada suhu ruangan 13°C.
Dengan keterangan :
X => Y = item yang muncul bersamaan
P (X ∩ Y) = probabilitas transaksi yang
mengandung X dan Y dibagi dengan jumlah transaksi seluruhnya.
2. Pembentukan aturan asosiasi
Setelah semua pola frekuensi tinggi ditemukan, kemudian dicari aturan asosiasi yang memenuhi
syarat minimum untuk confidence dengan menghitung confidence dari aturan if X then Y. Bentuk
rumus matematika dari confidence [2] adalah :
Dengan keterangan :
X => Y = item yang muncul bersamaan
P ( Y | X) = probabilitas jumlah transaksi yang mengandung X dan Y dibagi dengan jumlah transaksi
yang mengandung X.
Contoh asosiasi dalam bisnis dan penelitian adalah :
a.Meneliti jumlah pelanggan dari perusahaan telekomunikasi seluler yang diharapkan untuk
memberikan respons positif terhadap penawaran upgrade layanan yang diberikan.
Kombinasi selanjutnya tidak bisa dibuat karena data yang dibentuk dari pengelompokkan yang
terakhir hanya 1, jadi kesimpulannya adalah barang yang paling banyak dibeli adalah kombinasi Teh Sari
Wangi ,Gulaku, Indomilk. Maka Bang Ojak akan menyediakan stok yg lebih untuk barang tersebut.
1. User
Dalam OLTP, penggunanya adalah IT PRoffesional sedangkan OLAP penggunanya adalah Knowledge
worker maksdunya penggunanya adalah seorang yang bertindak dalam subyek tertentu, atau
petinggi dalam suatu perusahaan.
2. Function
OLTP digunakan sehari-hari untuk proses bisnis seperti toko atau swalayan, sedangkan OLAP
digunakan untuk pengambilan keputusan.
3. Design DB
Desain dalam OLTP bersifat Entity Relational atau databasenya dinormalisasi dulu sebelum
digunakan. Untuk OLAP desain databasenya di de-normalisasi.
4. Data
Dalam OLTP datanya adalah hari ini, update setiap saat sedangkan OLAP datanya adalah sekarang
dan hari ini yang berguna untuk melakukan analisis ke depan.
5. Penggunaan
OLTP digunakan setiap saat, sedangkan OLAP digunakan seperlunya saja.
6. Access
OLTP aksesnya bisa write, read dan lain-lain. Sedangkan OLAP sering dibaca karena digunakan
untuk analisa.
7. Unit Pekerjaan
Kalau OLTP pekerjaannya hanya sederhana misalnya transaksi dalam swalayan. Untuk OLAP query
untuk menampilkan data sangat kompleks
8. Jumlah rekaman yang di akses
[1] Heni Sulastri, Acep Irham Gufroni, "Penerapan Data Mining dalam Pengelompokan Penderita
Thalassaemia", Jurnal Teknologi Dan Sistem Informasi - Vol. 03 No. 02, 2017
[2] Hapsari Dita Anggraeni, Ragil Saputra, Beta Noranita, "Aplikasi Data Mining Analisis Data Transaksi
Penjualan Obat Menggunakan Algoritma Apriori (Studi Kasus di Apotek Setya Sehat Semarang)", Jurnal
Masyarakat Informatika, Volume 4, Nomor 7, 2013
[3] Han, J. and Kamber, M, 2006, “Data Mining Concepts and Techniques Second Edition”. Morgan Kauffman,
San Francisco.
[4] Sumarlin, "Implementasi Algoritma K-Nearest Neighbor Sebagai Pendukung Keputusan Klasifikasi
Penerima Beasiswa PPA dan BBM", Jurnal Sistem Informasi Bisnis Vol. 01, 2015,
[5] Sari Dewi, "Komparasi 5 Metode Algoritma Klasifikasi Data Mining Pada Prediksi Keberhasilan
Pemasaran Produk Layanan Perbankan", Jurnal Techno Nusa Mandiri Vol. XIII, No. 1 Maret 2016
[6] Jodi Irjaya Kartika, Edy Santoso, Sutrisno, "Penentuan Siswa Berprestasi Menggunakan Metode K-Nearest
Neighbor dan Weighted Product (Studi Kasus : SMP Negeri 3 Mejayan)", Jurnal Pengembangan
Teknologi Informasi dan Ilmu Komputer Vol. 1, No. 5, Mei 2017
[7] Alfa Saleh, "Implementasi Metode Klasifikasi Naïve Bayes Dalam Memprediksi Besarnya Penggunaan
Listrik Rumah Tangga", Citec Journal, Vol. 2, No. 3, Mei 2015 – Juli 2015
[8] Ratih Ariadni, Isye Arieshanti,"Implementasi Metode Pohon Keputusan Untuk Klasifikasi Data Dengan
Nilai Fitur Yang Tidak Pasti", 2015, Institut Teknologi Sepuluh Nopember
[9] Sofi Defiyanti, Mohamad Jajuli, "Integrasi Metode Klasifikasi Dan Clustering dalam Data Mining",
Konferensi Nasional Informatika (KNIF) 2015
[10] Triowali Rosandy, "Perbandingan Metode Naive Bayes Classifier Dengan Metode Decision Tree (C4.5)
Untuk Menganalisa Kelancaran Pembiayaan (Study Kasus : KSPPS / BMT Al-Fadhila)", Jurnal TIM
Darmajaya Vol. 02 No. 01 Mei 2016
[11] Brilian Rahmat C.T.I., Agum Agidtama Gafar, Nurul Fajriani, Umar Ramdani, Fitria Rihin Uyun, Yuwanda
Purnamasari P., Natalis Ransi, "Implemetasi K-Means Clustering Pada Rapidminer Untuk Analisis
Daerah Rawan Kecelakaan", Seminar Nasional Riset Kuantitatif Terapan 2017
[12] https://informatikalogi.com/algoritma-k-means-clustering/
[13] Khusnul Khotimah, Sriyanto, "Perancangan Dan Implementasi Data Warehouse Untuk Mendukung
Sistem Akademik (Studi Kasus Pada Stkip Muhammadiyah Kotabumi)", Jurnal TIM Darmajaya Vol. 02
No. 01 Mei 2016
[14] STEVEN LIM, "Data Warehouse Untuk Pengelolaan Penjualan Pada PT. Lippo Karawaci, TBK.", Jurnal
Ilmiah SISFOTENIKA, Vol. 2, No. 1, Januari 2012
[15] Dyah Paramita, Firdaus, Mira Afrina, "Penerapan Data Mart Penjualan Hypermarket XYZ Menggunakan
Metode From Enterprise Models To Dimensional Models", Jurnal Sistem Informasi (JSI), VOL. 4, NO. 2,
Okotober 2012
[16] Andri, Baibul Tujni, "Perancangan Data Warehouse Perpustakaan", Jurnal Ilmiah Matrik Vol.x No.x, April
2012
[17] Rina Trisminingsih, Intan Yuli Kiswari, "Modul Extract, Transform, Load Untuk Data Warehouse
Komoditas Pertanian Indonesia Menggunakan Talend", Jurnal Siliwangi Vol.2. No.2. November 2016