Anda di halaman 1dari 35

2018

Decision Support System


(Data Mining & Data Warehose)

MAGISTER TEKNIK INFORMATIKA


ZUL HISYAM (17.52.1036)

UNIVERSITAS AMIKOM YOGYAKARTA | Jl. Ring Road Utara, Condong Catur, Sleman, Yogyakarta
Daftar Isi

Daftar Isi ....................................................................................................................................................... i


Daftar Gambar ............................................................................................................................................ ii
Daftar Tabel ............................................................................................................................................... iii
1. Data Mining ......................................................................................................................................... 1
1.1. Konsep Dasar Data Mining ........................................................................................................ 1
1.2. Klasifikasi (Classification) .......................................................................................................... 2
1.3. k-Nearest Neighbor ..................................................................................................................... 4
1.4. Naïve Bayes .................................................................................................................................. 7
1.5. Decision Tree ............................................................................................................................... 9
1.6. Clustering................................................................................................................................... 14
1.6.1. Algoritma Metode K-Means Clustering .......................................................................... 15
1.7. Estimasi dan Prediksi ............................................................................................................... 22
1.7.1. Estimasi .............................................................................................................................. 22
1.7.2. Prediksi .............................................................................................................................. 22
1.8. Association ................................................................................................................................. 23
1.9. Apriori........................................................................................................................................ 23
2. Data Warehouse ................................................................................................................................ 24
2.1. Online Transactional Processing (OLTP)............................................................................... 25
2.2. On-Line Analytical Processing (OLAP) .................................................................................. 25
2.3. Data Mart .................................................................................................................................. 26
2.3.1. Perbedaan Data Warehouse dengan Data Mart ............................................................ 26
2.4. Extraction, Transform, Load (ETL) ....................................................................................... 28
2.4.1. Extract ................................................................................................................................ 28
2.4.2. Transform .......................................................................................................................... 28
2.4.3. Load .................................................................................................................................... 29
2.5. Data Cleaning ............................................................................................................................ 29
2.6. Data Cube .................................................................................................................................. 29
Daftar Pustaka .......................................................................................................................................... 30

i
Daftar Gambar

Gambar 1.1. Bidang Ilmu Data Mining .......................................................................................2


Gambar 1.2. Meringkas Jumlah Kasus ........................................................................................11
Gambar 1.3. Menghitung Entropy Total ......................................................................................12
Gambar 1.4. Menghitung Gain ....................................................................................................13
Gambar 1.5 Memilih Atribut Sebagai Akar .................................................................................13
Gambar 1.6. Memilih Atribut Sebagai Node 1.1 .........................................................................14
Gambar 1.7. Memilih Atribut Sebagai Node 1.1.2 ......................................................................14
Gambar 1.8 Flowchart K-Means..................................................................................................15
Gambar 1.9 Bentuk Visualisasi Data ...........................................................................................17
Gambar 1.10 Menghitung jarak data ke centroid.........................................................................18
Gambar 1.11 Iterasi 1 (Mengalokasikan data pada centroid terdekat) ........................................19
Gambar 1.12 Iterasi 2 ...................................................................................................................20
Gambar 1.13 Hasil Clustering Akhir ...........................................................................................22
Gambar 2.1 Prinsip Data Warehouse ...........................................................................................24
Gambar 2.2 OLTP Vs Data Warehouse .......................................................................................25
Gambar 2.3 Data Mart bagian dari data warehouse .....................................................................27
Gambar 2.4 Data Mart .................................................................................................................27
Gambar 2.5 ETL Process .............................................................................................................28

ii
Daftar Tabel

Tabel 1.1 Data Pengujian Kasus 1 ............................................................................................... 5


Tabel 1.2. Data Square Distance .................................................................................................. 5
Tabel 1.3. Data tetangga terdekat berdasarkan jarak minimum ke K .......................................... 6
Tabel 1.4. Menentukan Kategori dari tetangga terdekat .............................................................. 6
Tabel 1.5. Data SPBU yang telah di dirikan ................................................................................ 7
Tabel 1.6. Data SPBU yang ingin di dirikan ............................................................................... 8
Tabel 1.7. Data Hasil Penentuan Lokasi Strategis ....................................................................... 9
Tabel 1.8. Data Kasus 2 Decision Tree........................................................................................ 10
Tabel 1.9 Dataset Kasus K-Means ............................................................................................... 17
Tabel 1.10 Menghitung Centroid Setiap Cluster ......................................................................... 17
Tabel 1.11 Hasil Centroid Setiap Cluster .................................................................................... 18
Tabel 1.12 Menghitung Centroid Setiap Kluster ......................................................................... 19
Tabel 1.13 Hasil Centroid Setiap Cluster .................................................................................... 19
Tabel 1.14 Menghitung Jarak Data Ke Centroid ......................................................................... 20
Tabel 1.15 Iterasi 2 ( Menghitung Centroid Setiap Cluster ) ....................................................... 21
Tabel 1.16 Iterasi 2 ( Hasil Centroid Setiap Cluster ) .................................................................. 21
Tabel 1.17 Menghitung Jarak Data Ke Centroid ......................................................................... 21
Tabel 1.18 Hasil Akhir Clustering Data ...................................................................................... 21

iii
1. Data Mining
1.1. Konsep Dasar Data Mining
Data mining merupakan sebuah cara agar pelaku bisnis dapat menjelajahi data
mandiri, membuat penemuan informatif, dan menempatkan informasi itu untuk
bekerja dalam kegiatan bisni sehari-hari.

Data mining adalah metoda yang digunakan untuk mengekstraksi informasi


prediktif tersembunyi pada database, ini adalah teknologi yang sangat potensial bagi
perusahaan dalam memberdayakan data warehouse. [1]

Sebuah perusahaan yang sudah berdiri selama belasan bahkan hingga puluhan
tahun, perusahaan yang telah memiliki banyak konsumen, banyak transaksi, dan
bahkan memiliki banyak cabang, biasanya akan memiliki banyak sekali data. Akan
tetapi data-data tersebut hanya akan menjadi arsip dan bukti historis dari aktivitas
perusahaan. Selebihnya data-data tersebut hanya akan tersimpan begitu saja dalam
media penyimpanan yang besar dan tidak akan ada yang mengakses data-data tidak
terpakai seperti itu. Semua itu akan terasa sangat rugi karena database server yang
dibangun dengan biaya mahal sebagai penyimpanan data tidak dipergunakan dengan
baik.

Apakah data tersebuh sebaiknya dibuang saja? Tidak! Justru data-data tersebut
adalah asset yang sangat berharga bagi perusahaan. Kita hanya perlu melihat dengan
cara yang sedikit berbeda. Yaitu dengan cara menambang data tersebut (data mining).
Dengan menggunakan tool data mining dapat memprediksi tren, perilaku, sehingga
mampu membuat perusahaan untuk semakin proaktif dan memperkaya pengetahuan
atau informasi dalam membuat keputusan bagi perusahaan.

Beberapa fungsi data mining yang digunakan untuk keperluan implementasi


mencakup [1] :

1. Mendeteksi pola kecurangan bertransaksi, klaim kartu kredit, dsb.


2. Memodelkan pola dan perilaku pembeli/konsumen.
3. Mengoptimasi performasi produk barang atau jasa

1
4. Mendeteksi kejadian pada perilaku, seperti menelusuri riwayat aktivitas yang
unik atau tidak wajar.
5. Memperlengkapi perusahaan dalam menemukan pola, dan korelasi data, yang
menuntun pada pengetahuan dan temuan bernilai lainnya.

Gambar 1.1. Bidang Ilmu Data Mining

Data mining dibagi menjadi beberapa kelompok berdasarkan tugas yang dapat
dilakukan, yiatu :

1. Klasifikasi
2. Clustering
3. Estimasi
4. Prediksi
5. Asosiasi

1.2. Klasifikasi (Classification)


Ada beberapa cara dalam mengklasifikasikan aplikasi DSS. Proses desain, serta
opearasi dan implementasi DSS, tergantung pada banyak kasus terhadap jenis DSS
yang terlibat. Perlu di ingat bahwa tidak semua DSS cocok dengan satu kategori/kelas.
Menurut Efraim Turban ada dua pendapat mengenai klasifikasi, yaitu [2].

2
1. Alter S Output Classification
Alter’s (1980), klasifikasi didasarkan pada “tingkat implikasi tindakan dari
output sistem” atau sejauh mana output sistem dapat secara langsung
mendukung (atau menentukan) keputusan tersebut. Menurut klasifikasi ini
terdapat 3 kategori DSS dapat di lihat pada tabel 1.1.
2. Holsapple And Whinston’s Classification
Holsapple and Whinston (1996), mengklasifikasikan DSS ke dalam enam
framewok, yaitu, text-oriented DSS, database-oriented DSS, spreadsheet-
oriented DSS, solver-oriented DSS, rule-oriented DSS, dan compound DSS.
1. Text-oriented DSS
DSS ini memungkinkan dokumen dokumen untuk dibuat secara
elektronik, direvisi dan dilihat ketika diperlukan. Imaging dokumen
berbasis Web, hypertext, dan agen cerdas dapat digabungkan kedalam
aplikasi DSS berorientasi teks.
2. DSS Berorientasi Database
Pada jenis ini database merupakan peran utama, yang mana isisnya
terorganisir dan terstruktur.
3. DSS Berorientasi Spreadsheet
DSS ini berisi informasi dalam Spreadsheet yang memungkinkan untuk
membuat, melihat, serta memodifikasi pengetahuan procedural dan juga
menginstruksikan sistem untuk menjalankan instruksi mandiri. Untuk
DSS berorientasi Spreadsheet, Tools yang paling popular dan paling
banyak diketahui adalah Excel dan Lotus 123.
4. DSS Berorientasi Solve
Hal ini didasarkan pada solver atau penyelesaian masalah, yang
merupakan algoritma atau prosedur tertulis untuk melakukan
perhitungan tertentu dan jenis program tertentu.
5. DSS Berorientasi Aturan
DSS ini mengikuti prosedur tertentu yang diadopsi sebagai aturan yang
nantinya akan digunakan.

3
6. DSS Gabungan
DSS yang dibangun dengan menggunakan dua atau lebih dari lima
struktur yang telah dipaparkan di atas.
7. DSS Cerdas
Jenis ini juga lebih sering disebut sebagai sistem pendukung keputusan
berbasis pengetahuan.

Klasifikasi data terdiri dari 2 langkah proses. Pertama adalah learning (fase
training), dimana algoritma klasifikasi dibuat untuk menganalisa data training lalu
direpresentasikan dalam bentuk rule klasifikasi. Proses kedua adalah klasifikasi,
dimana data tes digunakan untuk memperkirakan akurasi dari rule klasifikasi [3].

Dalam melakukan klasfikasi, terdapat beberapa algoritma yang bias di gunakan,


yaitu k-Nearest Neighbor, RainForest, C4.5, Decision tree, Naïve Bayesian, dan masih
banyak lagi. Pada kesempatan kali ini akan di jelaskan mengenai 3 algortima saja,
yaitu k-nearest Neighbor, Decision tree, dan Naïve Bayesian.

1.3. k-Nearest Neighbor


Nearest Neighbor adalah pendekatan untuk mencari kasus dengan menghitung
kedekatan antara kasus baru dengan kasus lama, yaitu berdasarkan pada percocokan
bobot dari sejumlah fitur yang ada. [4]
KNN adalah sebuah metode klasifikasi terhadap sekumpulan data berdasarkan
pembelajaran data yang sudah terklasifikasikan sebelumnya. Termasuk dalam
supervised learning, dimana hasil query instance yang baru di klasifikasikan
berdasarkan mayoritas kedekatan jarak dari kategori yang ada dalam KNN.

Contoh Kasus :

Data didapatkan dari kuisioner dengan obyek pengujian berupa dua atribut (daya
tahan keasaman dan kekuatan) untuk mengklasifikasikan apakah sebuah kertas tissue
tergolong kualitas bagus atau jelek. Berikut contoh datanya.

Rumus : {1}

4
Tabel 1.1 Data Pengujian Kasus 1

X1 = Daya tahan X2 = Kekuatan Klasifikasi


keasamaan (detik) (kg/meter persegi)
7 7 Jelek
7 4 Jelek
3 4 Bagus
1 4 Bagus

Sebuah prabik memproduksi kertas tissue baru yang memiliki X1 = 3 dan X2= 7.
Tentukan apakah kertas tissue baru termasuk klasifikasi apa (jelek atau bagus).

Langka-langkah Penyelesaian :

1. Tentukan parameter K= jumlah banyaknya tetangka terdekat. Missal K=3


2. Hitung jarak antara data baru dan semua data yang ada di data training. Missal
digunakan square distance dari jarak antara data baru dengan semua data yang
ada di data training.
Tabel 1.2. Data Square Distance

X1 = Daya tahan X2 = Kekuatan Square Distance ke data


keasaman (detik) (kg/meter persegi) baru (3, 7)
7 7 (7-3)2+(7-7)2 = 16
7 4 (7-3)2+(4-7)2 = 25
3 4 (3-3)2+(4-7)2 = 9
1 4 (1-3)2+(4-7)2 = 13

3. Urutkan jarak tersebut dan tentukan tetangga mana yang terdekat berdasarkan
jarak minimum ke – K.

5
Tabel 1.3. Data tetangga terdekat berdasarkan jarak minimum ke K

X1 X2 Square Distance Urutan Apakah


(Ranking) termasuk 3-
Jarak NN
7 7 (7-3)2+(7-7)2 = 16 3 Ya
7 4 (7-3)2+(4-7)2 = 25 4 Tidak
3 4 (3-3)2+(4-7)2 = 9 1 Ya
1 4 (1-3)2+(4-7)2 = 13 2 Ya

4. Tentukan kategori dari tetangga terdekat. Perhatikan pada baris kedua pada kolom
terakhir: katagori dari tetangga terdekat (Y) tidak termasuk karena ranking dari
data ini lebih dari 3 (=K).
Tabel 1.4. Menentukan Kategori dari tetangga terdekat

X1 X2 Square Distance Urutan Apakah Y=


(Ranking) termasuk Category
Jarak 3-NN of nearest
Neighbor
7 7 (7-3)2+(7-7)2 = 16 3 Ya Jelek
7 4 (7-3)2+(4-7)2 = 25 4 Tidak -
3 4 (3-3)2+(4-7)2 = 9 1 Ya Bagus
1 4 (1-3)2+(4-7)2 = 13 2 Ya Bagus

5. Gunakan kategori mayoritas yang sederhana dari tetangga yang terdekat


tersebut sebagai nilai prediksi dari data yang baru.

Hasil : Kita punya 2 kategori Bagus dan 1 Kategori Jelek, karena 2 > 1 maka kita
simpulkan bahwa kertas tissue baru tadi yang memiliki X1=3 dan X2=7 adalah
kertas tissue dengan klasifikasi Bagus.

6
1.4. Naïve Bayes
Naie bayes merupakan sebuah metode klasifikasi yang berakar pada teorema bayes.
Bila terdapat dua kejadian yang terpisah (misalkan A dan B), maka teorema Bayes
dirumuskan sebagai berikut :

{2}
Teorema Bayes sering pula dikembangkan mengingat berlakunya hukum
probabilitas total, menjadi seperti berikut:

{3}
Untuk menjelaskan teorema Naïve Bayes, perlu dietahui bahwa proses klasifikasi
memerlukan sejumlah petunjuk untuk menentukan kelas apa yang cocok bagi sampel
yang dianalisis tersebut [5]. Karena itu, teorema Bayes diatas disesuaikan sebagai
berikut:

{4}
Contoh Kasus :

PT. Pertamina berencana membuka satu SPBU baru di Jl. Merah Putih dengan kondisi
sebagai berikut:
1. Lebar Jalan - jalan tol
2. Volume kendaraan – sepi
3. Jumlah pesaing (SPBU) - >1
4. Jumlah pemukiman - <3000
Bila didapat suatu data lokasi dari 10 SPBU yang telah didirikan.
Tabel 1.5. Data SPBU yang telah di dirikan
Jalan Lebar Jalan Volume Jumlah Jumlah Lokasi
Kendaraan Pesaing Pemukiman Strategis
Jl. Pahlawan Jalan 2 mobil Sedang 1 <3000 Tidak
Jl. Berduri Jalan tol Ramai >1 3000-5000 Ya
Jl. Insiden Jalan 4 mobil Ramai 0 <3000 Ya
Jl. Deklarasi Jalan 4 mobil Sepi 1 <3000 Tidak
Jl. Bangkok Jalan 2 mobil Ramai 0 >5000 Ya

7
Jl. Harapan Jalan tol Sepi >1 <3000 Tidak
Jl. Marzuki Jalan 4 mobil Sedang 0 3000-5000 Ya
Jl. Denpasar Jalan 2 mobil Sepi 0 <3000 Tidak
Jl. H.Soleh Jalan 4 mobil Ramai 0 <3000 Ya
Jl. M.Said Jalan tol Sepi 1 >5000 Ya

Tabel 1.6. Data SPBU yang ingin di dirikan

Jalan Lebar Jalan Volume Jumlah Jumlah Lokasi


Kendaraan Pesaing Pemukiman Strategis
Jl. Merah Putih Jalan tol Sepi >1 <3000 ????

Rumus menghitung probabilitas masa datang :

Keterangan :

P(c|x) posterior probability dari class (target) tiap predictor (attribute).

P(c) prior probability dari class.

P(x|c) likelihood : probability dari predictor tiap class.

P(x) prior probability dari predictor.

Jumlah data = 10
Ya = lokasi strategis bernilai “ya”
Tidak = lokasi strategis bernilai “tidak”

8
Dari 10 data, jumlah lokasi strategis yang bernilai “ya” = 6 , dan yang benilai “tidak”
=4

Maka,

P(Ya) = 6/10 = 0.6 P(Tidak) = 4/10 = 0.4


P(Jalan tol | Ya) = 2/6 = 0.33 P(Jalan tol | Tidak) = 1/4 = 0.25
P(Sepi | Ya) = 1/6 = 0.16 P(Sepi | Tidak) = 3/4 = 0.75
P(>1 | Ya) = 1/6 = 0.16 P(>1 | Tidak) = 1/4 = 0.25
P(<3000 | Ya) = 2/6 = 0.33 P(<3000 | Tidak) = 4/4 = 1

Karena nilai ”prosterior tidak” lebih besar dari “prosterior ya” maka lokasi strategis
= Tidak
Tabel 1.7. Data Hasil Penentuan Lokasi Strategis
Jalan Lebar Jalan Volume Jumlah Jumlah Lokasi
Kendaraan Pesaing Pemukiman Strategis
Jl. Merah Putih Jalan tol Sepi >1 <3000 Tidak

1.5. Decision Tree


Metode decision tree merupakan metode yang ada pada teknik klasifikasi dalam
data mining [6]. Metode pohon keputusan mengubah fakta yang besar menjadi sebuah
pohon keputusan untuk merepresentasikan sebuah aturan.
Menurut Santosa (2007), decision tree sesuai digunakan untuk kasus-kasus dimana
outputnya bernilai diskret. Decision tree memiliki banyak variasi model dengan
tingkat kemampuan yang berbeda-beda, akan tetapi pada umumnya penggunaan
decision tree memiliki ciri khusus, antara lain sebagai berikut :
1. Data dinyatakan dengan pasangan atribut dan nilainya.
2. Label atau output data biasanya bernilai diskret.
3. Untuk membuat decision tree, perlu diperhatikan :
4. Atribut mana yang akan dipilih untuk pemisahan obyek.
5. Urutan atribut manayang akan dipilih terlebih dahulu.
6. Kriteria pemberhentian.

9
Berikut contoh kasus menggunakan algoritma C4.5 :

Tabel 1.8. Data Kasus 2 Decision Tree

NO OUTLOOK TEMPERATUR HUMIDITY WINDY PLAY


1 Sunny Hot High FALSE NO
2 Sunny Hot High TRUE NO
3 Cloudy Hot High FALSE YES
4 Rainy Mild High FALSE YES
5 Rainy Cool Normal FALSE YES
6 Rainy Cool Normal TRUE YES
7 Cloudy Cool Normal TRUE YES
8 Sunny Mild High FALSE NO
9 Sunny Cool Normal FALSE YES
10 Rainy Mild Normal FALSE YES
11 Sunny Mild Normal TRUE YES
12 Cloudy Mild High TRUE YES
13 Cloudy Hot Normal FALSE YES
14 Rainy Mild High TRUE NO
Algoritma C4.5 :

1. Pilih atribut sebagai akar


2. Buat cabang untuk tiap-tiap nilai
3. Bagi kasus dalam cabang
4. Ulangi proses untuk setiap cabang sampai semua kasus pada cabang memiliki
kelas yang sama.

Gain :
n
Gain(S,A)=Entropy(S) - ∑ |Si| * Entropy(Si)
i=1 |S|
S : Himpunan kasus
A : Atribut
n : Jumlah partisi atribut a
|Si| : Jumlah kasus pada partisi ke-I
|S| : Jumlah kasus dalam S

10
Entropy
n
Entropy(S)= ∑ - pi * log2 pi
i=1
S : Himpunan kasus
N : Jumlah partisi S
Pi : Proporsi dari Si terhadap S

Meringkas Jumlah Kasus:

Gambar 1.2. Meringkas Jumlah Kasus

Menghitung Entropy Total :


n
Entropy(S) = ∑ - pi * log2 pi
i=1

Entropy(Total) = (-4/14*log2(4/14))+
(-10/14 * log2(10/14))

Entropy(Total) = 0.863121

11
Gambar 1.3. Menghitung Entropy Total
Menghitung Gain :
n
Gain(S,A)=Entropy(S) - ∑ |Si| * Entropy(Si)
i=1 |S|

Gain(Total,OutLook)= Entropy(Total) –
n
∑ |OutLook| * Entropy(OutLook)
i=1 |Total|

Gain(Total,OutLook)= 0.8631206 –
((4/14*0)+(5/14*0.722)+(5/14*0.97))

Gain(Total,OutLook)=0.258521

12
Gambar 1.4. Menghitung Gain

Gambar 1.5 Memilih Atribut Sebagai Akar

13
Gambar 1.6. Memilih Atribut Sebagai Node 1.1

Gambar 1.7. Memilih Atribut Sebagai Node 1.1.2

1.6. Clustering
Berbeda dengan association rule mining dan klasifikasi di mana kelas data telah
ditentukan sebelumnya, clustering melakukan pengelompokan data tanpa
berdasarkan kelas data tertentu [7]. Prinsip dari clustering sendiri adalah untuk
memaksimalkan kesamaan antar anggota satu kelas dan meminimalkan kesamaan
antar cluster.

14
Kesamaan merupakan sebuah dasar untuk mendefinisikan sebuah cluster, ukuran
kesamaan antara dua pola yang diambil dari ruang fitur yang sama sangat penting
didalam algoritma clustering.
Potensi clustering adalah dapat digunakan untuk mengetahui struktur dalam data
yang dapat dipakai lebih lanjut dalam berbagai aplikasi secara luas seperti
klasifikasi, pengolahan gambar, dan pengenalan wajah [4]. Salah satu algoritma
yang digunakan dalam metode clustering adalah algoritma K-Means Clustering.

1.6.1. Algoritma Metode K-Means Clustering

Gambar 1.8 Flowchart K-Means


Secara umum algoritma dasar dari K-Means Clustering adalah sebagai berikut:
a. Tentukan jumlah cluster.
b. Alokasikan data ke suatu cluster secara random
c. Hitung centroid/rata-rata dari data yang ada di masing-masing cluster.
d. Alokasikan masing-masing data ke centroid/rata-rata terdekat
e. Kembali ke step 3, bila ada data yang berpindah cluster/bila perubahan
nilai centroid, ada yang di atas nilai threshold yang ditentukan/bila

15
perubahan nilai pada objective function yang digunakan di atas nilai
threshold yang ditentukan.

K-Means mengelompokkan objek menjadi K kluster. Metode ini akan


mencari pusat kluster dan batas-batas kluster melalui proses perulangan
(iterative).kedekatan atau kemiripan (similarity) suatu objek dengan objek
lain atau dengan pusat kluster dihitung dengan menggunakan fungsi jarak. [8]

Menentukan Centroid (titik pusat) setiap kelompok diambil dari nilai rata-
rata (Means) semua nilai data pada setiap fiturnya. Jika M menyatakan jumlah
data pada suatu kelompok, I menyatakan fitur ke-I dalam sebuah kelompok,
berikut rumus untuk menghitung centroid :

{5}

Hitung jarak titik terdekat (Euclidean Distance) :

{6}

Pengalokasian keanggotaan titik :

{7}

Fungsi Objektif :

{8}

Berikut contoh studi kasus untuk penggunaan algoritma K-Means Kluster :

16
Tabel 1.9 Dataset Kasus K-Means

Inisialisasi :

K = 3,
Fungsi Objektif (F) = 0,
Threshold (T) = 0.8, dan Data dicluster sebanyak K secara random.
Tentukan Hasil Akhir Clusteringnya !

Bentuk Visualisasi data :

Gambar 1.9 Bentuk Visualisasi Data

Tabel 1.10 Menghitung Centroid Setiap Cluster

17
Tabel 1.11 Hasil Centroid Setiap Cluster

Menghitung jarak data ke centroid (Euclidean Distance) :

Gambar 1.10 Menghitung jarak data ke centroid

Sehingga, F baru = 1.0000 + 13.1746 + 3.3333 = 17.5079

Delta = | F baru – F lama | 17.5079 – 0 | = 17.5079 (> T), Lanjutkan !

Iterasi 1 : (Mengalokasikan setiap data pada centroid terdekat)

18
Gambar 1.11 Iterasi 1 (Mengalokasikan data pada centroid terdekat)

Tabel 1.12 Menghitung Centroid Setiap Kluster

Tabel 1.13 Hasil Centroid Setiap Cluster

19
Tabel 1.14 Menghitung Jarak Data Ke Centroid

Sehingga,F baru = 1.0000 + 3.7370 + 7.1093 = 11.8464

Delta = | F baru – F lama | = | 11.8464 – 17.5079 | = 5.6615 (> T), Lanjutkan!

Iterasi 2 : (Mengalokasikan setiap data pada centroid terdekat)

Gambar 1.12 Iterasi 2

20
Tabel 1.15 Iterasi 2 ( Menghitung Centroid Setiap Cluster )

Tabel 1.16 Iterasi 2 ( Hasil Centroid Setiap Cluster )

Tabel 1.17 Menghitung Jarak Data Ke Centroid

Sehingga,F baru = 2.5893 + 3.7370 + 4.7976 = 11.1239

Delta = | F baru – F lama | = | 11.1239 – 11.8464 | = 0.7224 (<T), Stop Iterasi!

Tabel 1.18 Hasil Akhir Clustering Data

21
Gambar 1.13 Hasil Clustering Akhir

1.7. Estimasi dan Prediksi


1.7.1. Estimasi
Estimasi hampir sama dengan klasifikasi, kecuali variable target estimasi
lebih kearah numerik daripada ke arah kategori. Model dibangun menggunakan
record lengkap yang menyediakan nilai dari bariabel target sebagai nilai
prediksi. Sebagai contoh, akan di lakukan estimasi tekanan darah sistolik pada
pasien rumah sakit berdasarkan umur pasien, jenis kelamin, indeks berat badan,
dan level sodium darah. Hubungan antara tekanan daraj sistolik dan nilai
variable prediksi dalam proses pembelajaran akan menghasilkan model
estimasi. [4]

1.7.2. Prediksi
Prediksi lebih menekankan pada identifikasi trend dari distribusi
berdasarkan data yang tersedia. Data mining digunakan untuk prediksi,
memprediksi apa yang akan terjadi di masa mendatang. Misalnya prediksi
harga stok 3 bulan yang akan datang, prediksi kenaikan presentase meninggal
dalam kecelakaan tahun depan jika batas kecepatan dinaikan.
Prediksi adalah mengkonstruksi satu atau lebih sekumpulan data model
(misalnya: pohon keputusan), menarik kesimpulan dari data set yang ada,
melakukan prediksi perilaku data set yang baru. [1]

22
1.8. Association
Associaton rule merupakan metode yang sering dijumpai ketika melibatkan sebuah
dataset yang mengandung transaksi. Secara umum association rule memiliki dua
bagian penting yaitu antecedent (sebab) yang biasa diistilahkan dengan IF dan
consequent (akibat) yang biasa diistilahkan dengan THEN. Antecedent merupakan
item-item yang terdapat di dalam basket atau dataset, sementara consequent
merupakan item yang dihasilkan dari analisis kejadian item-item yang erambil
sebelumnya. [9]
Association rules digunakan untuk menganalisis pola-pola yang seting keluar, yaitu
pola yang sering dipakai pembeli dalam membeli item produk.

1.9. Apriori
Algoritma apriori termasuk jenis aturan asosiasi pada data mining. Menurut Erwin
(2009), algoritma apriori merupakan salah satu algoritma yang melakukan pencarian
frequent intemset dengan memakai teknik association rule [7].
Pada algoritma apriori menentukan kandidat yang mungkin muncul dengan cara
memerhatikan minimum support & minimum confidence. Support adalah nilai
pengunjung atau presentase kombinasi sebuah item dalam database. Rumus support
adalah seperti persamaan 9 di bawah.

{9}
Sedangkan confidence adalah nilai kepastian yaitu kuatnya hubungan antar item
dalam sebuah Apriori. Rumus untuk menghitung confidence di tunjukan oleh
persamaan 10.

{10}
Langkah-langkah yang digunakan pada algoritma apriori diberikan sebagai berikut:
1. Mencari frequent itemsets yang terdiri dari k-item
2. Menggunakan frequent itemsets untuk membangun kaidah aturan asosasi
(association rule).
3. Kemudian membentuk k+1 frequent itemset dari Panjang k-frequent itemset.

23
4. Memotong atau memangkas semua masing-masing kandidat itemset dari
keseluruhan database dengan masukan min support.
5. Memangkas kandidat itemsets yang tidak frequent sehingga menghasilkan
aturan yang didapatkan berdasarkan minsup yang dimasukkan oleh user.

2. Data Warehouse
Data warehouse ialah sekumpulan informasi yang disimpan dalam baris data yang
digunakan untuk mendukung pengambilan keputusan dalam sebuah organisasi [10].
Pembangunan sebauh data warehouse merupakan salah satu cara atau teknik untuk
mengekstrak informasi penting dari data-data yang tersebar pada beberapa sistem
informasi ke dalam suatu penyimpanan terintegrasi yang terpusatkan dan mendukung
adanya kebutuhan akan data history.
Data warehouse digunakan untuk mendukung pengambilan keputusan, bukan
untuk melaksanakan perosesan transaksi. Data warehouse meliputi extraction,
transportation, transformation, loading solution, online analytical processing
(OLAP),client analysis tool, dan aplikasi lain yang mengatur proses pengumpulan data dan
mengirimkan ke business user. Contoh data warehouse adalah sebagai berikut : data
penjualan pada suatu perusahaan. Dengan data warehouse maka dapat menjawab
pertanyaan “Siapakah customer terbesar pada akhir tahun?”.

Gambar 2.1 Prinsip Data Warehouse

24
2.1. Online Transactional Processing (OLTP)

Gambar 2.2 OLTP Vs Data Warehouse


Salah satu perbedaan utama data warehouse dengan OLTP adalah data warehouse
tidak selalu dalam bentuk normal ketiga (3NF), sedangkan OLTP biasanya dalam
bentuk normal ketiga (3NF).
OLTP merupakan suatu class program yang memfasilitasi dan mengatur aplikasi
berorientasi transaksi, khususnya untuk data entry dan transaksi pencarian pada
sejumlah industry meliputi banking, airlines, mailorder, supermarket. [11]

2.2. On-Line Analytical Processing (OLAP)


OLAP merupakan komponen dari Microsoft Analysis Services, keduanya
menyediakan decision support tools, namun masing-masing didesain untuk
penggunaan yang berbeda. OLAP pada dasarnya didesain untuk menyimpan data
dalam tabel yang ringkas untuk memfasilitasi retrieve dan navigasi data tersebut oleh
end user. [12]
Terdapat 4 kategori OLAP, yaitu :
1. Multidimensional On-Line Analytical Processing (MOLAP), digunakan untuk
membangun cube multidimensional dari data yang disimpan dalam data
warehouse.

25
2. Relational On-Line Analytical Processing (ROLAP), mekanisme penyimpanan
ROLAP menggunakan DBMS orisinil, seperti SQL Server, untuk menyiman
agregasi dalam bentuk tabung yang kemudian dapat digunakan oleh mesin
OLAP.
3. Hybrid On-Line Analytical Processing (HOLAP), HOLAP di desain dengan
mengkombinasikan keuntungan MOLAP dan ROLAP dengan menyimpan
agregasi level tinggi pada cube MOLAP dan menyimpan agregasi level rendah
dan line item pada tabel relational database.
4. Desktop On-Line Analytical Processing (DOLAP), peningkatan kategori yang
terkenal dari OLAP adalah DOLAP. System DOLAP menyimpan data OLAP
di dalam file berbasis klien dan mendukung proses multi dimensi menggunakan
sebuah sistem multi dimensi klien.

2.3. Data Mart


Data Mart merupakan sebuah fasilitas yang berhubungan dengan suatu data
warehouse, tetapi untuk domain yang jauh lebih kecil. Data mart dapat dibatasi pada
jenis tertentu dari data input, pada suatu fungsi bisnis tertentu, atau pada unit bisnis
atau area geografis tertentu. [13]
Untuk membuat sebuah data warehouse menjadi sederhana cukup dengan
membatasi suatu data mart pada suatu jenis data tertentu, seperti database dan
spreadsheet, dan kemungkinan lain juga berarti bahwa sebuah produk DBMS di
pasaran dapat digunakan untuk mengelola sebuah Gudang data.
Pada umummnya data mart memiliki beberapa karakteristik yang harus kita
ketahui, yaitu :
1. Fokus hanya pada kebutuhan dari satu department atau fungsi bisnis.
2. Secara normal tidak mengandung data operasional yang detail seperti data
warehouse.
3. Lebih mudah dimengerti dan dinavigasi

2.3.1. Perbedaan Data Warehouse dengan Data Mart


Terdapat beberapa karakteristik dalam membedakan data mart dan data
warehouse, di tunjukan pada gambar 2.3. [11]

26
Gambar 2.3 Data Mart bagian dari data warehouse
a. Data mart hanya mengandung sedikit informasi dibandingkan dengan
data warehouse.
b. Data mart memfokuskan hanya pada kebutuhan-kebutuhan pemakai
yang terkait dalam sebuah departemen atau fungsi bisnis.
c. Data mart biasanya tidak mengandung data operasional yang rinci
seperti pada data warehouse.
d. Data mart adalah bagian (subset) dari data warehouse yang sederhana,
lebih cepat bekerja.
e. Data mart merupakan data tingkat departemen/bidang sedang data
warehouse merupakan data tingkat Lembaga/perusahaan
f. Data mart berasal dari proses bisnis tunggal, sedangkan data warehouse
berasal dari gabungna semua data mart
g. Data mart ditunjukkan dalam struktur data, sedang data warehouse
biasanya ditunjukan dalam E-R model.

Gambar 2.4 Data Mart

27
2.4. Extraction, Transform, Load (ETL)
ETL merupakan singkatan dari Extraction, yaitu proses untuk mengumpulkan data
dari berbagai sumber, Transform memindahkan dan membersihkannya, kemudian
Load untuk menyimpan ke dalam sistem yang lain. [14]
ETL adalah sekumpulan proses yang harus dilalui dalam pembentukan data
warehouse. Tujuan ETL adalah mengumpulkan, menyaring, mengolah dan
menggabungkan data-data yang relevan dari berbagai sumber untuk disimpan ke
dalam data warehouse. Proses ETL sendiri terdiri dati extracting, transform, loading.

Gambar 2.5 ETL Process

2.4.1. Extract
Extract adalah proses memilih dan mengambil data dari satu atau beberapa
sumber dan membaca/mengakses data yang dipilih tersebut. Proses ini dapat
menggunakan query, atau aplikasi ETL. Sebaiknya sebelum proses extract kita
lakukan, akan lebih mudah jika user sudah mendefinisikan kebutuhan terhadap
sumber data yang akan kita butuhkan.

2.4.2. Transform
Pada Proses ini data yang telah diambil pada proses extract akan dibersihkan
dan mengubah data dari bentuk asli menjadi bentuk yang sesuai dengan
kebutuhan data warehouse. Kendala yang biasanya terjadi pada proses

28
transform adalah sulitnya menggabungkan data dari beberapa sistem yang harus
dibersihkan sehingga data bersifat konsisten.

2.4.3. Load
Load adalah proses terakhir yang berfungsi untuk memasukkan data ke
dalam target akhir, yaiut ke dalam data warehouse. Cara untuk memasukkan
data adalah dengan menjalankan SQL script secara periodic. Pada proses ini
akan mengubah data kedalam bentuk dimensional data storage adar format data
cocok untuk diterapkan pada proses analisis dan telah terintegrasi dengan
beberapa sumber data. Proses Load yang termasuk proses terakhir dalam ETL
akan sampai ke berbagai macam output yang sesuai dengan skemanya, yaitu
terdiri dari proses load-up data (lodup), load-insert data (lodins), dan load bulk
data (lodbold).

2.5. Data Cleaning


Pada umumnya data yang diperoleh baik dari database suatu perusahaan maupun
hasil eksperimen, memiliki isian-isian yang tidak sempurna seperti data yang hilang,
data yang tidak valid atau juga hanya sekedar salah ketik. Selain itu, ada juga atribut-
atribut data yang tidak relevan dengan hipotesa data mining yang kita miliki. Data-
data yang tidak relevan itu juga lebih baik dibuang karena keberadaannya bias
mengurangi mutu atau akurasi dari hasil data mining nantinya. Pembersihan data juga
akan mempengaruhi perfomasi dari sistem data mining karena data yang ditangai
akan berkurang jumlah dan kompleksitasnya.
Pada dasarnya data cleaning merupakan proses menghilangkan noise dan data yang
tidak konsisten atau data tidak relevan, seperti data jenis kelamin pada analisan
kehamilan.

2.6. Data Cube


Data cube adalah sebuah struktur yang memungkinkan OLAP untuk mencapai
fungsi multidimensional. Data cube di desain untuk efisiensi dalam melakukan
pengambilan data (memastikan optimasi laporan), data cube sebanding dengan tabel
dalam sebuah database relasional.

29
Daftar Pustaka

[1] F. Sulianta and D. Juju, Data Mining, Jakarta: PT.Elex Media Komputindo, 2010.

[2] E. Turban, E. J. Aronson and T.-P. Liang, Decicion Support Systems And Intelligent
System, New Delhi: Asoke K. Ghosh, 2007.

[3] H. Leidiyana, "Penerapan Algoritma K-Nearest Neighbor Untuk Penentuan Resiko Kredit
Kepemilikan Kendaraan Bermotor," Jurnal Penelitian Ilmu Komputer, System Embedded &
Logic, pp. 65-76, 2013.

[4] K. and E. T. Luthfi, Algoritma Data Mining, Yogyakarta: Andi Offset, 2009.

[5] T. Rosandy, "PERBANDINGAN METODE NAIVE BAYES CLASSIFIER DENGAN


METODE DECISION TREE (C4.5) UNTUK MENGANALISA KELANCARAN
PEMBIAYAAN," Jurnal TIM Darmajaya, vol. 02, pp. 52 - 62, 2016.

[6] P. S. S. I. F. U. M. Chung, Studi Kasus Sistem Berbasis Pengetahuan, Malang: Seribu


Bintang, 2018.

[7] A. M. Siregar and A. Puspabhuana, Data Mining : Pengolahan Data Menjadi Informasi
dengan Rapidminer, Surakarta: CV. Kekata Group, 2002.

[8] D. Putra, Pengolahan Citra Digital, Yogyakarta: Andi Offset, 2010.

[9] S. Adinugroho and Y. A. Sari, Implementasi Data Mining Menggunakan WEKA, Malang:
UB Press, 2018.

[10] A. Handojo and S. Rostianingsih, "Pembuatan Data Warehouse Pengukuran Kinerja Proses
Belajar Mengajar Di Jurusan Teknik Informatika Universitas Kristen Petra," Jurnal
Informatika, vol. 5, pp. 53-58, 2004.

[11] L. Muflikhah, D. E. Ratnawati and R. R. M. Putri, Data Mining, Malang: UB Press, 2018.

[12] Indrajani, Database System All In One Theory, Practice, And Case Study, Jakarta: Elex
Media Komputindo, 2018.

30
[13] D. M. Kroenke, Database Processing, Jakarta: Erlangga, 2005.

[14] A. S. Kusumo, Inteligensi Bisnis SQL Server 2004, Jakart: PT. Elex Media Komputindo,
2017.

[15] M. S. Brown, Data Mining For Dummies A Wiley Brand, New Jersey: John Wiley & Sons,
Inc, 2014.

[16] M. Aryuni, "Binus University," Binus University, 15 12 2016. [Online]. Available:


https://sis.binus.ac.id/2016/12/15/tahap-tahap-data-mining/. [Accessed 13 11 2018].

31

Anda mungkin juga menyukai