A. DECISION TREE
1. Konsep Decision Tree
Mengubah data menjadi pohon keputusan (decision tree) dan aturan-aturan keputusan (rule).
Sebagai contoh misalnya ingin membuat aturan yang dapat digunakan untuk menentukan apakah seseorang
mempunyai potensi untuk menderita hipertensi atau tidak berdasarkan data usia, berat badan dan jenis
kelamin.
4. Contoh
Misalnya dicari aturan yang dapat digunakan untuk menentukan apakah seseorang menderita
hipertensi atau tidak. Data yang diambil sebanyak 8 sampel dengan perkiraan bahwa yang
mempengaruhi seseorang menderita hipertensi atau tidak adalah usia, berat badan dan jenis kelamin.
Dimana masing-masing atribut yang diduga berpengaruhi tersebut memiliki nilai (intance):
Usia mempunyai instance Muda dan Tua
Berat Badan mempunyai instance Underweight, Average dan Overweight
Jenis Kelamin mempunyai instance Pria dan Wanita
Langkah-langkah untuk menyelesaikan kasus diatas dengan algoritma Decision Tree adalah:
2
Node terpilih adalah kriteria dengan entropy terkecil.
Lakukan perhitungan untuk semua kriteria, hasil perhitungannya misalnya seperti dibawah ini:
Berdasarkan perhitungan entropy diatas, maka diperoleh atribut BERAT BADAN sebagai node
awal karena memiliki entropy terkecil.
b. Menyusun Tree
Dari hasil perhitungan entropy, maka dapat disusun tree awal seperti gambar berikut :
Node berikutnya dapat dipilih dengan cara mencari bagian yang mempunyai nilai + dan - . Pada
contoh diatas hanya berat=overweight yang mempunyai nilai + dan -, maka semuanya pasti
memiliki leaf node. Untuk menyusun leaf node dilakukan satu persatu.
Penentuan leaf node untuk cabang berat = overweight
3
Dari perhitungan diatas, terlihat bahwa hasil perhitungan Entropy Usia dan Kenis Kelamin
menunjukkan nilai yang sama. Jika terdapat kasus seperti ini, maka cara lain adalah dengan
menggunakan bantuan pakar untuk menentukan mana yang lebih penting atau percaya dengan
hasil acak. Selanjutnya menyusun tree untuk leaf node, misalnya secara acak dipilih kriteria
Jenis Kelamin.
Pada usia=tua ternyata ada 1 data yang menyatakan ya dan 1 data yang menyatakan tidak,
keadaan ini perlu dicermati . Pilihan hanya dapat ditentukan dengan campur tangan seorang
pakar.
Menyusun node tree lanjutan
4
c. Mengubah Tree menjadi Rule
Dari rule yang sudah dihasilkan, maka diperoleh rule sebagai berikut :
Rule 1: IF berat=average OR berat=underweight THEN hipertensi=tidak
Rule 2: IF berat=overweight AND kelamin=wanita THEN hipertensi=ya
Rule 3: IF berat=overweight AND kelamin=pria AND usia=muda THEN hipertensi=ya
Rule 4: IF berat=overweight AND kelamin=pria AND usia=tua THEN hipertensi=tidak
Menyederhanakan Rule
1) Membuat tabel distribusi terpadu dengan menyatakan semua nilai kejadian pada setiap rule.
5
2) Menghitung tingkat independensi antara kriteria pada suatu rule, yaitu antara atribut dan target
atribut dengan Uji Statistik Chi-Square
Selanjutnya dihitung tingkat dependensi antara kriteria Berat Badan terhadap Hipertensi :
Derajat Kebebasan adalah (jumlah baris-1)(jumlah kolom -1) =(2-1)(3-1) dan nilai tingkat
keercayaan α =5%. Didapatkan nilai χ2 α yang didapat dari tabel distribusi Chi-Square adalah
6.27.
Karena nilai χ2hitung > χ2tabel yaitu 19,2 > 6,27 maka Tolak H0 artinya kriteria berat ini
dependent sehingga tidak dapat dihilangkan
Kriteria Usia
H0 : Usia tidak dependent terhadap Hipertensi
H1 : Usia dependensi terhadap Hipertensi
Dengan cara yang sama dengan cara perhitungan untuk kriteria Berat Badan, maka didapatkan
nilai χ2hitung sebesar 2,13 dan χ2tabel yaitu 3,89 dengan demikian χ2hitung < χ2tabel artinya
Terima H0 sehingga kriteria usia ini independent terhadap hipertensi dan dapat dihilangkan.
6
3) Mengeliminasi kriteria yang tidak perlu, yaitu yang tingkat independensinya tinggi.
Dengan melihat hasil perhitungan nilai dependensi setiap kriteria terhadap hipertensi
didapatkan bahwa :
Kriteria Berat Badan dependent terhadap Hpertensi Tidak dapat dihilangkan
Kriteria Jenis Kelamin tidak dependent terhadap Hipertensi Dapat dihilangkan
Kriteria Usia tidak dependent terhadap Hipertensi Dapat dihilangkan
Rule Awal :
7
B. NAIVE BAYES
Artinya Peluang kejadian A sebagai B ditentukan dari peluang B saat A, peluang A, dan peluang B.
Dimana :
Apabila diberikan k atribut yang saling bebas (independence), nilai probabilitas dapat diberikan sebagai
berikut.
P(x1,…,xk|C) = P(x1|C) x … x P(xk|C)
Jika atribut ke-i bersifat diskret, maka P(xi|C) diestimasi sebagai frekwensi relatif dari sampel yang
memiliki nilai xi sebagai atribut ke i dalam kelas C.
Namun jika atribut ke-i bersifat kontinu, maka P(xi|C) diestimasi dengan fungsi densitas Gauss.
x 2
1 2 2
f ( x) e
2
8
4. Contoh
Misalnya terdapat ingin diketahui apakah suatu objek masuk dalam ketegori dipilih untuk
perumahan atau tidak dengan algoritma Naive Bayes Classifier. Untuk menetapkan suatu daerah akan
dipilih sebagai lokasi untuk mendirikan perumahan, telah dihimpun 10 aturan.
Ada 4 atribut yang digunakan, yaitu:
harga tanah per meter persegi (C1),
jarak daerah tersebut dari pusat kota (C2),
ada atau tidaknya angkutan umum di daerah tersebut (C3), dan
keputusan untuk memilih daerah tersebut sebagai lokasi perumahan (C4).
b. Probabilitas kemunculan setiap nilai untuk atribut Jarak dari Pusat Kota (C2)
c. Probabilitas kemunculan setiap nilai untuk atribut Ada Angkutan Umum (C3)
9
d. Probabilitas kemunculan setiap nilai untuk atribut Dipilih untuk perumahan (C4)
YA =P(Ya| Tanah=MAHAL).P(Ya|Jarak=SEDANG).P(Ya|Angkutan=ADA).P(Ya)
= 1/5 x 2/5 x 1/5 x 5/10 = 2/125 = 0,008
TIDAK = P(Tidak| Tanah=MAHAL).P(Tidak|Jarak=SEDANG).P(Tidak|Angkutan=ADA).P(Ya)
= 3/5 x 1/5 x 3/5 x 5/10 = 2/125 = 0,036
Nilai probabilitas dapat dihitung dengan melakukan normalisasi terhadap likelihood tersebut
sehingga jumlah nilai yang diperoleh = 1
0,008
Probabilitas Ya = 0,182.
0,008 0,036
Klasifikasi : TIDAK
0,036
0,818.
Probabilitas Tidak = 0,008 0,036
Untuk jenis data harga tanah dan jarak pusat kota yang kontinue, misalnya :
10
Probabilitas kemunculan setiap nilai untuk atribut Jarak dari Pusat Kota (C2)
Probabilitas kemunculan setiap nilai untuk atribut Dipilih untuk Perumahan (C4)
Sehingga :
Likelihood Ya = (0,0021) x (0,0009) x 4/5 x 5/10
= 0,000000756.
Likelihood Tidak = (0,0013) x (0,0633) x 2/5 x 5/10
= 0,000016458.
Nilai probabilitas dapat dihitung dengan melakukan normalisasi terhadap likelihood tersebut sehingga
jumlah nilai yang diperoleh = 1
Probabilitas Ya = 0,000000756
0,0439.
0,000000756 0,000016458
Klasifikasi : TIDAK
Probabilitas Tidak = 0,000016458
0,9561.
0,000000756 0,00001645 8
11
C. TIME SERIES ANALYSIS
Beberapa bentuk analisis data deret waktu dapat dikelompokkan ke dalam beberapa katagori :
a. Metode Pemulusan (Smoothing)
Metode pemulusan dapat dilakukan dengan dua pendekatan yakni Metode Perataan (Average) dan Metode
Pemulusan Eksponensial (Exponential Smoothing). Pada metode rataan bergerak dapat digunakan untuk
memuluskan data deret waktu dengan berbagai metode perataan, diantaranya : (1) rata-rata bergerak
sederhana (simple moving average), (2) rata-rata bergerak ganda dan (3) rata-rata bergerak dengan ordo
lebih tinggi. Untuk semua kasus dari metode tersebut, tujuannya adalah memanfaatkan data masa lalu untuk
mengembangkan sistem peramalan pada periode mendatang.
Pada metode pemulusuan eksponensial, pada dasarnya data masa lalu dimuluskan dengan cara melakukan
pembotan menurun secara eksponensial terhadap nilai pengamatan yang lebih tua. Atau nilai yang lebih baru
diberikan bobot yang relatif lebih besar dibanding nilai pengamatan yang lebih lama. Beberapa jenis analisis
data deret waktu yang masuk pada katagori pemulusan eksponensial, diantaranya : (1) pemulusan
eksponensial tunggal, (2) pemulusan eksponensia tunggal: pendekatan adaptif, (3) pemulusan eksponensial
ganda : metode Brown, (4) metode pemulusan eksponensial ganda : metode Holt, (5) pemulusan
eksponensial tripel : metode Winter. Pada metode pemulusan eksponensial ini, sudah mempertimbangkan
pengaruh acak, trend dan musiman pada data masa lalu yang akan dimuluskan. Seperti halnya pada metode
rataan bergerak, metode pemulusan eksponensial juga dapat digunakan untuk meramal data beberapa
periode ke depan.
13
c. Memilih model peramalan yang tepat
Melihat dari kecenderungan data pada diagram pencar, maka dapat dipilih beberapa model peramalan
yang diperkirakan dapat mewakili pola tersebut. Model-model didalam peramalan data time series
antara lain :
Untuk mendapatkan nilai (a) maka dapat didekati melalui turunan kuadrat terkecilnya (least square)
terhadap (a) sebagai berikut: n
E [Y (t ) a ]2
i 1
Dimana :
n n n
dE
0 diperoleh 2 [Y (t ) a ] 0 , karena Y (t ) a 0 ;
da i 1 i 1 i 1
n
maka Y (t ) na 0
i 1
n
Y (t )
i 1
Sehingga: a ; dimana n = jumlah periode peramalan.
n
Jadi, apabila pola data berbentuk konstan, maka peramalannya dapat didekati dengan harga rata-
rata dari data tersebut.
2 2
Y ' (t ) a u cos t v sin t
n n
Dimana n adalah jumlah periode peramalan
Jumlah Kuadrat Kesalahan Terkecil didefinisikan sebagai:
n
2 2 2
E [Y (t ) a u cos t v sin t )]
i 1 N N
Bentuk diskriminannya adalah sebagai berikut:
2 2
k’ ' 1 cos t sin t
N N
k n 0 0
2 n 0
k cos
N
t 0
2
0
2 n
k sin N
t 0 0
2
14
Maka:
n 0 0 k 0 0 k n 0 k n 0
n 2 n 2 2 2 2 n
k' 0 0 1 k cos t 0 cos t k cos t 0 0 sin t k cos t 0 0
2 N 2 N N N N 2
n 2 n 2 n 2
0 0
2
k sin
N
t 0
2
k sin
N
t 0
2
k sin
N
t 0 0
Konstanta a dan b ditentukan dari data mentah berdasarkan Kriteria Kuadrat Terkecil (least square
criterion). Perhitungannya sebagai berikut:
Anggaplah data mentah diwakili dengan (Yi,ti), dimana Yi adalah permintaan aktual di saat ti, dimana
i = 1,2, .....,n. n
Definisikan: E [Y (t ) a b(t )]2
i 1
Berdasarkan sebaran t dengan (n – 2) derajat bebas, maka pada persamaan linier [Y’(t) = a + b(t)]
dapat dibuat Selang Kepercayaan (confidence intervals) dengan (1-)100% bagi nilai tengah dari Y
dan Selang Taksiran (prediction intervals) untuk setiap nilai Y, yaitu:
1 (t o t ) 2
Confidence Interval = Y’(t) ± t/2 SEE
n 2
( t ) 2
t n
Prediction Interval untuk setiap nilai Y yaitu (1-)100% bila t = to.
15
1 (t o t ) 2
Prediction Interval = Y’(t) ± t/2SEE 1
n 2
( t ) 2
t n
Ft w1 At 1 w2 At 2 ....... wn At n
dan
n
w
i 1
i 1
16
metode Exponential Smoothing agar kelemahan tersebut dapat diatasi didasarkan pada alasan
sebagai berikut:
Metode exponential smoothing mempertimbangkan bobot data-data sebelumnya dengan estimasi
untuk Y’(t+1) dengan periode (t+1) dihitung sebagai:
Dengan nilai Y’(1) untuk inisial ramalan didekati dengan nilai rata-ratanya ( Y )
Atau
Perlu diperhatikan bahwa penetapan nilai konstanta memiliki andil yang penting dalam
menghasilkan hasil ramalan yang “andal”. Model Exponential Smoothing digunakan untuk
peramalan jangka pendek.
Selain model-model diatas masih banyak model lain yang sedang dikembangkan dalam rangka mencari
model terbaik untuk peramalan.
d. Lakukan Peramalan
e. Hitung kesalahan ramalan (forecast error)
Keakuratan suatu model peramalan bergantung pada seberapa dekat nilai hasil peramalan terhadap nilai
data yang sebenarnya. Perbedaan atau selisih antara nilai aktual dan nilai ramalan disebut sebagai
“kesalahan ramalan (forecast error)” atau deviasi yang dinyatakan dalam:
et = Y(t) – Y’(t)
Dimana : Y(t) = Nilai data aktual pada periode t
Y’(t) = Nilai hasil peramalan pada periode t
t = Periode peramalan
Maka diperoleh Jumlah Kuadrat Kesalahan Peramalan yang disingkat SSE (Sum of Squared Errors) dan
Estimasi Standar Error (SEE – Standard Error Estimated)
n
2
[Y (t ) Y ' (t )]
i 1
SEE
n2
17
g. Lakukan Verifikasi
Untuk mengevaluasi apakah pola data menggunakan metode peramalan tersebut sesuai dengan pola
data sebenarnya.
4. Contoh
1) Model Konstan (Constant Forecasting)
Diberikan data permintaan pabrik konveksi PT Garmen Mandiri dari bulan Januari sampai Juni tahun
2006. Tentukan jumlah permintaan untuk lima bulan selanjutnya dengan menggunakan model konstan.
Menghitung Konstanta a :
(46 56 54 43 57 56)
a= 52
6
Jadi permintaan untuk bulan Juli sampai dengan November 2006 dapat didekati dengan harga rata-
ratanya (a) yaitu 52 unit.
1) Tentukan demand di tahun berikutnya dengan metode peramalan pola data siklis.
k= h=
t Y hk sin (2t/12) cos (2t/12) kcos(t/6) ksin(t/6)
d -98 t - 6
Jan 1 72 -26 -5 130 0.500 0.866 -22.52 -13.00
Feb 2 83 -15 -4 60 0.866 0.500 -7.50 -12.99
Mar 3 92 -6 -3 18 1.000 0.000 0.00 -6.00
Apr 4 107 9 -2 -18 0.866 -0.500 -4.50 7.79
18
May 5 114 16 -1 -16 0.500 -0.866 -13.86 8.00
Jun 6 129 31 0 0 0.000 -1.000 -31.00 0.00
Jul 7 91 -7 1 -7 -0.500 -0.866 6.06 3.50
Aug 8 108 10 2 20 -0.866 -0.500 -5.00 -8.66
Sept 9 116 18 3 54 -1.000 0.000 0.00 -18.00
Oct 10 79 -19 4 -76 -0.866 0.500 -9.50 16.45
Nov 11 92 -6 5 -30 -0.500 0.866 -5.20 3.00
Dec 12 93 -5 6 -30 0.000 1.000 -5.00 0.00
Total 78 1176 0 6 105 0.000 0.000 -98.01 -19.90
t t
k' 1 cos sin
6 6
0 12 0 0 0
98.01 0 6 0
19.90 0 0 6
Maka:
12 0 0 0 0 0 0 12 0 0 12 0
t t
k ' 0 6 0 1 98.01 6 0 cos 98.01 0 0 sin 98.01 0 6 0
6 6
0 0 6 19.90 0 6 19.90 0 6 19.90 0 0
t t
k ' (432) cos (7056.72) sin 1432.80 0
6 6
t t
k ' 16.33 cos 3.32 sin
6 6
N
2
[Y (t ) Y ' (t )]
i 1 1463.07
SEE 12.09
n2 10
(2553) (3,05)(78)
a 192,95
12
20
Diperoleh Persamaannya : Y’(t) = 193 + 3(t) sehingga permintaan pada tahun 2007 adalah
sebagai berikut:
Bulan (t) Permintaan dalam unit (Y)
Jan (25) 268
Feb (26) 271
Mar (27) 274
Apr (28) 277
Mei (29) 280
Jun (30) 283
Jul (31) 286
Aug (32) 289
Spt (33) 292
Oct (34) 295
Nov (35) 298
Des (36) 301
2) Hitunglah SSE (Sum of Squared Errors) dan SEE-nya (Standard Error Estimated)
Untuk menghitung SSE dan Standard Error Estimatenya (SEE) terlebih dahulu dihitung demand
aktual dengan menggunakan persamaan (Y’(t)) yang telah diketahui.
3) Tentukan Confidence Interval dan Prediction Interval dengan t = 18 serta derajat = 0,01
Dari Persamaan : Y’(t) = 193 + 3(t), maka untuk satu harga t = 18 diperoleh Y’=247 dengan
Standar Error Estimatenya (SEE)= 7.28 dan t/2 = t 0,005 = 3,169 untuk (n – 2 = 12 – 2 =10) derajat
bebas.
21
1 (t o t ) 2
Confidence Interval = Y’(t) ± t/2 SEE
n 2
( t ) 2
t n
1 (18 6,5) 2
= 247 ± (3,169)(7,28)
12 (78) 2
650
12
= 247 ± 23,16
1 (t o t ) 2
Prediction Interval = Y’(t) ± t/2SEE 1
n 2
( t ) 2
t n
1 (18 6,5) 2
= 247 ± (3,169)(7,28) 1
12 78 2
650
12
= 247 ± 46,32
Maka Moving Average 3 mingguan (SMA3) terhadap harga penutupan akhir minggu saham diperoleh
dari perhitungan berikut:
Contoh perhitungan:
46 56 54
SMAMinggu3 52
3
22
56 54 43
SMAmin ggu 4 51
3
b) Centered MA
Contoh perhitungan:
54 43 57 56 67
CMAMei 55,4
5
c) Weighted MA
Diketahui data penjualan suatu departement store 4 bulan periode. Kemudian ingin meramalkan
penjualan bulan ke-5 dengan moving average dimana menggunakan bobot 40% actual sales untuk
bulan saat ini (4), 30% untuk 2 bulan sebelumnya, 20% untuk 3 bulan sebelumnya, dan 10% untuk 4
bulan sebelumnya. Data penjualannya sebagai berikut:
23
5) Model Pelicinan/Pemulusan Eksponensia ( Exponential Smoothing)
Tabulasi data berikut ini merupakan actual sales dalam unit untuk 6 bulan dan peramalan
dimulai dari bulan januari.
1) Hitunglah estimasi nilai ramalannya menggunakan simple exponensial smoothing dengan = 0.2 jika
inisial estimasi periode Januari = 80.
Forecast
Bulan Actual Sales Forecast(II) Error (Y-Y')^2
(1)
January 100 80 80 20 400
February 94 84 84 10 100
March 106 86 86 20 400
April 80 90 90 -10 100
May 68 88 88 -20 400
June 94 84 84 10 100
July 86 86 0
Total 542 598 598 90 1500
atau
Y (t ) Y ' (t )
t 1
MAD
n
90
MAD 15 ;
6
dimana 1 MAD = 0.8 standard deviation diperoleh standar deviation = 12
24
D. CLUSTERING ANALYSIS
Sedangkan didalam metode pengelompokan no hirarki terdapat Masalah utama dalam metoda
non hirarkhi adalah bagaimana memilih bakal cluster. Harus disadari pengaruh pemilihan bakal cluster
terhadap hasil akhir analisis cluster. Bakal cluster pertama adalah observasi pertama dalam set data
tanpa missing value. Bakal kedua adalah observasi lengkap berikutnya (tanpa missing data) yang
dipisahkan dari bakal pertama oleh jarak minimum khusus.
Ada tiga prosedur dalam metode non hirarkhi, yaitu :
1) Sequential threshold
Metode ini dimulai dengan memilih bakal cluster dan menyertakan seluruh objek dalam jarak
tertentu. Jika seluruh objek dalam jarak tersebut disertakan, bakal cluster kedua terpilih, kemudian
proses terus berlangsung seperti sebelumnya.
26
2) Parallel Threshold
Metode ini memilih beberapa bakal cluster secara simultan pada permulaannya dan menandai
objek-objek dengan jarak permulaan ke bakal terdekat.
3) Optimalisasi
Metode ketiga ini mirip dengan kedua metode sebelumnya kecuali pada penandaan ulang terhadap
objek-objek.
Hal penting lain adalah menentukan jumlah cluster yang akan dibentuk. Sebenarnya tidak ada
standar,prosedur pemilihan tujuan eksis. Karena tidak ada kriteria statistik internal digunakan untuk
inferensia, seperti tes signifikansipada teknik multivariat lainnya, para peneliti telah mengembangkan
beberapa kriteria dan petunjuk sebagai pendekatan terhadap permasalahan ini dengan memperhatikan
substansi dan aspek konseptual.
Secara keseluruhan proses analisis cluster berakhir setelah keenam tahap ini dilalui. Hasil analisis cluster
dapat digunakan untuk berbagai kepentingan sesuai dengan materi yang dianalisis.
4. Contoh
a. Metode Hirarki
Proximity Matrix
Contoh menghitung jarak antar titik :
1) Metode MIN (SINGLE LINKAGE) Nearest Neighbour
Dist({3,6},{2,5}) = min(dist(3,2),dist(3,5),dist(6,2),dist(6,5))
= min(0.15,0.25,0.28,0.39) = 0.15
28
2) Metode MAX (COMPLETE LINKAGE)
Dist({3,6},{4}) = max(dist(3,4),dist(6,4)) = max (0.15,0.22) = 0.22
Dist({3,6},{2,5}) = max(dist(3,2),dist(3,5),dist(6,2),dist(6,5)) = max(0.15,0.25,0.28,0.39)
= 0.39
Dist({3,6},{1}) = max(dist(3,1),dist(6,1)) = max(0.22,0.23) = 0.23
3) Metode AVERAGE
Proximity dari 2 klaster adalah rata-rata jarak tiap 2 titik pada 2 klaster yang berbeda
29
4) Penerapan
Jarak (8,5)
terhadap
X1 X2 Y (X1,X2)
6 2 + 13
5 7 + 13
3 5 + 25
7 1 + 17
2 2 + 45
2 1 + 52
2 4 + 37
5 4 + 10
7 6 + 2
1 4 + 50
4 9 - 32
10 8 - 13
6 7 - 8
4 10 - 41
9 5 - 1
7 9 - 17
8 5 - 0
7 7 - 5
10 4 - 5
6 9 - 20
9 7 - 5
6 5 - 4
8 10 - 25
6 4 - 5
8 5 ?
12
10
Positive
6 Negative
?
0
0 2 4 6 8 10 12
30
b. Metode Non Hirarki (K-Means)
Instance X Y
1 2 5
2 2 5,5
3 5 3,5
4 6,5 2,2
5 7 3,3
6 3,5 4,8
7 4 4,5
Pilih K=2
Pilih titik pusat klaster misalnya C1(3,4) dan C2(6,4)
Iterasi 1
Hitung jarak masing-masing titik terhadap tiitk pusat C1 (3,4)
Instance X Y Jarak ke C1 Di
1 2 5 (2 − 3) + (5 − 4) 1,41
2 2 5,5 (2 − 3) + (5,5 − 4) 1,80
3 5 3,5 (5 − 3) + (3,5 − 4) 2,06
4 6,5 2,2 (6,5 − 3) + (2,2 − 4) 3,94
5 7 3,3 (7 − 3) + (3,3 − 4) 4,06
6 3,5 4,8 (3,5 − 3) + (4,8 − 4) 0,94
7 4 4,5 (4 − 3) + (4,5 − 4) 1,12
Jadi klaster 1 berisi instance 1,2,6,7 dan klaster 2 berisi instance 3,4,5
31
Hitung tiitk pusat baru
Iterasi 2
Dengan cara yang sama seperti pada iterasi 1 , diperoleh :
Dari perbandingan ini diketahui bahwa anggota klaster 1 adalah instance 1,2, 6 dan 7
sedangkan anggota klaster 2 adalah instance 3,4 dan 5. Karena anggota klaster tidak berubah, maka
titik pusat yang baru pu tidak berubah sehingga iterasi dapat dihentikan
Jadi iterai berhenti hingga nilai C1 dan C2 tidak berubah (atau memenuhi treshold yang diinginkan)
Hitung SSE = Sum Squared Error, digunakan untuk menentukan hasil klasterisasi yang lebih baik,jika
inisialisasi centroidnya berbeda-beda
K
1
SSE dist (ci , x ) 2 ci x
i 1 xCi mi xCi
32