TESIS
MAYANG MUGHNYANTI
177038005
TESIS
Diajukan untuk melengkapi tugas dan memenuhi syarat memperoleh
ijazah Magister Teknik Informatika
MAYANG MUGHNYANTI
177038005
TESIS
Saya mengakui bahwa tesis ini adalah hasil karya saya sendiri, kecuali beberapa
kutipan dan ringkasan yang masing-masing telah disebutkan sumbernya.
Mayang Mughnyanti
177038005
KEPENTINGAN AKADEMIS
Beserta perangkat yang ada (jika diperlukan). Dengan Hak Bebas Royalti Non-
Eksklusif ini, Universitas Sumatera Utara berhak menyimpan, mengalih
media, memformat, mengelola dalam bentuk database, merawat dan
mempublikasikan tesis saya tanpa meminta izin dari saya selama tetap
mencantumkan nama saya sebagai penulis dan sebagai pemegang dan/atau
sebagai pemilik hak cipta.
Mayang Mughnyanti
177038005
DATA PRIBADI
Nama Lengkap (berikut gelar) : Mayang Mughnyanti, S.Kom
Tempat dan Tanggal Lahir : Medan, 07 Juli 1993
Alamat Rumah : Jl. Sidodame No. 52
Telepon/Faks/HP : 0812 1666 6014
Email : mayangmughny@gmail.com
Website :-
Instansi Tempat Kerja :-
Alamat Kantor :-
DATA PENDIDIKAN
SD : SD Negeri Centre Medan 2004
SMP : SMP Negeri 7 Medan 2007
SMA : SMA Negeri 3 Medan 2010
S1 : Sekolah Tinggi Teknik Harapan 2015
S2 : Teknik Informatika USU Medan 2020
Penulis menyadari bahwa penelitian ini masih jauh dari kata sempurna,
ini dikarenakan oleh keterbatasan, kemampuan dan pengetahuan penulis.
Harapan penulis, semoga penelitian ini bermanfaat bagi penulis khususnya dan
pembaca pada umumnya. Sekali lagi penulis mengucapkan terima kasih,
semoga Allah SWT membalas kebaikan yang telah diberikan. Amin.
Mayang Mughnyanti
177038005
ABSTRACT
Grouping can use clustering to group data based on the similarity between data, so
that the data with the closest resemblance are in one cluster while the data is
different in other groups. The X-Means algorithm is a development of K-Means. The
weakness of X-Means is in determining the distance matrix, the distance matrix is an
important factor that depends on the X-Means algorithm data set. The resulting
distance matrix value will affect the performance of the algorithm. The results of the
study are: testing with variations in the number of centroids (K) with a value of
2,3,4,5,6,7,8,9,10. The author draws the conclusion that the number of centroids 3
and 4 has a better iteration value than the number of centroids that is getting higher
and lower based on the iris dataset with Manhattan Distance jarax matrix. From the
test results with X-Means cluster point, calculate the Euclidean Distance distance
with 100 iris data reaching 9th iteration, while with 100 iris data, the Manhattan
Distance distance reaches 10th iteration. While in determining the cluster point
using X-Means method from 100 data the iris reaches the 7th iteration.
Halaman
DAFTAR ISI i
DAFTAR TABEL iv
BAB 1 PENDAHULUAN 1
4.1. Hasil 41
4.2. Pengujian 41
Distance 43
4.5. Hasil Variasi Nilai K Metode X-Means dan Euclidean Distance dan
Manhattan Distance 45
4.6. Pembahasan 46
4.1. Kesimpulan 50
4.2. Saran 51
DAFTAR PUSTAKA
LAMPIRAN
ii
Tabel 4.4. Jarak Data Terhadap Pusat Cluster Data Iris Dengan Metode Euclidean
Distance 43
Tabel 4.5. Jarak Data Terhadap Pusat Cluster Data Iris Dengan Metode Manhattan
Distance 43
Tabel 4.6. Nilai Titik Pusat Cluster Akhir X-Means Euclidean Distance Data Iris
43
Tabel 4.7. Update Jarak Titik Clustter Euclidean Distance Data Iris 44
Tabel 4.8. Update Jarak Titik Clustter Manhattan Distance Data Iris 44
iii
Tabel 4.11. Hasil Titik Pusat Cluster Akhir X-Means dan Euclidean Distance Data
Iris 45
Tabel 4.12. Hasil Titik Pusat Cluster Akhir X-Means dan Manhattan Distance Data
Iris 45
Tabel 4.13. Hasil Variasi Nilai K Metode X-Means dan Euclidean Distance dan
Tabel 4.14. Analisis Variasi Nilai K Metode X-Means dan Euclidean Distance dan
iv
Gambar 3.2. Proses Metode X-Means dan Euclidean Distance dan Manhattan
Distance 23
PENDAHULUAN
1
Universitas Sumatera Utara
2
suatu yang tidak diawasi cara dan hanya berdasarkan set data itu sendiri (Mahdi
Shahbaba, et al. 2012).
Beberapa penelitian terkait dengan fungsi matriks jarak juga telah
dilakukan dengan membandingkan jarak Euclidean distance dengan Manhattan
distance, Canberra distance dan Hybrid distance pada algoritma LVQ.
Penelitian ini menghasilkan bahwa Hybrid LVQ memiliki kemampuan terbaik
pada pengenalan data, diikuti dengan Canberra, Manhattan dan Euclidean distance
(Vashista & Nagar, 2017). Alamri et al (2016).
Pada dasarnya dalam algoritma x-means pengukuran jarak memegang peran
yang sangat penting dalam menentukan kemiripan atau keteraturan di antara
data dan item. hal ini dilakukan untuk mengetahui, dengan cara seperti apa data
dikatakan saling terkait, mirip, tidak mirip, dan metode pengukuran jarak seperti
apa yang diperlukan untuk membandingkannya. Oleh karena itu dalam penelitian
ini penulis akan mencoba untuk menganalisis metode Manhattan Distance dan
Euclidean Distance Pada Algoritma X-Means dalam pengelompokan data.
Berdasarkan uraian tersebut, penulis memilih judul “Analisis Penggunaan
Manhattan Distance Dan Euclidean Distance Pada Algoritma X-Means Dalam
Pengelompokan Data”.
TINJAUAN PUSTAKA
Bab ini akan diuraikan seluruh landasan teori yang berhubungan dengan penelitian.
Konsep-konsep yang akan di jelaskan dalam penelitian ini seperti data mining,
clustering, klasifikasi data, manhattan distance, euclidean distance dan algoritma X-
Means.
4
Universitas Sumatera Utara
5
Terdapat dua metode pembelajaran yang tersedia pada model klasifikasi yaitu :
a. Eager learning adalah proses pembelajaran pada data latih secara
intensif sehingga model dapat melakukan prediksi ke label kelas
output dengan benar. Beberapa metode bersifat eager learning antara lain
: Neural Network, Bayesian, decision tree, Support Vector Machine.
b. Lazy learningadalah proses pembelajaran tanpa melakukan pelatihan dan
hanya menyimpan nilai data latih untuk digunakan pada proses
prediksi. Beberapa metode bersifat lazy learning antara lain: K-
Nearest Neighbor, Regresi Linear, Fuzzy K-Nearest Neighbor.
Proses klasifikasi pada machine learning memiliki empat komponen
(Saputra, 2018) yaitu :
1. Class
Variabel dependen tetamu harus dalam bentuk yang mewakili label yang
dimiliki oleh objek.
2. Energi
Variabel independen yang diwakili oleh atribut karakteristik data. Misalnya
: gaji, kehadiran, merokok, tekanan darah.
3. Dataset Pelatihan
Satu set data yang memiliki kedua nilai komponen diatas yang digunakan
untuk menentukan kelas yang sesuai berdasarkan energi.
4. Menguji dataset
Satu set data baru yang akan diklasifikasi dengan model yang telah
dibuat dan akan dievaluasi pada proses akurasi klasifikasi.
Pada proses klasifikasi, sebelum melakukan prediksi, perlu dilakukan
proses pembelajaran terlebih dahulu. Proses pembelajaran tersebut memerlukan data.
Data yang diperlukan pada saat proses klasifikasi terdiri atas dua jenis, yaitu :
a. Data latih atau data trainingadalah data yang digunakan pada proses
pembelajar dalam proses klasifikasi.
b. Data uji atau data testingadalah data yang digunakan pada proses prediksi
dalam proses klasifikasi.
mesin. Salah satu set data dari UCI Machine Learning Repository yang umum
digunakan adalah set Iris Data. Kumpulan Data Iris adalah kumpulan data yang
banyak digunakan dalam masalah pengenalan pola. Atribut informasi pada Iris Data
Set terdiri dari: Panjang Sepal, Lebar Sepal, Panjang Petal, dan Lebar Petal. Iris Data
Set memiliki 3 kelas, yaitu: Iris Setosa, Iris Versicolour, dan Iris Virginica. (Uci
Machine Learning, https://archive.ics.uci.edu).
Keterangan :
dij = jarak perhitungan kemiripan
n = jumlah vektor
xik = vektor citra input
xjk = vektor citra pembanding
Dari persamaan 2.1 pola dari Euclidean Distance adalah lingkaran yang
ditunjukkan pada gambar 2.2.
(X2,Y2)
d b
(X1,Y1)
a
yang sama
tingkat pengakuan rata-rata
100%, kecuali masing-
masing mencapai tingkat
ini pada tahap pelatihan
jaringan saraf yang
berbeda.
5 Alfatih Muhammad, Euclidean Distance, Metode jarak Manhattan
Ary Setijadi Manhattan Distance lebih tepat untuk diukur
Prihatmanto, et al jarak suku kata dan fonetik
(2018) bahkan jika dilihat
pengukuran rata-rata jarak
Manhattan dan Euclidean
nilai jaraknya hampir
sama. Namun, saat
jaraknya dari suku kata
dan panjang fonetik jauh,
Euclidean pengukuran
mengambil titik tengah
dari akumulasi semua
parameter.
METODE PENELITIAN
13
Universitas Sumatera Utara
14
3. Analisis data dengan membuat rancangan data input dan output yang
akan dimasukkan sebagai data penelitian. Memisahkan data penelitian
menjadi dua bagian, yaitu data pelatihan dan data pengujian. Data
pelatihan digunakan untuk mengamati proses pengenalan pola
(memorisasi), sedangkan data pengujian digunakan untuk mengamati
kemampuan algoritma dalam mengenali pola pada sample yang belum
dipelajari oleh algoritma X-Means.
Keterangan :
X1 = Sepal length in cm
X2 = Sepal width in cm
X3 = Petal length in cm
X4 = Petal width in cm
Tabel 3.2 Dataset Wine Quality
No. Nama Item X1 X2 X3 X4
1 Wine Quality Red 7.4 0.7 0 1.9
2 Wine Quality Red 7.8 0.88 0 2.6
3 Wine Quality Red 7.8 0.76 0.04 2.3
4 Wine Quality Red 11.2 0.28 0.56 1.9
5 Wine Quality Red 7.4 0.7 0 1.9
6 Wine Quality Red 7.4 0.66 0 1.8
7 Wine Quality Red 7.9 0.6 0.06 1.6
8 Wine Quality Red 7.3 0.65 0 1.2
9 Wine Quality Red 7.8 0.58 0.02 2
10 Wine Quality Red 7.5 0.5 0.36 6.1
11 Wine Quality Red 6.7 0.58 0.08 1.8
12 Wine Quality Red 7.5 0.5 0.36 6.1
13 Wine Quality Red 5.6 0.615 0 1.6
14 Wine Quality Red 7.8 0.61 0.29 1.6
15 Wine Quality Red 8.9 0.62 0.18 3.8
16 Wine Quality Red 8.9 0.62 0.19 3.9
17 Wine Quality Red 8.5 0.28 0.56 1.8
18 Wine Quality Red 8.1 0.56 0.28 1.7
Keterangan :
X1 = Fixed acidity
X2 = Volatile acidity
X3 = Citric acid
X4 = Residual sugar
Dataset yang
digunakan
Pengelompokan Dengan
X-Means
Analisis
Dataset
Tentukan Nilai
Hitung Nilai dari
Pusat Cluster Minimum Setiap
Setiap Cluster
Centroid
Hitung Jarak ke
Pusat Cluster degan
Euclidean Distance
Tentukan pusat
Cluster Baru
Keterangan :
X-Means
Ecludiean Distance
Pengelompokan
Dengan X-Means Manhattan Distance
Analisis
Gambar 3.2 Proses Metode X-Means dan Euclidean Distance dan Manhattan
Distance
Perhitungan ke-2
Perhitungan data ke-2 (yj) dengan titik pusat cluster 1 (xi)
( ) ( ) ( ) ( )
Perhitungan ke-3
Perhitungan data ke-3 (yj) dengan titik pusat cluster 1 (xi)
( ) ( ) ( ) ( )
Perhitungan ke-4
Perhitungan data ke-4 (yj) dengan titik pusat cluster 1 (xi)
( ) ( ) ( ) ( )
Perhitungan ke-5
Perhitungan data ke-5 (yj) dengan titik pusat cluster 1 (xi)
( ) ( ) ( ) ( )
( ) ( ) ( ) ( )
Perhitungan ke-6
Perhitungan data ke-6 (yj) dengan titik pusat cluster 1 (xi)
( ) ( ) ( ) ( )
Perhitungan ke-7
Perhitungan data ke-7 (yj) dengan titik pusat cluster 1 (xi)
( ) ( ) ( ) ( )
Perhitungan ke-8
Perhitungan data ke-8 (yj) dengan titik pusat cluster 1 (xi)
( ) ( ) ( ) ( )
Perhitungan ke-9
Perhitungan data ke-9 (yj) dengan titik pusat cluster 1 (xi)
( ) ( ) ( ) ( )
Perhitungan ke-10
Perhitungan data ke-10 (yj) dengan titik pusat cluster 1 (xi)
( ) ( ) ( ) ( )
Perhitungan update jarak titik pusat cluster dengan atribut data telah
selesai dihitung dan diperoleh hasilnya. Nilai dari setiap hasil
perhitungan titik pusat cluster 1 dan titik pusat cluster 2 dapat
ditunjukkan sebagai berikut:
Tabel 3.10 Update Jarak Titik Cluster
Data Ke- Jarak Data Dengan Titik Jarak Data Dengan
Pusat Cluster 1 Titik Pusat Cluster 2
1 0.29 17.71
2 0 17.48
3 0.09 18.79
4 16.78 2.1
5 13.59 1.13
6 17.95 1.57
7 28.5 1.78
8 17.48 0
9 28.7 2.46
10 22.17 0.55
Dari hasil perhitungan diatas maka didapatkan titik pusat cluster baru
untuk digunakan pada iterasi selanjutnya. Hasil perhitungan titik pusat
cluster baru ditunjukkan sebagai berikut:
Tabel 3.11 Titik Pusat Cluster ``
Pusat Cluster Nama Item X1 X2 X3 X4
√(( ) ( ) ( ) ( )
√(( ) ( ) ( ) ( )
√(( ) ( ) ( ) ( )
√(( ) ( ) ( ) ( )
√(( ) ( ) ( ) ( )
Cluster 2
√(( ) ( ) ( ) ( )
√(( ) ( ) ( ) ( )
√(( ) ( ) ( ) ( )
√(( ) ( ) ( ) ( )
√(( ) ( ) ( ) ( )
√(( ) ( ) ( ) ( )
√(( ) ( ) ( ) ( )
√(( ) ( ) ( ) ( )
Pada tabel 3. dapat dilihat hasil dari perhitungan euclidean distance iterasi ke-
1 dalam dengan nilai cluster 1 dan cluster 2.
d. Tentukan kelompokkan data yang dekat dengan centroid. Adapun
ditunjukkan sebagai berikut.
Cluster 1
IrisSetosa No.3
IrisSetosa No.2
IrisSetosa No.1
Cluster 2
IrisVirginika No.10
IrisVersiColor No.8
IrisVersiColor No.7
IrisVersiColor No.9
IrisVirginika No.6
IrisVirginika No.4
IrisVirginika No.5
1 IrisSetosa Cluster 1
2 IrisSetosa Cluster 1
3 IrisSetosa Cluster 1
4 IrisVersiColor Cluster 2
5 IrisVersiColor Cluster 2
6 IrisVersiColor Cluster 2
7 IrisVirginica Cluster 2
8 IrisVirginica Cluster 2
9 IrisVirginica Cluster 2
10 IrisVirginica Cluster 2
Perhitungan ke-2
Perhitungan data ke-2 (yj) dengan titik pusat cluster 1 (xi)
( ) ( ) ( ) ( )
Perhitungan ke-3
Perhitungan data ke-3 (yj) dengan titik pusat cluster 1 (xi)
( ) ( ) ( ) ( )
Perhitungan ke-4
Perhitungan data ke-4 (yj) dengan titik pusat cluster 1 (xi)
( ) ( ) ( ) ( )
Perhitungan ke-5
Perhitungan data ke-5 (yj) dengan titik pusat cluster 1 (xi)
( ) ( ) ( ) ( )
( ) ( ) ( ) ( )
Perhitungan ke-6
Perhitungan data ke-6 (yj) dengan titik pusat cluster 1 (xi)
( ) ( ) ( ) ( )
Perhitungan ke-7
Perhitungan data ke-7 (yj) dengan titik pusat cluster 1 (xi)
( ) ( ) ( ) ( )
Perhitungan ke-8
Perhitungan data ke-8 (yj) dengan titik pusat cluster 1 (xi)
( ) ( ) ( ) ( )
Perhitungan ke-9
Perhitungan data ke-9 (yj) dengan titik pusat cluster 1 (xi)
( ) ( ) ( ) ( )
Perhitungan ke-10
Perhitungan data ke-10 (yj) dengan titik pusat cluster 1 (xi)
( ) ( ) ( ) ( )
Perhitungan update jarak titik pusat cluster dengan atribut data telah
selesai dihitung dan diperoleh hasilnya. Nilai dari setiap hasil
perhitungan titik pusat cluster 1 dan titik pusat cluster 2 dapat
ditunjukkan sebagai berikut:
Tabel 3.10 Update Jarak Titik Cluster
Data Ke- Jarak Data Dengan Titik Jarak Data Dengan
Pusat Cluster 1 Titik Pusat Cluster 2
1 0.29 17.71
2 0 17.48
3 0.09 18.79
4 16.78 2.1
5 13.59 1.13
6 17.95 1.57
7 28.5 1.78
8 17.48 0
9 28.7 2.46
10 22.17 0.55
Dari hasil perhitungan diatas maka didapatkan titik pusat cluster baru
untuk digunakan pada iterasi selanjutnya. Hasil perhitungan titik pusat
cluster baru ditunjukkan sebagai berikut:
Tabel 3.11 Titik Pusat Cluster
Pusat Cluster Nama Item X1 X2 X3 X4
√(( ) ( ) ( ) ( )
√(( ) ( ) ( ) ( )
√(( ) ( ) ( ) ( )
√(( ) ( ) ( ) ( )
√(( ) ( ) ( ) ( )
√(( ) ( ) ( ) ( )
√(( ) ( ) ( ) ( )
√(( ) ( ) ( ) ( )
Cluster 2
√(( ) ( ) ( ) ( )
√(( ) ( ) ( ) ( )
√(( ) ( ) ( ) ( )
√(( ) ( ) ( ) ( )
√(( ) ( ) ( ) ( )
√(( ) ( ) ( ) ( )
√(( ) ( ) ( ) ( )
√(( ) ( ) ( ) ( )
Pada tabel 3. dapat dilihat hasil dari perhitungan manhattan distance iterasi
ke-1 dalam dengan nilai cluster 1 dan cluster 2.
Cluster 2
IrisVirginika No.10
IrisVersiColor No.8
IrisVersiColor No.7
IrisVersiColor No.9
IrisVirginika No.6
IrisVirginika No.4
IrisVirginika No.5
IrisSetosa No.1
1 IrisSetosa Cluster 1
2 IrisSetosa Cluster 1
3 IrisSetosa Cluster 1
4 IrisVersiColor Cluster 2
5 IrisVersiColor Cluster 2
6 IrisVersiColor Cluster 2
7 IrisVirginica Cluster 2
8 IrisVirginica Cluster 2
9 IrisVirginica Cluster 2
10 IrisVirginica Cluster 2
4.1 Hasil
Data masukan yang digunakan pada penelitian ini adalah beberapa dataset yang
didapat dari data yang didapat dari UCI Repository. analisis dilakukan dengan
menghitung jarak matrik metode Manhattan Distance dan Euclidean Distance pada
algoritma X-Means dalam pengelompokan data.
4.2 Pengujian
Pada penelitian ini pengujian dilakukan dengan menggunakan beberapa data dari
UCI Repository. Pengujian ini bertujuan ini untuk melihat hasil analisis dilakukan
dengan menghitung jarak matrik metode Manhattan Distance dan Euclidean Distance
pada algoritma X-Means dalam pengelompokan data. Adapun rincian data yang
digunakan dapat dilihat pada tabel berikut.
Tabel 4.1 Dataset Iris
No. Nama Item X1 X2 X3 X4
1 IrisSetosa 5.1 3.5 1.4 0.2
2 IrisSetosa 4.9 3 1.4 0.2
3 IrisSetosa 4.7 3.2 1.3 0.2
4 IrisSetosa 4.6 3.1 1.5 0.2
5 IrisSetosa 5 3.6 1.4 0.2
6 IrisSetosa 5.4 3.9 1.7 0.4
7 IrisSetosa 4.6 3.4 1.4 0.3
8 IrisSetosa 5 3.4 1.5 0.2
9 IrisSetosa 4.4 2.9 1.4 0.2
10 IrisSetosa 4.9 3.1 1.5 0.1
: : : : : :
: : : : : :
100 IrisVirginica 7.2 3 5.8 1.6
41
Universitas Sumatera Utara
42
Adapun proses selanjutnya adalah hitung jarak setiap data iris setiap cluster.
Berikut ditunjukkan pada tabel 4.
Tabel 4.4 Jarak Data Terhadap Pusat Cluster Data Iris Dengan Metode Euclidean
Distance
No Nama Item Iterasi Ke -1 (C1) Iterasi Ke-1 (C2)
1 IrisSetosa 0.538516481 4.208325083
2 IrisSetosa 0.3 4.33474336
3 IrisVersiColor 4.09633983 1.449137675
4 IrisVersiColor 3.686461718 1.063014581
5 IrisVersiColor 4.236744033 1.252996409
6 IrisVirginica 5.338539126 1.334166406
7 IrisSetosa 0.3 4.33474336
: : : :
: : : :
100 IrisVirginica 5.357238094 1.568438714
Tabel 4.5 Jarak Data Terhadap Pusat Cluster Data Iris Dengan Metode Manhattan
Distance
No Nama Item Iterasi Ke -1 (C1) Iterasi Ke-1 (C2)
1 IrisSetosa 0.8 7.6
2 IrisSetosa 0.5 7.3
3 IrisVersiColor 6.9 2.4
4 IrisVersiColor 6.2 1.8
5 IrisVersiColor 7.2 1.8
6 IrisVirginica 8.7 1.5
7 IrisSetosa 7.1 1.3
: : : :
: : : :
Setelah proses hitung jarak dengan euclidean distance terhadap data iris dan,
maka selanjutnya hasil dari nilai pusat cluster akhir ditunjukkan pada tabel berikut.
Tabel 4.6 Nilai Titik Pusat Cluster Akhir X-Means Euclidean Distance Data Iris
Iterasi Ke- Jumlah Data Jumlah
Pusat
Nama Item X1 X2 X3 X4 Centroid 1 Data
Cluster
Centroid 2
1 IrisVersiColor 6.26 2.85 4.87 1.63
9 55 45
2 IrisSetosa 5.03 3.45 1.47 0.25
4.4 Hasil Analisis Hitung Jarak Euclidean Distance dan Manhattan Distance
Adapun pada tahap selanjutnya analisis dilakukan dengan menghitung jarak matrik
metode Manhattan Distance dan Euclidean Distance pada algoritma X-Means dalam
pengelompokan data. Pada pengujian ini penulis melakukan pengujian dengan data
iris, sebanyak 100 data dan 4 atribut dengan titik pusat centroid 2. Adapun berikut
tahapan-tahapan dari proses X-Means dengan matrix jarak Manhattan Distance dan
Euclidean Distance ditunjukkan sebagai berikut.
Pada tahap ini akan dilakukan analisis metode X-Means, tahapan pertama
melakukan perhitungan jarak dari setiap data, hasil perhitungan yang memiliki nilai
minimum jarak dari setiap data yang akan dijadikan titik pusat cluster. Dari update
jarak Data ke 3 dan 100 menjadi titik pusat cluster. Adapun berikut jarak titik cluster
data iris, ditunjukkan sebagai berikut.
Tabel 4.7 Update Jarak Titik Cluster Euclidean Distance Data Iris
Data Ke- Jarak Data Dengan Titik Jarak Data Dengan
Pusat Cluster 1 Titik Pusat Cluster 2
1 0.29 17.71
2 0 17.48
3 0.09 18.79
4 16.78 2.1
5 13.59 1.13
6 17.95 1.57
7 28.5 1.78
8 17.48 0
9 28.7 2.46
: : :
: : :
100 22.17 0.55
Tabel 4.8 Update Jarak Titik Cluster Manhattan Distance Data Iris
Data Ke- Jarak Data Dengan Titik Jarak Data Dengan
Pusat Cluster 1 Titik Pusat Cluster 2
1 77.71 2.16
2 0 90.87
3 96.23 25.64
4 90.87 3.97
5 76.11 1.40
6 83.11 1.54
7 92.89 0.32
8 92.40 0
9 92.89 0.28
: : :
: : :
100 94.57 0.37
Selanjutnya setelah dilakukan proses perhitungan jarak dari setiap data iris.
Dimana berikut merupakan hasil perhitung titik cluster awal menggunakan metode
X-Means. Adapun ditunjukkan pada tabel berikut.
Tabel 4.9 Titik Pusat Cluster Euclidean Distance Data Iris
Pusat Cluster Nama Item X1 X2 X3 X4
1 IrisSetosa 4.7 3.2 1.3 0.2
2 IrisVirginica 5.8 2.7 5.1 1.9
Setelah proses titik pusat cluster awal dengan X-Means terhadap data iris,
maka selanjutnya proses penerapan metode X-means dengan hasil dari nilai pusat
cluster akhir ditunjukkan pada tabel berikut.
Tabel 4.11 Hasil Titik Pusat Cluster Akhir X-Means dan Euclidean Distance Data
Iris
Iterasi Ke- Jumlah Jumlah
Pusat Centroid 1 Centroid 2
Nama Item X1 X2 X3 X4
Cluster Kelompok Kelompok
Data Ke-1 Data Ke-2
1 IrisVersiColor 6.26 2.85 4.87 1.63 7 70 30
Tabel 4.12 Hasil Titik Pusat Cluster Akhir X-Means dan Manhattan Distance Data
Iris
Iterasi Jumlah Jumlah
Pusat Ke- Centroid 1 Centroid 2
Nama Item X1 X2 X3 X4
Cluster Kelompok Kelompok
Data Ke-1 Data Ke-2
Wine Quality
1 7.2 0.3 0.34 13.58
Red
8 11 89
Wine Quality
2 7.27 0.44 0.26 2.44
White
Adapun dari hasil proses penentuan titik pusat cluster awal secara random
dengan titik pusat cluster awal menggunakan metode X-Means memiliki hasil yang
lebih baik dalam klasifikasi data. Dimana pengujian menggunakan hitung jarak
manhattan distance pada data iris memiliki akurasi iterasi lebih baik dibandingkan
euclidean distance. Dari hasil pengujian dengan titik cluster X-Means hitung jarak
Euclidean Distance dengan 100 data iris mencapai iterasi ke 9, sedangkan dengan
100 data iris dengan hitung jarak Manhattan Distance mencapai iterasi ke 4.
Sedangkan dalam penentuan titik cluster menggunakan metode X-Means dari 100
data iris mencapai iterasi ke 7.
4.5 Hasil Variasi Nilai K Metode X-Means dan Euclidean Distance dan
Manhattan Distance
Adapun dalam penelitian ini penulis juga melakukan pengujian dengan metode
X-Means dan matrix Euclidean Distance dan Manhattan Distance Berikut
ditunjukkan hasil dari pengujian.
Tabel 4.13 Hasil Variasi Nilai K Metode X-Means dan Euclidean Distance dan
Manhattan Distance Data Iris
Jumlah Iterasi X-
Jumlah Nilai Jumlah Iterasi X-Means
Means dan
Centroid (K) dan Manhattan Distance
Dataset Euclidean Distance
2 7 6
Iris
3 9 4
4 11 4
5 10 5
6 8 7
7 12 11
8 7 6
9 6 5
10 15 7
Adapun dari tabel 4.15 dilihat dari hasil iterasi X-Means dan matrix
Euclidean Distance dan Manhattan Distance memiliki jumlah iterasi yang beragam
dari jumlah variasi K yang berurut menunjukkan bahwa jarax matrix Manhattan
Distance memiliki iterasi lebih baik kesimpulan yang tepat dikarenakan setiap data
memiliki nilai yang berbeda pula sehingga hasil iterasinya variatif sesuai dengan
jumlah nilai pada titik centroid.
Adapun hasil dari penulis melakukan pengujian dengan variasi jumlah
centroid (K) dengan nilai 2,3,4,5,6,7,8,9,10. Penulis menarik kesimpulan jumlah
centroid 3 dan 4 memiliki iterasi nilai yang lebih baik dibandingkan dengan jumlah
centroid yang semakin tinggi dan rendah berdasarkan dataset iris dengan jarax matrix
Manhattan Distance.
4.6 Pembahasan
Dari hasil pengujian yang di lakukan pada Data SetIris sebanyak 100 data uji dengan
jumlah centroid yang bervariasi menghasilkan akurasi pada metode X-Means dengan
Manhattan Distance yang lebih baik daripada pengujian dengan metode X-Means
dengan Euclidean Distance. Hal ini didasarkan pada pengujian klasifikasi Data Set
Iris dengan variasi jumlah centroid (K) dengan nilai 2,3,4,5,6,7,8,9,10.
Adapun pengujian analisis menggunakan akurasi dalam menyajikan
informasi tingkat akurasi specitivity algoritma X-Means dengan Euclidean Distance
dan Manhattan Distance. Analisis dilakukan dengan melakukan perhitungan Jumlah
benar / jumlah data * 100%.
Accuracy dalah presentase dari jumlah total prediksi yang benar pada proses
klasifikasi (Deng et al, 2016). Hal ini dilakukan berdasarkan table of Confusion
tiap-tiap kelas pada Confusion Matrix yang diperoleh pada hasil pelatihan dan
pengujian.
Tabel 4.14 Analisis Variasi Nilai K Metode X-Means dan Euclidean Distance dan
Manhattan Distance Data Iris
Nilai K Euclidean Distance Manhattan Distance
2 93,28% 95,09%
3 94,70% 95,33%
4 94% 95,33%
5 94% 95,33%
6 94,67% 95,33%
7 94,67% 95,33%
8 94,67% 95,33%
9 94% 95,33%
10 94% 95,33%
Berdasarkan penilaian Accuracy pada data set iris, diperoleh bahwa matriks
jarak Manhattan Distance lebih baik dibandingkan dengan matriks jarak
Euclidean Distance, yaitu pada nilai k=6, k=7, dan k=8. Nilai Accuracy terbaik
Braycurtis Distancesebesar 96 %. Nilai Accuracy Euclidean Distanceterbaik sebesar
95,33 % dan nilai Accuracy terbaik Canberra Distancesebesar 94,7 %.
Adapun berikut grafik hasil pengujian variasi centroid (K) ditunjukkan
sebagai berikut.
15
Jumlah Iterasi 10
0
2 3 4 5 6 7 8 9 10
Jumlah Centroid (K)
5.1 Kesimpulan
Berdasarkan pengujian serta evaluasi terhadap metode penentuan titik pusat cluster
dengan X-Means dan matrix Euclidean Distance dan Manhattan Distance, adapun
hasil penelitian dapat diambil beberapa kesimpulan antara lain:
1. Dimana pengujian menggunakan hitung jarak euclidean distance pada data iris
memiliki akurasi iterasi lebih baik dibandingkan manhattan distance.
2. Berdasarkan hasil hasil iterasi X-Means dengan parameter uji matrix Euclidean
Distance dan Manhattan Distance memiliki jumlah iterasi yang beragam dari
jumlah variasi K dengan nilai 2,3,4,5,6,7,8,9,10. Penulis menarik kesimpulan
jumlah centroid 3 dan 4 memiliki iterasi nilai yang lebih baik menggunakan
Manhattan Distance dibandingkan dengan jumlah centroid yang semakin tinggi
dan rendah berdasarkan dataset iris.
3. Berdasarkan penilaian Accuracy pada data set iris, diperoleh bahwa matriks
jarak Manhattan Distance lebih baik dibandingkan dengan matriks jarak
Euclidean Distance, yaitu pada nilai k=6, k=7, dan k=8. Nilai Accuracy
terbaik Braycurtis Distancesebesar 96 %. Nilai Accuracy Euclidean
Distanceterbaik sebesar 95,33 % dan nilai Accuracy terbaik Canberra
Distancesebesar 94,7 %.
4. Hasil dari penulis melakukan pengujian dengan variasi jumlah centroid (K)
dengan nilai 2,3,4,5,6,7,8,9,10. Penulis menarik kesimpulan jumlah centroid 3
dan 4 memiliki iterasi nilai yang lebih baik dibandingkan dengan jumlah
centroid yang semakin tinggi dan rendah berdasarkan dataset iris dengan jarak
matrix Manhattan Distance.
50
Universitas Sumatera Utara
51
5.2 Saran
Untuk pengembangan penelitian selanjutnya, berdasarkan hasil penelitian maka saran
yang dapat disampaikan adalah sebagai berikut :
LISTING PROGRAM
Imports System.Data.SqlClient
Public Class Form1
Public sqlconn As New SqlConnection
Public sqlcmd As New SqlCommand
Public sqldr As SqlDataReader
Public strsql As String
Public sqlda As New SqlDataAdapter
Dim ctrl As String
Sub connect()
If sqlconn.State = ConnectionState.Open Then sqlconn.Close()
sqlconn.ConnectionString = "Data Source=ACER\SQLEXPRESS;Initial
Catalog=dbIris;Integrated Security=True"
sqlconn.Open()
End Sub
Sub view()
strsql = "select * from tblIris"
'tempm = Timer1
'msec = (tempm - tempi)
' lblTimer.Caption = " Waktu: " & msec & " detik"
jml_centroid = Val(txtcentroid.Text)
For i = 1 To jml_data
strsql = "select * from tblIris where no = '" & i & "'"
sqlcmd.CommandText = strsql
sqlcmd.Connection = sqlconn
sqlda.SelectCommand = sqlcmd
sqldr = sqlcmd.ExecuteReader()
While (sqldr.Read())
data(i, 1) = Math.Round(sqldr("x2"), 2)
data(i, 2) = Math.Round(sqldr("x3"), 2)
data(i, 3) = Math.Round(sqldr("x4"), 2)
data(i, 4) = Math.Round(sqldr("x5"), 2)
nama(i) = sqldr("x1")
End While
sqldr.Close()
Next
TextBox1.Text = ""
TextBox1.Text = TextBox1.Text & "pusat cluster Awal" & vbNewLine
For i = 1 To jml_centroid
cen(i, 1) = data(Centroid, 1)
TextBox1.Text = TextBox1.Text & "c" & i & "1=" & cen(i, 1) & " "
cen(i, 2) = data(Centroid, 2)
TextBox1.Text = TextBox1.Text & "c" & i & "2=" & cen(i, 2) & " "
cen(i, 3) = data(Centroid, 3)
TextBox1.Text = TextBox1.Text & "c" & i & "3=" & cen(i, 3) & " "
cen(i, 4) = data(Centroid, 4)
For i = 1 To jml_data
For j = 1 To 4
TextBox1.Text = TextBox1.Text & data(i, j) & " "
Next
For j = 1 To jml_centroid
jarak(i, j, 1) = data(i, 1) - cen(j, 1)
jarak(i, j, 1) = Math.Abs(jarak(i, j, 1))
jarak(i, j, 1) = jarak(i, j, 1) * jarak(i, j, 1)
jarak(i, j, 2) = data(i, 2) - cen(j, 2)
jarak(i, j, 2) = Math.Abs(jarak(i, j, 2))
jarak(i, j, 2) = jarak(i, j, 2) * jarak(i, j, 2)
jarak(i, j, 3) = data(i, 3) - cen(j, 3)
jarak(i, j, 3) = Math.Abs(jarak(i, j, 3))
jarak(i, j, 3) = jarak(i, j, 3) * jarak(i, j, 3)
jarak(i, j, 4) = data(i, 4) - cen(j, 4)
jarak(i, j, 4) = Math.Abs(jarak(i, j, 4))
jarak(i, j, 4) = jarak(i, j, 4) * jarak(i, j, 4)
jarak_ed(i, j) = jarak(i, j, 1) + jarak(i, j, 2) + jarak(i, j, 3) + jarak(i, j, 4)
jarak_ed(i, j) = Math.Sqrt(jarak_ed(i, j))
jarak_ed(i, j) = Math.Round(jarak_ed(i, j), 2)
TextBox1.Text = TextBox1.Text & "c" & j & "=" & jarak_ed(i, j) & " "
Next
jrk_terdekat = jarak_ed(i, 1)
index_jrk_terdekat(i) = 1
For i = 1 To jml_data
For j = 1 To jml_centroid
If index_jrk_terdekat(i) = j Then
cluster(j) = cluster(j) + 1
End If
Next
Next
For j = 1 To jml_centroid
TextBox1.Text = TextBox1.Text & "jml centroid " & j & "=" & cluster(j)
&" "
Next
TextBox1.Text = TextBox1.Text & vbNewLine
TextBox1.Text = TextBox1.Text & "Menghitung pusat cluster baru" &
vbNewLine
For i = 1 To 4
For i = 1 To jml_centroid
For j = 1 To jml_data
If index_jrk_terdekat(j) = i Then
cen(i, 1) = cen(i, 1) + data(j, 1)
cen(i, 2) = cen(i, 2) + data(j, 2)
cen(i, 3) = cen(i, 3) + data(j, 3)
cen(i, 4) = cen(i, 4) + data(j, 4)
End If
Next
'TextBox1.Text = TextBox1.Text & cen(i, 1) & " " & cen(i, 2) & " "
If cluster(i) <> 0 Then
cen(i, 1) = cen(i, 1) / cluster(i)
cen(i, 1) = Math.Round(cen(i, 1), 2)
For i = 1 To jml_data
For j = 1 To 4
TextBox1.Text = TextBox1.Text & data(i, j) & " "
Next
For j = 1 To jml_centroid
jarak(i, j, 1) = data(i, 1) - cen(j, 1)
jarak(i, j, 1) = Math.Abs(jarak(i, j, 1))
jarak(i, j, 1) = jarak(i, j, 1) * jarak(i, j, 1)
jarak(i, j, 2) = data(i, 2) - cen(j, 2)
jarak(i, j, 2) = Math.Abs(jarak(i, j, 2))
jarak(i, j, 2) = jarak(i, j, 2) * jarak(i, j, 2)
jarak(i, j, 3) = data(i, 3) - cen(j, 3)
jarak(i, j, 3) = Math.Abs(jarak(i, j, 3))
jarak(i, j, 3) = jarak(i, j, 3) * jarak(i, j, 3)
jarak(i, j, 4) = data(i, 4) - cen(j, 4)
jarak(i, j, 4) = Math.Abs(jarak(i, j, 4))
jarak(i, j, 4) = jarak(i, j, 4) * jarak(i, j, 4)
jarak_ed(i, j) = jarak(i, j, 1) + jarak(i, j, 2) + jarak(i, j, 3) + jarak(i, j, 4)
TextBox1.Text = TextBox1.Text & "c" & j & "=" & jarak_ed(i, j) & "
"
Next
jrk_terdekat = jarak_ed(i, 1)
index_jrk_terdekat(i) = 1
For j = 1 To jml_centroid
If jrk_terdekat > jarak_ed(i, j) Then
jrk_terdekat = jarak_ed(i, j)
index_jrk_terdekat(i) = j
End If
Next
TextBox1.Text = TextBox1.Text & " cluster=" & index_jrk_terdekat(i) &
vbNewLine
Next
kesamaan = 0
For i = 1 To jml_data
If index_jrk_terdekat(i) = index_jrk_terdekat_lama(i) Then
kesamaan = kesamaan + 1
End If
index_jrk_terdekat_lama(i) = index_jrk_terdekat(i)
Next
TextBox1.Text = TextBox1.Text & vbNewLine
TextBox1.Text = TextBox1.Text & " tingkat kesamaan dengan data
sebelumnya = " & kesamaan & vbNewLine & vbNewLine
If kesamaan = jml_data Then
GoTo hasil
End If
Next
hasil: