Universitas Sumatera Utara

ANALISIS PENGGUNAAN MANHATTAN DISTANCE DAN
EUCLIDEAN DISTANCE PADA ALGORITMA X-MEANS

DALAM PENGELOMPOKAN DATA
TESIS
MAYANG MUGHNYANTI
177038005
PROGRAM STUDI S2 TEKNIK INFORMATIKA

FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI
UNIVERSITAS SUMATERA UTARA
MEDAN
2020
Universitas Sumatera Utara

ANALISIS PENGGUNAAN MANHATTAN DISTANCE DAN
EUCLIDEAN DISTANCE PADA ALGORITMA X-MEANS
DALAM PENGELOMPOKAN DATA
TESIS
Diajukan untuk melengkapi tugas dan memenuhi syarat memperoleh
ijazah Magister Teknik Informatika
MAYANG MUGHNYANTI
177038005
PROGRAM STUDI S2 TEKNIK INFORMATIKA

FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI
UNIVERSITAS SUMATERA UTARA
MEDAN
2020

PERNYATAAN
ANALISIS PENGGUNAAN MANHATTAN DISTANCE DAN EUCLIDEAN

DISTANCE PADA ALGORITMA X-MEANS DALAM
PENGELOMPOKAN DATA
TESIS
Saya mengakui bahwa tesis ini adalah hasil karya saya sendiri, kecuali beberapa
kutipan dan ringkasan yang masing-masing telah disebutkan sumbernya.
Medan, 14 Januari, 2020
Mayang Mughnyanti
177038005

PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK
KEPENTINGAN AKADEMIS
Sebagai civitas akademika Universitas Sumatera Utara, saya yang bertanda

tangan dibawah ini :
Nama : Mayang Mughnyanti

NIM : 177038005
Program Studi : S2 Teknik Informatika
Jenis Karya Ilmiah : Tesis
Demi pengembangan ilmu pengetahuan, menyetujui untuk memberikan kepada

Universitas Sumatera Utara Hak Bebas Royalti Non-Eksklusif (Non-Exclusive
Royalti Free Right) atas tesis saya yang berjudul:
ANALISIS PENGGUNAAN MANHATTAN DISTANCE DAN EUCLIDEAN

DISTANCE PADA ALGORITMA X-MEANS DALAM
PENGELOMPOKAN DATA
Beserta perangkat yang ada (jika diperlukan). Dengan Hak Bebas Royalti Non-
Eksklusif ini, Universitas Sumatera Utara berhak menyimpan, mengalih
media, memformat, mengelola dalam bentuk database, merawat dan
mempublikasikan tesis saya tanpa meminta izin dari saya selama tetap
mencantumkan nama saya sebagai penulis dan sebagai pemegang dan/atau
sebagai pemilik hak cipta.
Demikian pernyataan ini dibuat dengan sebenarnya.

Medan, 14 Januari 2020
Mayang Mughnyanti
177038005

Telah diuji pada
Tanggal : 14 Januari 2020
PANITIA PENGUJI TESIS

Ketua : Prof. Dr. Muhammad Zarlis
Anggota : 1. Dr. Syahril Efendi, S.Si, M.IT
: 2. Prof. Dr. Herman Mawengkang
: 3. Prof. Tulus

RIWAYAT HIDUP
DATA PRIBADI
Nama Lengkap (berikut gelar) : Mayang Mughnyanti, S.Kom
Tempat dan Tanggal Lahir : Medan, 07 Juli 1993
Alamat Rumah : Jl. Sidodame No. 52
Telepon/Faks/HP : 0812 1666 6014
Email : mayangmughny@gmail.com
Website :-
Instansi Tempat Kerja :-
Alamat Kantor :-
DATA PENDIDIKAN
SD : SD Negeri Centre Medan 2004
SMP : SMP Negeri 7 Medan 2007
SMA : SMA Negeri 3 Medan 2010
S1 : Sekolah Tinggi Teknik Harapan 2015
S2 : Teknik Informatika USU Medan 2020

UCAPAN TERIMAKASIH
Alhamdulillahirobbil’alamin, puji dan syukur penulis panjatkan kehadirat Allah

SWT, yang telah melimpahkan segala karunia, rahmat dan hidayah-Nya karena
dengan seizin-Nyalah penulis, dapat menyelesaikan penyusunan tesis ini dengan
judul “ANALISIS PENGGUNAAN MANHATTAN DISTANCE DAN
EUCLIDEAN DISTANCE PADA ALGORITMA X-MEANS DALAM
PENGELOMPOKAN DATA DATA” dapat diselesaikan dengan baik. Shalawat
serta salam semoga senantiasa tercurah kepada Nabi Muhammad shalallaahu ‘alaihi
wasallam, semoga diberikan syafaat pada hari akhirat kelak.
Tesis ini merupakan syarat untuk menyelesaikan studi pada jenjang magister
(S2) yang dalam penyusunannya tidak terlepas dari dukungan berbagai pihak, baik
secara moril maupun materil. Pada kesempatan yang sangat berbahagia saat ini dan
dalam ruang ucapan terima kasih ini, kami menyampaikan rasa terima kasih dan
penghargaan yang setinggitingginya dengan tulus dan ikhlas kepada :
1. Bapak Prof. Dr. Runtung Sitepu, S.H., M.Hum., selaku Rektor
Universitas Sumatera Utara Medan;
2. Bapak Prof. Dr. Opim Salim Sitompul, M.Sc, selaku Dekan Fakultas
Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara Medan.
3. Bapak Prof. Dr. Muhammad Zarlis, M.Sc, selaku Ketua Program Studi S2
Teknik Informatika, Fakultas Ilmu Komputer dan Teknologi Informasi
Universitas Sumatera Utara Medan.
4. Bapak Prof. Dr. Muhammad Zarlis, M.Sc, sebagai Dosen Pembimbing I yang
telah memberikan bimbingan dan arahan dalam penyelesaian tesis ini;
5. Bapak Dr. Syahril Efendi, S.Si, M.IT, sebagai Dosen Pembimbing II yang
telah memberikan bimbingan dan arahan dalam penyelesaian tesis ini;
6. Bapak Prof. Dr. Herman Mawengkang selaku Dosen Pembanding/Penguji I
yang telah memberikan saran dan masukan untuk perbaikan dan penyelesaian
tesis ini;
7. Bapak Prof. Tulus selaku Dosen Pembanding/Penguji II yang telah
memberikan saran dan masukan untuk perbaikan dan penyelesaian tesis ini;

8. Teman sehidup semati penulis Muhammad Fakhri Nasution, A.Md dan anak-
anak dari penulis Kenzie EL Zavier Nasution, Quinsha Athifa Sheza Nasution
yang selalu menjadi motivasi penulis dalam menyelesaikan tesis ini.
9. Ibunda penulis Raden Roro Rinie Noerngesti, S.Pd., Kakak penulis Elvira
Fidelia, M.Eng, Ph.D dan Abang penulis Priya Prayogha Pratama, S.Sos atas
dukungan tanpa batas dari segi materil maupun non materil, serta doanya
untuk kelancaran dalam menyelesaikan tesis ini.
10. Teman-teman seangkatan di MTI-Kom-A-2017 yang telah bersama-sama
menempuh pendidikan pada Program Studi S2 Teknik Informatika
Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara
Medan.
Penulis menyadari bahwa penelitian ini masih jauh dari kata sempurna,
ini dikarenakan oleh keterbatasan, kemampuan dan pengetahuan penulis.
Harapan penulis, semoga penelitian ini bermanfaat bagi penulis khususnya dan
pembaca pada umumnya. Sekali lagi penulis mengucapkan terima kasih,
semoga Allah SWT membalas kebaikan yang telah diberikan. Amin.
Medan, 14 Januari, 2020
Mayang Mughnyanti
177038005

ABSTRAK
Pengelompokkan dapat menggunakan clustering untuk mengelompokkan data yang

didasari pada kemiripan antar data, sehingga data dengan kemiripan paling
dekat berada dalam satu cluster sedangkan data yang berbeda dalam kelompok
lainnya. Algoritma X-Means adalah pengembangan dari K-Means. Kelemahan dari
X-Means adalah dalam menentukan matrix jarak, matriks jarak termasuk faktor
penting yang bergantung pada kumpulan data algoritma X-Means. Nilai matriks
jarak yang dihasilkan akan mempengaruhi kinerja algoritma. Hasil penelitian
adalah : pengujian dengan variasi jumlah centroid (K) dengan nilai 2,3,4,5,6,7,8,9,10.
Penulis menarik kesimpulan jumlah centroid 3 dan 4 memiliki iterasi nilai yang lebih
baik dibandingkan dengan jumlah centroid yang semakin tinggi dan rendah
berdasarkan dataset iris dengan jarax matrix Manhattan Distance. Dari hasil
pengujian dengan titik cluster X-Means hitung jarak Euclidean Distance dengan 100
data iris mencapai iterasi ke 9, sedangkan dengan 100 data iris dengan hitung jarak
Manhattan Distance mencapai iterasi ke 10. Sedangkan dalam penentuan titik cluster
menggunakan metode X-Means dari 100 data iris mencapai iterasi ke 7.
Keywords : X-Means, Euclidean Distance, Manhattan Distance

ANALYSIS OF GROUPING DATA ON X-MEANS ALGORITHM
USING MANHATTAN DISTANCE AND EUCLIDEAN
DISTANCE
ABSTRACT
Grouping can use clustering to group data based on the similarity between data, so
that the data with the closest resemblance are in one cluster while the data is
different in other groups. The X-Means algorithm is a development of K-Means. The
weakness of X-Means is in determining the distance matrix, the distance matrix is an
important factor that depends on the X-Means algorithm data set. The resulting
distance matrix value will affect the performance of the algorithm. The results of the
study are: testing with variations in the number of centroids (K) with a value of
2,3,4,5,6,7,8,9,10. The author draws the conclusion that the number of centroids 3
and 4 has a better iteration value than the number of centroids that is getting higher
and lower based on the iris dataset with Manhattan Distance jarax matrix. From the
test results with X-Means cluster point, calculate the Euclidean Distance distance
with 100 iris data reaching 9th iteration, while with 100 iris data, the Manhattan
Distance distance reaches 10th iteration. While in determining the cluster point
using X-Means method from 100 data the iris reaches the 7th iteration.
Keywords : X-Means, Euclidean Distance, Manhattan Distance

DAFTAR ISI
Halaman
DAFTAR ISI i
DAFTAR GAMBAR iii
DAFTAR TABEL iv
BAB 1 PENDAHULUAN 1
1.1. Latar Belakang 1
1.2. Rumusan Masalah 2
1.3. Batasan Masalah 2
1.4. Tujuan Penelitian 3
1.5. Manfaat Penelitian 3
1.6. Metode Penelitian 3
BAB 2 TINJAUAN PUSTAKA 4
2.1. Pengertian Data Mining 4
2.1.1. Proses Data Mining 4
2.2. Klasifikasi Data 5
2.3. X-Means Clustering 7
2.4. Uci Machine Learning 8
2.5. Perhitungan Jarak (Measures Distance) 9
2.5.1. Euclidean Distance 9
2.5.2. Manhattan Distance 10
2.6. Penelitian Yang Relevan 11
2.7. Perbedaan Dengan Penelitian Yang Lain 12
BAB 3 Metodologi Penelitian 13
3.1. Analisis Algoritma 13

3.2. Metodologi Penelitian 13
3.3. Data Yang Digunakan 14
3.4. Rancangan Penelitian 21
3.5. Metode Yang Diusulkan 22
3.6. Perhitungan Metode X-Means dan Euclidean Distance 24
3.7. Perhitungan Metode X-Means dan Manhattan Distance 32
BAB 4 HASIL DAN PEMBAHASAN 41
4.1. Hasil 41
4.2. Pengujian 41
4.3. Hasil Titik Pusat Cluster Secara Random 42
4.4. Hasil Analisis Hitung Jarak Euclidean Distance dan Manhattan
Distance 43
4.5. Hasil Variasi Nilai K Metode X-Means dan Euclidean Distance dan
Manhattan Distance 45
4.6. Pembahasan 46
BAB 5 KESIMPULAN DAN SARAN 50
4.1. Kesimpulan 50
4.2. Saran 51
DAFTAR PUSTAKA
LAMPIRAN
ii

DAFTAR TABEL
Tabel 2.1. Riset-Riset Terkait 11
Tabel 3.1. Dataset Iris 15
Tabel 3.2. Dataset Wine Quality 18
Tabel 3.3. Titik Pusat Cluster 24
Tabel 3.4. Update Jarak Titik Cluster 27
Tabel 3.6. Update Jarak Titik Cluster Data Iris 29
Tabel 3.7. Kelompok Cluster Setiap Data 31
Tabel 3.9. Update Jarak Titik Cluster 35
Tabel 3.11. Update Jarak Titik Cluster Data Iris 37
Tabel 3.12. Kelompok Cluster Setiap Data 39
Tabel 4.1. Dataset Iris 41
Tabel 4.2. Dataset Wine Quality 42
Tabel 4.3. Inisialisasi Pusat Cluster X-Means Data Iris 42
Tabel 4.4. Jarak Data Terhadap Pusat Cluster Data Iris Dengan Metode Euclidean
Distance 43
Tabel 4.5. Jarak Data Terhadap Pusat Cluster Data Iris Dengan Metode Manhattan
Distance 43
Tabel 4.6. Nilai Titik Pusat Cluster Akhir X-Means Euclidean Distance Data Iris
43
Tabel 4.7. Update Jarak Titik Clustter Euclidean Distance Data Iris 44
Tabel 4.8. Update Jarak Titik Clustter Manhattan Distance Data Iris 44
iii

Tabel 4.9. Titik Pusat Cluster Euclidean Distance Data Iris 45
Tabel 4.10. Titik Pusat Cluster Manhattan Distance Data Iris 45
Tabel 4.11. Hasil Titik Pusat Cluster Akhir X-Means dan Euclidean Distance Data
Iris 45
Tabel 4.12. Hasil Titik Pusat Cluster Akhir X-Means dan Manhattan Distance Data
Iris 45
Tabel 4.13. Hasil Variasi Nilai K Metode X-Means dan Euclidean Distance dan
Manhattan Distance Data Iris 46
Tabel 4.14. Analisis Variasi Nilai K Metode X-Means dan Euclidean Distance dan
Manhattan Distance Data Iris 47
iv

DAFTAR GAMBAR
Gambar 2.1. Contoh Iterasi Data Dengan Cross Validation 7
Gambar 2.2. Ilustrasi KNN dengan K=1 dan K=3 8
Gambar 2.3. Pola Euclidean Distance 10
Gambar 3.1. Flowchart Rancangan Penelitian 22
Gambar 3.2. Proses Metode X-Means dan Euclidean Distance dan Manhattan
Distance 23
Gambar 4.1. Output Grafik Pengujian Variasi Nilai K Dataset Iris 47

BAB 1
PENDAHULUAN
1.1. Latar Belakang

Pengelompokkan dapat menggunakan clustering untuk mengelompokkan data yang
didasari pada kemiripan antar data, sehingga data dengan kemiripan paling
dekat berada dalam satu cluster sedangkan data yang berbeda dalam kelompok
lainnya. Proses dalam mengelompokkan data ke beberapa cluster atau
pengelompokan sehingga data pada satu cluster memiliki tingkat kemiripan yang
maksimum dan antar cluster memiliki kemiripian yang minimum disebut dengan
Clustering. Clustering terbagi atas 2 pendekatan dalam pengembangannya yaitu
sclustering pendekatan partisi dan hirarki. (Poteras, 2014).
Adapun tujuan dari clustering adalah agar objek-objek (data) dalam suatu
kelompok yang sama (terkait) satu sama lain dan berbeda (tidak terkait) objek-objek
dalam kelompok lain. Semakin besar kesamaan (homogenitas) dalam suatu
kelompok dan semakin besar perbedaan antar kelompok, semakin baik atau lebih
jelas pengelompokan. Salah satu algoritma yang dapat digunakan dalam
pengelompokan adalah X-Means (Prasetyo, 2012).
Algoritma X-Means adalah pengembangan dari K-Means. Kelemahan dari X-
Means adalah dalam menentukan matrix jarak, matriks jarak termasuk faktor penting
yang bergantung pada kumpulan data algoritma X-Means. Nilai matriks jarak yang
dihasilkan akan mempengaruhi kinerja algoritma. Jarak antara dua titik data
ditentukan oleh perhitungan matriks jarak dimana Euclidean Distance adalah
fungsi matriks jarak yang paling banyak digunakan. Terdapat beberapa jenis
fungsi matriks jarak selain Euclidean Distance yaitu Manhattan Distance,
Miskowski Distance, Canberra Distance, Braycurtis Distance, Chi-Square dan
lainnya.
X-means clustering digunakan untuk menyelesaikan salah satunya kelemahan

utama dari K-means clustering, yaitu perlunya pengetahuan sebelumnya tentang
jumlah cluster (K). Dalam metode ini, nilai sebenarnya dari K diperkirakan dalam
1
2
suatu yang tidak diawasi cara dan hanya berdasarkan set data itu sendiri (Mahdi
Shahbaba, et al. 2012).
Beberapa penelitian terkait dengan fungsi matriks jarak juga telah
dilakukan dengan membandingkan jarak Euclidean distance dengan Manhattan
distance, Canberra distance dan Hybrid distance pada algoritma LVQ.
Penelitian ini menghasilkan bahwa Hybrid LVQ memiliki kemampuan terbaik
pada pengenalan data, diikuti dengan Canberra, Manhattan dan Euclidean distance
(Vashista & Nagar, 2017). Alamri et al (2016).
Pada dasarnya dalam algoritma x-means pengukuran jarak memegang peran
yang sangat penting dalam menentukan kemiripan atau keteraturan di antara
data dan item. hal ini dilakukan untuk mengetahui, dengan cara seperti apa data
dikatakan saling terkait, mirip, tidak mirip, dan metode pengukuran jarak seperti
apa yang diperlukan untuk membandingkannya. Oleh karena itu dalam penelitian
ini penulis akan mencoba untuk menganalisis metode Manhattan Distance dan
Euclidean Distance Pada Algoritma X-Means dalam pengelompokan data.
Berdasarkan uraian tersebut, penulis memilih judul “Analisis Penggunaan
Manhattan Distance Dan Euclidean Distance Pada Algoritma X-Means Dalam
Pengelompokan Data”.
1.2. Rumusan Masalah

Dalam pengelompokan data dengan algoritma X-Means memiliki parameter penting
dalam kinerjanya. Salah satu parameter yang paling penting adalah menentukan
matriks jarak. Matriks jarak menjadi faktor penting yang bergantung pada kumpulan
data yang dapat mempengaruhi kinerja algoritma X-Means. Sehingga diperlukan
pengukuran dan perbandingan kinerja matriks jarak pada proses pengelompokan
data. Penulis menganalisis penggunaan Manhattan Distance Dan Euclidean Distance
Pada Algoritma X-Means dalam pengelompokan data terhadap pengaruh iterasi
dengan parameter pengujian variasi jumlah centroid.
1.3. Batasan Masalah

Berdasarkan perumusan masalah terdapat batasan masalah sebagai berikut:

3
1 Penelitian ini akan membahas penggunaan metode X-Means dimana untuk

menganalisis matriks jarak yang akan dianalisis antara Manhattan Distance
dan Euclidean Distance.
2 Penulis memfokuskan penggunaan Manhattan Distance dan Euclidean
Distance terhadap pengaruh jumlah centroid.
3 Pada penelitian ini menggunakan beberapa data, antara lain 2 dataset dari
UCI Machine Learning Repository, yaitu wine dan iris.
1.4 Tujuan Penelitian

Adapun tujuan penelitian adalah untuk melakukan pengukuran akurasi dan
menganalisis perbandingan tingkat akurasi metode Manhattan distance dan
Euclidean Distance pada Algoritma X-Means dalam pengelompokan data.
1.5. Manfaat Penelitian

Manfaat yang diharapkan dari hasil penelitian ini adalah sebagai berikut:
1. Mendalami metode X-Means khususnya dalam pengelompokan data.
2. Dapat mengetahui hasil analisis perhitungan jarak Manhattan distance dan
Euclidean Distance.
3. Memberi kontribusi kepada ilmu pengetahuan dalam bidang X-Means
dalam pengelompokan data.
1.6 Metode Penelitian

Adapun metode penelitian ini dilakukan secara sistematik agar mendapatkan
alur kerja yang baik yang dapat digunakan sebagai pedoman untuk peneliti
dalam melaksanakan penelitian ini agar hasil yang dicapai tidak menyimpang
dan tujuan yang diinginkan dapat terlaksana dengan baik dan sesuai dengan
tujuan yang telah ditetapkan sebelumnya.

BAB 2
TINJAUAN PUSTAKA
Bab ini akan diuraikan seluruh landasan teori yang berhubungan dengan penelitian.
Konsep-konsep yang akan di jelaskan dalam penelitian ini seperti data mining,
clustering, klasifikasi data, manhattan distance, euclidean distance dan algoritma X-
Means.
2.1. Pengertian Data Mining

Istilah data mining mulai dikenal sejak tahun 1990, ketika pekerjaan pemanfaatan
data menjadi sesuatu yang penting dalam berbagai bidang, mulai dari bidang
akademik, bisnis hingga medis (Prasetyo, 2014). Munculnya data mining didasarkan
pada jumlah data yang tersimpan dalam basis data semakin besar. Dalam berbagai
literatur, teori-teori pada data mining sudah ada sejak lama seperti antara lain Naïve-
Bayes dan Nearest Neighbour, Pohon Keputusan, aturan asosiasi, K-Means
clustering dan text mining (Bramer, 2007). Data mining disebut juga dengan
knowledge-discovery in database (KDD) ataupun pattern recognition. Istilah KDD
atau disebut penemuan pengetahuan data karena tujuan utama data mining adalah
untuk memanfaatkan data dalam basis data dengan mengolahnya sehingga
menghasilkan informasi baru yang berguna. Sedangkan istilah pattern recognition
atau disebut pengenalan pola mempunyai tujuan pengetahuan yang akan digali dari
dalam bongkahan data yang sedang dihadapi.
Dari kedua istilah tersebut, data mining sebagai disiplin ilmu memiliki tujuan
utama yaitu untuk menemukan, menggali, atau menambang pengetahuan dari data
atau informasi yang dimilki. Sesuai dengan tujuan utama data mining , terdapat enam
fungsi dalam data mining (Prasetyo, 2014), diantaranya: (1) fungsi deskripsi
(description), (2) fungsi estimasi (estimation), (3) fungsi prediksi (prediction), (4)
fungsi klasifikasi (classification), (5) fungsi pengelompokan (clustering), dan (6)
fungsi asosiasi (association).
2.1.1 Proses Data Mining

Secara sistematis, ada tiga langkah utama dalam data mining (Prasetyo, 2014):
4
5
1. Eksplorasi/pemrosesan awal data

Eksplorasi atau pemrosesan awal data terdiri dari pembersihan data, normalisasi
data, transformasi data, penanganan data yang salah, reduksi dimensi, pemilihan
subset.
2. Membangun model dan melakukan validasi terhadapnya
Membangun model dan melakukan validasi terhadapnya berarti melakukan
analisis berbagai model dan memilih model dengan kinerja prediksi yang terbaik.
Dalam langkah ini digunakan metode-metode seperti klasifikasi, regresi, analisis
cluster, deteksi anomali, analisis asosiasi, analisis pola sekuensial. Dalam
beberapa referensi, deteksi anomali juga masuk dalam langkah eksplorasi, akan
tetapi deteksi anomali juga dapat digunakan sebagai algoritma utama, terutama
untuk mencari data yang spesial.
3. Penerapan
Penerapan berarti menerapkan model pada data yang baru untuk menghasilkan
perkiraan/prediksi masalah yang diinvestigasi.
2.2. Klasifikasi Data

Klasifikasi adalah pemprosesan untuk menemukan sebuah model atau fungsi yang
menjelaskan dan mencirikan konsep atau kelas data, untuk kepentingan tertentu.
Analisis kelompok sebagai suatu metode untuk melakukan klasifikasi data
menjadi beberapa kelompok dengan menggunakan metode pengukuran ukuran
asosiasi, sehingga data yang sama berada dalam satu kelompok dan data yang
mimiliki perbedaan yang besar diletakkan dalam kelompok data lainnya. Masukan
untuk sistem analisis kelompok adalah sebuah data set dan kesamaan ukuran antara
kedua data tersebut. Sedangkan hasil dari analisis kelompok adalah sejumlah
kelompok yang membentuk sebuah partisi atau struktur partisi dari kumpulan data
dan deskripsi umum dari setiap kelompok, dimana hal ini sangat penting untuk
analisis yang lebih dalam pada karakteristik yang terdapat pada data tersebut.
Pengelompokan data harus menggunakan sebuah pendekatan untuk mencari
kesamaan dalam data sehingga mampu menempatkan data ke dalam kelompok-
kelompok yang tepat. Pengelompokan data akan membagi kumpulan data ke dalam
beberapa kelompok dimana kesamaan dalam sebuah kelompok lebih besar jika
dibandingkan dengan kelompok-kelompok lainnya (Gorunescu, 2011).

6
Terdapat dua metode pembelajaran yang tersedia pada model klasifikasi yaitu :
a. Eager learning adalah proses pembelajaran pada data latih secara
intensif sehingga model dapat melakukan prediksi ke label kelas
output dengan benar. Beberapa metode bersifat eager learning antara lain
: Neural Network, Bayesian, decision tree, Support Vector Machine.
b. Lazy learningadalah proses pembelajaran tanpa melakukan pelatihan dan
hanya menyimpan nilai data latih untuk digunakan pada proses
prediksi. Beberapa metode bersifat lazy learning antara lain: K-
Nearest Neighbor, Regresi Linear, Fuzzy K-Nearest Neighbor.
Proses klasifikasi pada machine learning memiliki empat komponen
(Saputra, 2018) yaitu :
1. Class
Variabel dependen tetamu harus dalam bentuk yang mewakili label yang
dimiliki oleh objek.
2. Energi
Variabel independen yang diwakili oleh atribut karakteristik data. Misalnya
: gaji, kehadiran, merokok, tekanan darah.
3. Dataset Pelatihan
Satu set data yang memiliki kedua nilai komponen diatas yang digunakan
untuk menentukan kelas yang sesuai berdasarkan energi.
4. Menguji dataset
Satu set data baru yang akan diklasifikasi dengan model yang telah
dibuat dan akan dievaluasi pada proses akurasi klasifikasi.
Pada proses klasifikasi, sebelum melakukan prediksi, perlu dilakukan
proses pembelajaran terlebih dahulu. Proses pembelajaran tersebut memerlukan data.
Data yang diperlukan pada saat proses klasifikasi terdiri atas dua jenis, yaitu :
a. Data latih atau data trainingadalah data yang digunakan pada proses
pembelajar dalam proses klasifikasi.
b. Data uji atau data testingadalah data yang digunakan pada proses prediksi
dalam proses klasifikasi.

7
2.3. X - Means Clustering

Algoritma X-Means dikembangkan oleh Dan Pelleg dan Andre Moore pada tahun
2000. Dalam algoritma ini jumlah cluster dihitung secara dinamis menggunakan
batas atas dan bawah yang disediakan oleh pengguna. Algoritma ini terdiri dari dua
langkah yang diulang sampai selesai.
1. Tingkatkan-Params, pada langkah ini menerapkam algoritma k-means pada
awalnya untuk k cluster hingga konvergensi. Dimana k sama dengan batas
bawah yang disediakan oleh pengguna.
2. Perbaiki Struktur, langkah perbaikan struktur ini dimulai dengan memecah
setiap pusat cluster menjadi dua anak dalam arah yang berlawanan di sepanjang
vektor yang dipilih secara acak. Setelah itu menjalankan k-means secara lokal di
dalam setiap cluster untuk dua cluster. Keputusan masing-masing pusat cluster
sendiri dengan membandingkan nilai-nilai BIC.
3. Jika K > = kmax (batas atas) berhenti dan laporkan ke model penilaian terbaik
yang ditemukan selama penarian, jika tidak pergi ke langkah 1.
X-Means berarti mengambil keuntungan dari Informasi Bayesian Cri
terion (BIC) untuk mengontrol proses pemisahan cluster.
Dengan kata lain, jika memecah satu cluster menjadi dua clus
ters meningkatkan skor BIC, kemudian memiliki dua kelompok
lebih mungkin daripada satu cluster. Dalam makalah ini,
kami sarankan untuk menggunakan Panjang Deskripsi Berisik Minimum
(MNDL. sebagai kriteria pemisahan klaster, yang mengarah
untuk prediksi yang lebih tepat untuk jumlah cluster.
X-means clustering digunakan untuk menyelesaikan salah satunya kelemahan
utama dari K-means clustering, yaitu perlunya pengetahuan sebelumnya tentang
jumlah cluster (K). Dalam metode ini, nilai sebenarnya dari K diperkirakan dalam
suatu yang tidak diawasi cara dan hanya berdasarkan set data itu sendiri (Mahdi
Shahbaba, et al. 2012).

8
Gambar 2.1. Langkah-Langkah Umum dalam Pengelompokan X-Means

Kmax dan Kmin sebagai batas atas dan bawah untuk nilai yang mungkin dari
X. Pada langkah pertama X-means pengelompokan, mengetahui bahwa saat ini
X = Xmin, X-berarti menemukan struktur awal dan centroid. Di langkah
selanjutnya, setiap cluster dalam struktur yang diperkirakan diperlakukan
sebagai induk cluster, yang dapat dibagi menjadi dua kelompok.
Algoritma ini bisa terlalu lambat karena perlu menjalankan kembali K
berarti untuk setiap pemisahan klaster. Untuk mengatasi masalah ini,
menerapkan kd-tree dari kumpulan data disarankan dalam, yang
secara alami mengurangi jumlah permintaan tetangga terdekat
untuk K-means.
2.4. Uci Machine Learning Repository

Uci Machine Learning Repository adalah kumpulan database, teori domain, dan data
generasi yang digunakan oleh komunitas yang mempelajari pembelajaran mesin,
untuk keperluan analisis empiris algoritma pembelajaran mesin. Dataset yang
tersedia di Gudang Pembelajaran Mesin UCI digunakan oleh siswa, pendidik, dan
peneliti di seluruh dunia sebagai sumber utama kumpulan data dalam pembelajaran
mesin. Jumlah set data yang tersedia di Gudang Pembelajaran Mesin UCI saat ini
berjumlah 320 set data yang dapat digunakan sesuai dengan kebutuhan pembelajaran

9
mesin. Salah satu set data dari UCI Machine Learning Repository yang umum
digunakan adalah set Iris Data. Kumpulan Data Iris adalah kumpulan data yang
banyak digunakan dalam masalah pengenalan pola. Atribut informasi pada Iris Data
Set terdiri dari: Panjang Sepal, Lebar Sepal, Panjang Petal, dan Lebar Petal. Iris Data
Set memiliki 3 kelas, yaitu: Iris Setosa, Iris Versicolour, dan Iris Virginica. (Uci
Machine Learning, https://archive.ics.uci.edu).
2.5. Perhitungan Jarak (Measures Distance)

Perhitungan jarak banyak digunakan dalam menentukan tingkat kemiripan atau
tidaknya dua buah vektor. Sehingga metode ini banyak digunakan untuk
melakukan pengenalan pola (Wurdianarto et al, 2014). Beberapa metode jarak
yang ada antara lain: Euclidean Distance, Chebyshev, Angular Separation,
Canberra Distance, Haming Distance, Sorrensen Distance dan lain sebagainya.
Pada algoritma K-Nearest Neighbor, proses klasifikasi menggunakan metode
jarak Euclidean Distance.
Perbedaan perhitungan jarak terdekat/ jarak kemiripan sangat tepat
digunakan untuk menganalisis kelas perbedaan. Perhitungan jarak terdekat/jarak
kemiripan menggunakan beberapa nilai matriks biasanya digunakan untuk
mengekstrak kemiripan objek data dan dibantu dengan proses klasifikasi
menggunakan algoritma yang efiesien. Untuk dataset klasifikasi, beberapa
metode perhitungan jarak terdekat/jarak kemiripan adalah Euclidean distance,
Canberra distance, Braycurtis distance.
2.5.1 Euclidean Distance

Jarak Metode perhitungan jarak terdekat / jarak kemiripan Euclidean Distance
adalah metode perhitungan jarak yang paling sering digunakan untuk menghitung
kesamaan dua buah vektor. Euclidean Distance adalah metrika yang paling sering
digunakan untuk menghitung kesamaan dua vektor. Rumus euclidean Distance adalah
akar dari kuadrat perbedaan 2 vektor (root of square differences between 2 vectors).
Jarak Euclidean Distance adalah jarak antar titik dalam garis lurus. Metode
jarak ini menggunakan teorema Pythagoras. Dan merupakan perhitungan jarak
yang paling sering digunakan dalam proses machine learning (Viriyavisuthisakul
et al, 2015). Rumus Euclidean Distance adalah hasil dari akar kuadrat perbedaan

10
dua buah vektor.

(2.1)
Keterangan :
dij = jarak perhitungan kemiripan
n = jumlah vektor
xik = vektor citra input
xjk = vektor citra pembanding
Dari persamaan 2.1 pola dari Euclidean Distance adalah lingkaran yang
ditunjukkan pada gambar 2.2.
(X2,Y2)
d b
(X1,Y1)
a
Gambar 2.2 Pola Euclidean Distance

Keterangan :
a = x2 – x 1
b = y2 – y1
Rumus Pytagoras
a2 + b 2 = d 2
d2 = (x2 – x1)2 + (y2 – y1)2
2.5.2 Manhattan Distance

Manhattan distance disebut juga sebagai “city block distance” merupakan jumlah
jarak dari semua attribute. Untuk dua data titik x dan y dalam d-ruang dimensi,
Manhattan distance antara titik tersebut didefinisikan sebagai berikut:
(2.2)

11
2.6. Penelitian Yang Relevan

Dalam melakukan penelitian, penulis menggunakan beberapa penelitian yang relevan
terkait dengan X-Means dan perhitungan matriks jarak sebagai acuan dalam
penilitian. Beberapa penelitian telah dilakukan,
Tabel 2.1 Riset-Riset Terkait
Nama Peneliti dan Algoritma / Metode

No Hasil Penelitian
Tahun Penelitian yang digunakan
1 Nakyoung Kim, X-Means Penelitian memodifikasi
Hyojin Park, Jun metode yang berasal dari
Kyun Choi (2017) kombinasi Mean-Shift dan
X-Means. Hasil dari
penelitian dapat efisiensi
waktu dan perhitungan dan
dapat secara terpisah
mengelompok gambar
dengan fitur yang sama.
2 Fakhroddin X-Means Hasil penelitian dengan X-
Noorberbahani, Means menunjukkan dapat
Sadeq Mansori klasifikasi jaringan lalu
(2018) lintas yang akurat.
3 Vashista & Nagar Euclidean Distance Hasil penelitian dengan
(2017) membandingkan jarak
dimana metode hybrid
distance memiliki
kemampuan yang lebih
baik dalam pengenalan
data LVQ.
4 Latifa Greche, Maha Euclidean Distance, Hasil penelitian dengan
Jazouli, et al. (2017) Manhattan Distance membandingkan hasil
klasifikasi dari enam
ekspresi wajah. Klasifikasi
fitur wajah yang dihitung
menggunakan metode
Manhattan dan Euclidean
telah direalisasikan
menggunakan
pengklasifikasi jaringan
saraf untuk mengenali
enam emosi. Kedua
metode ini mencapai hal

12
yang sama
tingkat pengakuan rata-rata
100%, kecuali masing-
masing mencapai tingkat
ini pada tahap pelatihan
jaringan saraf yang
berbeda.
5 Alfatih Muhammad, Euclidean Distance, Metode jarak Manhattan
Ary Setijadi Manhattan Distance lebih tepat untuk diukur
Prihatmanto, et al jarak suku kata dan fonetik
(2018) bahkan jika dilihat
pengukuran rata-rata jarak
Manhattan dan Euclidean
nilai jaraknya hampir
sama. Namun, saat
jaraknya dari suku kata
dan panjang fonetik jauh,
Euclidean pengukuran
mengambil titik tengah
dari akumulasi semua
parameter.
2.7. Perbedaan Dengan Penelitian Lain

Pada penelitian sebelumnya menentukan jarak dengan metode Euclidean Distance
dan Manhattan Distance digunakanpada metode K-NN. Sedangkan pada penelitian
ini penulis akan menganalisis dalam perhitungan jarak untuk mengelompokan data
pada algoritma X-Means dan mengatahui tingkat keakuratan pengelompokan
berdasarkan jumlah centroid.

BAB 3
METODE PENELITIAN
3.1. Analisis Algoritma

Pada tahap ini, analisis dilakukan dengan menghitung jarak matrik metode
Manhattan Distance dan Euclidean Distance pada algoritma X-Means dalam
pengelompokan data.
3.2. Metodologi Penelitian

Perlu dilakukan pengujian penentuan jumlah cluster dan juga penentuan
jarak matrik menggunakan X-Means pada suatu dataset berukuran besar. Dataset
yang ada menggunakan UCI Machine Learning Repository. UCI Machine Learning
Repository adalah sebuah koleksi database, domain teori, dan data generator yang
digunakan oleh komunitas yang mempelajari mesin pembelajaran (machine
learning), untuk keperluan analisis empiris dari algoritma machine learning.
Dataset yang tersedia pada UCI Machine Learning Repository digunakan oleh
pelajar, pendidik, dan peneliti diseluruh dunia sebagai sumber utama dari data set
pada machine learning. Jumlah data set yang tersedia pada UCI Machine Learning
Repository pada saat ini sudah berjumlah 320 data set yang dapat digunakan sesuai
dengan kebutuhan pada pembelajaran machine learning.
Proses penelitian ini terdapat beberapa kegiatan, yaitu kegiatan-kegiatan yang
terdapat pada penelitian. yaitu observasi lapangan pengumpulan data dan analisis
data.
1. Observasi yang dilakukan pada penelitian ini adalah hal yang paling
penting. Karena penulis dapat mengetahui tingkat visibilitas yang
digunakan. Data-data yang telah dikumpulkan menjadi titik pantauan
dalam observasi ini sehingga mendapat hasil yang digunakan.
2. Pengumpulan data literature, jurnal, paper, dan bacaan-bacaan lainnya
yang berhubungan dengan algoritma klasifikasi data mining. Peneliti
melakukan pengumpulan data dengan mengambil dataset UCI Machine
Learning Repository. Peneliti menggunakan dataset iris, dan wine
quality.
13
14
3. Analisis data dengan membuat rancangan data input dan output yang
akan dimasukkan sebagai data penelitian. Memisahkan data penelitian
menjadi dua bagian, yaitu data pelatihan dan data pengujian. Data
pelatihan digunakan untuk mengamati proses pengenalan pola
(memorisasi), sedangkan data pengujian digunakan untuk mengamati
kemampuan algoritma dalam mengenali pola pada sample yang belum
dipelajari oleh algoritma X-Means.
3.3. Data Yang Digunakan

Pada penelitian ini, untuk mengetahui kinerja dari metode yang digunakan maka
akan digunakan sejumlah dataset. Adapun data yang digunakan terdiri dari 2 dataset
yang berasal dari UCI Machine Learning Repository diantaranya adalah data
ionosphere, iris dan wine (Syaliman et al, 2018; Kumar et al, 2011).
Iris merupakan salah satu dataset yang populer, dataset ini mungkin
merupakan dataset yang paling terkenal dan dapat ditemukan dalam literatur
pengenalan pola yang telah disusun oleh Fisher (1936). Dataset ini terdiri dari 150
records dengan 4 attributes dan 3 kelas, dimana setiap kelas data terdiri dari 50
records (Marshall. 1988). Wine adalah dataset yang terdiri dari 13 attribute dan
memiliki 3 kelas, data ini didonasikan oleh Aerbehard (1991). Wini termasuk
kedalam salah satu data yang paling banyak digunakan untuk menguji kinerja suatu
algoritma (Aerbehard, 1991).
Kumpulan data minat Iris atau kumpulan data Iris Fisher adalah kumpulan
data multivarian yang diperkenalkan oleh ahli statistik dan biolog Inggris Ronald
Fisher pada tahun 1936. Penggunaan beberapa pengukuran dalam masalah taksonomi
misalnya analisis diskriminan linier. Disebut juga data Iris Anderson
diatur karena Edgar Anderson mengumpulkan data untuk mengukur variasi
morfologi bunga Iris dari tiga spesies terkait. Dua dari tiga spesies dikumpulkan
semua dari padang rumput yang sama, dan mengambil pada hari yang sama dan
diukur pada saat yang sama oleh orang yang sama dengan peralatan yang sama, dan
dipetik pada hari yang sama dan diukur pada waktu yang sama oleh orang yang sama
dengan peralatan yang sama. Data yang digunakan pada penelitian ini yaitu data Iris
dan Wine Quality sebagai data uji dan pelatihan awal dalam penelitian pada tabel 3.1
dan 3.2

15
Tabel 3.1 Dataset Iris

No. Nama Item X1 X2 X3 X4
1 IrisSetosa 5.1 3.5 1.4 0.2
2 IrisSetosa 4.9 3 1.4 0.2
3 IrisSetosa 4.7 3.2 1.3 0.2
4 IrisSetosa 4.6 3.1 1.5 0.2
5 IrisSetosa 5 3.6 1.4 0.2
6 IrisSetosa 5.4 3.9 1.7 0.4
7 IrisSetosa 4.6 3.4 1.4 0.3
8 IrisSetosa 5 3.4 1.5 0.2
9 IrisSetosa 4.4 2.9 1.4 0.2
10 IrisSetosa 4.9 3.1 1.5 0.1
11 IrisSetosa 5.4 3.7 1.5 0.2
12 IrisSetosa 4.8 3.4 1.6 0.2
13 IrisSetosa 4.8 3 1.4 0.1
14 IrisSetosa 4.3 3 1.1 0.1
15 IrisSetosa 5.8 4 1.2 0.2
16 IrisSetosa 5.7 4.4 1.5 0.4
17 IrisSetosa 5.4 3.9 1.3 0.4
18 IrisSetosa 5.1 3.5 1.4 0.3
19 IrisSetosa 5.7 3.8 1.7 0.3
20 IrisSetosa 5.1 3.8 1.5 0.3
21 IrisSetosa 5.4 3.4 1.7 0.2
22 IrisSetosa 5.1 3.7 1.5 0.4
23 IrisSetosa 4.6 3.6 1 0.2
24 IrisSetosa 5.1 3.3 1.7 0.5
25 IrisSetosa 4.8 3.4 1.9 0.2
26 IrisSetosa 5 3 1.6 0.2
27 IrisSetosa 5 3.4 1.6 0.4
28 IrisSetosa 5.2 3.5 1.5 0.2
29 IrisSetosa 5.2 3.4 1.4 0.2
30 IrisSetosa 4.7 3.2 1.6 0.2

16
31 IrisVersiColor 7 3.2 4.7 1.4

32 IrisVersiColor 6.4 3.2 4.5 1.5
34 IrisVersiColor 5.5 2.3 4 1.3
38 IrisVersiColor 4.9 2.4 3.3 1
41 IrisVersiColor 5 2 3.5 1
42 IrisVersiColor 5.9 3 4.2 1.5
43 IrisVersiColor 6 2.2 4 1
58 IrisVersiColor 6.7 3 5 1.7

17

71 IrisVirginica 6.3 3.3 6 2.5
72 IrisVirginica 5.8 2.7 5.1 1.9
73 IrisVirginica 7.1 3 5.9 2.1
81 IrisVirginica 6.5 3.2 5.1 2
84 IrisVirginica 5.7 2.5 5 2
90 IrisVirginica 6 2.2 5 1.5

18

96 IrisVirginica 7.2 3.2 6 1.8
Keterangan :
X1 = Sepal length in cm
X2 = Sepal width in cm
X3 = Petal length in cm
X4 = Petal width in cm
Tabel 3.2 Dataset Wine Quality
1 Wine Quality Red 7.4 0.7 0 1.9
3 Wine Quality Red 7.8 0.76 0.04 2.3
4 Wine Quality Red 11.2 0.28 0.56 1.9
7 Wine Quality Red 7.9 0.6 0.06 1.6
9 Wine Quality Red 7.8 0.58 0.02 2
10 Wine Quality Red 7.5 0.5 0.36 6.1
11 Wine Quality Red 6.7 0.58 0.08 1.8
12 Wine Quality Red 7.5 0.5 0.36 6.1
14 Wine Quality Red 7.8 0.61 0.29 1.6
15 Wine Quality Red 8.9 0.62 0.18 3.8
16 Wine Quality Red 8.9 0.62 0.19 3.9
17 Wine Quality Red 8.5 0.28 0.56 1.8
18 Wine Quality Red 8.1 0.56 0.28 1.7

19
19 Wine Quality Red 7.4 0.59 0.08 4.4

20 Wine Quality Red 7.9 0.32 0.51 1.8
21 Wine Quality Red 8.9 0.22 0.48 1.8
22 Wine Quality Red 7.6 0.39 0.31 2.3
23 Wine Quality Red 7.9 0.43 0.21 1.6
24 Wine Quality Red 8.5 0.49 0.11 2.3
25 Wine Quality Red 6.9 0.4 0.14 2.4
26 Wine Quality Red 6.3 0.39 0.16 1.4
27 Wine Quality Red 7.6 0.41 0.24 1.8
28 Wine Quality Red 7.9 0.43 0.21 1.6
30 Wine Quality Red 7.8 0.645 0 2
31 Wine Quality Red 6.7 0.675 0.07 2.4
33 Wine Quality Red 8.3 0.655 0.12 2.3
34 Wine Quality Red 6.9 0.605 0.12 10.7
35 Wine Quality Red 5.2 0.32 0.25 1.8
37 Wine Quality Red 7.8 0.6 0.14 2.4
38 Wine Quality Red 8.1 0.38 0.28 2.1
39 Wine Quality Red 5.7 1.13 0.09 1.5
40 Wine Quality Red 7.3 0.45 0.36 5.9
41 Wine Quality Red 7.3 0.45 0.36 5.9
42 Wine Quality Red 8.8 0.61 0.3 2.8
43 Wine Quality Red 7.5 0.49 0.2 2.6
44 Wine Quality Red 8.1 0.66 0.22 2.2
45 Wine Quality Red 6.8 0.67 0.02 1.8
46 Wine Quality Red 4.6 0.52 0.15 2.1
47 Wine Quality Red 7.7 0.935 0.43 2.2
48 Wine Quality Red 8.7 0.29 0.52 1.6
49 Wine Quality Red 6.4 0.4 0.23 1.6
50 Wine Quality Red 5.6 0.31 0.37 1.4

20
51 Wine Quality White 7 0.27 0.36 20.7

52 Wine Quality White 6.3 0.3 0.34 1.6
57 Wine Quality White 6.2 0.32 0.16 7
76 Wine Quality White 7 0.25 0.32 9

21

Keterangan :
X1 = Fixed acidity
X2 = Volatile acidity
X3 = Citric acid
X4 = Residual sugar
3.4. Rancangan Penelitian

Penelitian ini menganalisis matrik metode Manhattan Distance dan Euclidean
Distance pada algoritma X-Means dalam mengelompokan data. Untuk lebih jelas
dalam mendeskripsikan proses dalam penelitian ini maka akan dijelaskan tahapan
demi tahapan dalam sub bab ini. Adapun tahapan-tahapannya secara garis besar
dapat dilihat pada Gambar 3.1 :

22
Dataset yang
digunakan
Menentukan Jumlah Cluster
Proses Clustering Dengan

X-Means
Hitung Jarak Dengan Hitung Jarak Dengan

Manhattan Distance Euclidean Distance
Kelompokan Data ke Pusat

Cluster Terdekat
Tentukan Pusat Cluster Baru
Pengelompokan Dengan
X-Means
Analisis
Gambar 3.1 Flowchart Rancangan Penelitian
Berdasarkan Gambar 3.1 terlihat bahwa untuk melakukan proses analisis

proses clustering dengan X-Means menggunakan Manhattan Distance dan Euclidean
Distance dalam pengelompokan data.
3.5. Metode Yang Diusulkan

Untuk mengetahui hasil analisis apakah metode yang diusulkan mampu
meningkatkan performa algoritma X-Means, maka akan dilakukan analisis kinerja
berdasarkan hasil iterasi yang menggunakan metode metode jarak manhatan distance
dengan euclidean distance.

23
Dataset
Menentukan Nilai Hitung Jarak Dari

Inisialisasi Pusat
(K) Setiap Pusat Cluster
Tentukan Nilai
Hitung Nilai dari
Pusat Cluster Minimum Setiap
Setiap Cluster
Centroid
Hitung Jarak ke
Pusat Cluster degan
Euclidean Distance
Proses Clustering Kelompokkan Data

Dengan X-Means ke Pusat Cluster
Terdekat
Hitung Jarak ke
Pusat Cluster degan
Manhattan Distance
Tentukan pusat
Cluster Baru
Keterangan :
X-Means
Ecludiean Distance
Pengelompokan
Dengan X-Means Manhattan Distance
Analisis
Gambar 3.2 Proses Metode X-Means dan Euclidean Distance dan Manhattan
Distance

24
3.4. Perhitungan Metode X-Means dan Euclidean Distance

Adapun penelitian ini, menggunakan algoritma X-Means sebagai metode klasifikasi
data set iris dan menggunakan algoritma euclidean distance dan manhattan distance
sebagai metode untuk menghitung jarak antara data tes dan data uji pada algoritma
X-Means. Dan akan dianalisis dengan algoritma X-Means menggunakan metode
jarak Euclidean Distance dengan perbandingan metode jarak Manhattan Distance.
Pada sub bab ini akan digunakan sebagian data dari dataset Iris dengan jumlah data
sebanyak 10 record, yang mana jumlah attribut data yang diambil berjumlah 4
atribut, dataset ini akan dilakukan proses clustering, Dalam contoh ini akan dibentuk
2 cluster, adapun tahapan-tahapannya adalah sebagai berikut.
a. Inisialisasi pusat cluster 1 dan pusat cluster 2, inisial cluster dengan range
data antara nilai terendah sampai nilai tertinggi. Adapun nilai untuk
setiap pusat cluster ditunjukkan sebagai berikut.
Tabel 3.9 Titik Pusat Cluster
Pusat Cluster Nama Item X1 X2 X3 X4
1 IrisSetosa 4.7 3.2 1.3 0.2
b. Pada tahap ini dilakukan proses update jarak titik cluster.

( ) ( )
yj = data ke-i
Jumlah cluster=2
xi= Titik pusat cluster ke-j
Perhitungan ke-1
Perhitungan data ke-1 (yj) dengan titik pusat cluster 1 (xi)
( ) ( ) ( ) ( )

( ) ( ) ( ) ( )

25
Perhitungan ke-2
( ) ( ) ( ) ( )

( ) ( ) ( ) ( )
Perhitungan ke-3
( ) ( ) ( ) ( )

( ) ( ) ( ) ( )
Perhitungan ke-4
( ) ( ) ( ) ( )

( ) ( ) ( ) ( )
Perhitungan ke-5
( ) ( ) ( ) ( )

26
( ) ( ) ( ) ( )
Perhitungan ke-6
( ) ( ) ( ) ( )

( ) ( ) ( ) ( )
Perhitungan ke-7
( ) ( ) ( ) ( )

( ) ( ) ( ) ( )
Perhitungan ke-8
( ) ( ) ( ) ( )

( ) ( ) ( ) ( )
Perhitungan ke-9
( ) ( ) ( ) ( )

27

( ) ( ) ( ) ( )
Perhitungan ke-10
( ) ( ) ( ) ( )

( ) ( ) ( ) ( )
Perhitungan update jarak titik pusat cluster dengan atribut data telah
selesai dihitung dan diperoleh hasilnya. Nilai dari setiap hasil
perhitungan titik pusat cluster 1 dan titik pusat cluster 2 dapat
ditunjukkan sebagai berikut:
Tabel 3.10 Update Jarak Titik Cluster
Data Ke- Jarak Data Dengan Titik Jarak Data Dengan
Pusat Cluster 1 Titik Pusat Cluster 2
1 0.29 17.71
2 0 17.48
3 0.09 18.79
4 16.78 2.1
5 13.59 1.13
6 17.95 1.57
7 28.5 1.78
8 17.48 0
9 28.7 2.46
10 22.17 0.55

28
Dari hasil perhitungan diatas maka didapatkan titik pusat cluster baru
untuk digunakan pada iterasi selanjutnya. Hasil perhitungan titik pusat
cluster baru ditunjukkan sebagai berikut:
Tabel 3.11 Titik Pusat Cluster ``
1 IrisSetosa 4.7 3.2 1.3 0.2
Selanjutnya setelah didapatkan titik pusat cluster dengan metode X-

Means. Maka selanjutnya dilakukan perhitungan dengan rumus euclidean
distance.
c. Hitung jarak terhadap semua titik data dengan rumus euclidean distance.
Adapun perhitungan sebagai berikut.
Euclidean Distance: √((x2-x1)² + (y2-y1)²
Iterasi Ke 1
Cluster 1
√(( ) ( ) ( ) ( )
√(( ) ( ) ( ) ( )
√(( ) ( ) ( ) ( )
√(( ) ( ) ( ) ( )
√(( ) ( ) ( ) ( )
√(( ) ( ) ( ) ( )
√(( ) ( ) ( ) ( )
√(( ) ( ) ( ) ( )
Cluster 2
√(( ) ( ) ( ) ( )
√(( ) ( ) ( ) ( )
√(( ) ( ) ( ) ( )
√(( ) ( ) ( ) ( )

29
√(( ) ( ) ( ) ( )
√(( ) ( ) ( ) ( )
√(( ) ( ) ( ) ( )
√(( ) ( ) ( ) ( )
Tabel 3.12 Update Jarak Titik Cluster Data Iris

Iterasi Ke-1
No Nama Item X1 X2 X3 X4 C1 C2
1 IrisSetosa 0.509901951 4.69041576
5.1 3.5 1.4 0.2
2 IrisSetosa 0.3 4.708502947
4.9 3 1.4 0.2
3 IrisSetosa 4.7 3.2 1.3 0.2
4 IrisVersiColor 4.276680956 1.24498996
7 3.2 4.7 1.4
5 IrisVersiColor 3.849675311 1.183215957
6.4 3.2 4.5 1.5
6 IrisVersiColor 4.415880433 0.989949494
6.9 3.1 4.9 1.5
7 IrisVirginica 5.472659317 0.9
6.3 3.3 6 2.5
8 IrisVirginica 4.33474336 0.741619849
5.8 2.7 5.1 1.9
9 IrisVirginica 5.529014379 0.911043358
7.1 3 5.9 2.1
Pada tabel 3. dapat dilihat hasil dari perhitungan euclidean distance iterasi ke-
1 dalam dengan nilai cluster 1 dan cluster 2.
d. Tentukan kelompokkan data yang dekat dengan centroid. Adapun
ditunjukkan sebagai berikut.
Cluster 1
IrisSetosa No.3
IrisSetosa No.2
IrisSetosa No.1
Cluster 2
IrisVirginika No.10
IrisVersiColor No.8
IrisVersiColor No.7

30
IrisVersiColor No.9
IrisVirginika No.6
IrisVirginika No.4
IrisVirginika No.5
e. Hitunglah mean x dan mean y dari cluster yang terbentuk. Adapun

Berikut merupakan hasil dari perhitungan untuk mencari nilai mean x

dan mean y berdasarkan klasifikasi data titik centroid cluster 1.
Ditunjukkan pada tabel 3.
Cluster 1 Mean X1 Mean X2 Mean Y1 Mean Y2
IrisSetosa No.3
4.9 3.233333333 1.366666667 0.2
IrisSetosa No.2
IrisSetosa No.1

31

IrisVirginika No.10
IrisVersiColor No.8
IrisVersiColor No.7
6.542857143 3.057142857 5.242857143 1.814285714
IrisVersiColor No.9
IrisVirginika No.6
IrisVirginika No.4
IrisVirginika No.5
Tabel 3.13 Kelompok Cluster Setiap Data

No Nama Item Kelompok Cluster
1 IrisSetosa Cluster 1
4 IrisVersiColor Cluster 2
7 IrisVirginica Cluster 2
Setelah proses cluster, dari tabel 3 dapat dilihat pengelompokkan cluster

setiap data berdasarkan titik pusat cluster. Adapun berikut merupakan hasil dari
perhitungan iterasi ke-1, untuk iterasi selanjutnya dihitung dengan tahap yang sama
sampai ditemukannya konvergen setiap data yang di klasifikasi.

32
3.5. Perhitungan Metode X-Means dan Manhattan Distance

Adapun penelitian ini, menggunakan algoritma X-Means sebagai metode klasifikasi
data set iris dan menggunakan algoritma euclidean distance dan manhattan distance
sebagai metode untuk menghitung jarak antara data tes dan data uji pada algoritma
X-Means. Dan akan dianalisis dengan algoritma X-Means menggunakan metode
jarak Euclidean Distance dengan perbandingan metode jarak Manhattan Distance.
Pada sub bab ini akan digunakan sebagian data dari dataset Iris dengan jumlah data
sebanyak 10 record, yang mana jumlah attribut data yang diambil berjumlah 4
atribut, dataset ini akan dilakukan proses clustering, Dalam contoh ini akan dibentuk
2 cluster, adapun tahapan-tahapannya adalah sebagai berikut.
f. Inisialisasi pusat cluster 1 dan pusat cluster 2, inisial cluster dengan range
data antara nilai terendah sampai nilai tertinggi. Adapun nilai untuk
setiap pusat cluster ditunjukkan sebagai berikut.
1 IrisSetosa 4.7 3.2 1.3 0.2
g. Pada tahap ini dilakukan proses update jarak titik cluster.

( ) ( )
yj = data ke-i
Jumlah cluster=2
xi= Titik pusat cluster ke-j
Perhitungan ke-1
( ) ( ) ( ) ( )

( ) ( ) ( ) ( )

33
Perhitungan ke-2
( ) ( ) ( ) ( )

( ) ( ) ( ) ( )
Perhitungan ke-3
( ) ( ) ( ) ( )

( ) ( ) ( ) ( )
Perhitungan ke-4
( ) ( ) ( ) ( )

( ) ( ) ( ) ( )
Perhitungan ke-5
( ) ( ) ( ) ( )

34
( ) ( ) ( ) ( )
Perhitungan ke-6
( ) ( ) ( ) ( )

( ) ( ) ( ) ( )
Perhitungan ke-7
( ) ( ) ( ) ( )

( ) ( ) ( ) ( )
Perhitungan ke-8
( ) ( ) ( ) ( )

( ) ( ) ( ) ( )
Perhitungan ke-9
( ) ( ) ( ) ( )

35

( ) ( ) ( ) ( )
Perhitungan ke-10
( ) ( ) ( ) ( )

( ) ( ) ( ) ( )
Perhitungan update jarak titik pusat cluster dengan atribut data telah
selesai dihitung dan diperoleh hasilnya. Nilai dari setiap hasil
perhitungan titik pusat cluster 1 dan titik pusat cluster 2 dapat
ditunjukkan sebagai berikut:
Tabel 3.10 Update Jarak Titik Cluster
1 0.29 17.71
2 0 17.48
3 0.09 18.79
4 16.78 2.1
5 13.59 1.13
6 17.95 1.57
7 28.5 1.78
8 17.48 0
9 28.7 2.46
10 22.17 0.55

36
Dari hasil perhitungan diatas maka didapatkan titik pusat cluster baru
untuk digunakan pada iterasi selanjutnya. Hasil perhitungan titik pusat
cluster baru ditunjukkan sebagai berikut:
1 IrisSetosa 4.7 3.2 1.3 0.2
Selanjutnya setelah didapatkan titik pusat cluster dengan metode X-

Means. Maka selanjutnya dilakukan perhitungan dengan rumus
manhattan distance.
h. Hitung jarak terhadap semua titik data dengan rumus manhattan distance.
Adapun perhitungan sebagai berikut.
Manhattan Distance: √((x2-x1) + (y2-y1)
Iterasi Ke 1
Cluster 1
√(( ) ( ) ( ) ( )
√(( ) ( ) ( ) ( )
√(( ) ( ) ( ) ( )
√(( ) ( ) ( ) ( )
√(( ) ( ) ( ) ( )
√(( ) ( ) ( ) ( )
√(( ) ( ) ( ) ( )
√(( ) ( ) ( ) ( )

37
Cluster 2
√(( ) ( ) ( ) ( )
√(( ) ( ) ( ) ( )
√(( ) ( ) ( ) ( )
√(( ) ( ) ( ) ( )
√(( ) ( ) ( ) ( )
√(( ) ( ) ( ) ( )
√(( ) ( ) ( ) ( )
√(( ) ( ) ( ) ( )
Tabel 3.12 Update Jarak Titik Cluster Data Iris

Iterasi Ke-1
No Nama Item X1 X2 X3 X4 C1 C2
1 IrisSetosa 0.8 7.6
5.1 3.5 1.4 0.2
4.9 3 1.4 0.2
3 IrisSetosa 4.7 3.2 1.3 0.2
4 IrisVersiColor 6.9 2.4
7 3.2 4.7 1.4
6.4 3.2 4.5 1.5
6.9 3.1 4.9 1.5
6.3 3.3 6 2.5
5.8 2.7 5.1 1.9
7.1 3 5.9 2.1
Pada tabel 3. dapat dilihat hasil dari perhitungan manhattan distance iterasi
ke-1 dalam dengan nilai cluster 1 dan cluster 2.

38
i. Tentukan kelompokkan data yang dekat dengan centroid. Adapun

Cluster 1
IrisSetosa No.3
IrisSetosa No.2
IrisSetosa No.1
Cluster 2
IrisVirginika No.10
IrisVersiColor No.8
IrisVersiColor No.7
IrisVersiColor No.9
IrisVirginika No.6
IrisVirginika No.4
IrisVirginika No.5
j. Hitunglah mean x dan mean y dari cluster yang terbentuk. Adapun


IrisSetosa No.3 4.9 3.233333333 1.366666667 0.2
IrisSetosa No.2

39
IrisSetosa No.1

IrisVirginika No.10
IrisVersiColor No.8
IrisVersiColor No.7
6.542857143 3.057142857 5.242857143 1.814285714
IrisVersiColor No.9
IrisVirginika No.6
IrisVirginika No.4
IrisVirginika No.5
Tabel 3.13 Kelompok Cluster Setiap Data

No Nama Item Kelompok Cluster

40
Setelah proses cluster, dari tabel 3 dapat dilihat pengelompokkan cluster

setiap data berdasarkan titik pusat cluster. Adapun berikut merupakan hasil dari
perhitungan iterasi ke-1, untuk iterasi selanjutnya dihitung dengan tahap yang sama
sampai ditemukannya konvergen setiap data yang di klasifikasi.

BAB 4
HASIL DAN PEMBAHASAN
4.1 Hasil
Data masukan yang digunakan pada penelitian ini adalah beberapa dataset yang
didapat dari data yang didapat dari UCI Repository. analisis dilakukan dengan
menghitung jarak matrik metode Manhattan Distance dan Euclidean Distance pada
algoritma X-Means dalam pengelompokan data.
4.2 Pengujian
Pada penelitian ini pengujian dilakukan dengan menggunakan beberapa data dari
UCI Repository. Pengujian ini bertujuan ini untuk melihat hasil analisis dilakukan
dengan menghitung jarak matrik metode Manhattan Distance dan Euclidean Distance
pada algoritma X-Means dalam pengelompokan data. Adapun rincian data yang
digunakan dapat dilihat pada tabel berikut.
Tabel 4.1 Dataset Iris
1 IrisSetosa 5.1 3.5 1.4 0.2
2 IrisSetosa 4.9 3 1.4 0.2
3 IrisSetosa 4.7 3.2 1.3 0.2
4 IrisSetosa 4.6 3.1 1.5 0.2
5 IrisSetosa 5 3.6 1.4 0.2
6 IrisSetosa 5.4 3.9 1.7 0.4
7 IrisSetosa 4.6 3.4 1.4 0.3
8 IrisSetosa 5 3.4 1.5 0.2
9 IrisSetosa 4.4 2.9 1.4 0.2
10 IrisSetosa 4.9 3.1 1.5 0.1
: : : : : :
: : : : : :
41
42
4.3 Hasil Titik Pusat Cluster Secara Random

Untuk melakukan proses clustering klasifikasi data, tentunya diperlukan titik pusat
cluster sesuai dengan banyaknya cluster yang diinginkan dari data. Pada pengujian
ini penulis melakukan pengujian dengan data iris, sebanyak 100 data dan 4 atribut
dengan titik pusat centroid 2 yang dipilih menggunakan metode X-Means. Adapun
berikut merupakan proses klasifikasi data dengan titik pusat centroid random
menggunakan metode X-Means.
Tabel 4.3 Inisialisasi Pusat Cluster X-Means Data Iris
1 IrisSetosa 4.7 3.2 1.3 0.2
Adapun proses selanjutnya adalah hitung jarak setiap data iris setiap cluster.
Berikut ditunjukkan pada tabel 4.
Tabel 4.4 Jarak Data Terhadap Pusat Cluster Data Iris Dengan Metode Euclidean
Distance
No Nama Item Iterasi Ke -1 (C1) Iterasi Ke-1 (C2)
1 IrisSetosa 0.538516481 4.208325083
2 IrisSetosa 0.3 4.33474336
3 IrisVersiColor 4.09633983 1.449137675
4 IrisVersiColor 3.686461718 1.063014581
5 IrisVersiColor 4.236744033 1.252996409
6 IrisVirginica 5.338539126 1.334166406
7 IrisSetosa 0.3 4.33474336
: : : :
: : : :
100 IrisVirginica 5.357238094 1.568438714
Tabel 4.5 Jarak Data Terhadap Pusat Cluster Data Iris Dengan Metode Manhattan
Distance
No Nama Item Iterasi Ke -1 (C1) Iterasi Ke-1 (C2)
: : : :
: : : :

43
Setelah proses hitung jarak dengan euclidean distance terhadap data iris dan,
maka selanjutnya hasil dari nilai pusat cluster akhir ditunjukkan pada tabel berikut.
Tabel 4.6 Nilai Titik Pusat Cluster Akhir X-Means Euclidean Distance Data Iris
Iterasi Ke- Jumlah Data Jumlah
Pusat
Nama Item X1 X2 X3 X4 Centroid 1 Data
Cluster
Centroid 2
1 IrisVersiColor 6.26 2.85 4.87 1.63
9 55 45
2 IrisSetosa 5.03 3.45 1.47 0.25
4.4 Hasil Analisis Hitung Jarak Euclidean Distance dan Manhattan Distance
Adapun pada tahap selanjutnya analisis dilakukan dengan menghitung jarak matrik
metode Manhattan Distance dan Euclidean Distance pada algoritma X-Means dalam
pengelompokan data. Pada pengujian ini penulis melakukan pengujian dengan data
iris, sebanyak 100 data dan 4 atribut dengan titik pusat centroid 2. Adapun berikut
tahapan-tahapan dari proses X-Means dengan matrix jarak Manhattan Distance dan
Euclidean Distance ditunjukkan sebagai berikut.
Pada tahap ini akan dilakukan analisis metode X-Means, tahapan pertama
melakukan perhitungan jarak dari setiap data, hasil perhitungan yang memiliki nilai
minimum jarak dari setiap data yang akan dijadikan titik pusat cluster. Dari update
jarak Data ke 3 dan 100 menjadi titik pusat cluster. Adapun berikut jarak titik cluster
data iris, ditunjukkan sebagai berikut.
Tabel 4.7 Update Jarak Titik Cluster Euclidean Distance Data Iris
1 0.29 17.71
2 0 17.48
3 0.09 18.79
4 16.78 2.1
5 13.59 1.13
6 17.95 1.57
7 28.5 1.78
8 17.48 0
9 28.7 2.46
: : :
: : :
100 22.17 0.55

44
Tabel 4.8 Update Jarak Titik Cluster Manhattan Distance Data Iris
1 77.71 2.16
2 0 90.87
3 96.23 25.64
4 90.87 3.97
5 76.11 1.40
6 83.11 1.54
7 92.89 0.32
8 92.40 0
9 92.89 0.28
: : :
: : :
100 94.57 0.37
Selanjutnya setelah dilakukan proses perhitungan jarak dari setiap data iris.
Dimana berikut merupakan hasil perhitung titik cluster awal menggunakan metode
X-Means. Adapun ditunjukkan pada tabel berikut.
Tabel 4.9 Titik Pusat Cluster Euclidean Distance Data Iris
1 IrisSetosa 4.7 3.2 1.3 0.2
Tabel 4.10 Titik Pusat Cluster Manhattan Distance Data Iris

1 IrisSetosa 4.7 3.2 1.3 0.2
Setelah proses titik pusat cluster awal dengan X-Means terhadap data iris,
maka selanjutnya proses penerapan metode X-means dengan hasil dari nilai pusat
cluster akhir ditunjukkan pada tabel berikut.
Tabel 4.11 Hasil Titik Pusat Cluster Akhir X-Means dan Euclidean Distance Data
Iris
Iterasi Ke- Jumlah Jumlah
Pusat Centroid 1 Centroid 2
Nama Item X1 X2 X3 X4
Cluster Kelompok Kelompok
Data Ke-1 Data Ke-2
1 IrisVersiColor 6.26 2.85 4.87 1.63 7 70 30

45
2 IrisSetosa 5.03 3.45 1.47 0.25
Tabel 4.12 Hasil Titik Pusat Cluster Akhir X-Means dan Manhattan Distance Data
Iris
Iterasi Jumlah Jumlah
Pusat Ke- Centroid 1 Centroid 2
Nama Item X1 X2 X3 X4
Cluster Kelompok Kelompok
Data Ke-1 Data Ke-2
Wine Quality
1 7.2 0.3 0.34 13.58
Red
8 11 89
Wine Quality
2 7.27 0.44 0.26 2.44
White
Adapun dari hasil proses penentuan titik pusat cluster awal secara random
dengan titik pusat cluster awal menggunakan metode X-Means memiliki hasil yang
lebih baik dalam klasifikasi data. Dimana pengujian menggunakan hitung jarak
manhattan distance pada data iris memiliki akurasi iterasi lebih baik dibandingkan
euclidean distance. Dari hasil pengujian dengan titik cluster X-Means hitung jarak
Euclidean Distance dengan 100 data iris mencapai iterasi ke 9, sedangkan dengan
100 data iris dengan hitung jarak Manhattan Distance mencapai iterasi ke 4.
Sedangkan dalam penentuan titik cluster menggunakan metode X-Means dari 100
data iris mencapai iterasi ke 7.
4.5 Hasil Variasi Nilai K Metode X-Means dan Euclidean Distance dan
Manhattan Distance
Adapun dalam penelitian ini penulis juga melakukan pengujian dengan metode
X-Means dan matrix Euclidean Distance dan Manhattan Distance Berikut
ditunjukkan hasil dari pengujian.
Tabel 4.13 Hasil Variasi Nilai K Metode X-Means dan Euclidean Distance dan
Manhattan Distance Data Iris
Jumlah Iterasi X-
Jumlah Nilai Jumlah Iterasi X-Means
Means dan
Centroid (K) dan Manhattan Distance
Dataset Euclidean Distance
2 7 6
Iris
3 9 4
4 11 4

46
5 10 5
6 8 7
7 12 11
8 7 6
9 6 5
10 15 7
Adapun dari tabel 4.15 dilihat dari hasil iterasi X-Means dan matrix
Euclidean Distance dan Manhattan Distance memiliki jumlah iterasi yang beragam
dari jumlah variasi K yang berurut menunjukkan bahwa jarax matrix Manhattan
Distance memiliki iterasi lebih baik kesimpulan yang tepat dikarenakan setiap data
memiliki nilai yang berbeda pula sehingga hasil iterasinya variatif sesuai dengan
jumlah nilai pada titik centroid.
Adapun hasil dari penulis melakukan pengujian dengan variasi jumlah
centroid (K) dengan nilai 2,3,4,5,6,7,8,9,10. Penulis menarik kesimpulan jumlah
centroid 3 dan 4 memiliki iterasi nilai yang lebih baik dibandingkan dengan jumlah
centroid yang semakin tinggi dan rendah berdasarkan dataset iris dengan jarax matrix
Manhattan Distance.
4.6 Pembahasan
Dari hasil pengujian yang di lakukan pada Data SetIris sebanyak 100 data uji dengan
jumlah centroid yang bervariasi menghasilkan akurasi pada metode X-Means dengan
Manhattan Distance yang lebih baik daripada pengujian dengan metode X-Means
dengan Euclidean Distance. Hal ini didasarkan pada pengujian klasifikasi Data Set
Iris dengan variasi jumlah centroid (K) dengan nilai 2,3,4,5,6,7,8,9,10.
Adapun pengujian analisis menggunakan akurasi dalam menyajikan
informasi tingkat akurasi specitivity algoritma X-Means dengan Euclidean Distance
dan Manhattan Distance. Analisis dilakukan dengan melakukan perhitungan Jumlah
benar / jumlah data * 100%.
Accuracy dalah presentase dari jumlah total prediksi yang benar pada proses
klasifikasi (Deng et al, 2016). Hal ini dilakukan berdasarkan table of Confusion
tiap-tiap kelas pada Confusion Matrix yang diperoleh pada hasil pelatihan dan
pengujian.

47
Tabel 4.14 Analisis Variasi Nilai K Metode X-Means dan Euclidean Distance dan
Manhattan Distance Data Iris
Nilai K Euclidean Distance Manhattan Distance
2 93,28% 95,09%
3 94,70% 95,33%
4 94% 95,33%
5 94% 95,33%
6 94,67% 95,33%
7 94,67% 95,33%
8 94,67% 95,33%
9 94% 95,33%
10 94% 95,33%
Berdasarkan penilaian Accuracy pada data set iris, diperoleh bahwa matriks
jarak Manhattan Distance lebih baik dibandingkan dengan matriks jarak
Euclidean Distance, yaitu pada nilai k=6, k=7, dan k=8. Nilai Accuracy terbaik
Braycurtis Distancesebesar 96 %. Nilai Accuracy Euclidean Distanceterbaik sebesar
95,33 % dan nilai Accuracy terbaik Canberra Distancesebesar 94,7 %.
Adapun berikut grafik hasil pengujian variasi centroid (K) ditunjukkan
sebagai berikut.
Hasil Pengujian Variasi Centroid (K) Data

Set Iris
Jumlah Iterasi X-Means dan Euclidean Distance
Jumlah Iterasi X-Means dan Manhattan Distance
20
15
Jumlah Iterasi 10
0
2 3 4 5 6 7 8 9 10
Jumlah Centroid (K)
Gambar 4.1 Output Grafik Pengujian Variasi Nilai K Dataset Iris

48
Sehubungan dengan hasil uraian diatas, maka dapat diuraikan bahwa

euclidean distance merupakan salah satu metode perhitungan jarak yang
digunakan untuk mengukur jarak dari 2 (dua) buah titik dalam Euclidean space
(meliputi bidang euclidean dua dimensi, tiga dimensi, atau bahkan lebih). adapun
hasil pengujian menunjukan variasi jumlah centroid (K) dengan nilai
2,3,4,5,6,7,8,9,10 pada data set iris memiliki hasil iterasi yang lebih lama
dibandingkan dengan Manhattan Distance. Pengujian dengan titik cluster X-Means
hitung jarak Euclidean Distance menggunakan 100 data iris mencapai iterasi ke 9,
sedangkan menggunakan 100 data iris dengan hitung jarak Manhattan Distance
mencapai iterasi ke 4. Sedangkan dalam penentuan titik cluster menggunakan metode
X-Means dari 100 data iris mencapai iterasi ke 7.
Sehubungan dengan hasil uraian diatas, maka dapat diuraikan bahwa
Manhattan Distance memiliki jumlah iterasi yang beragam dari jumlah variasi K
yang berurut menunjukkan bahwa jarax matrix Manhattan Distance memiliki iterasi
lebih baik kesimpulan yang tepat dikarenakan setiap data memiliki nilai yang
berbeda pula sehingga hasil iterasinya variatif sesuai dengan jumlah nilai pada titik
centroid. Adapun hasil dari penulis melakukan pengujian dengan variasi jumlah
centroid (K) dengan nilai 2,3,4,5,6,7,8,9,10. Penulis menarik kesimpulan jumlah
centroid 3 dan 4 memiliki iterasi nilai yang lebih baik dibandingkan dengan jumlah
centroid yang semakin tinggi dan rendah berdasarkan dataset iris dengan jarax matrix
Manhattan Distance. Hasil proses penentuan titik pusat cluster awal secara random
dengan titik pusat cluster awal menggunakan metode X-Means memiliki hasil yang
lebih baik dalam klasifikasi data. Dimana pengujian menggunakan hitung jarak
manhattan distance pada data iris memiliki akurasi iterasi lebih baik dibandingkan
euclidean distance.
Dari gambar 4.1 dapat dihasilkan proses pengujian variasi jumlah centroid
(K) dengan nilai 2,3,4,5,6,7,8,9,10 pada data set iris dengan menganalisis jarak
Matrix Euclidean Distance dan Manhattan Distance. Adapun hasil yang didapatkan
jumlah centroid 3 dan 4 memiliki iterasi nilai yang lebih baik dibandingkan dengan
jumlah centroid yang semakin tinggi dan rendah berdasarkan dataset iris dengan
jarax matrix Manhattan Distance. Hasil jumlah centroid 3 dan 4 pada pengujian
Manhattan Distance memiliki penurunan iterasi 4 daripada pengujian. Sedangkan

49
Hasil jumlah centroid 3 dan 4 pada pengujian Euclidean Distance memiliki

peningkatan iterasi 9 dan 11.
Hasil pengujian grafik dapat disimpulkan semakin tinggi nilai centorid (K)
atau semakin rendah tidak mempengaruhi hasil iterasi dan akurasi dari pengujian X-
Means dengan jarak Matrix Manhattan Distance dan Euclidean Distance.

BAB 5
KESIMPULAN DAN SARAN
5.1 Kesimpulan
Berdasarkan pengujian serta evaluasi terhadap metode penentuan titik pusat cluster
dengan X-Means dan matrix Euclidean Distance dan Manhattan Distance, adapun
hasil penelitian dapat diambil beberapa kesimpulan antara lain:
1. Dimana pengujian menggunakan hitung jarak euclidean distance pada data iris
memiliki akurasi iterasi lebih baik dibandingkan manhattan distance.
2. Berdasarkan hasil hasil iterasi X-Means dengan parameter uji matrix Euclidean
Distance dan Manhattan Distance memiliki jumlah iterasi yang beragam dari
jumlah variasi K dengan nilai 2,3,4,5,6,7,8,9,10. Penulis menarik kesimpulan
jumlah centroid 3 dan 4 memiliki iterasi nilai yang lebih baik menggunakan
Manhattan Distance dibandingkan dengan jumlah centroid yang semakin tinggi
dan rendah berdasarkan dataset iris.
3. Berdasarkan penilaian Accuracy pada data set iris, diperoleh bahwa matriks
jarak Manhattan Distance lebih baik dibandingkan dengan matriks jarak
Euclidean Distance, yaitu pada nilai k=6, k=7, dan k=8. Nilai Accuracy
terbaik Braycurtis Distancesebesar 96 %. Nilai Accuracy Euclidean
Distanceterbaik sebesar 95,33 % dan nilai Accuracy terbaik Canberra
Distancesebesar 94,7 %.
4. Hasil dari penulis melakukan pengujian dengan variasi jumlah centroid (K)
dengan nilai 2,3,4,5,6,7,8,9,10. Penulis menarik kesimpulan jumlah centroid 3
dan 4 memiliki iterasi nilai yang lebih baik dibandingkan dengan jumlah
centroid yang semakin tinggi dan rendah berdasarkan dataset iris dengan jarak
matrix Manhattan Distance.
50
51
5.2 Saran
Untuk pengembangan penelitian selanjutnya, berdasarkan hasil penelitian maka saran
yang dapat disampaikan adalah sebagai berikut :
1. Perlu dilakukan pengujian yang lebih mendalam seperti menganalisa pengaruh

matrix Euclidean Distance dan Manhattan Distance.
2. Diharapkan penelitian selanjutnya menganalisa jumlah cluster yang paling
optimal terhadap klasifikasi data yang lebih besar.
3. Penelitian selanjutnya diperlukan pendekatan yang lain untuk menentukan
dan memilih titik pusat cluster dan jarak matrix yang lebih baik untuk jenis
data yang sama ataupun dengan jenis data yang lain.

LAMPIRAN
LISTING PROGRAM
Imports System.Data.SqlClient
Public Class Form1
Public sqlconn As New SqlConnection
Public sqlcmd As New SqlCommand
Public sqldr As SqlDataReader
Public strsql As String
Public sqlda As New SqlDataAdapter
Dim ctrl As String
Sub connect()
If sqlconn.State = ConnectionState.Open Then sqlconn.Close()
sqlconn.ConnectionString = "Data Source=ACER\SQLEXPRESS;Initial
Catalog=dbIris;Integrated Security=True"
sqlconn.Open()
End Sub
Sub view()
strsql = "select * from tblIris"

sqlcmd.CommandText = strsql
sqlcmd.Connection = sqlconn
sqlda.SelectCommand = sqlcmd
sqldr = sqlcmd.ExecuteReader()
ListView1.Items.Clear()
While (sqldr.Read())
With ListView1.Items.Add(sqldr("no"))
.subitems.add(sqldr("x1"))
End With
End While
sqldr.Close()
End Sub
Private Sub Form1_Load(ByVal sender As System.Object, ByVal e As

System.EventArgs) Handles MyBase.Load
connect()
view()
End Sub
Private Sub tambah_admin_Click(ByVal sender As System.Object, ByVal e As

System.EventArgs) Handles tambah_admin.Click
If (txtno.Text = "") Or (txtx1.Text = "") Or (txtx2.Text = "") Or (txtx3.Text =
"") Or (txtx4.Text = "") Or (txtx5.Text = "") Then
MsgBox("Lengkapi Data")
Exit Sub
End If
strsql = "insert into tblIris(no, x1, x2, x3, x4, x5) values ('" _
& txtno.Text & "','" & txtx1.Text & "','" & txtx2.Text & "','" & txtx3.Text & "','"
& txtx4.Text & "','" & txtx5.Text & "')"

Dim sqlcmd As New SqlClient.SqlCommand
On Error GoTo satu
sqlcmd.ExecuteNonQuery()
view()
txtno.Text = ""
txtx1.Text = ""
txtx2.Text = ""
txtx3.Text = ""
txtx4.Text = ""
txtx5.Text = ""
Exit Sub
satu:
MsgBox("Nomor Tidak Boleh Sama")
txtno.Text = ""
txtx1.Text = ""
txtx2.Text = ""
txtx3.Text = ""
txtx4.Text = ""
txtx5.Text = ""
End Sub
Private Sub ListView1_DoubleClick(ByVal sender As Object, ByVal e As

System.EventArgs) Handles ListView1.DoubleClick
With ListView1.SelectedItems(0)
ctrl = .SubItems(0).Text
txtno.Text = .SubItems(0).Text
txtno.Enabled = False
txtx1.Text = .SubItems(1).Text

End With
End Sub
Private Sub update_admin_Click(ByVal sender As System.Object, ByVal e As

System.EventArgs) Handles update_admin.Click
strsql = "update tblIris set x1 ='" & txtx1.Text & "'," _
& "x2 ='" & txtx2.Text & "'," _
& "x3 ='" & txtx3.Text & "'," _
& "x4 ='" & txtx4.Text & "'" _
& "x5 ='" & txtx4.Text & "'" _
& "where no = '" & ctrl & "'"
view()
txtno.Text = ""
txtx1.Text = ""
txtx2.Text = ""
txtx3.Text = ""
txtx4.Text = ""
txtx5.Text = ""
txtno.Enabled = True
End Sub
Private Sub hapus_admin_Click(ByVal sender As System.Object, ByVal e As

System.EventArgs) Handles hapus_admin.Click
strsql = "delete from tblIris where no = '" & ctrl & "'"

MsgBox("Delete")
view()
txtno.Text = ""
txtx1.Text = ""
txtx2.Text = ""
txtx3.Text = ""
txtx4.Text = ""
txtx5.Text = ""
txtno.Enabled = True
End Sub
Private Sub Button1_Click(ByVal sender As System.Object, ByVal e As

System.EventArgs) Handles Button1.Click
Dim data(100, 4), d(100, 4), jarak(100, 30, 4), jarak_ed(100, 30), cen(30, 4) As
Double
Dim i, j, kesamaan, iterasi, jml_data, jml_centroid, selisih, Centroid As Integer
Dim jrk_terdekat, index_jrk_terdekat(100), index_jrk_terdekat_lama(100),
cluster(30) As Integer
Dim iterasi_maks, nomor As Integer
Dim nama(100) As String
'Dim tempm(100), msec(100), tempi(100) As Integer
Dim endtime As Date = TimeValue(TextBox2.Text)

Dim result As TimeSpan = endtime - TimeValue(TextBox3.Text)
TextBox4.Text = (String.Format("{0}:{1}:{2}", result.Hours, result.Minutes,
result.Seconds))
'tempm = Timer1
'msec = (tempm - tempi)
' lblTimer.Caption = " Waktu: " & msec & " detik"
jml_centroid = Val(txtcentroid.Text)

jml_data = Val(txtdata.Text)
iterasi_maks = Val(txtiterasi.Text)
For i = 1 To jml_data
strsql = "select * from tblIris where no = '" & i & "'"
sqlda.SelectCommand = sqlcmd
sqldr = sqlcmd.ExecuteReader()
While (sqldr.Read())
data(i, 1) = Math.Round(sqldr("x2"), 2)
nama(i) = sqldr("x1")
End While
sqldr.Close()
Next
Centroid = jml_data / (jml_centroid + 1)

selisih = Centroid
TextBox1.Text = ""
TextBox1.Text = TextBox1.Text & "pusat cluster Awal" & vbNewLine
For i = 1 To jml_centroid
cen(i, 1) = data(Centroid, 1)
TextBox1.Text = TextBox1.Text & "c" & i & "1=" & cen(i, 1) & " "

TextBox1.Text = TextBox1.Text & "c" & i & "4=" & cen(i, 4) & " " &
vbNewLine
Centroid = Centroid + selisih
Next
TextBox1.Text = TextBox1.Text & vbNewLine
For j = 1 To 4
TextBox1.Text = TextBox1.Text & data(i, j) & " "
Next
For j = 1 To jml_centroid
jarak(i, j, 1) = data(i, 1) - cen(j, 1)
jarak(i, j, 1) = Math.Abs(jarak(i, j, 1))
jarak(i, j, 1) = jarak(i, j, 1) * jarak(i, j, 1)
jarak_ed(i, j) = jarak(i, j, 1) + jarak(i, j, 2) + jarak(i, j, 3) + jarak(i, j, 4)
jarak_ed(i, j) = Math.Sqrt(jarak_ed(i, j))
jarak_ed(i, j) = Math.Round(jarak_ed(i, j), 2)
TextBox1.Text = TextBox1.Text & "c" & j & "=" & jarak_ed(i, j) & " "
Next
jrk_terdekat = jarak_ed(i, 1)
index_jrk_terdekat(i) = 1

If jrk_terdekat > jarak_ed(i, j) Then
jrk_terdekat = jarak_ed(i, j)
index_jrk_terdekat(i) = j
index_jrk_terdekat_lama(i) = j
End If
Next
TextBox1.Text = TextBox1.Text & " cluster=" & index_jrk_terdekat(i) &
vbNewLine
Next
For iterasi = 1 To iterasi_maks

cluster(j) = 0
Next
If index_jrk_terdekat(i) = j Then
cluster(j) = cluster(j) + 1
End If
Next
Next
TextBox1.Text = TextBox1.Text & "jml centroid " & j & "=" & cluster(j)
&" "
Next
TextBox1.Text = TextBox1.Text & "Menghitung pusat cluster baru" &
vbNewLine
For i = 1 To 4

cen(j, 1) = 0
cen(j, 2) = 0
cen(j, 3) = 0
cen(j, 4) = 0
Next
Next
For j = 1 To jml_data
If index_jrk_terdekat(j) = i Then
cen(i, 1) = cen(i, 1) + data(j, 1)
cen(i, 2) = cen(i, 2) + data(j, 2)
cen(i, 3) = cen(i, 3) + data(j, 3)
cen(i, 4) = cen(i, 4) + data(j, 4)
End If
Next
'TextBox1.Text = TextBox1.Text & cen(i, 1) & " " & cen(i, 2) & " "
If cluster(i) <> 0 Then
cen(i, 1) = cen(i, 1) / cluster(i)
cen(i, 1) = Math.Round(cen(i, 1), 2)



Else
cen(i, 1) = cen(i, 1)
cen(i, 2) = cen(i, 2)

cen(i, 3) = cen(i, 3)
cen(i, 4) = cen(i, 4)
End If
TextBox1.Text = TextBox1.Text & "c" & i & "4=" & cen(i, 4) &
vbNewLine
Next

TextBox1.Text = TextBox1.Text & "Iterasi Ke = " & iterasi + 1 &
vbNewLine
For j = 1 To 4
TextBox1.Text = TextBox1.Text & data(i, j) & " "
Next
jarak_ed(i, j) = jarak(i, j, 1) + jarak(i, j, 2) + jarak(i, j, 3) + jarak(i, j, 4)

jarak_ed(i, j) = Math.Sqrt(jarak_ed(i, j))
jarak_ed(i, j) = Math.Round(jarak_ed(i, j), 2)
TextBox1.Text = TextBox1.Text & "c" & j & "=" & jarak_ed(i, j) & "
"
Next
jrk_terdekat = jarak_ed(i, 1)
index_jrk_terdekat(i) = 1
If jrk_terdekat > jarak_ed(i, j) Then
jrk_terdekat = jarak_ed(i, j)
index_jrk_terdekat(i) = j
End If
Next
TextBox1.Text = TextBox1.Text & " cluster=" & index_jrk_terdekat(i) &
vbNewLine
Next
kesamaan = 0
If index_jrk_terdekat(i) = index_jrk_terdekat_lama(i) Then
kesamaan = kesamaan + 1
End If
index_jrk_terdekat_lama(i) = index_jrk_terdekat(i)
Next
TextBox1.Text = TextBox1.Text & " tingkat kesamaan dengan data
sebelumnya = " & kesamaan & vbNewLine & vbNewLine
If kesamaan = jml_data Then
GoTo hasil
End If
Next
hasil:

TextBox1.Text = TextBox1.Text & "Pengelompokan Data" & vbNewLine &
vbNewLine
TextBox1.Text = TextBox1.Text & "Kelompok Data Ke " & i & vbNewLine
nomor = 1
For j = 1 To jml_data
If index_jrk_terdekat(j) = i Then
TextBox1.Text = TextBox1.Text & nomor & " "
TextBox1.Text = TextBox1.Text & nama(j) & " "
TextBox1.Text = TextBox1.Text & data(j, 1) & " "
TextBox1.Text = TextBox1.Text & data(j, 4) & vbNewLine
nomor = nomor + 1
End If
Next
Next
End Sub
Private Sub Timer1_Tick(ByVal sender As System.Object, ByVal e As

System.EventArgs) Handles Timer1.Tick
TextBox2.Text = TimeOfDay
End Sub
Private Sub Timer2_Tick(ByVal sender As System.Object, ByVal e As

System.EventArgs) Handles Timer2.Tick
Timer2.Enabled = False
TextBox3.Text = TimeOfDay
End Sub
End Class

Universitas Sumatera Utara

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Universitas Sumatera Utara

Diunggah oleh

Hak Cipta:

Format Tersedia

ANALISIS PENGGUNAAN MANHATTAN DISTANCE DAN

EUCLIDEAN DISTANCE PADA ALGORITMA X-MEANS

PROGRAM STUDI S2 TEKNIK INFORMATIKA