Perbandingan Pengklusteran Data Iris Men

JURNAL MATEMATIKA “MANTIK”
Edisi: Oktober 2016. Vol. 02 No. 01

ISSN: 2527-3159 E-ISSN: 2527-3167
PERBANDINGAN PENGKLUSTERAN DATA IRIS

MENGGUNAKAN METODE K-MEANS DAN FUZZY C-
MEANS
Fitria Febrianti1, Moh. Hafiyusholeh2, Ahmad Hanif Asyhar3

Fakultas Sains dan Teknologi Universitas Islam Negeri Sunan Ampel Surabaya
E-mail: fitriafebrianti09@gmail.com1, hafiyusholeh@uinsby.ac.id2, hanif@uinsby.ac.id3
Abstrak
Indonesia dengan kekayaan alam yang melimpah, tentu memiliki banyak tanaman yang tak
terhitung banyaknya. Untuk mengklaster tanaman menjadi beberapa kelompok yang berbeda dapat
menggunakan beberapa metode. Salah satunya metodenya adalah K-Means dan Fuzzy C-Means.
Akan tetapi, dua metode ini memiliki perbedaan. Tidak hanya dari segi algoritma, akan tetapi dari
segi perhitungan nilai root mean square error (RMSE)-nya juga berbeda. Untuk menghitung nilai
RMSE ada dua indikator yang diperlukan, yaitu data training dan data checking. Dari pembahasan,
metode Fuzzy C-Means memiliki tingkat RMSE yang lebih kecil dibandingkan metode K-Means
yaitu pada 80 data training dan 70 data checking dengan nilai RMSE 2,2122E-14. Hal ini
menunjukkan bahwa metode Fuzzy C-means memiliki tingkat ketepatan yang lebih tinggi
dibandingkan dengan metode K-Means.
Kata kunci: data iris, logika fuzzy, fuzzy c-means, data mining, k-means
Abstract
Indonesia with abundant natural resources, certainly have a lot of plants are innumerable. To
clasify the plants into different clusters can use several methods. Methods used are K-Means and
Fuzzy C-Means. However, this methods have difference. Not only in terms of algorithms, but in
terms of value calculation on the root mean square error (RMSE) also different. To calculate the
value of RMSE there are two indicators are required, namelt the training data and the checking
data. Of discussion, the Fuzzy C-Means method has RMSE values smaller than the K-Means
method, namely on 80 training data and 70 checking data with RMSE value 2,2122E-14. This
indicates that the Fuzzy C-Means method has a higher level of accuracy than the K-Means
method.
Kata kunci: iris data, fuzzy logic, fuzzy c-means, mining data, k-means
1. Pendahuluan tanaman yang belum diidentifikasi diklaster

atau dikelompokkan menjadi beberapa
Indonesia merupakan negara yang kaya kelompok. Pengklasteran atau
akan sumber daya alamnya, oleh karena itu pengelompokkan adalah pengelompokan
Indonesia memiliki begitu banyak ragam objek atau kasus menjadi kelompok-
tumbuhan dan bunga yang tersebar diwilayah kelompok yang lebih kecil, dimana setiap
Indonesia. Dari sekian banyak tumbuhan di kelompok berisi objek atau kasus yang mirip
Indonesia, hanya 20% yang sudah satu sama lain [2]. Terdapat pengklasteran
teridentifikasi [1]. Pada umumnya, beberapa beberapa jenis bunga berdasarkan lebar
7
ISSN: 2527-3159 E-ISSN: 2527-3167
mahkota, panjang mahkota, lebar kelopak data, metode fuzzy c-means adalah salah satu
dan panjang kelopak yang sering disebut metode yang digunakan dalam logika fuzzy.
dengan data iris. Beberapa peneliti sebelumnya menggunakan
Data iris merupakan data dari 150 bunga metode fuzzy c-means dalam penelitiannya,
yang diidentifikasi berdasarkan panjang seperti pengklasifikasian sinyal EEG
mahkota, lebar mahkota, panjang kelopak [11][12], dan analisa klasifikasi status
dan lebar kelopak [3]. Dari 150 data tersebut gizi[13]. Dalam jurnal ini akan ditunjukkan
pada umumnya peneliti-peneliti sebelumnya perbandingan pengklasteran data iris dengan
mengelompokkan menjadi tiga kelompok menggunakan metode k-means dan fuzzy c-
bunga, yaitu iris setosa, iris virginica dan iris means dilihat dari root mean square error
versi color [3][4][5]. Untuk menguji metode (RMSE). Root mean square error (RMSE)
pengklasteran banyak peneliti-peneliti adalah nilai rata-rata kuadrat dari perbedaan
sebelumnya yang menggunakan data iris, nilai estimasi dengan nilai observasi suatu
karena data iris merupakan data sederhana data. Semakin kecil nilai RMSE maka data
yang mudah didapat. Ada beberapa metode tersebut semakin valid.
yang dapat digunakan untuk
mengelompokkan data menjadi beberapa 2. Tinjauan Pustaka
kelompok data, diantaranya adalah dengan
menggunakan salah satu cabang dari ilmu 2.1 Data Mining
matematika, yaitu data mining dan logika Data mining merupakan proses yang
fuzzy. menggunakan teknik statistik, perhitungan,
Data mining adalah adalah suatu istilah kecerdasan buatan dan machine learning
yang digunakan untuk menguraikan untuk mengekstrasi dan mengidentifikasi
penemuan pengetahuan didalam daftar data. informasi yang bermanfaat dan pengetahuan
Data mining merupakan proses yang yang terkait dari berbagai basis data besar
menggunakan teknik statistik, matematika, [14]. Dalam data mining terdapat sebuah
kecerdasan buatan dan machine learning metode yang digunakan untuk mengklaster
untuk mengekstrasi dan mengidentifikasi data, yaitu k-means. Metode k-means
informasi yang bermanfaat dan pengetahuan merupakan metode pengklasteran data
yang terkait dari berbagai daftar data besar mining yang sering digunakan peneliti untuk
[6]. Dalam data mining terdapat sebuah mengklaster data. Dalam metode k-means,
metode yang digunakan untuk mengklaster data-data yang memiliki karakteristik yang
data menjadi kelompok-kelompok data, yaitu sama diklaster dalam satu kelompok dan data
metode k-means. Beberapa peneliti yang memiliki karakteristik yang berbeda
sebelumnya menggunakan metode k-means dikelompokan dengan kelompok lain yang
untuk mengklaster data karena dalam data sesuai dengan karakteristik data tersebut,
mining metode k-means adalah metode sehingga data yang berada dalam satu
pengklasteran yang mudah dipahami dengan kelompok memiliki tingkat variasi yang kecil
algoritma yang cukup mudah [7][8][9]. [9]. Berikut adalah algoritma dari metode k-
Selain data mining, terdapat cabang ilmu means:
matematika yang mempunyai metode untuk (1) Masukkan data yang akan diklaster.
mengklaster data yaitu logika fuzzy. (2) Tentukan jumlah klaster.
Logika fuzzy adalah salah satu cabang (3) Ambil sebarang data sebanyak jumlah
ilmu matematika yang mempelajari tentang klaster secara acak sebagai pusat
logika kabur. Dimana logika fuzzy ini klaster (sentroid).
memiliki rentang keanggotaan berkisar (4) Hitung jarak antara data dengan pusat
antara 0 dan 1, berbeda dengan logika klasik klaster, dengan menggunakan
yang memiliki rentang keanggotan yang persamaan :
bernilai 0 atau 1[10]. Dalam pengklasteran , ⋯ 2.1.1
8
ISSN: 2527-3159 E-ISSN: 2527-3167
Dimana : 2.2.2
, = jarak data ke ke pusat klaster
= data ke pada atribut ke 4. Hitung pusat klaster ke- :
= titik pusat ke pada atribut ke ∑ ∗
2.2. 3
(5) Hitung kembali pusat klaster dengan ∑
keanggotaan klaster yang baru dengan 1,2, … , ; dan 1,2, … ,
(6) Jika pusat klaster tidak berubah maka 5. Hitung fungsi objektif pada iterasi ke- ,
proses klaster telah selesai, jika belum
maka ulangi langkah ke (4) sampai 2.2.4
pusat klaster tidak berubah lagi.
6. Hitung perubahan matriks partisi:
2.2 Logika Fuzzy
∑
Logika fuzzy pertama kali 2.2.5
diperkenalkan oleh Prof. Lotfi A. Zadeh ∑ ∑
pada tahun 1965. Dalam banyak hal, logika dengan 1,2, … , dan 1,2, … ,
fuzzy digunakan sebagai suatu cara untuk 7. Cek kondisi berhenti:
memetakan permasalahan dari input menuju a. Jika: | | atau
ke output yang diharapkan. Dalam logika maka berhenti,
fuzzy terdapat fuzzy clustering yang b. Jika tidak: 1, ulangi langkah
merupakan salah satu metode untuk ke-4
menentukan klaster optimal dalam suatu
ruang vektor yang didasarkan pada bentuk Output yang dihasilkan dari Fuzzy C-
normal Euclidian untuk jarak antar Means (FCM) merupakan deretan pusat
vektor[15]. Dalam logika fuzzy terdapat klaster dan beberapa derajat keanggotaan
metode yang sering digunakan untuk untuk tiap-tiap titik data.
mengklaster data, yaitu metode fuzzy c-
2.3 Root Mean Square Error
means. Fuzzy c-means adalah suatu metode
Root mean ssquare error (RMSE)
pengklasteran data yang ditentukan oleh
derajat keanggotaan. Berikut adalah merupakan parameter yang digunakan
algoritma fuzzy c-means: untuk mengevaluasi nilai hasil dari
1. Masukkan data yang akan diklaster, pengukuran terhadap nilai sebenarnya atau
berupa matriks berukuran . nilai dianggap benar. Semakin kecil nilai
2. Tentukan : RMSE, maka pengklasteran data semakin
a. Jumlah klaster = c mendekati benar. Secara umum, persamaan
b. Pangkat =w yang digunakan untuk menghitung nilai
c. Maksimum Iterasi = MaxIter; RMSE adalah seperti pada persamaan 2.3.1
d. Error Terkecil yang diharapkan sebagai berikut.
=
e. Fungsi objektif awal = 0 2.3.1
f. Iterasi awal = 1
3. Bangkitkan bilangan acak , dengan
1,2, … , ; 1,2, … , ; sebagai dimana:
elemen-elemen matriks partisi awal . , nilai perhitungan
Hitung jumlah setiap kolom: , nilai exact
jumlah data
2.2.1
dengan 1,2, … ,
Hitung:
9
ISSN: 2527-3159 E-ISSN: 2527-3167
3 Metode Penelitian mengambil sebarang data dari data baru

hasil dari perhitungan jarak data ke pusat
Pada jurnal ini, pengklasteran data iris klaster. Jika titik pusat klaster berubah
menggunakan dua metode, yaitu metode k- maka kita ulangi lagi langkah-langkah
means dan fuzzy c-means. Seperti yang sebelumnya sehingga titik pusat klaster
telah dijelaskan pada bab sebelumnya tidak berubah.
mengenai algoritma dua metode tersebut,
terdapat perbedaan pada masing-masing mulai
algoritma. Untuk lebih memahami
perbedaan kedua algoritma tersebut, dapat
Data
dilihat dari flowchart algoritma K-Means masukan
seperti pada Gambar 3.1.
Mulai Bangkitkan bilangan
random
Masukkan
data
Hitung pusat klaster
Tentukan
Jumlah Klaster Hitung fungsi objektif
tidak
Tentukan titik Hitung perubahan
pusat klaster ya matriks partisi
Pusat selesai
klaster
Hitung jarak data
ke pusat klaster ya
Nilai epsilon
terpenuhi
Kelompokkan data
berdasarkan minimum tidak
jarak ke pusat klaster
tidak
Iterasi
Gambar 3.1 Algoritma K-Means maksimal
Dalam pengklasteran data iris ya

menggunakan metode K-Means, hal yang
pertama dilakukan adalah memasukkan data
selesai
iris terlebih dahulu. Setelah itu, tentukan
jumlah klaster yang diharapkan. Lalu
tentukan pula titik pusat klaster yang secara Gambar 3.2 Algoritma Fuzzy C-Means
acak diambil dari data. Selanjutnya dengan
Pada gambar 3.2 diatas menunjukkan
menggunakan persamaan (2.1.1), hitung
algoritma pengklasteran data menggunakan
jarak data ke pusat klaster. Setelah itu,
metode fuzzy c-means. Sebagai langkah
kelompokkan data berdasarkan hasil
awal yang perlu dilakukan adalah
minimum perhitungan jarak data kepusat
memasukkan data yang akan diklaster
klaster. Lalu ulangi lagi langkah awal untuk
dalam bentuk matriks . Lalu
mengecek apakah titik pusat klaster yang
tentukan beberapa indikator yang
telah dihasilkan sudah tepat dengan
10
ISSN: 2527-3159 E-ISSN: 2527-3167
diperlukan pada metode fuzzy c-means. sebaran data pada masing-masing klaster
Setelah itu bangkitkan bilangan random berdasarkan titik kedekatannya dengan
dengan menggunakan persamaan 2.2.1. pusat klaster, hal tersebut terlihat seperti
Lalu, hitung pusat klaster dengan pada Gambar 4.1.
menggunakan persamaan 2.2.1. Dari
perhitungan pusat klaster, hitung fungsi
objektif pada iterasi dengan menggunakan
persamaan 2.2.4. setelah itu, hitung
perubahan matriks partisi dengan
menggunakan persamaan 2.2.5. Lalu, cek
kondisi berhenti dengan dilihat dari apakah
nilai epsilon yang merupakan salah satu
indicator telah terpenuhi atau tidak. Jika
sudah terpenuhi maka iterasi selesai, jika
iterasi telah maksimal maka kondisi
berhenti.
Perbandingan dari metode k-means dan
Gambar 4.1 Pengklasteran Iris Menggunakan K-
fuzzy c-means tidak benrhenti pada Means
algoritma perhitungannya, akan tetapi Begitu pula metode fuzzy c-means,
perbandingannya terlihat ketika dihitung metode ini juga menggunakan fungsi pada
nilai RMSE-nya dengan menggunakan MATLAB untuk menunjukkan kelompok-
persamaan 2.3.1. kelompok data yang telah diklaster. Adapun
fungsi yang digunakan adalah sebagai
4 Hasil dan Pembahasan
berikut:
Pada penelitian akan menjelaskan x=load(‘datairis.dat’);
mengenai perbandingan pengklasteran data jumlah_klaster=3;
iris menggunakan metode k-means dan c- [idx,C]=kmeans(x,jumlah_klaster)
means. Akan tetapi, pembahasan ini akan
akan direpresentasikan dengan Ketika fungsi tersebut telah disimpan
menggunakan software MATLAB. Pada dan dijalankan akan diperoleh kelompok-
MATLAB terdapat fungsi yang dapat kelompok data. Dan dapat juga ditampilkan
digunakan untuk mengklaster data. Pada dengan menggunakan grafik/plot, sehingga
metode k-means, sebelum mengklaster data diperoleh hasil klasterisasi seperti pada
menggunakan MATLAB, siapkan data Gambar 4.2.
berupa file (.dat). setelah itu, tentukan
jumlah klaster yangdiharapkan. Lalu,
masukkan fungsi metode k-means pada
MATLAB, seperti berikut:
x=load(‘datairis.dat’);
jumlah_klaster=3;
[center,U,ObjFcn]=fcm(x,jumlah_klaster)
Ketika program ini telah disimpan,

maka ketika dijalankan akan menghasilkan
kelompok-kelompok data. Kelompok-
kelompok data tersebut dapat
direpresentasikan menggunakan grafik/plot

Gambar 4.2 Pengklasteran Iris Menggunakan
pada MATLAB, sehingga diperoleh Fuzzy C-means
11
ISSN: 2527-3159 E-ISSN: 2527-3167
merepresentasikan hasil perihtungan RMSE

Untuk lebih terlihat perbandingan dari metode k-means.
pengklasteran data iris dari kedua metode
tersebut, hitung RMSE dari data yang sudah 5 KESIMPULAN
diklaster. Perhitungan RMSE-pun bisa
dilakukan menggunakan MATLAB. Ada Dari pembahasan yang telah
beberapa indikator yang harus disiapkan disampaikan, dapat disimpulkan
terlebih dahulu, yaitu data training dan data bahwasanya hasil pengklasteran data iris
checking. Data training lebih banyak dari menggunakan metode k-means dan fuzzzy
data checking. Tabel hasil RMSE dari dua c-means berbeda. Jika dilihat hasil
metode yang berbeda dan data yang sama perhitungan RMSE dari kedua metode
dapat dilihat pada Tabel 4.1 tersebut, menunjukkan bahwa metode fuzzy
c-means memiliki nilai RMSE yang lebih
Tabel 4.1 RMSE K-Means dan Fuzzy C-Means kecil dibandingkan dengan nilai RMSE
Data Metode
No metode k-means. Hal ini menunjukkan
Check Train FCM K-Means bahwa pengklasteran menggunakan metode
1 27 123 0.0530 0.0728 fuzzy c-means lebih mendekati ketepatan
2 35 115 0.0019 0.0608 (valid) dibandingkan dengan metode k-
3 40 160 0.0011 0.0072 means.
4 44 106 0.0604 0.0705
Penelitian ini masih jauh dari sempurna,
masih perlu dilakukan penelitian dengan
5 60 90 2,2166E-5 0.1051
menggunakan data yang berbeda dan
6 63 87 8,3924E-5 2,6578E-3
menggunakan lebih banyak data training
7 70 80 2,2122E-14 4,1188E-13 dan checking lebih banyak untuk
mendapatkan nilai RMSE.
Untuk lebih jelasnya. Perbandingan RMSE
dari kedua data tersebut dapat 6 DAFTAR PUSTAKA
direpresentasikan menggunakan grafik/plot,
sehingga diperoleh seperti pada Gambar [1] Siregar, Mustaid. Jumlah Spesies
4.3. Tumbuhan Flora di Indonesia, diambil
dari http://www.lipi.go.id/, pada
tanggal 28 Juni 2016
[2] Kuniawati, Rizki Taher dkk.
Pengelompokan Kualitas Udara
Ambien Menurut Kabupaten/Kota di
Jawa Tengah Menggunakan Analisis
Klaster. Jurnal Gaussian, Vol 4 No 2
Tahun 2015 : 393-402
[3] Kadir, Abdul. Identifikasi Tiga Jenis
Bunga iris Menggunakan ANFIS.
[4] Azmi, Meri. Komparasi Metode
Jaringan Syaraf Tiruan SOM dan LUQ
Untuk Mengidentifikasi Data Bunga
Gambar 4.3 Perbandingan RMSE dari K-Means Iris. Jurnal TEK NOIF, Vol 2 No 1,
dan Fuzzy C-Means April 2014
[5] Riyanto, Hendrik Puasa dkk. Analisa
Dari grafik gambar 4.3, garis biru dan Implementasi Fuzzy Inference
merepresentasikan hasil perhitungan RMSE System Pada Hasil Klasterisasi
dari metode fuzzy c-means dan garis hijau ALgoritma Fuzzy Subtractive
12
ISSN: 2527-3159 E-ISSN: 2527-3167
Clustering. Universitas TELKOM. Gizi Dengan Metode Fuzzy C-Means

2010 Menggunakan Aplikasi Berbasis
[6] Pane, Dewi Kartika. Implementasi Data Android. Jurusan Informatika.
Mining Pada Penjualan Produk Universitas Maritim Raja Ali Haji.
Elektronik dengan Algoritma Apriori Tanjung Pinang
(Studi Kasus : Kreditplus). Jurnal Pelita [14]Sutrisno, Afriyudi Wiyanto. Penerapan
Informatika Budi Darma, Vol IV No 3, Data Mining Pada Penjualan
Agustus 2013 Menggunakan Metode Clustering
[7] Narwati. Pengelompokan Mahasiswa Study Kasus PT. Indoamarco
Menggunakan K-Means. Semarang: Palembang. Palembang: Universitas
Fakultas Teknologi Informasi Bina Darma.
UNISBANK. 2010
[8] Rivani, Edmira. Aplikasi K-Means
Cluster Untuk Pengelompokan Provinsi
Berdasarkan Produksi Jagung, Padi,
Kedelai dan Kacang Hijau. pusat
Pengkajian Pengolahan Data dan
Informasi, Sekretaris Jenderal DPR RI .
Jurusan Statistika Terapan, Universitas
Padjajaran, Bandung
[9] Ong, Johan Oscar. Implementasi
Algoritma K-Means Clustering Untuk
Menentukan Strategi Marketing
President University. Jurnal Ilmiah
Teknik Industri, Vol 12, No 1, Juni
2013 .
[10] Kusumadewi, Sri dan Purnomo, Hari.
Aplikasi Logika Fuzzy untuk
pendukung keputusan. Edisi 2.
Yogyakarta. Graha Ilmu. 2010
[11] Rini, Dian C, Klasifikasi Sinyal EEG
Menggunakan Metode Fuzzy C-Means
(FCM) Clustering dan Adaptive Neuro
Fuzzy Inference System (ANFIS).
Undergraduate Thesis, Department of
Information Technology, Faculty of
Information Technology, Institut
Teknologi Sepuluh Nopember,
Indonesia. 2013
[12] Rini, Dian C, Klasifikasi Sinyal EEG
Menggunakan Metode Fuzzy C-Means
Clustering (FCM) Dan Adaptive
Neighborhood Modified
Backpropagation (ANMBP). Fakultas
Sains dan Teknologi. Universitas Islam
Negeri Sunan Ampel Surabaya. 2015.
[13] Sudirman, Nerfita Nikentari dan
Martaleli. Analisa Klasifikasi Status
13

Perbandingan Pengklusteran Data Iris Men

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Perbandingan Pengklusteran Data Iris Men

Diunggah oleh

Hak Cipta:

Format Tersedia

JURNAL MATEMATIKA “MANTIK”

Edisi: Oktober 2016. Vol. 02 No. 01

PERBANDINGAN PENGKLUSTERAN DATA IRIS

Fitria Febrianti1, Moh. Hafiyusholeh2, Ahmad Hanif Asyhar3

1. Pendahuluan tanaman yang belum diidentifikasi diklaster

3 Metode Penelitian mengambil sebarang data dari data baru

Dalam pengklasteran data iris ya

Ketika program ini telah disimpan,

direpresentasikan menggunakan grafik/plot

merepresentasikan hasil perihtungan RMSE

Clustering. Universitas TELKOM. Gizi Dengan Metode Fuzzy C-Means

Anda mungkin juga menyukai