Abstrak
Indonesia dengan kekayaan alam yang melimpah, tentu memiliki banyak tanaman yang tak
terhitung banyaknya. Untuk mengklaster tanaman menjadi beberapa kelompok yang berbeda dapat
menggunakan beberapa metode. Salah satunya metodenya adalah K-Means dan Fuzzy C-Means.
Akan tetapi, dua metode ini memiliki perbedaan. Tidak hanya dari segi algoritma, akan tetapi dari
segi perhitungan nilai root mean square error (RMSE)-nya juga berbeda. Untuk menghitung nilai
RMSE ada dua indikator yang diperlukan, yaitu data training dan data checking. Dari pembahasan,
metode Fuzzy C-Means memiliki tingkat RMSE yang lebih kecil dibandingkan metode K-Means
yaitu pada 80 data training dan 70 data checking dengan nilai RMSE 2,2122E-14. Hal ini
menunjukkan bahwa metode Fuzzy C-means memiliki tingkat ketepatan yang lebih tinggi
dibandingkan dengan metode K-Means.
Kata kunci: data iris, logika fuzzy, fuzzy c-means, data mining, k-means
Abstract
Indonesia with abundant natural resources, certainly have a lot of plants are innumerable. To
clasify the plants into different clusters can use several methods. Methods used are K-Means and
Fuzzy C-Means. However, this methods have difference. Not only in terms of algorithms, but in
terms of value calculation on the root mean square error (RMSE) also different. To calculate the
value of RMSE there are two indicators are required, namelt the training data and the checking
data. Of discussion, the Fuzzy C-Means method has RMSE values smaller than the K-Means
method, namely on 80 training data and 70 checking data with RMSE value 2,2122E-14. This
indicates that the Fuzzy C-Means method has a higher level of accuracy than the K-Means
method.
Kata kunci: iris data, fuzzy logic, fuzzy c-means, mining data, k-means
7
JURNAL MATEMATIKA “MANTIK”
Edisi: Oktober 2016. Vol. 02 No. 01
ISSN: 2527-3159 E-ISSN: 2527-3167
mahkota, panjang mahkota, lebar kelopak data, metode fuzzy c-means adalah salah satu
dan panjang kelopak yang sering disebut metode yang digunakan dalam logika fuzzy.
dengan data iris. Beberapa peneliti sebelumnya menggunakan
Data iris merupakan data dari 150 bunga metode fuzzy c-means dalam penelitiannya,
yang diidentifikasi berdasarkan panjang seperti pengklasifikasian sinyal EEG
mahkota, lebar mahkota, panjang kelopak [11][12], dan analisa klasifikasi status
dan lebar kelopak [3]. Dari 150 data tersebut gizi[13]. Dalam jurnal ini akan ditunjukkan
pada umumnya peneliti-peneliti sebelumnya perbandingan pengklasteran data iris dengan
mengelompokkan menjadi tiga kelompok menggunakan metode k-means dan fuzzy c-
bunga, yaitu iris setosa, iris virginica dan iris means dilihat dari root mean square error
versi color [3][4][5]. Untuk menguji metode (RMSE). Root mean square error (RMSE)
pengklasteran banyak peneliti-peneliti adalah nilai rata-rata kuadrat dari perbedaan
sebelumnya yang menggunakan data iris, nilai estimasi dengan nilai observasi suatu
karena data iris merupakan data sederhana data. Semakin kecil nilai RMSE maka data
yang mudah didapat. Ada beberapa metode tersebut semakin valid.
yang dapat digunakan untuk
mengelompokkan data menjadi beberapa 2. Tinjauan Pustaka
kelompok data, diantaranya adalah dengan
menggunakan salah satu cabang dari ilmu 2.1 Data Mining
matematika, yaitu data mining dan logika Data mining merupakan proses yang
fuzzy. menggunakan teknik statistik, perhitungan,
Data mining adalah adalah suatu istilah kecerdasan buatan dan machine learning
yang digunakan untuk menguraikan untuk mengekstrasi dan mengidentifikasi
penemuan pengetahuan didalam daftar data. informasi yang bermanfaat dan pengetahuan
Data mining merupakan proses yang yang terkait dari berbagai basis data besar
menggunakan teknik statistik, matematika, [14]. Dalam data mining terdapat sebuah
kecerdasan buatan dan machine learning metode yang digunakan untuk mengklaster
untuk mengekstrasi dan mengidentifikasi data, yaitu k-means. Metode k-means
informasi yang bermanfaat dan pengetahuan merupakan metode pengklasteran data
yang terkait dari berbagai daftar data besar mining yang sering digunakan peneliti untuk
[6]. Dalam data mining terdapat sebuah mengklaster data. Dalam metode k-means,
metode yang digunakan untuk mengklaster data-data yang memiliki karakteristik yang
data menjadi kelompok-kelompok data, yaitu sama diklaster dalam satu kelompok dan data
metode k-means. Beberapa peneliti yang memiliki karakteristik yang berbeda
sebelumnya menggunakan metode k-means dikelompokan dengan kelompok lain yang
untuk mengklaster data karena dalam data sesuai dengan karakteristik data tersebut,
mining metode k-means adalah metode sehingga data yang berada dalam satu
pengklasteran yang mudah dipahami dengan kelompok memiliki tingkat variasi yang kecil
algoritma yang cukup mudah [7][8][9]. [9]. Berikut adalah algoritma dari metode k-
Selain data mining, terdapat cabang ilmu means:
matematika yang mempunyai metode untuk (1) Masukkan data yang akan diklaster.
mengklaster data yaitu logika fuzzy. (2) Tentukan jumlah klaster.
Logika fuzzy adalah salah satu cabang (3) Ambil sebarang data sebanyak jumlah
ilmu matematika yang mempelajari tentang klaster secara acak sebagai pusat
logika kabur. Dimana logika fuzzy ini klaster (sentroid).
memiliki rentang keanggotaan berkisar (4) Hitung jarak antara data dengan pusat
antara 0 dan 1, berbeda dengan logika klasik klaster, dengan menggunakan
yang memiliki rentang keanggotan yang persamaan :
bernilai 0 atau 1[10]. Dalam pengklasteran , ⋯ 2.1.1
8
JURNAL MATEMATIKA “MANTIK”
Edisi: Oktober 2016. Vol. 02 No. 01
ISSN: 2527-3159 E-ISSN: 2527-3167
Dimana : 2.2.2
, = jarak data ke ke pusat klaster
= data ke pada atribut ke 4. Hitung pusat klaster ke- :
= titik pusat ke pada atribut ke ∑ ∗
2.2. 3
(5) Hitung kembali pusat klaster dengan ∑
keanggotaan klaster yang baru dengan 1,2, … , ; dan 1,2, … ,
(6) Jika pusat klaster tidak berubah maka 5. Hitung fungsi objektif pada iterasi ke- ,
proses klaster telah selesai, jika belum
maka ulangi langkah ke (4) sampai 2.2.4
pusat klaster tidak berubah lagi.
6. Hitung perubahan matriks partisi:
2.2 Logika Fuzzy
∑
Logika fuzzy pertama kali 2.2.5
diperkenalkan oleh Prof. Lotfi A. Zadeh ∑ ∑
pada tahun 1965. Dalam banyak hal, logika dengan 1,2, … , dan 1,2, … ,
fuzzy digunakan sebagai suatu cara untuk 7. Cek kondisi berhenti:
memetakan permasalahan dari input menuju a. Jika: | | atau
ke output yang diharapkan. Dalam logika maka berhenti,
fuzzy terdapat fuzzy clustering yang b. Jika tidak: 1, ulangi langkah
merupakan salah satu metode untuk ke-4
menentukan klaster optimal dalam suatu
ruang vektor yang didasarkan pada bentuk Output yang dihasilkan dari Fuzzy C-
normal Euclidian untuk jarak antar Means (FCM) merupakan deretan pusat
vektor[15]. Dalam logika fuzzy terdapat klaster dan beberapa derajat keanggotaan
metode yang sering digunakan untuk untuk tiap-tiap titik data.
mengklaster data, yaitu metode fuzzy c-
2.3 Root Mean Square Error
means. Fuzzy c-means adalah suatu metode
Root mean ssquare error (RMSE)
pengklasteran data yang ditentukan oleh
derajat keanggotaan. Berikut adalah merupakan parameter yang digunakan
algoritma fuzzy c-means: untuk mengevaluasi nilai hasil dari
1. Masukkan data yang akan diklaster, pengukuran terhadap nilai sebenarnya atau
berupa matriks berukuran . nilai dianggap benar. Semakin kecil nilai
2. Tentukan : RMSE, maka pengklasteran data semakin
a. Jumlah klaster = c mendekati benar. Secara umum, persamaan
b. Pangkat =w yang digunakan untuk menghitung nilai
c. Maksimum Iterasi = MaxIter; RMSE adalah seperti pada persamaan 2.3.1
d. Error Terkecil yang diharapkan sebagai berikut.
=
e. Fungsi objektif awal = 0 2.3.1
f. Iterasi awal = 1
3. Bangkitkan bilangan acak , dengan
1,2, … , ; 1,2, … , ; sebagai dimana:
elemen-elemen matriks partisi awal . , nilai perhitungan
Hitung jumlah setiap kolom: , nilai exact
jumlah data
2.2.1
dengan 1,2, … ,
Hitung:
9
JURNAL MATEMATIKA “MANTIK”
Edisi: Oktober 2016. Vol. 02 No. 01
ISSN: 2527-3159 E-ISSN: 2527-3167
Masukkan
data
Hitung pusat klaster
Tentukan
Jumlah Klaster Hitung fungsi objektif
tidak
Tentukan titik Hitung perubahan
pusat klaster ya matriks partisi
Pusat selesai
klaster
Hitung jarak data
ke pusat klaster ya
Nilai epsilon
terpenuhi
Kelompokkan data
berdasarkan minimum tidak
jarak ke pusat klaster
tidak
Iterasi
Gambar 3.1 Algoritma K-Means maksimal
diperlukan pada metode fuzzy c-means. sebaran data pada masing-masing klaster
Setelah itu bangkitkan bilangan random berdasarkan titik kedekatannya dengan
dengan menggunakan persamaan 2.2.1. pusat klaster, hal tersebut terlihat seperti
Lalu, hitung pusat klaster dengan pada Gambar 4.1.
menggunakan persamaan 2.2.1. Dari
perhitungan pusat klaster, hitung fungsi
objektif pada iterasi dengan menggunakan
persamaan 2.2.4. setelah itu, hitung
perubahan matriks partisi dengan
menggunakan persamaan 2.2.5. Lalu, cek
kondisi berhenti dengan dilihat dari apakah
nilai epsilon yang merupakan salah satu
indicator telah terpenuhi atau tidak. Jika
sudah terpenuhi maka iterasi selesai, jika
iterasi telah maksimal maka kondisi
berhenti.
Perbandingan dari metode k-means dan
Gambar 4.1 Pengklasteran Iris Menggunakan K-
fuzzy c-means tidak benrhenti pada Means
algoritma perhitungannya, akan tetapi Begitu pula metode fuzzy c-means,
perbandingannya terlihat ketika dihitung metode ini juga menggunakan fungsi pada
nilai RMSE-nya dengan menggunakan MATLAB untuk menunjukkan kelompok-
persamaan 2.3.1. kelompok data yang telah diklaster. Adapun
fungsi yang digunakan adalah sebagai
4 Hasil dan Pembahasan
berikut:
Pada penelitian akan menjelaskan x=load(‘datairis.dat’);
mengenai perbandingan pengklasteran data jumlah_klaster=3;
iris menggunakan metode k-means dan c- [idx,C]=kmeans(x,jumlah_klaster)
means. Akan tetapi, pembahasan ini akan
akan direpresentasikan dengan Ketika fungsi tersebut telah disimpan
menggunakan software MATLAB. Pada dan dijalankan akan diperoleh kelompok-
MATLAB terdapat fungsi yang dapat kelompok data. Dan dapat juga ditampilkan
digunakan untuk mengklaster data. Pada dengan menggunakan grafik/plot, sehingga
metode k-means, sebelum mengklaster data diperoleh hasil klasterisasi seperti pada
menggunakan MATLAB, siapkan data Gambar 4.2.
berupa file (.dat). setelah itu, tentukan
jumlah klaster yangdiharapkan. Lalu,
masukkan fungsi metode k-means pada
MATLAB, seperti berikut:
x=load(‘datairis.dat’);
jumlah_klaster=3;
[center,U,ObjFcn]=fcm(x,jumlah_klaster)
12
JURNAL MATEMATIKA “MANTIK”
Edisi: Oktober 2016. Vol. 02 No. 01
ISSN: 2527-3159 E-ISSN: 2527-3167