ABSTRAK
Fitur yang digunakan untuk mengenali jenis daun meliputi bentuk, warna, dan tekstur. Tidak semua jenis
fitur perlu digunakan untuk melakukan komputasi hasil ektraksi, namun perlu diseleksi beberapa fitur yang
paling berpengarauh dalam sistem temu kembali citra daun. Teknik seleksi fitur Correlation based Featured
Selection (CFS) digunakan untuk melakukan pemilihan fitur berdasarkan korelasi antar fitur, sehingga dapat
meningkatkan performa dari sistem temu kembali citra daun. Jenis seleksi fitur yang digunakan diantaranya
menggunaka CFS, CFS dengan Genetic Search (GS), dan chi square. Analisis keterkaitan korelasi antar fitur
melalui seleksi fitur juga dikombinasikan dengan penggunaan kedekatan dalam menghitung similaritas pada
sistem temu kembali. Penggunaan kedekatan dengan Lp norm, manhattan, euclidean, cosine, dan mahalanobis.
Hasil penelitian ini menunjukkan nilai temu kembali paling tinggi ketika menggunakan seleksi fitur CFS dengan
pengukuran kedekatan mahalanobis.
Kata Kunci: Correlation based Feature Selection, Genetic Search, Chi Square, proximity, sistem temu kembali.
merupakan penghitungan dimensi fraktal dari B b) Seleksi kromosom berdasarkan evaluasi Fitness.
(lakuna) yang masukannya berupa titik data biner 0 Teknik seleksi yang dipakai dalam kebanyakan
dan 1, 0 menyatakan lubang atau lakuna [3]. aplikasi adalah seleksi roullette-wheel.
c) Kromosom yang terseleksi dilakukan pindah
silang dan mutasi sehingga terbentuk populasi
yang baru.
(11) d) Populasi lama tergantikan dengan populasi baru.
dimana B(r) adalah kotak dengan ukuran r, r e) Proses evolusi akan terus berlangsung sampai
merupakan ukuran yang spesifik dan p adalah kriteria penghentian tercapai.
banyaknya titik dalam kotak tersebut. LGB
merupakan rasio momen kedua dan momen pertama 3.2 Chi-Square
dari gliding box. Chi square merupakan metode yang banyak
digunakan. Chi square mengevaluasi nilai dari
3 METODE SELEKSI ATRIBUT statistik chi-square untuk masing-masing atribut
dikaitkan dengan kelas. Hipotesis Ho merupakan
Metode seleksi atribut meliputi correlation asumsi yang menyatakan 2 fitur saling tidak
based feature selection (CFS), CFS dengan Genetic berkorelasi dan diuji dengan:
Search (GS) dan Chi Square.
(13)
3.1 Correlation based Feature Selection (CFS) Oij adalah frekuensi yang diobservasi dan Eij
Penelitian mengenai pemilihan atribut secara adalah frekuensi yang diperkirakan (secara teoretis).
otomatis berkembang dalam ranah pembelajaran Makin besar nilai chi square maka makin besar
mesin. Salah satu metode untuk pemilihan atribut penentangan terhadap hipotesis Ho[11].
secara otomatis adalah CFS (Correlation based
Feature Selection). CFS mengidentifikasi fitur yang 4 PENGUKURAN KEDEKATAN
relevan, artinya tidak ada ketergantungan yang kuat
dengan fitur lainnya. Seleksi fitur dapat memperbaiki Pengukuran kedekatan meliputi minkowski,
performa akurasi atau paling tidak menghasilkan manhattan distance, Euclidean, mahalanobis, dan
akurasi yang sama dengan metode tanpa seleksi fitur. cosine similarity.
Metode yang digunakan dalam CFS adalah
menentukan pasangan fitur dan menentukan bobot
4.1 Minkowski dengan Lp-Norm
fitur dengan algoritma RELIEF [9]. Seleksi atribut Pendekatan yang digunakan dalam penelitian ini
dengan CFS menggunakan algoritma sebagai berikut: menggunakan minkowski distance atau pengukuran
a) Penghitungan nilai korelasi antar fitur dan fitur- jarak dengan menggunakan Lp-Norm, dimana nilai
kelas dengan Relief. input berupa p. Nilai p adalah nilai bilangan bulat
b) Merit menyatakan himpunan fitur yang positif. Jika nilai p=2, maka disebut juga dengan L2-
berkorelasi tinggi dengan kelas, tetapi tidak norm atau euclidean distance. Persamaan mengenai
berkorelasi dengan masing-masing fitur lain. rcf minkowski distance dapat dijelaskan pada persamaan
adalah nilai tengah dari korelasi fitur-kelas dan rff
adalah nilai tengah dari korelasi fitur-fitur. K
adalah fitur dan merit k merupakan nilai merit
(kontribusi sebuah fitur dalam menentukan hasil
klasifikasi) dari sebuah fitur (14)
dimana, xs dan xtmerupakan dua buah vektor yang
dicari kedekatannya, p merupakan masukan
(12) parameter sistem dengan nilai p berupa bilangan
c) CFS dapat dihitung dari pengembangan merit, bulat positif, dan n merupakan banyaknya data yang
yaitu dengan nilai merit terbaik (nilainya paling terbentuk berupa matriks [12].
besar).
3.1.1 CFS dengan GS 4.2 Manhattan Distance
Pencarian genetik merepresentasikan pencarian Manhattan distance merupakan pengembangan
dengan algoritma genetik. Pencarian genetik dari Lp norm dengan p=1 [13].
diterapkan pada CFS untuk mendapatkan pemilihan
fitur yang paling optimal. Algoritma genetik 4.3 Euclidean
memiliki alur sebagai berikut [10]: Euclidean distance merupakan pengembangan
a) Inisialisasi populasi, dilakukan secara random. dari Lp norm dengan p=2 [13].
4.4 Mahalanobis
3
Volume 12, Nomor 1, Januari 2014 : 1 – 8
Jarak mahalanobis menghitung jarak antara x digunakan untuk mengekstrak informasi yang
dan y dengan menyertakan covariance matrix (C) terdapat pada citra daun. Langkah awal dalam
[14] preprocessing adalah mengenali objek citra daun
dengan latar belakang yang digunakan, konversi yang
(15)
digunakan adalah hitam untuk latar belakang gambar
dimana C adalah covariance matrix, Xs adalah vektor
dan gambar putih untuk objek citra daun yang diolah
pertama dan Yt adalah vektor kedua, dan adalah informasinya. Gambar 2 menunjukkan perubahan
kuadrat dari jarak mahalanobis sehingga hasil jarak dari citra daun asli ke dalam proses segmentasi.
mahalanobis adalah akar dari persamaan tersebut. Masing-masing data corpus citra dan query
Jarak antara Xs dan Yt merepresentasikan jarak yang diekstraksi menggunakan fitur bentuk, warna, dan
dimaksud dalam mahalanobis. tekstur, sebagaimana telah dijelaskan dalam bab 2.
Ekstraksi fitur digunakan untuk mendapatkan hasil
4.5 Cosine similarity keseluruhan fitur yang kemudian akan digunakan
Dua buah vektor X=(x1, x2, ..., xn) dan Y= (y1, seleksi fitur untuk mengetahui keterkaitan antar fitur
y2, ..., yn) maka cos adalah cosine dari sudut antara yang paling cocok. Metode seleksi fitur yang
X dan Y pada n dimensi [13]. digunakan dijelaskan pada bab 3. Atribut hasil seleksi
dari masing-masing metode diukur kedekatannya
dengan pencocokan menggunakan berbagai macam
(16) metode pengukuran jarak atau similaritas,
Cosine similarity (VCAD/ Vector cosine angle sebagaimana dijelaskan pada bab 4. Hasil dari proses
distance) merupakan pengukuran similaritas antara 2 pencocokan adalah temu kembali citra daun yang
vektor melalui cosine sudut antara vector X dan Y. mirip antara satu dengan lainnya. Gambar 3
menunjukkan alur sistem secara umum.
5 SKENARIO UJI COBA
5.3 Langkah Uji Coba
Pada subbab ini dibahas mengenai analisis data Evaluasi yang digunakan untuk melakukan hasil
dan langkah-langkah yang dilakukan dalam dan analisis digunakan evaluasi secara ranked
penelitian. Perkakas bantu yang digunakan untuk retrieval dan unranked retrieval. Proses evaluasi
melakukan skenario pengujian adalah MATLAB dan dengan menggunakan ranked retrieval digunakan
WEKA. Ekstraksi fitur bentuk, warna, dan tekstur akurasi, precision, recall, dan F-measure. Evaluasi
digunakan MATLAB, sedangkan proses untuk secara ranked retrieval digunakan MAP. Pengujian
mengetahui adanya korelasi antara fitur dengan dilakukan pada data query sebanyak 30 citra daun
melakukan seleksi fitur digunakan WEKA. Fitur dengan top-30. Pemberian top-30 karena diasumsikan
yang telah diseleksi akan diproses kembali untuk bahwa dalam satu kelas atau satu jenis daun
mendapatkan teknik CBIR citra daun dengan mengandung masing-masing 30 citra di dalam
menggunakan MATLAB. database.
Pengujian dilakukan dengan menggunakan
5.1 Analisis Data fungsi kedekatan yang berbeda-beda, diantaranya
Data yang berupa macam-macam citra daun adalah Lp-norm, dengan p = 1 merupakan jarak
diambil dari Flavia (http://flavia.sourceforge.net/). Manhattan dan p = 2 merupakan jarak Euclidean. Uji
Data gambar daun yang digunakan 300 citra daun coba juga dilakukan pada p = 0.5, p = 10, dan p =
yang terbagi atas 10 kelas. Data akan dipisahkan 100. Selain menggunakan jarak Lp-norm digunakan
menjadi dua bagian yaitu data corpus, dan data pula jarak cosine dan mahalanobis. Evaluasi ditinjau
query. Data corpus merupakan data yang digunakan dari hasil sebelum mengalami seleksi fitur, dan telah
untuk pelatihan sampai mendapatkan ciri yang mengalami seleksi fitur.
dibutuhkan data untuk dimasukkan ke dalam
database. Sedangkan data query merupakan data
yang digunakan sebagai masukan yang akan
diekstraksi fitur-fiturnya, kemudian dicocokkan
dengan database untuk mendapatkan hasil ranking
kemiripan antara database dengan data masukan.
Data query yang digunakan sebanyak 30 data dengan
10 kelas yang berbeda (Gambar 1). Gambar 1. Jenis daun yang merepresentasikan 10
kelas yang berbeda
5.2 Rancangan Sistem
Langkah-langkah penelitian diawali dengan
proses preprocessing pada gambar citra daun. Teknik
prepocessing adalah rangkaian ekstraksi fitur yang
4
Sari, Dewi, dan Fatichah, Seleksi Fitur Menggunakan Ekstraksi Fitur Bentuk, Warna dan Tekstur
dalam Sistem Temu Kembali Citra Daun
5
Volume 12, Nomor 1, Januari 2014 : 1 – 8
Cosine
distance 0,07 0,07 0,03 0,04 0,04
Mahalanobis
0,73 0,73 0,37 0,49 0,67
6
Sari, Dewi, dan Fatichah, Seleksi Fitur Menggunakan Ekstraksi Fitur Bentuk, Warna dan Tekstur
dalam Sistem Temu Kembali Citra Daun
dalam pemilihan fitur dalam dataset yang digunakan. shape”. International Journal of Signal
Penelitian selanjutnya dapat melakukan optimasi Processing, Image Processing and Pattern
terhadap pemilihan fitur untuk mengenali fitur daun Recognition 3, 4: 67-78.
dengan lebih teliti dengan menggunakan metode [8] NIST/SEMATECH, (2013). E-Handbook of
aturan asosiasi. Statistical Methods. <URL:
http://www.itl.nist.gov/div898/handbook/eda/
section3/eda35b.htm>.
8 DAFTAR PUSTAKA [9] Hall, Mark A, (1999). ”Correlation based
Feature Selection for Machine Learning”.
[1] Cope, James S., et al, (2012). "Plant species Tesis of the University of Waikato. < URL:
identification using digital morphometrics: A www.cs.waikato.ac.nz/~mhall/thesis.pdf>.
review." Expert Systems with Applications [10] Zhu, Fangming, Sheng-Uei Guan, (2008).
39,8: 7562-7573. “Cooperative co-evolution of GA-based
[2] Kebapci, Hanife, et all, April (2010). “ Plant classifiers based on input decomposition”.
Image Retrieval Using Color, Shape and Engineering Applications of Artificial
Texture Features”. The Computer Journal Intelligence 21: 1360-1369.
Advance Access published April 9, 2010. [11] Novaković, Jasmina, Perica ŠTRBAC, and
[3] Tolle, Charles R, (2008). “An efficient Dušan Bulatović, (2011). "Toward optimal
implementation of the gliding box lacunarity feature selection using ranking methods and
algorithm”. Physica D 237: 306–315. classification algorithms." The Yugoslav
[4] Valiammal, N. dan S.N Geethalaksmi, (2012). Journal of Operations Research ISSN: 0354-
“An Optimal Feature Subset Selection for 0243 EISSN: 2334-604321.1.
Leaf Analysis”. International Journal of [12] Hyun Oh, Jae, and Nojun Kwak, (2013).
Computer and Communication Engineering 6. “Generalization of linear discriminant
[5] Nam, Yunyoung, Eenjun Hwang, and analysis using Lp-norm”.Pattern Recognition
Dongyoon Kim, (2008). "A similarity-based Letters 34: 679–685.
leaf image retrieval scheme: Joining shape [13] Vadivel, A. K. M. S. S. A., A. K. Majumdar,
and venation features." Computer Vision and and Shamik Sural, (2003). “Performance
Image Understanding 110, 2: 245-259. comparison of distance metrics in content-
[6] Wu, Qingfeng, Changle Zhou, and Chaonan based image retrieval applications”. Proc. of
Wang, (2006). “Feature extraction and Internat. Conf. on Information Technology,
automatic recognition of plant leaf using Bhubaneswar, India.
artificial neural network”. Advances in [14] Kokare, Manesh, B. N. Chatterji, and P. K.
Artificial Intelligence 3. Biswas, (2003). “Comparison of similarity
[7] Singh, Krishna, Indra Gupta, and Sangeeta metrics for texture image retrieval”.
Gupta, (2010). “SVM-BDT PNN and Fourier TENCON Conference on convergent
moment technique for classification of leaf technologies for Asia-Pacific region.