Analisis Cluster (Elbow and Silhoutte)

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
ANALISA PERBANDINGAN NILAI K TERBAIK UNTUK

CLUSTERING K-MEANS MENGGUNAKAN PENDEKATAN
ELBOW DAN SILHOUETTE PADA CITRA AKSARA JAWA
SKRIPSI
Diajukan Untuk Memenuhi Salah Satu Syarat
Memperoleh Gelar Sarjana Komputer
Program Studi Informatika
Oleh:
Gabriel Ryan Prima
175314084
PROGRAM STUDI INFORMATIKA

FAKULTAS SAINS DAN TEKNOLOGI
UNIVERSITAS SANATA DHARMA
YOGYAKARTA
2021
COMPARATIVE ANALYSIS OF THE BEST K-VALUE FOR

CLUSTERING K-MEANS USING ELBOW AND SILHOUETTE
APPROACH ON JAVANESE SCRIPT IMAGE
THESIS
Present as Partial Fulfillment of The Requirements
to Obtain Sarjana Komputer Degree
in Informatics Study Program
Created by:
Gabriel Ryan Prima
175314084
INFORMATICS STUDY PROGRAM

FACULTY OF SCIENCE OF TECHNOLOGY
SANATA DHARMA UNIVERSITY
YOGYAKARTA
2021
Halaman Persembahan
“Segala perjuangan saya hingga titik ini saya persembahkan pada dua orang
paling berharga dalam hidup saya. Hidup menjadi begitu mudah dan lancar ketika
kita memiliki orang tua yang lebih memahami kita daripada diri kita sendiri.
Terima kasih telah menjadi orang tua yang sempurna.”
iv
Abstrak
Pada penelitian ini akan dilakukan pencarian nilai K terbaik dari 2 metode
pendekatan clustering K-Means yaitu Elbow dan Silhouette. Berdasarkan penelitian
sebelumnya oleh Purnamasari (2020) ditemukan pendekatan Elbow menghasilkan
hasil yang lebih ideal. Maka dari itulah penulis berpikir untuk melakukan pencarian
nilai K terbaik pada clustering aksara Jawa.
Terdapat banyak tahapan yang dilakukan pada penelitian ini. Yang pertama
adalah pengumpulan data yang berupa buku hamong tani halaman 2 dan 59.
Kemudian preprocessing untuk mendapatkan data yang bersih. Setelah itu akan
disegmentasi untuk mendapatkan tiap aksaranya. Lalu akan diambil ciri untuk tiap
aksaranya dengan menggunakan Intensity of Character. Data ciri kemudian
dikelompokan menggunakan K-Means clustering yang mana akan menghasilkan
jumlah cluster, idx, dan sumd. Kemudian idx akan digunakan untuk evaluasi
silhouette dan sumd akan digunakan untuk evaluasi elbow. Hasil kedua metode
tersebut akan dibandingkan untuk mencari K terbaiknya.
Dari pengujian yang dilakukan disimpulkan jika K nya lebih besar maka
akan menghasilkan hasil pengelompokan yang bagus sehingga metode elbow
dianggap sebagai metode yang ideal untuk menentukan nilai K.
Kata kunci: Aksara Jawa, Preprocessing, Segmentasi, Ekstraksi Ciri, K-Means,

Silhouette, Elbow.
vii
Absract
In this research, the best K value will be searched from 2 methods of K-
Means clustering approach, namely Elbow and Silhouette. Based on previous
research by Purnamasari (2020) it was found that the Elbow approach produced
more ideal results. That's why the writer thought to search for the best K value in
Javanese script clustering.
There are many stages carried out in this research. The first is collecting
data in the form of the Hamong Tani book page 2 and 59. Then preprocessing to
get clean data. After that it will be segmented to get each character. Then the
characteristics for each character will be taken using the Intensity of Character. The
feature data are then grouped using K-Means clustering which will produce the
number of clusters, idx, and sumd. Then idx will be used for silhouette evaluation
and sumd will be used for elbow evaluation. The results of the two methods will be
compared to find the best K.
From the tests carried out, it is concluded that if the K is greater then it will
produce good grouping results so that the elbow method is considered an ideal
method to determine the K value.
Keywords: Javanese script, Preprocessing, Segmentation, Feature Extraction, K-

Means, Silhouette, Elbow.
viii
Kata Pengantar
Puji dan syukur penulis panjatkan kepada Tuhan Yang Maha Esa atas rahmat dan
karunia-Nya, sehingga penulis dapat menyelesaikan tugas akhir dengan judul
“Analisa Perbandingan Nilai K Terbaik Untuk Clustering K-Means Menggunakan
Pendekatan Elbow Dan Silhouette Pada Citra Aksara Jawa” dengan baik dan tepat
waktu. Tugas akhir ini merupakan salah satu persyaratan yang wajib untuk
ditempuh sebagai syarat akademik untuk memperoleh gelar sarjana komputer
program studi Informatika Universitas Sanata Dharma Yogyakarta.
Selama proses penelitian, penulis mendapat banyak dukungan dari berbagai pihak
sehingga sudah sepantasnya penulis menyampaikan terima kasih yang kepada:
1. Ibu Dr. Anastasia Rita Widiarti, M.Kom selaku dosen pembimbing tugas
akhir yang telah bersedia memberikan arahan, masukan, waktu serta
motivasi kepada penulis selama menyelesaikan skripsi.
2. Bapak Sudi Mungkasi, S.Si., M.Math.Sc., Ph.D. selaku dekan Fakultas
Sains dan Teknologi.
3. Seluruh dosen Informatika Universitas Sanata Dharma yang telah mendidik
dan memberikan ilmu pengetahuan kepada penulis yang digunakan sebagai
bekal untuk menyelesaikan tugas akhir ini.
4. Keluarga tercinta, Ayah Drs. Ary Widayanto, Mama Rini Sudiastuti, dan
saudara-saudari yang selalu memberikan dukungan dan doa sehingga
membuat penulis semakin semangat dalam mengerjakan serta
menyelesaikan tugas akhir ini.
5. Saudara Edrick Hernando, Atanasius Ivannoel Rio Aji, Yudistira Prama
Putra, Hieronimus Fredy Morgan, Albertus Ivan Adhyatma Maheswara,
Joseph Hutagalung, Agung Kristanto yang selalu bisa diajak diskusi
masalah tugas akhir.
6. Teman – teman dari grup “Pejuang Ekspetasi”, “Mesin Goblog”, dan
“Brokeback” yang senantiasa memberikan saran dan hiburan dalam
ix
DAFTAR ISI
HALAMAN PERSETUJUAN PEMBIMBING ..................................................... ii

HALAMAN PENGESAHAN ................................................................................ iii
PERNYATAAN KEASLIAN KARYA ................................................................. v
LEMBAR PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH .. vi
DAFTAR ISI .......................................................................................................... xi
DAFTAR GAMBAR ........................................................................................... xiv
DAFTAR TABEL ................................................................................................. xv
BAB I PENDAHULUAN ....................................................................................... 1
1.1 Latar Belakang ......................................................................................... 1
1.2 Rumusan Masalah .................................................................................... 2
1.3 Tujuan Penelitian ...................................................................................... 2
1.4 Manfaat Penelitian .................................................................................... 2
1.5 Batasan Penelitian .................................................................................... 3
1.6 Sistematika Penulisan ............................................................................... 3
BAB II LANDASAN TEORI ................................................................................. 5
2.1 Aksara Jawa .............................................................................................. 5
2.2 Pengertian Citra ........................................................................................ 9
2.3 Pemrosesan Citra ...................................................................................... 9
2.4 Preprocessing .......................................................................................... 10
2.4.1. Binerisasi ............................................................................................ 10
2.4.2. Thinning .............................................................................................. 10
2.4.3. Filtering ............................................................................................... 10
2.5 Segmentasi.............................................................................................. 11
2.5.1. Profil Proyeksi .................................................................................... 11
2.5.2. Resize .................................................................................................. 11
2.6 Ekstraksi Ciri .......................................................................................... 12
2.6.1. Intensity of Character.......................................................................... 12
2.7 K-means Clustering ................................................................................ 13
2.8 Metode Elbow ........................................................................................ 18
2.9 Metode Silhouette................................................................................... 21
xi
2.10 Nilai Ground Truth ................................................................................. 25

BAB III METODE PENELITIAN........................................................................ 27
3.1 Deskripsi Data ........................................................................................ 27
3.2 Pengolahan Data ..................................................................................... 29
3.3 Contoh Perhitungan 10 Data Dummy .................................................... 30
3.4 Perancangan Sistem ................................................................................ 36
3.5 Cara Pengujian ....................................................................................... 50
3.6 Kebutuhan Sistem................................................................................... 51
3.6.1 Perangkat Keras (Hardware) ............................................................... 51
3.6.2 Perangkat Lunak (Software) ............................................................... 52
3.7 Desain GUI ............................................................................................. 52
BAB IV HASIL DAN ANALISIS ........................................................................ 54
4.1 Data ........................................................................................................ 54
4.2 Implementasi Preprocessing ................................................................... 54
4.3 Implementasi Segmentasi ....................................................................... 59
4.4 Implementasi Ekstraksi Ciri ................................................................... 62
4.5 Implementasi K-Means Clustering ......................................................... 66
4.6 Implementasi Silhouette ......................................................................... 66
4.7 Implementasi Elbow Method ................................................................. 67
4.8 Hasil Penelitian....................................................................................... 68
4.8.1 Hasil Percobaan Silhouette Pertama ................................................... 69
4.8.2 Hasil Percobaan Silhouette Kedua ...................................................... 70
4.8.3 Hasil Percobaan Silhouette Ketiga ..................................................... 71
4.8.4 Hasil Percobaan Silhouette Keempat .................................................. 72
4.8.5 Hasil Percobaan Silhouette Kelima .................................................... 73
4.8.6 Hasil Percobaan Silhouette Keenam ................................................... 74
4.8.7 Hasil Percobaan Silhouette Ketujuh ................................................... 75
4.8.8 Hasil Percobaan Silhouette Kedelapan ............................................... 76
4.8.9 Hasil Percobaan Silhouette Kesembilan ............................................. 77
4.8.10 Hasil Percobaan Elbow Pertama ......................................................... 80
4.8.11 Hasil Percobaan Elbow Kedua ........................................................... 81
4.8.12 Hasil Percobaan Elbow Ketiga ........................................................... 82
xii
4.8.13 Hasil Percobaan Pengelompokan K 65 ............................................... 83

4.8.14 Hasil Percobaan Pengelompokan 14 Aksara Pokok ........................... 87
BAB V KESIMPULAN DAN SARAN ................................................................ 90
5.1 Kesimpulan ............................................................................................. 90
5.2 Saran ....................................................................................................... 91
DAFTAR PUSTAKA ........................................................................................... 92
LAMPIRAN .......................................................................................................... 94
xiii
DAFTAR GAMBAR
Gambar 2.1 20 Aksara Pokok ................................................................................. 5

Gambar 2.2 Aksara Sandhangan ............................................................................. 6
Gambar 2.3 Aksara Penyigeg Wanda ..................................................................... 6
Gambar 2.4 Sandhangan Wyanjana ........................................................................ 7
Gambar 2.5 Sandhangan Pangkon .......................................................................... 7
Gambar 2.6 Aksara Pasangan ................................................................................. 8
Gambar 2.7 Aksara Wilangan ................................................................................. 8
Gambar 3.1 Halaman 2 buku Hamong Tani ......................................................... 27
Gambar 3.2 Halaman 59 buku Hamong Tani ....................................................... 28
Gambar 3.3 Contoh Citra Hasil Crop.................................................................... 29
Gambar 3.4 Data Dummy Berjumlah 10 .............................................................. 30
Gambar 3.5 Diagram Perancangan Sistem............................................................ 37
Gambar 3.6 Flowchart Penelitian .......................................................................... 38
Gambar 3.7 Diagram Preprocessing ..................................................................... 39
Gambar 3.8 Diagram Segmentasi ......................................................................... 43
Gambar 3.9 Diagram Ekstraksi Ciri ...................................................................... 45
Gambar 3.10 Diagram K-Means ........................................................................... 47
Gambar 3.11 Diagram Evaluasi Hasil Clustering ................................................. 49
Gambar 3.12 Desain GUI ...................................................................................... 52
Gambar 4.1 Hasil Projeksi Horisontal Halaman 2 ................................................ 59
Gambar 4.2 Hasil Projeksi Horisontal Halaman 59 .............................................. 60
Gambar 4.3 Contoh Hasil Segmentasi Baris 1 ...................................................... 61
Gambar 4.4 Hasil IoC Data Aksara 1 Setelah dipindah ke Excel ......................... 63
Gambar 4.5 Pembagian Hasil IoC ke 9 Warna ..................................................... 64
Gambar 4.6 Seleksi Piksel Bernilai 0 .................................................................... 64
Gambar 4.7 Hasil Percobaan Silhouette Pertama ................................................. 69
Gambar 4.8 Hasil Percobaan Silhouette Kedua .................................................... 70
Gambar 4.9 Hasil Percobaan Silhouette Ketiga .................................................... 71
Gambar 4.10 Hasil Percobaan Silhouette Keempat .............................................. 72
Gambar 4.11 Hasil Percobaan Silhouette Kelima ................................................. 73
Gambar 4.12 Hasil Percobaan Silhouette Keenam ............................................... 74
Gambar 4.13 Hasil Percobaan Silhouette Ketujuh ................................................ 75
Gambar 4.14 Hasil Percobaan Silhouette Kedelapan ........................................... 76
Gambar 4.15 Hasil Percobaan Silhouette Kesembilan ......................................... 77
Gambar 4.16 Hasil Percobaan Elbow Pertama ..................................................... 80
Gambar 4.17 Hasil Percobaan Elbow Kedua ........................................................ 81
Gambar 4.18 Hasil Percobaan Elbow Ketiga ........................................................ 82
Gambar 4.19 Hasil Percobaan Pengelompokan Cluster 1 .................................... 84
Gambar 4.20 Hasil Pengelompokan Cluster 1 14 Aksara Pokok.......................... 88
xiv
DAFTAR TABEL
Tabel 2.1 Tabel Representasi Data Citra berukuran 9x9 ...................................... 12

Tabel 2.2 Hasil IoC 3x3 ........................................................................................ 13
Tabel 2.3 Data Clustering ..................................................................................... 14
Tabel 2.4 Centroid Random .................................................................................. 15
Tabel 2.5 Hasil Iterasi 1 ........................................................................................ 16
Tabel 2.6 Hasil Centroid Iterasi 1 ......................................................................... 17
Tabel 2.8 Hasil Centroid Iterasi 2 ......................................................................... 17
Tabel 2.10 Hasil Centroid Iterasi 3 ....................................................................... 18
Tabel 2.11 Contoh Data Silhouette ....................................................................... 22
Tabel 2.12 Rentang nilai Silhouette Coefficient ................................................... 25
Tabel 3.1 Hasil Segmentasi Aksara pertama halaman 2 ....................................... 29
Tabel 3.2 Ciri IoC 3x3 10 Data Dummy ............................................................... 30
Tabel 3.3 Centroid Awal ....................................................................................... 31
Tabel 3.5 Centroid Baru ........................................................................................ 32
Tabel 3.7 Data Silhouette Hasil K-Means Clustering ........................................... 33
Tabel 3.8 Penghitungan Jarak Antar Data ............................................................ 33
Tabel 3.9 Penghitungan ai dan bi Data 1-5 ........................................................... 34
Tabel 3.10 Penghitungan ai dan bi Data 6-10 ....................................................... 34
Tabel 3.11 Hasil SI Tiap Data ............................................................................... 34
Tabel 3.12 Hasil Akurasi SIlhouette ..................................................................... 35
Tabel 3.13 Data Jarak K-Means Iterasi 2 .............................................................. 35
Tabel 3.14 Penjumlahan Jarak 3 Cluster ............................................................... 36
Tabel 3.15 Hasil Distortion Elbow........................................................................ 36
Tabel 3.16 Perangkat Keras .................................................................................. 51
Tabel 4.1 Perbandingan Citra Awal dan Hasil Binerisasi ..................................... 55
Tabel 4.2 Perbandingan Hasil Binerisasi dan Hasil Invers ................................... 56
Tabel 4.3 Perbandingan Hasil Filtering ................................................................ 57
Tabel 4.4 Perbandingan Hasil Resize ................................................................... 61
Tabel 4.5 Perbandingan Citra Awal dengan Hasil Penipisan ............................... 62
Tabel 4.6 Tabel Contoh Hasil Rosenfeld .............................................................. 63
Tabel 4.7 Hasil Penghitungan Ciri IoC 3 Aksara 1 ............................................... 65
Tabel 4.8 Contoh Matriks Ciri IoC 3x3 ................................................................ 65
Tabel 4.9 Hasil Silhouette Jarak Default............................................................... 78
Tabel 4.10 Hasil Silhouette Jarak Cosine ............................................................. 78
Tabel 4.11 Hasil Silhouette Jarak Cityblock ......................................................... 79
Tabel 4.12 Hasil SI Terbaik Pertama Range K 120 .............................................. 79
xv
Tabel 4.13 Hasil Elbow ......................................................................................... 83

Tabel 4.14 Hasil Analisa Manual Hasil Pengelompokan K 65 ............................. 84
Tabel 4.15 Hasil Analisa Manual Hasil Pengelompokan 14 Aksara Pokok ......... 88
xvi
BAB I PENDAHULUAN
1.1 Latar Belakang
Pada zaman ini, banyak sekali metode yang digunakan untuk melakukan
proses clustering, Salah satunya yang paling populer adalah K-means clustering
karena merupakan “unsupervised machine learning algorithms” yang paling
sederhana.
Hal pertama dalam clustering K-means adalah dimulai dengan kelompok

pertama centroid yang dipilih secara acak, yang digunakan sebagai titik awal untuk
setiap cluster, dan kemudian melakukan perhitungan berulang untuk
mengoptimalkan posisi centroid. Dalam menentukan nilai K yang digunakan dalam
clustering k-means juga terdapat banyak sekali pendekatan yang dapat dilakukan
guna mencari nilai K yang paling ideal. Salah dua metode pendekatan tersebut
adalah metode Elbow dan metode Silhouette.
Banyak sekali manfaat yang dapat diperoleh jika kita melakukan proses
clustering. Salah satunya adalah kita dapat mengelompokkan citra aksara Jawa
yang terdapat pada dokumen-dokumen kuno yang dapat berguna untuk membantu
proses labeling pada aksara Jawa. Salah satu dokumen yang memuat aksara Jawa
itu adalah buku Hamong Tani.
Berdasarkan penelitian yang dilakukan oleh Purnamasari (2020) diperoleh

hasil dimana metode Elbow menghasilkan nilai K yang lebih ideal dibanding
metode Silhouette.
Sementara itu ada juga penelitian yang dilakukan oleh Akrisnar (2020) dimana
hasil metode Silhouette menghasilkan nilai K sebesar 72 berdasarkan
kemunculannya pada 3 ciri IoC dan size dengan ukuran 3x3, 5x5, dan 8x8.
1
1.2 Rumusan Masalah

Berdasarkan latar belakang yang dibuat di atas, maka rumusan masalah pada
penelitian ini adalah:
a. Berapa nilai K yang disarankan oleh kedua metode pendekatan elbow dan
silhouette?
b. Dari dua metode pendekatan elbow dan silhouette, mana yang paling ideal
untuk menentukan nilai K?
c. Bagaimana keberhasilan proses clustering dilihat dari akurasi ground truth
hasil clustering k-means?
1.3 Tujuan Penelitian

Berdasarkan rumusan masalah yang dibuat di atas, maka tujuan dari penelitian
ini adalah:
a. Mengetahui nilai K yang disarankan oleh metode pendekatan elbow dan
silhouette.
b. Mengetahui metode pendekatan mana yang paling ideal antara elbow atau
silhouette.
c. Mengetahui keberhasilan proses clustering yang dilihat dari akurasi
ground truth hasil clustering k-means.
1.4 Manfaat Penelitian

Berdasarkan rumusan masalah yang dibuat di atas, maka manfaat dari
penelitian ini adalah:
a. Manfaat dari penelitian ini bagi peneliti adalah untuk mengimplementasikan
ilmu Informatika terutama yang berkaitan dengan pemrosesan citra pada
suatu aksara.
b. Manfaat dari penelitian ini bagi universitas adalah dapat memberikan
kontribusi penambahan ilmu pengetahuan, khususnya bagi prodi
Informatika serta menjadi bahan bacaan di perpustakaan Universitas dan
dapat memberikan referensi bagi mahasiswa lain.
1.5 Batasan Penelitian

Batasan – batasan masalah pada penyusunan penelitian ini adalah sebagai
berikut:
1. Data yang digunakan adalah hasil dari scan halaman dari buku Hamong
Tani (Holle, 1876).
2. Ekstraksi ciri yang digunakan adalah IoC dengan ukuran 3x3, 4x4, dan
5x5.
3. Masukan data hanya berupa citra yang berformat .png.
4. Memfokuskan pencarian K optimal pada range sampai 120 saja.
5. Nilai SI hasil metode silhouette yang digunakan adalah ketika diatas 0,5.
6. Nilai distortion percent hasil metode elbow yang digunakan adalah ketika
diatas 0,9.
1.6 Sistematika Penulisan

BAB I PENDAHULUAN
Bab ini berisi tentang latar belakang, rumusan masalah, tujuan penelitian,
manfaat penelitian, batasan masalah, dan sistematika penulisan.
BAB II LANDASAN TEORI

Bab ini berisi tentang teori-teori dasar yang berkaitan dengan penelitian
yang akan dilakukan, yang meliputi dari objek yang digunakan, metode
preprocessing yang digunakan, segmentasi yang digunakan, ekstraksi ciri
yang digunakan, dan clustering yang digunakan.
BAB III METODE PENELITIAN

Bab ini berisi tentang langkah-langkah yang dilakukan dalam penelitian
yang bertujuan untuk menjawab dan menyelesaikan rumusan masalah
yang dimiliki.
BAB IV HASIL PENELITIAN DAN ANALISIS

Bab ini berisi tentang penjelasan mengenai sistem yang akan dibangun,
penerapan algoritma serta rancangan yang telah dibuat, cara penggunaan
sistem, serta hasil analisa dari pengujian-pengujian yang dilakukan.
BAB V KESIMPULAN DAN SARAN

Bab ini berisi kesimpulan dari hasil penelitian serta saran yang diusulkan
untuk dapat mengembangkan penelitian ini.
BAB II LANDASAN TEORI

2.1 Aksara Jawa
Aksara Jawa terdiri dari 20 aksara pokok (legena) yang bersifat

kesukukataan. Sifat penulisan aksara Jawa ditulis dari kiri ke kanan dan
ditulis secara bersambung tanpa spasi antar kata. Menurut Hadiprijono(2013)
aksara Jawa terdiri dari 20 aksara, yaitu dari aksara ha sampai nga adalah
seperti pada Gambar 2.1.
Gambar
Gambar
2.13.201 Aksara
20 Aksara
Pokok
Jawa Pokok
Gambar 2.1 merupakan aksara dasar atau pokok yang berjumlah
sebanyak 20 aksara. Aksara pokok atau sering disebut legena memiliki arti
aksara wuda (telanjang) sebab belum diikuti dengan sandhangan. Selain
aksara pokok (legena), aksara vokal (swara), aksara rekaan (rekan),
pengubah bunyi (sandhangan), penutup konsonan (pasangan), penutup
suku kata (sigeg), angka (wilangan), dan tanda baca. Aksara sandhangan
adalah aksara yang dipakai untuk mengubah bunyi dari aksara yang
diikutinya. Secara khusus, aksara sandhangan tersebut dibagi ke dalam 4
jenis, yaitu 5 sandhangan swara, 3 sandhangan penyigeg wanda, 3
sandhangan wyanjana, dan sandhangan pangkon. Untuk sandhangan
swara terdiri dari 5 aksara, seperti pada Gambar 2.2.
5
Gambar 2.2 Aksara Sandhangan

Gambar 2.2 merupakan kumpulan dari sandhangan swara, yaitu
terdiri dari wulu, suku, taling, taling-tarung, dan pepet. Masing-masing
sandhangan mempunyai karakteristik tersendiri dalam mengubah bunyi
suatu aksara yangdiikutinya, yaitu wulu akan membuat suku kata menjadi
bunyi vokal /i/, sukuakan membuat suku kata menjadi bunyi vokal /u/, taling
akan membuat suku kata menjadi bunyi vokal /é/, taling-tarung akan
membuat suku kata menjadibunyi vokal /o/, dan pepet akan membuat suku
kata menjadi bunyi vokal /ê/.Sebagai contoh, untuk membentuk kata “siji”
berarti harus menambahkan wulu pada aksara sa dan ja untuk mengubah
bunyinya menjadi si dan ji. Selanjutnya, sandhangan panyigeg wanda
terdiri 3 aksara seperti Gambar 2.3.
Gambar 2.3 Aksara Penyigeg Wanda

Gambar 2.3 adalah sandhangan panyigeg wanda yang terdiri dari
layar, wignyan, dan cecak. Sigeg artinya pembuat konsonan atau penutup
suku kata sedangkan wanda artinya suku kata. Fungsi sandhangan layar
akan memberibunyi /r/, wignyan akan memberi bunyi /h/, dan cecak akan
membuat bunyi /ng/ pada suku kata yang diikutinya. Sebagai contoh, untuk
membentuk kata “gajah” maka dapat ditulis dengan aksara ga dan ja

kemudian diberi sandhangan wignyan yang akan memberi konsonan atau
akhiran h. Jenis sandhangan berikutnya adalah sandhangan wyanjana yang
terdiri dari 3 aksara seperti Gambar 2.4.
Gambar 2. 4 Sandhangan Wyanjana

Gambar 2.4 adalah contoh dari sandhangan wyanjana yang terdiri dari
cakra, keret, dan pengkal. Sandhangan wyanjana merupakan penanda dari gugus
konsonan, yakni cakra akan memberikan sisipan kata /ra/, keret akan memberikan
sisipan kata /re/ dan pengkal akan memberikan sisipan kata /ya/ pada masing-
masing aksara yang diikutinya. Sebagai contoh pada Gambar 2.4 untuk
membentuk kata “putra” maka dapat ditulis dengan aksara pa yangdiberi suku lalu
aksara ta tang diberi cakra. Jenis sandhangan terakhir adalah,sandhangan pangkon.
Gambar 2.5 Sandhangan Pangkon

Gambar 2.5 adalah sandhangan pangkon. Fungsi pangkon adalah sebagai
penutup suku kata atau membentuk konsonan pada suku kata yang berada di
depannya. Sebagai contoh, ketika ingin membentuk kata “tangan” maka dapatditulis
dengan aksara ta, nga, dan na yang diberi pangkon sehingga menjadi konsonan n.
Selain aksara pokok, dalam penulisan aksara Jawa juga terdapat aksarapasangan.
Jumlah dan bunyi aksara pasangan sama seperti aksara legena, yaitu berjumlah 20
dan terdiri dari ha sampai nga. Berikut ini adalah contoh dari aksara pasangan.
Gambar 2.6 Aksara Pasangan

Gambar 2.6 adalah contoh dari aksara pasangan. Hanya terdapat 3 aksara
saja yang ditulis sejajar dengan legena, yaitu pasangan ha, pasangan sa, dan
pasangan pa, selain itu penulisan pasangan ditulis di bawah legena. Fungsi dari
aksara pasangan adalah pembentuk konsonan atau penutup suku kata sehingga
suku kata yang diberi pasangan dapat digabungkan dengan aksara selanjutnya.
Aksara berikutnya adalah aksara wilangan, yakni aksara yang

mempresentasikan angka. Berikut adalah aksara wilangan yang dapat dilihat
melalui Gambar 2.7.
Gambar 2.7 Aksara Wilangan

Gambar 2.7 merupakan kumpulan aksara wilangan. Dengan

adanya aksara wilangan maka bentuk-bentuk angka yang ditulis dapat
dipenuhi.
2.2 Pengertian Citra
Citra adalah kombinasi antara titik, garis, bidang, dan warna untuk
menciptakan suatu objek-biasanya objek fisik atau manusia. Citra didefinisikan
sebagai suatu fungsi kontinu dalam dua dimensi dari intensitas cahaya (Gonzalez
& Woods, 2002). Setiap titik citra dapat dinyatakan dalam rumus matematis :
0 < 𝑓(𝑥, 𝑦) < ∞ …………………………………..(2.1)
Variabel f(x,y) adalah intensitas cahaya pada citra yang terletak dilokasi (x,y).
Citra digital dapat diartikan sebagai suatu matriks yang terdiri atas baris dan
kolom, di mana setiap elemennya merupakan nilai intensitas kecerahan. Titik dari
setiap matriks dinamakan dengan piksel. Citra digital merupakan kumpulan dari
piksel dengan jumlah piksel tertentu.
2.3 Pemrosesan Citra
Pemrosesan citra merupakan metode-metode yang digunakan untuk

mengolah citra digital agar citra tersebut memiliki kualitas yang lebih baik,
sehingga dapat ditafsirkan oleh manusia atau mesin. Konsep dasar yang ada dalam
setiap metode pemrosesan citra ini adalah memodifikasi setiap piksel atau titik pada
bidang citra sesuai dengan keperluan yang dibutuhkan (Widiarti & Himamunanto,
2012).
10
2.4 Preprocessing
Tahapan preprocessing berguna untuk menyiapkan data seperti mengubah

ukuran citra, membuang noise, atau memisahkan latar belakang citra dengan
objeknya, sebelum citra tersebut masuk ke tahap selanjutnya. Pada tahapan ini, akan
banyak mengimplementasikan metode-metode pemrosesan citra dalam mengolah
citra aksara.
2.4.1. Binerisasi
Binerisasi adalah tahapan dimana citra dimensi dua akan diubah menjadi
citra hitam putih dengan dimensi satu dengan cara mengubah nilai elemen dalam
matriks citra menjadi 0 dan 1 dimana nilai 0 sebagai warna hitam dan 1 sebagai
warna putih. Tujuan utama dari proses ini adalah secara otomatis menentukan nilai
ambang treshold yang akan membagi citra dalam dua kelompok yaitu, kelompok
obyek dan kelompok latar belakang (Widiarti & Himamunanto, 2012).
2.4.2. Thinning
Thining merupakan suatu operasi dalam preprocessing, yang berfungsi

untuk mereduksi suatu obyek menjadi kerangka dari objek tersebut (Widiarti &
Himamunanto, 2012). Tujuan utama penipisan adalah menyederhanakan suatu
objek agar menjadi lebih sederhana dan tidak memakan memori terlalu besar.
2.4.3. Filtering
Filtering atau reduksi derau atau noise reduction merupakan tahapan

penting dalam pemrosesan citra karena mampu menghilangkan piksel-piksel yang
tidak dibutuhkan untuk mengurangi kesalahan dalam proses pengenalan obyek
(Widiarti & Himamunanto, 2012).
11
Bentuk derau bisa berupa suatu piksel yang letaknya terasing dari piksel
yang lain. Biasanya berbentuk titik hitam kecil dalam suatu gambar citra. Jika kita
tidak melakukan reduksi derau maka proses identifikasi akan terganggu oleh derau
tersebut.
2.5 Segmentasi
Segmentasi merupakan proses pemecahan citra untuk memperoleh objek-

objek yang terkandung dalam citra tersebut. Segmentasi terbagi menjadi dua tahap.
Tahap pertama adalah pemisahan objek dengan objek lain yang berada ada baris
yang sama, lalu tahap kedua yaitu mendapatkan huruf tersebut secara individu
dengan mendapatkan kolom-kolom karakter citra aksara dari baris yang telah
dipotong pada tahap pertama.
2.5.1. Profil Proyeksi
Profil proyeksi merupakan bagian dari segmentasi citra yang berfungsi

memisahkan latar belakang dengan objek dengan memotong secara vertikal dan
horisontal. Proyeksi vertikal digunakan untuk mengambil kolom dari citra,
sedangkan proyeksi horisontal berfungsi untuk mengambil baris dari citra.
2.5.2. Resize
Resize citra merupakan bagian dari segmentasi citra yang berfungsi

mengubah resolusi atau citra mengubah ukuran piksel vertikal dan horisontal.
Adakalanya ukuran file berubah setelah resize menjadi lebih kecil atau menjadi
lebih besar sesuai dengan resolusinya.
12
2.6 Ekstraksi Ciri
Ekstraksi ciri merupakan suatu proses pengambilan ciri atau informasi yang
berada pada suatu obyek. Hal ini dilakukan untuk mempermudah dalam proses
pencarian informasi tentang obyek tersebut. Proses ektraksi ciri pada citra digital
dilakukan dengan menemukan karakteristik dari suatu citra yang biasanya
ditemukan dalam bentuk citra tersebut.
2.6.1. Intensity of Character
Intensity of Character merupakan salah satu metode yang digunakan dalam

proses ektraksi ciri. Intensity of character berbentuk matriks ukuran NxN, yang
mana setiap unit 1x1 nya berisikan n piksel hasil penjumlahan piksel yang bernilai
0 (hitam). Pada proses ini data citra akan dibagi menjadi beberapa segmen yang
lebih kecil. Proses ini bertujuan untuk mempermudah dalam pencirian data. Sebagai
contoh sederhana, berikut merupakan proses gambaran untuk mendapatkan ciri IoC
berukuran 3x3:
a. Terdapat Citra berukuran sebesar 9x9, maka untuk setiap unit IoC 1x1
nya akan mencakup matrix sebesar 3x3.
Tabel 2.1 Tabel Representasi Data Citra berukuran 9x9

1 1 0 0 1 1 0 1 0
1 0 1 1 0 0 1 1 1
1 1 1 1 1 1 1 0 0
1 0 1 1 0 1 0 1 1
0 0 0 0 1 1 0 0 0
1 1 1 0 1 1 0 1 1
1 1 1 0 1 0 1 1 1
13
0 0 1 1 0 1 1 0 1
0 1 1 0 1 1 1 1 1
b. Untuk setiap unit 1x1, akan menyimpan nilai yang merupakan banyaknya
anggota piksel berwarna hitam untuk setiap area 3x3nya. Berikut adalah
bentuk IoC 3x3 tersebut ketika telah dilakukannya penjumlahan untuk
setiap unit nya.
Tabel 2.2 Hasil IoC 3x3

2 3 4
4 3 5
3 4 1
2.7 K-means Clustering
K-means clustering adalah metode untuk mengelompokan objek ke dalam

K kelompok dengan K adalah jumlah kelompok yang diinginkan. Dalam
penghitungan K-means dimulai dengan kelompok pertama centroid. Centroid
adalah titik pusat data, dimana centroid ini dapat ditentukan secara random sesuai
dengan kebutuhan atau bergantung dari data yang digunakan.
Pada K-means terdapat beberapa langkah yang harus dilakukan

yaitu:
1. Tentukan jumlah cluster
2. Alokasikan data ke dalam cluster
3. Hitung centroid/rata-rata dari data yang ada di masing-

masing cluster
14
4. Hitung perhiyungan jarak lalu alokasikan masing-masing data

ke centroid
5. Kembali ke Step 3, apabila masih ada data yang berpindah

cluster atau apabila perubahan nilai centroid.
Secara rinci tahap-tahap diatas dapat dijabarkan pada contoh berikut

ini.
Misal ada 4 data di Tabel 2.3 yang ingin dipisahkan menjadi 2 buah
cluster dari data.
Tabel 2.3 Data Clustering
N Ciri 1 Ciri 2 Ciri 3 Ciri 4
1 1 1 2 1
2 2 1 2 2
3 4 3 3 2
4 5 4 1 5
1. Dipilih jumlah cluster sebanyak 2.
2. Alokasikan data kedalam cluster.
N Ciri 1 Ciri 2 Ciri 3 Ciri 4 Cluster
1 1 1 2 1 1
2 2 1 2 2 1
3 4 3 3 2 2
4 5 4 1 5 2
15
3. Pencarian centroid secara random.
Tabel 2.4 Centroid Random

C1 1 1 2 1
C2 2 1 2 2
Disini kita menggunakan data 1 dan 2 sebagai centroid awal pada 2

cluster.
4. Melakukan perhitungan jarak dengan centroid
Perhitungan jarak dilakukan dengan menggunakan rumus jarak

Euclidean yaitu dengan rumus :
𝑑(𝑥, 𝑦) = √∑𝑛𝑖= 1(𝑥𝑖 − 𝑦𝑖 )2 ………….( 2.2)
Dimana,
𝑑 = jarak antara x dan y
𝑥 = data pusat klaster
𝑦 = data pada atribut
Iterasi 1
d(x1,c1) = √(1 − 1)2 + (1 − 1)2 + (2 − 2)2 + (1 − 1)2 = 0
d(x2,c1) = √(2 − 1)2 + (1 − 1)2 + (2 − 2)2 + (2 − 1)2 = 1,414214
d(x3,c1) = √(4 − 1)2 + (3 − 1)2 + (3 − 2)2 + (2 − 1)2 = 3,872983
d(x4,c1) = √(5 − 1)2 + (4 − 1)2 + (1 − 2)2 + (5 − 1)2 = 6,480741
d(x1,c2) = √(1 − 2)2 + (1 − 1)2 + (2 − 2)2 + (1 − 2)2 = 1,414214
d(x2,c2) = √(2 − 2)2 + (1 − 1)2 + (2 − 2)2 + (2 − 2)2 = 0

16
d(x3,c2) = √(4 − 2)2 + (3 − 1)2 + (3 − 2)2 + (3 − 2)2 = 3
d(x4,c2) = √(5 − 2)2 + (4 − 1)2 + (1 − 2)2 + (5 − 2)2 = 5,291503
maka didapatkan hasil tabel berikut :
Tabel 2.5 Hasil Iterasi 1

Data Hasil Euclidean C1 Hasil Euclidean C2 C1 C2
1 0 1,414214 v
2 1,414214 0 v
3 3,872983 3 v
4 6,480741 5,291503 v
Dari tabel diatas kita mencari minimum dari jarak data ke

setiap centroid cluster dan dimasukan sementara pada cluster yang
ada. Dimana data 1 masuk ke C1 dan data 2 sampai 4 masuk ke C2.
5. Pencarian centroid baru
Pencarian nilai centroid baru didasarkan pada rumus berikut :
∑𝑛
𝑖=1 𝑥𝑖 ∈ 𝑠𝑖
𝐶𝑖 = …………………..( 2.3)
𝑛
Dimana,
𝐶𝑖 = Centroid baru ke i
𝑠𝑖 = obyek ke i
𝑥𝑖 = nilai pada obyek ke i
𝑛 = jumlah data pada tiap kelompok atau cluster

17
Maka, hasil centroid baru pada iterasi 1 adalah sebagai

berikut :
Tabel 2.6 Hasil Centroid Iterasi 1

C1 1 1 2 1
C2 3,666666667 2,666666667 2 3
Selanjutnya adalah menghitung nilai jarak dan centroid baru

sampai dengan data dalam cluster tidak ada yang berpindah lagi.
Dianggap centroid telah stabil jika tidak ada perubahan dalam nilai-
nilai mereka karena pengelompokan telah berhasil.
Iterasi 2 :

1 0 3,72678 v
2 1,414214 2,560382 v
3 3,872983 1,490712 v
4 6,480741 2,924988 v

C1 1,5 1 2 1,5
C2 4,5 3,5 2 3,5

18
Iterasi 3 :

1 0,707107 4,974937 v
2 0,707107 3,840573 v
3 3,391165 1,936492 v
4 5,87367 1,936492 v

C1 1,5 1 2 1,5
C2 4,5 3,5 2 3,5
Hasil pada Tabel 2.10 tidak ditemukan data yang berpindah

sehingga iterasi selesai. Hasil yang didapatkan cluster 1 adalah data
1 dan 2 sementara itu cluster 2 adalah data 3 dan 4.
2.8 Metode Elbow
Metode Elbow adalah salah satu metode yang digunakan untuk menentukan
jumlah cluster terbaik melalui perbandingan hasil persentase antara jumlah cluster
yang akan membentuk siku pada suatu titik. Jika perbandingan nilai cluster pertama
dengan nilai cluster kedua menghasilkan sudut dalam grafik atau nilainya
mengalami penurunan paling besar maka jumlah nilai cluster tersebut yang tepat.
Untuk mendapatkan perbandingannya adalah dengan menghitung Sum of

Square Error (SSE) dari masing-masing nilai cluster. Karena semakin besar jumlah
19
nilai cluster K, maka nilai SSE akan semakin kecil (Dewi & Pramita, 2019).
Berikut rumus persamaan SSE :
𝑆𝑆𝐸 = ∑𝐾 2
𝐾=1 ∑ |𝑥𝑖 − 𝑐𝑘 | ……………..….……..(2.4)
Keterangan:
K = cluster ke-c
𝑥𝑖 = jarak data obyek ke-i
𝑐𝑘 = pusat cluster ke-i
Contoh hitung Elbow :
Data
1 2 3 4 5 6 7 8 9 10
98 97,8 97 98,2 99,4 97,6 99,2 98,4 98,7 97,9
a. Hitung rata2 semua data
98 + 97,8 + 97 + 98,2 + 99,4 + 97,6 + 99,2 + 98,4 + 98,7 + 97,9

= 98,22
10
b. Menghitung deviasi semua data dengan rumus 2.4
Setelah didapatkan rata-rata semua data maka langkah

selanjutnya adalah menghitung deviasi dimana nilai pada data akan
dikurang dengan rata rata.
20
Penghitungan Deviasi Deviasi^2
98 – 98,22 -0,22 0,0484
97,8 – 98,22 -0,42 0,1764
97 – 98,22 -1,22 1,4884
98,2 – 98,22 -0,02 0,0004
99,4 – 98,22 1,18 1,3924
97,6 – 98,22 -0,62 0,3844
99,2 – 98,22 0,98 0,9604
98,4 – 98,22 0,18 0,0324
98,7 – 98,22 0,48 0,2304
97,9 – 98,22 0,32 0,1024
c. Menghitung SSE
SSE didapatkan dengan menjumlah seluruh hasil deviasi^2.
0,0484 + 0,1764 + 1,4884 + 0,0004 + 1,3924 + 0,3844

+ 0,9604 + 0,0324 + 0,2304 + 0,1024
= 4,816
Untuk perhitungan dataset ini didapatkan nilai SSE sebesar 4,816. Hasil
ini biasanya akan dibandingkan dengan SSE dari dataset lain dan kemudian
akan dipilih yang paling minimum karena jika semakin kecil errornya maka
data akan dianggap baik.
21
2.9 Metode Silhouette
Metode Silhouette Coefficient merupakan gabungan dari metode cohesion

dan separation. Metode ini sering digunakan untuk melihat kualitas dan kekuatan
cluster yaitu seberapa baik suatu objek ditempatkan dalam suatu cluster. Selain itu
dapat juga digunakan untuk mengukur seberapa dekat relasi antara objek dalam
sebuah cluster. Metode separation yang berfungsi untuk mengukur seberapa jauh
sebuah cluster terpisah dengan cluster lain.
Tahapan perhitungan Silhouette Coefficient adalah sebagai berikut:
A. Hitung rata-rata jarak dari suatu objek misalkan i dengan semua

objek lain yang masih berada dalam satu cluster
1
𝑎(𝑖) = |𝐴|−1 ∑ 𝑗 ∈𝑎,𝑗=1 𝑑(𝑖, 𝑗)……..………….( 2.5)
dengan j adalah objek lain yang berada dalam satu cluster A

dan d(i,j) adalah jarak antara objek i dengan j.
B. Hitung rata-rata jarak dari objek i tersebut dengan semua objek

yang berada di cluster lain, dan diambil nilai paling minimumnya.
1
𝑑(𝑖, 𝐶) = |𝐴| ∑ 𝑗 ∈ 𝐶 𝑑(𝑖, 𝑗)………………..(2.6)
d(i,C) adalah jarak rata-rata objek i dengan semua objek pada

cluster lain C dimana A ≠ C.
𝑑(𝑖, 𝐶) = 𝑚𝑖𝑛 𝐶 ≠ 𝐴𝑑(𝑖, 𝑗)………..……….(2.7)
C. Nilai Silhouette Coefficient nya adalah :
𝑏(𝑖)−𝑎(𝑖)
𝑠(𝑖) = 𝑚𝑎𝑥 (𝑎(𝑖),𝑏(𝑖))…………………( (2.8)
22
Nilai yang didapat dari metode silhouette coefficient terletak pada

kisaran nilai -1 hingga 1. Jika nilai silhouette coefficient mendekati
nilai 1, maka semakin baik pengelompokan objeknya dalam satu
cluster. Sebaliknya jika silhouette coefficient mendekati nilai -1,
maka semakin buruk pengelompokan objeknya didalam satu cluster.
Contoh hitung Silhouette :
Tabel 2.11 Contoh Data Silhouette

Data Ciri 1 Ciri 2 Ciri 3 Ciri 4 Cluster
1 2 1 2 1 1
2 2 1 2 2 1
3 3 2 3 2 2
4 4 3 2 1 2
Menghitung nilai 𝑎𝑖 masing-masing data menggunakan rumus 2.5
a. Data 1 cluster 1:
d(data 1, data 2) =
√(2 − 2)2 + (1 − 1)2 + (2 − 2)2 + (1 − 2)2 = 1
nilai 𝑎𝑖 = 1/(2-1) = 1
b. Data 2 cluster 1:
d(data 2, data 1) =
√(2 − 2)2 + (1 − 1)2 + (2 − 2)2 + (2 − 1)2 = 1
nilai 𝑎𝑖 = 1/(2-1) = 1
23
c. Data 3 cluster 2:
d(data 3, data 4) =
√(3 − 4)2 + (2 − 3)2 + (3 − 2)2 + (2 − 1)2 = 2
nilai 𝑎𝑖 = 2/(2-1) = 2
d. Data 4 cluster 2:
d(data 4, data 3) =
√(4 − 3)2 + (3 − 2)2 + (2 − 3)2 + (1 − 2)2 =
2,645751
nilai 𝑎𝑖 = 2,645751/(2-1) = 2,645751
Menghitung nilai 𝑏𝑖 masing-masing data dengan menggunakan

rumus 2.7
a. Data 1 cluster 1:
d(data 1, data 3) =
√(2 − 3)2 + (1 − 2)2 + (2 − 3)2 + (1 − 2)2 = 2
d(data 1, data 4) =
√(2 − 4)2 + (1 − 3)2 + (2 − 2)2 + (1 − 1)2 =
2,828427
nilai 𝑏𝑖 = (2,828427 – 2)/2 = 1,828427
b. Data 2 cluster 1:
d(data 2, data 3) =
√(2 − 3)2 + (1 − 2)2 + (2 − 3)2 + (2 − 2)2 =
1,732051
d(data 2, data 4) =
√(2 − 4)2 + (1 − 3)2 + (2 − 2)2 + (2 − 1)2 = 3
24
nilai 𝑏𝑖 = (3 – 1,732051)/2 = 2,133975
c. Data 3 cluster 2:
d(data 3, data 1) =
√(3 − 2)2 + (2 − 1)2 + (3 − 2)2 + (2 − 1)2 = 2
d(data 3, data 2) =
√(3 − 2)2 + (2 − 1)2 + (3 − 2)2 + (2 − 2)2 =
1,732051
nilai 𝑏𝑖 = (1,732051-2)/2 = 0,866026
d. Data 4 cluster 2:
d(data 4, data 1) =
√(4 − 2)2 + (3 − 1)2 + (2 − 2)2 + (1 − 1)2 =
2,828427
d(data 4, data 2) =
√(4 − 2)2 + (3 − 1)2 + (2 − 2)2 + (1 − 2)2 =
nilai 𝑏𝑖 = (3 – 2,828427)/2 = 1,585786
Menghitung nilai Si(Silhouette data) menggunakan rumus 2.8
a. Si data 1 = (1,828427-1)/1,828427 = 0,453082
b. Si data 2 = (2,133975-1)/ 2,133975 = 0,531391
c. Si data 3 = (0,866026-2)/ 0,866026 = -1,3094
d. Si data 4 = (1,585786-2,645751)/ 1,585786= -0,66842

25
Menghitung nilai SI tiap Cluster
a. Si cluster 1 = (0,453082+0,531391) = 0,984473
b. Si cluster 2 = (-1,3094 + (-0,66842) = -1,97782
Menghitung nilai SI global
Si global = (0,984473 + (-1,97782)) = -0,99334
Dari 4 data didapatkan nilai SI global (SI Keseluruahan data) yaitu -

0,99334. Hal ini menunjukan bahwa hasil pengelompokan akan memiliki struktur
yang buruk.
Untuk menentukan kualitas dari cluster yang telah dibentuk, maka semua
nilai silhouette dari semua data yang ada dalam cluster akan dijumlahkan lalu
dirata-rata. Berikut adalah kriteria penilaian suatu cluster menurut Kaufmann &
Roesseeuw(1990).
Tabel 2.12 Rentang nilai Silhouette Coefficient

Nilai Silhouette Coefficient Kualitas
0,71 – 1,00 Struktur yang kuat telah terbentuk
0,51 – 0,70 Struktur yang layak telah terbentuk
0,26 – 0,50 Struktur lemah
≤ 0,25 Struktur buruk
2.10 Nilai Ground Truth
Nilai ground truth merupakan salah satu cara validasi. Nilai ground
truth digunakan sebagai tolak ukur lain untuk mengukur akurasi dari suatu
proses yang dilakukan oleh mesin. Pada kasus clustering yang dengan nilai
ground truth adalah mengecek nilai kebenaran dari cluster yang telah
terbentuk dari proses clustering.
26
Cara untuk menghitung nilai ground truth pada kasus clustering

aksara berpatokan pada rumus berikut ini:
𝑗𝑢𝑚𝑙𝑎ℎ 𝑎𝑘𝑠𝑎𝑟𝑎 𝑏𝑒𝑛𝑎𝑟

𝐺𝑟𝑜𝑢𝑛𝑑 𝑇𝑟𝑢𝑡ℎ = ………..……….(2.9)
𝑗𝑢𝑚𝑙𝑎ℎ 𝑎𝑘𝑠𝑎𝑟𝑎
Rumus 2.9 bertujuan untuk menghitung nilai kebenaran dari proses

clustering dengan cara menghitung jumlah aksara yang benar sesuai dengan
kelompoknya lalu dibagi dengan jumlah keseluruhan data aksara.
BAB III METODE PENELITIAN
3.1 Deskripsi Data
Set data mentah dalam penelitian ini diperoleh dari scan halaman dari buku
Hamong Tani (Holle, 1876). Data yang dipakai adalah aksara Jawa yang terdapat
pada halaman buku Hamong Tani. Banyak halaman yang digunakan adalah
sebanyak 2 halaman yaitu halaman 2 dan 59 hal ini berdasarkan dari pertimbangan
waktu yang diperlukan untuk mengolah data, banyak total data, dan pengerjaan
penelitian. Data yang nanti akan diolah akan dipotong sendiri-sendiri sehingga
aksara pokok akan terpisah dengan pasangan, angka, dan juga tanda baca.
Gambar 3.1 Halaman 2 buku Hamong Tani (Holle, 1876)
27
28
Gambar 3.2 Halaman 59 buku Hamong Tani (Holle, 1876)
Pada Gambar 3.2 terdapat gambar bagian sisi kiri yang akan menyulitkan
proses segmentasi sehingga yang dilakukan adalah memotong gambar tersebut
sehingga hanya menyisahkan aksaranya saja.
Namun, set data yang diperoleh tersebut tidak dapat langsung diproses. Hal
ini dikarenakan harus dilakukan proses cropping terlebih dahulu dan juga masih
adanya noise yang terdapat pada tiap aksara sehingga harus dibersihkan.
29
Gambar 3.3 Contoh Citra Hasil Crop

Gambar 3.3 merupakan contoh data citra setelah cropping manual yang
masih mengandung banyak noise berupa bintik hitam yang terdapat ditengah-
tengah. Noise tersebut seharusnya tidak ada maka perlu dihilangkan untuk
memperoleh data yang bersih untuk mempermudah proses selanjutnya.
Tabel 3.1 Hasil Segmentasi Aksara pertama halaman 2
Pada Tabel 3.1 menunjukan hasil pemotongan yang memisahkan data

aksara pokok akan dengan pasangan, angka, dan juga tanda baca.
3.2 Pengolahan Data
Sebelum data akan dikelompokan dan diambil cirinya maka perlu adanya
pengolahan data. Pengolahan data dimulai dengan memasukan data citra hasil scan
halaman buku Hamong Tani ke matlab. Lalu data akan dibersihkan melalui proses
preprocessing dimana data citra yang hasil scan akan melalui berbagai tahap
preprocessing. Adapun tahap preprocessing tersebut adalah binerisasi, invers,
filtering, invers kembali. Hasil preprocessing adalah data citra yang sudah bersih
dan siap untuk disegmentasi. Dalam proses segmentasi citra akan dipotong per
karakter dengan profil projeksi ditambah dengan bwlabel dan kemudian di resize
ukurannya menjadi 33x33, 88x88, dan 60x60 lalu di thinning. Setelah itu data akan
di ekstraksi cirinya dengan ukuran IoC 3x3, 4x4, dan 5x5. Setelah diperoleh ciri
dari tiap data maka akan masuk ke proses clustering.
30
3.3 Contoh Perhitungan 10 Data Dummy
Diambil 10 data dari total 597. Dari 10 data tersebut 3 data adalah pepet, 5
data adalah sa, dan 2 data adalah ma.
Gambar 3.4 Data Dummy Berjumlah 10
Dari 10 data tersebut diambil cirinya
Tabel 3.2 Ciri IoC 3x3 10 Data Dummy
Aksara Ciri 1 Ciri 2 Ciri 3 Ciri 4 Ciri 5 Ciri 6 Ciri 7 Ciri 8 Ciri 9
Pepet 1 8 15 21 16 0 13 14 18 24
Pepet 2 7 15 22 23 0 18 7 11 25
Pepet 3 6 16 22 20 0 13 8 25 20
Ta 1 16 22 17 20 11 11 27 24 19
Ta 2 22 22 16 23 13 16 27 23 14
Ta 3 22 22 17 22 11 16 29 24 14
Ta 4 14 22 19 22 11 15 24 25 15
Ta 5 16 22 17 22 13 15 27 22 14
Ma 1 12 14 14 13 16 12 24 26 16
Ma 2 15 15 14 13 10 11 21 25 21
31
1. Proses K-Means
a. Dipilih 3 awal centroid yaitu pepet 1, ta 2, dan ma 1.
Tabel 3.3 Centroid Awal
Centroid Ciri 1 Ciri 2 Ciri 3 Ciri 4 Ciri 5 Ciri 6 Ciri 7 Ciri 8 Ciri 9
Pepet 1 8 15 21 16 0 13 14 18 24
Ta 2 22 22 16 23 13 16 27 23 14
Ma 1 12 14 14 13 16 12 24 26 16
b. Hasil Iterasi 1, Penghitungan jarak menggunakan rumus euclidean.

Data pepet masuk ke cluster 1, data ta masuk ke cluster 2, dan data
ma masuk ke cluster 3.
X1 X2 X3 C1 C2 C3
0 28.12472222 23.66431913 v
13.22875656 33.88214869 32.81767816 v
11.09053651 30.2654919 26.13426869 v
22.36067977 10.04987562 13.6381817 v
28.12472222 0 17.74823935 v
28.0713377 3.31662479 18.11077028 v
21.9089023 9.643650761 14.49137675 v
24.95996795 6.32455532 14.73091986 v
23.66431913 17.74823935 0 v
17.8325545 18.02775638 9.055385138 v
32
c. Lalu menghitung centroid baru yang akan digunakan di Iterasi 2
Tabel 3.5 Centroid Baru
Centroid Ciri 1 Ciri 2 Ciri 3 Ciri 4 Ciri 5 Ciri 6 Ciri 7 Ciri 8 Ciri 9
Baru
c1 7 15.34 21.67 19.67 0 14.67 9.67 18 23
c2 18 22 17.2 21.8 11.8 14.6 26.8 23.6 15.2
c3 13.5 14.5 14 13 13 11.5 22.5 25.5 18.5
d. Menghitung jarak lagi dengan centroid baru. Hasil iterasi 2 sama

dengan hasil iterasi 1 dimana tidak ada perpidahan data sehingga
dianggap selesai dan terbentuk 3 cluster.
X1 X2 X3 C1 C2 C3
6.12825877 24.72893043 20.45727255 v
9.08600878 31.49793644 30.17449254 v
8.076027626 26.95403495 23.5690475 v
25.18376902 5.95986577 12.1449578 v
29.8310055 4.911211663 17.3060683 v
30.16988933 5.011985634 17.53567792 v
23.35713072 5.469917732 13.91042774 v
25.40778533 3.117691454 14.7478812 v
26.6749987 15.04393566 4.527692569 v
21.499354 15.20263135 4.527692569 v
Dari hasil diatas dapat disimpulkan bahwa data 1, 2, dan 3 akan masuk ke cluster
1, lalu data 4, 5, 6, 7, dan 8 akan masuk ke cluster 2, serta data 9 dan 10 akan masuk
ke cluster 3 sehingga terbentuk 3 cluster.
33
2. Proses Silhouette
a. Setelah didapatkan pengelompokan menjadi 3 kelompok akan dihitung SI

tiap datanya.
Tabel 3.7 Data Silhouette Hasil K-Means Clustering
8 15 21 16 0 13 14 18 24 Cluster 1
7 15 22 23 0 18 7 11 25 Cluster 1
6 16 22 20 0 13 8 25 20 Cluster 1
16 22 17 20 11 11 27 24 19 Cluster 2
22 22 16 23 13 16 27 23 14 Cluster 2
22 22 17 22 11 16 29 24 14 Cluster 2
14 22 19 22 11 15 24 25 15 Cluster 2
16 22 17 22 13 15 27 22 14 Cluster 2
12 14 14 13 16 12 24 26 16 Cluster 3
15 15 14 13 10 11 21 25 21 Cluster 3
b. Menghitung jarak tiap data ke data yang lain dengan rumus euclidean.
Tabel 3.8 Penghitungan Jarak Antar Data
Data 1 Data 2 Data 3 Data 4 Data 5 Data 6 Data 7 Data 8 Data 9 Data 10
Data 1 0.00 13.23 11.09 22.36 28.12 28.07 21.91 24.96 23.66 17.83
Data 2 13.23 0.00 16.06 30.64 33.88 34.63 28.69 31.24 32.82 28.02
Data 3 11.09 16.06 0.00 25.48 30.27 30.48 22.78 27.28 26.13 21.66
Data 4 22.36 30.64 25.48 0.00 10.05 9.70 7.35 7.28 13.64 12.25
Data 5 28.12 33.88 30.27 10.05 0.00 3.32 9.64 6.32 17.75 18.03
Data 6 28.07 34.63 30.48 9.70 3.32 0.00 9.80 7.00 18.11 18.11
Data 7 21.91 28.69 22.78 7.35 9.64 9.80 0.00 5.57 14.49 14.76
Data 8 24.96 31.24 27.28 7.28 6.32 7.00 5.57 0.00 14.73 16.09
Data 9 23.66 32.82 26.13 13.64 17.75 18.11 14.49 14.73 0.00 9.06
Data 10 17.83 28.02 21.66 12.25 18.03 18.11 14.76 16.09 9.06 0.00
34
c. Menghitung ai tiap data dengan menghitung rata-rata nilai dikelompoknya

saja dan juga menghitung bi dimana akan menghitung rata-rata nilai dari
kelompok lainnya. Untuk bi akan dipilih yang paling kecil dari hasil yang
didapatkan.
Tabel 3.9 Penghitungan ai dan bi Data 1-5
ai 1 12.16 ai 2 9.76 ai 3 9.05 26.16 30.76

25.09 31.82 27.26 ai 4 6.87 ai 5 5.87
bi 1 20.75 bi 2 30.42 bi 3 23.90 bi 4 12.94 bi 5 17.89
Tabel 3.10 Penghitungan ai dan bi Data 6-10
31.06 24.46 27.83 27.54 22.50

ai 6 5.96 ai 7 6.47 ai 8 5.23 bi 9 15.74 bi 10 15.85
bi 6 18.11 bi 7 14.63 bi 8 15.41 ai 9 4.53 ai 10 4.53
d. Menghitung SI tiap data dengan cara 1 dikurang dengan ai dibagi bi
Tabel 3.11 Hasil SI Tiap Data
S(i) 1 0.4139487886
S(i) 2 0.6790128494
S(i) 3 0.621224377
S(i) 4 0.4688355832
S(i) 5 0.6720180009
S(i) 6 0.670804245
S(i) 7 0.5575933506
S(i) 8 0.6603673416
S(i) 9 0.7124160301
S(i) 10 0.7143205267
35
e. Menghitung akurasi silhouette dari hasil k-means 3 cluster ini dengan cara
menghitung rata-rata SI dari semua data.
Tabel 3.12 Hasil Akurasi Silhouette
Akurasi Silhouette
0.6170541093
Didapatkan hasil SI K = 3 ini sebesar 0,62 dimana dalam arti silhouette berarti
sudah membentuk struktur pengelompokan yang layak. Hasil ini akan dibuat
sebagai perbandingan dengan nilai SI cluster lainnya.
3. Proses Elbow
a. Dari hasil penghitungan jarak k-means pada iterasi ke 2 diambil nilai yang
menunjukan posisi cluster (paling kecil).
Tabel 3.13 Data Jarak K-Means Iterasi 2
6.12825877
9.08600878
8.076027626
5.95986577
4.911211663
5.011985634
5.469917732
3.117691454
4.527692569
4.527692569
36
b. Kemudian menjumlah seluruh jarak pada data yang terbagi menjadi 3

cluster.
Tabel 3.14 Penjumlahan Jarak 3 Cluster
Cluster 1 23.29029518
Cluster 2 24.47067225
Cluster 3 9.055385138
c. Lalu dicari distortionnya dengan menjumlah dari seluruh nilai jarak cluster.
Tabel 3.15 Hasil Distortion Elbow
Distortion 56.81635257
Didapatkan distortion untuk K=3 sebesar 56.81635257. Data distortion inilah yang
akan diolah untuk mencari nilai K terbaik dengan membandingkan nilai distortion
dari K lainnya.
3.4 Perancangan Sistem
Sistem ini akan lakukan pengelompokan citra aksara Jawa menggunakan

metode K-Means. Pengelompokan citra akan dilakukan berdasarkan kesamaan ciri
atau bentuk. Proses pertama adalah sistem akan membaca ciri citra aksara jawa
yang akan diproses dari input user. Setelah itu sistem akan melakukan clustering
dengan k-means lalu hasil clusteringnya akan dievaluasi dengan menggunakan 2
metode yaitu metode elbow dan juga metode silhouette. Hasil evaluasi tersebut akan
menjadi saran nilai K yang dinilai ideal antara 2 metode tersebut. Hasil clustering
kedua metode juga akan ditampilkan.
37
Gambar 3.5 Diagram Perancangan Sistem
Terdapat banyak tahapan yang dilakukan pada penelitian ini. Yang pertama
kali dilakukan adalah pengumpulan data yang berupa buku hamong tani halaman 2
dan 59. Kemudian data itu akan dilakukan preprocessing guna mendapatkan data
yang bersih dan bagus. Setelah itu akan disegmentasi untuk mendapatkan tiap tiap
aksaranya. Lalu akan diambil ciri untuk tiap aksaranya dengan menggunakan
Intensity of Character. Data ciri kemudian akan dikelompokan menggunakan k-
means clustering yang mana akan menghasilkan jumlah cluster, idx, dan sumd.
Kemudian idx akan digunakan untuk evaluasi silhouette dan sumd akan digunakan
untuk evaluasi elbow. Hasil kedua metode tersebut akan dibandingkan untuk
mencari K terbaiknya.
38
Gambar 3.6 Flowchart Penelitian

Flowchart pada Gambar 3.6 akan dijelaskan tiap tahapnya secara lengkap
dengan langkah-langkah sebagai berikut :
a. Preprocessing
Berdasarkan Flowchart pada Gambar 3.6, data yang berupa scan halaman
dari buku Hamong Tani akan diproses dengan berbagai metode preprocessing
seperti binerisasi, invers, filtering, dan invers kembali. Lalu data hasil
preprocessing tersebut akan siap diolah di tahap segmentasi.
39
Gambar 3.7 Diagram Preprocessing

i. Input
Input yang akan diolah pada tahap ini adalah data aksara Jawa dari
halaman buku Hamong Tani.
ii. Output
Output dari tahap ini adalah data hasil preprocessing yang

merupakan data bersih dan siap dipakai untuk tahap selanjutnya.
iii. Algoritma
Pada tahap preprocessing, citra aksara jawa akan melalui berbagai

tahapan pemprosesan citra. Tahapan tersebut adalah :
1. Binerisasi Citra
Pada tahap ini mengubah citra tadi menjadi hanya memiliki

warna yang bernilai 0 (hitam) dan 1 (putih) saja. Pada tahapan
ini menggunakan function im2bw() yang merupakan function
dari MATLAB. Algoritma Binerisasinya yaitu :
40
1. Baca data citra yang akan diolah menggunakan function

imread dan akan disimpan pada sebuah variabel bernama
aksara.
2. Data yang tersimpan dalam variabel aksara akan diubah

menjadi citra hitam-putih dengan function im2bw. Lalu
hasil binerisasi akan disimpan pada variabel hasilbw.
2. Invers Citra
Pada tahap ini citra hasil binerisasi akan ditukar nilai

warnanya dimana nilai 0 (hitam) akan menjadi 1 (putih) dan nilai
1 (putih) akan menjadi 0 (hitam). Pada tahapan ini digunakan
function imcomplement() yang merupakan function dari
MATLAB.

aksara.

3. Data citra yang tersimpan dalam variabel hasilbw akan

dilakukan proses invers dengan function imcomplement.
Lalu hasil binerisasi akan disimpan pada variabel
hasilinvers.
3. Filtering Citra
Pada tahap ini citra hasil invers akan difilter untuk

menghilangkan noise seperti noda bintik hitam yang terdapat
pada citra. Dalam kasus ini yang dihilangkan adalah bintik putih
41
karena citra telah melalui tahap invers sehingga nilai warnanya

tertukar. Pada tahapan ini digunakan function bwareaopen()
yang merupakan function dari MATLAB.

aksara.

3. Data citra biner yang tersimpan dalam variabel hasilbw

akan dilakukan proses invers dengan function
imcomplement. Lalu hasil binerisasi akan disimpan pada
variabel hasilinvers.
4. Data citra hasil invers yang tersimpan dalam variabel

hasilinvers akan dilakukan proses filtering dengan
function bwareaopen. Lalu hasil filtering akan disimpan
pada variabel hasilfilter.
4. Invers Citra Kembali
Pada tahap ini citra hasil fitering akan ditukar kembali nilai
warnanya dimana nilai 1 (putih) akan menjadi 0 (hitam) dan nilai
0 (hitam) akan menjadi 1 (putih). Pada tahapan ini digunakan
function imcomplement() yang merupakan function dari
MATLAB.

aksara.
42

3. Data citra biner yang tersimpan dalam variabel hasilbw

akan dilakukan proses invers dengan function
imcomplement. Lalu hasil binerisasi akan disimpan pada
variabel hasilinvers.
4. Data citra hasil invers yang tersimpan dalam variabel

hasilinvers akan dilakukan proses filtering dengan
function bwareaopen. Lalu hasil filtering akan disimpan
pada variabel hasilfilter.
5. Data citra hasil filtering yang tersimpan dalam variabel

hasilfilter akan dilakukan proses invers kembali dengan
function imcomplement. Lalu hasil invers kembali akan
disimpan pada variabel hasilinverslagi.
b. Segmentasi
Berdasarkan Flowchart pada Gambar 3.6, data yang telah melalui proses
preprocessing akan diambil tiap aksaranya dengan mengunakan profil projeksi.
Setelah didapat semua aksaranya kemudian akan di resize lalu ditipiskan. Data tiap
aksara yang sudah tipis ini akan diambil cirinya pada tahap selanjutnya.
43
Gambar 3.8 Diagram Segmentasi
i. Input
Input yang akan diolah pada tahap ini adalah data citra aksara jawa
yang merupakan hasil dari tahap preprocessing.
ii. Output
Output dari tahap ini adalah data hasil segmentasi yang merupakan
potongan aksara yang memiliki ukuran yang sama.
iii. Algoritma
Pada tahap segmentasi, citra aksara jawa akan melalui berbagai

tahapan pemprosesan citra. Tahapan tersebut adalah :
1. Profil Projeksi
Pada tahap ini citra yang telah selesai dipreprocessing akan

dipotong untuk mendapatkan bentuk karakter aksara secara utuh
per karakter. Pada tahapan ini digunakan function VerProj dan
bwlabel. Function bwlabel ini akan mengambil karakter yang
44
dilihat dari isi label yang terhubung dengan 8 titik hitam yang
ditemukan dibaris tersebut.
1. Baca data citra hasil preprocessing menggunakan

function imread dan akan disimpan pada sebuah variabel
bernama data.
2. Data citra tersimpan dalam variabel aksara akan

dilakukan pengambilan baris dengan function VerProj(). Lalu
hasilnya akan dimasukan ke excel untuk dibuat grafik.
3. Lalu dilakukan pengambilan karakter untuk tiap baris

menggunakan function bwlabel(). Hasilnya akan disimpan
kedalam folder menggunakan function imwrite().
2. Resize Citra
Pada tahap ini hasil semua segmentasi akan diubah

ukurannya. Tahap ini dilakukan agar seluruh data memiliki
ukuran yang sama sehingga mempermudah proses ekstraksi ciri.
Pada tahapan ini digunakan function imresize() yang merupakan
function dari MATLAB.
3. Penipisan Citra
Pada tahap ini citra yang telah diinvers kembali akan

ditipiskan. Hal ini bertujuan untuk mengambil bagian kerangka
saja dari tiap aksara dengan cara membuang bagian pixel yang
merupakan bagian tepi (edge) (Widiarti, 2011). Pada tahapan ini
digunakan function Rosenfeld().
45
1. Baca data citra hasil resize menggunakan function

imread dan akan disimpan pada sebuah variable bernama
aksara.
2. Data citra tersimpan dalam variabel aksara akan

dilakukan proses penipisan dengan function rosenfeld.
Lalu hasil penipisan akan disimpan pada variabel
hasiltipis.
c. Ekstraksi Ciri
Berdasarkan Flowchart pada Gambar 3.6, ditahapan ekstraksi ciri seluruh

data yang sudah ditipiskan hasil proses segmentasi akan diambil cirinya yang akan
digunakan dalam proses pengelompokan data. Pada proses ini, metode yang
digunakan adalah Intensity of Character (IoC).
Gambar 3.9 Diagram Ekstraksi Ciri
i. Input
Input yang akan diolah pada tahap ini adalah data citra aksara jawa
yang merupakan hasil dari tahap segmentasi sebanyak 597.
46
ii. Output
Output dari tahap ini adalah data hasil ekstraksi ciri yang merupakan
array berisi matriks untuk tiap aksara.
iii. Algoritma
Pada tahap ekstraksi ciri, citra aksara jawa akan melalui

pengambilan ciri citra. Cara yang digunakan adalah :
Intensity of Character
Pada tahap ini data aksara yang telah melalui tahap

preprocessing dan segmentasi akan dilakukan proses ekstraksi ciri
dengan IoC. Perhitungan IoC dilakukan dengan mengubah matrik
hasil segmentasi menjadi matriks baru dengan ukuran NxN dengan
cara menambah jumlah piksel hitam sebanyak ukuran gambar dibagi
dengan ukuran matriks IoC. Banyak data citra yang dipakai adalah
597. Ukuran IoC yang digunakan adalah 3x3 yang menghasilkan 9
kolom dan 597 baris, 4x4 yang menghasilkan 16 kolom dan 597
baris, dan 5x5 yang menghasilkan 25 kolom dan 597 baris.
1. Buka berkas masukan, misal = aksara

2. Set tinggi = size(aksara,1)
3. Set lebar = size(aksara,2)
4. Bagi aksara menjadi 9/16/25 bagian
5. Cari jumlahan piksel yang bernilai 0 di setiap bagian
karakter
6. Simpan ciri tersebut menjadi ciri dari karakter yang
bersangkutan ke dalam file ciriAksara.mat
47
d. Clustering K-Means
Berdasarkan Flowchart pada Gambar 3.6, hasil ekstraksi ciri tadi akan
dikelompokan menggunakan Metode clustering K-Means dengan menggunakan
tools dari MATLAB sehingga ciri IoC dari citra yang digunakan hanya tinggal
dimasukkan kedalam tools dan mengatur jumlah K yang diperlukan dimana dalam
penelitian ini K nya diatur sebanyak 597 (seluruh data). Pada bagian ini terdapat 3
variabel penting yaitu datacluster, idx, dan sumd. Datacluster berisi citra yang sudah
dikelompokan sesuai clusternya. Idx berisi index yang menentukan citra tersebut
masuk ke kelompok mana. Sumd adalah jumlah jarak antar titik ke centroid dalam
cluster.
Gambar 3.10 Diagram K-Means

i. Input
Input yang akan diolah pada tahap ini adalah data cell matriks tiap
citra yang merupakan hasil dari tahap ekstraksi ciri.
ii. Output
Output dari tahap ini adalah data tabel cluster, idx, dan sumd yang
merupakan hasil proses clustering menggunakan K-means.
48
iii. Algoritma
Pada tahap clustering, data sel matriks akan melalui tahapan

clustering. Tahapan tersebut adalah :
K-Means
Pada tahap ini data hasil ekstraksi ciri aksara akan dilakukan
proses clustering menggunakan K-Means. Nilai K akan dimulai
dari 2 hingga 597. Kemudian akan hasil dari tiap kali melakukan
clustering yang dilakukan akan disimpan kedalam sel untuk
proses selanjutnya. Pada tahapan ini digunakan function
kmeans() yang merupakan function dari MATLAB.
Input : jumlah K, data ciri hasil ekstraksi ciri

CC=data ciri
[idx,C,sumd]=kmeans(CC,K);
Datacluster = cell(K,1);
For i=1:K
Datacluster{i}=CC(idx=1,:);
end
Output : cell hasil clustering, idx, sumd
e. Evaluasi Hasil Clustering
Setelah didapatkan sel yang berisi kumpulan hasil clustering K-Means maka
akan dilakukan evaluasi menggunakan metode elbow dan silhouette. Untuk idx
hasil clustering akan dipakai dalam evaluasi silhouette dan untuk sumd akan dipakai
dalam evaluasi elbow.
49
Gambar 3.11 Diagram Evaluasi Hasil Clustering

i. Input
Input yang akan diolah pada tahap ini adalah hasil tabel clustering
tiap nilai K yang merupakan hasil dari tahap clustering.
ii. Output
Output dari tahap ini adalah nilai K terbaik yang merupakan hasil
proses analisis yang membandingkan 2 metode.
iii. Algoritma
Pada tahap evaluasi, data clustering tiap K akan melalui berbagai

tahapan evaluasi. Tahapan tersebut adalah :
1. Evaluasi Elbow Method
Pada tahap ini data hasil clustering berupa sumd

menggunakan K-Means akan dihitung nilai SSE untuk tiap
cluster. Dari seluruh nilai SSE yang didapat dari tiap cluster
akan dicari yang terbaik nilainya. Cluster yang memiliki nilai
SSE 0,90 pertama akan menjadi nilai K untuk dibandingkan
dengan metode Silhouette Coefficient. Output dari evaluasi ini
adalah hasil perhitungan SSE semua data dan juga grafik elbow.
50
2. Evaluasi Silhouette Coefficient
Pada tahap ini data hasil clustering berupa idx menggunakan

K-Means akan dihitung nilai Silhouette Index untuk tiap cluster.
Dari seluruh nilai Silhouette Index yang didapat dari tiap cluster
akan dicari yang terbaik nilainya. Akan digunakan 3 rumus jarak
yaitu default(squared euclidean), cosine, dan cityblock. Cluster
yang memiliki nilai Silhouette Index 0,5 pertama pada hasil
hitung dengan jarak default(squared euclidean), lalu untuk jarak
cosine dan cityblock akan diambil nilai Silhouette Index tertinggi
dan akan menjadi nilai K untuk dibandingkan dengan metode
Elbow. Output dari evaluasi ini adalah hasil perhitungan
Silhouette Index semua data dan juga grafik silhouette.
3. Bandingkan Hasil Evaluasi
Pada tahap ini nilai K dari Elbow Method dan nilai K dari
Silhouette Coefficient akan dibandingkan. Metode yang
memiliki nilai K yang terbaiklah yang akan dianggap sebagai
metode yang lebih ideal untuk clustering menggunakan K-
Means.
3.5 Cara Pengujian
Pada tahap ini akan dilakukan proses pengujian. Pengujian yang

dilakukan adalah dengan cara :
1. Mengubah nilai K mulai dari 2, 3, 4, seterusnya hingga nilai

K 597.
2. Kemudian untuk ciri Intensity of Character yang digunakan

ukuran 3x3, 4x4, dan 5x5. Ukuran resize yang dipakai adalah
30x30, 88x88, dan 60x60.
51
3. Untuk Evaluasi Silhouette digunakan 3 jarak yang berbeda

yaitu jarak default (squared euclidean), cosine, dan
cityblock.
4. Memfokuskan pengelompokan sampai K hanya sampai 120

berdasarkan pengamatan jumlah aksara Jawa (pokok,
pasangan, sandhangan, angka, dll) dan juga pertimbangan
yang telah didiskusikan.
5. Menghitung akurasi hasil clustering K-Means K 65 untuk

597 data dan K 14 untuk 247 data 20 aksara pokok
menggunakan ground truth.
3.6 Kebutuhan Sistem
Pada penelitian ini menggunakan berbagai macam software dan

hardware. Adapun hardware dan software yang digunakan pada penelitian
ini adalah sebagai berikut:
3.6.1 Perangkat Keras (Hardware)
Adapun spesifikasi dari Personal Computer yang digunakan dalam

pembuatan sistem ini adalah :
Tabel 3.16 Perangkat Keras
Model Acer Swift 3
Platform Notebook-PC
Processor Intel Core i5-8250u
Harddisk 1 TB
Graphics Processing Unit Nvidia GeForce MX150

52
Operation System Microsoft Windows 10
Memory 8GB DDR4
3.6.2 Perangkat Lunak (Software)
Perangkat lunak yang digunakan dalam penelitian ini adalah

MATLAB R2014a guna perancangan dan menjalankan sistem yang dibuat.
3.7 Desain GUI
Gambar 3.12 Desain GUI

Ketika user melakukan browse file IoC maka akan memilih file yang
berisikan kumpulan ciri citra aksara Jawa yang akan diproses. Kemudian user
53
memasukan nilai K yang akan digunakan untuk clustering K-Means. Lalu user
memilih jarak yang akan digunakan pada penghitungan silhouette.
Output yang muncul ketika user menekan tombol Mulai adalah hasil
Distortion dari metode Elbow dan juga hasil SI dari metode Silhoutte untuk nilai K
yang dimasukkan oleh user.
BAB IV HASIL DAN ANALISIS
4.1 Data
Data yang digunakan adalah Data Citra aksara Jawa yang berjumlah 597
citra aksara. Data yang digunakan diperoleh dari buku Hamong Tani halaman 2 dan
59. Untuk mendapatkan datanya hal yang dilakukan adalah proses preprocessing
yang meliputi binerisasi, invers, dan filtering. Hasil dari halaman Hamong Tani
yang telah dipreprocessing akan diambil tiap aksaranya menggunakan proses
segmentasi profile projeksi dan bwlabel. Lalu dilakukan proses resize yang
ukurannya tergantung dengan kebutuhan IoC dan setelah itu dikenakan proses
penipisan citra menggunakan rosenfeld. Tahap selanjutnya adalah Ekstraksi ciri
menggunakan Intensity of Character atau bisa disingkat IoC. Ukuran yang
digunakan adalah 3x3, 4x4, dan 5x5.
4.2 Implementasi Preprocessing
a. Implementasi Binerisasi
Data yang telah dibaca menggunakan fungsi MATLAB kemudian akan
dilakukan proses binerisasi yang mana akan merubah citra warna menjadi citra
hitam putih dengan menggunakan fungsi im2bw.
54
55
Tabel 4.1 Perbandingan Citra Awal dan Hasil Binerisasi

Citra Awal Citra Hasil Binerisasi
Dari Tabel 4.1 hasil binerisasi dapat dilihat citra sebelah kiri terlihat tidak
terlalu jelas, buram, dan warna yang kurang baik. Hasil proses binerisasi ini
menunjukan hasil yang tampak lebih jelas dicitra sebelah kanan.
56
b. Implementasi Invers
Data yang telah melalui proses binerisasi akan ditukar warnanya dimana
hitam menjadi putih dan putih menjadi hitam dengan menggunakan fungsi
imcomplement, tujuannya untuk proses selanjutnya sehingga data menjadi bersih.
Tabel 4.2 Perbandingan Hasil Binerisasi dan Hasil Invers

Citra Hasil Biner Citra Hasil Invers
Dari Tabel 4.2 dapat dilihat aksaranya menjadi berwarna putih dan latar
belakangnya menjadi berwarna hitam. Lalu noda-noda yang berbentuk titik kecil
juga berubah menjadi putih. Titik putih inilah yang akan dihilangkan.
57
c. Implementasi Filtering
Data yang awalnya telah diinvers akan dihilangkan noisenya dimana akan
menghilangkan titik putih dengan menggunakan menggunakan fungsi bwareaopen.
Tabel 4.3 Perbandingan Hasil Filtering

Sebelum Filtering Setelah Filtering
Dari Tabel 4.3 hasil perbandingannya sudah terlihat dimana gambar disisi
kanan noda titik putih sudah menghilang dan data menjadi bersih dibanding
gambar disisi kiri yang terlihat terdapat banyak noda titik putih.
58
d. Implementasi Invers Kembali

Data yang telah dibersihkan akan diinvers lagi dimana hitam menjadi putih
dan putih menjadi hitam dengan menggunakan fungsi imcomplement.
Tabel 4.4 Perbandingan Hasil Invers Kembali

Hasil Filtering Setelah diinvers Kembali
Dari Tabel 4.4 hasil perbandingannya terlihat dimana aksara yang awalnya
putih menjadi hitam dan juga latar belakang hitam diubah menjadi putih.
59
4.3 Implementasi Segmentasi
a. Projeksi Horisontal
Data yang telah melalui proses preprocessing tadi akan diambil tiap
karakternya menggunakan proses segmentasi. Proses dilakukan dengan
menggunakan projeksi Horisontal. Hasil dari projeksi Horisontal tadi kemudian
akan dimasukkan ke dalam excel untuk dibentuk grafik garis dimana dari grafik
tersebut dapat dilihat mana yang berupa baris mana yang area kosong (jarak antar
baris). Kemudian hasil excel ini akan menjadi acuan pengambilan baris dengan
melanjutkan ke MATLAB untuk mendapatkan data perbaris yang nanti akan
berjumlah masing-masing 20 untuk tiap halaman.
Projeksi Horisontal Halaman 2

300
250
Nilai Lebar Halaman 2
200
150
100
50
0
560
1248
1
44
87
130
173
216
259
302
345
388
431
474
517
603
646
689
732
775
818
861
904
947
990
1033
1076
1119
1162
1205
Panjang Data Halaman 2
Gambar 4.1 Hasil Projeksi Horisontal Halaman 2
Melihat dari grafik pada Gambar 4.1 dapat diambil kesimpulan bahwa pada
halaman 2 terdapat 20 baris data karena titik puncaknya berjumlah 20.
60
Projeksi Horisontal Halaman 59

120
100
Nilai Lebar Halaman 59
80
60
40
20
0
560
1248
1
44
87
130
173
216
259
302
345
388
431
474
517
603
646
689
732
775
818
861
904
947
990
1033
1076
1119
1162
1205
Panjang Data Halaman 59
Gambar 4.2 Hasil Projeksi Horisontal Halaman 59

Sama seperti sebelumnya dilihat dari grafik pada Gambar 4.2 dapat diambil
kesimpulan bahwa pada halaman 59 terdapat 20 baris data karena titik puncaknya
berjumlah 20.
61
b. Projeksi Vertikal
Setelah didapatkankan data per baris akan diambil tiap aksaranya
menggunakan fungsi bwlabel. Fungsi ini akan mengambil tiap karakter yang
terdapat pada inputan baris hasil dari projeksi horisontal.
Gambar 4.3 Contoh Hasil Segmentasi Baris 1
c. Implementasi Resize
Hasil segmentasi yang telah didapatkan tiap askara akan dilakukan resize
ukuran citra menggunakan fungsi imresize.
Tabel 4.4 Perbandingan Hasil Resize

Hasil Segmentasi Hasil resize Hasil resize ukuran Hasil resize
ukuran 35x13 ukuran 33x33 88x88 ukuran 60x60
Dapat dilihat perubahan ukuran secara drastis pada tiap kolom di Tabel 4.4
dimana keempat gambar aksara memiliki ukuran yang berbeda.
62
d. Implementasi Thinning
Data yang telah resize kemudian dilakukan proses pengambilan kerangka
aksara dengan menggunakan metode rosenfeld sehingga menghasilkan citra dengan
bentuk kerangka citra saja.
Tabel 4.5 Perbandingan Citra Awal dengan Hasil Penipisan

Citra Awal Hasil Rosenfeld
Dari Tabel 4.5 dapat dilihat digambar kiri masih merupakan 1 aksara yang
utuh dan disisi kanan hanya menyisakan kerangka citra saja. Hasil dari proses
penipisan dengan metode rosenfeld mendapatkan hasil penipisan yang baik yaitu
tepat kerangka dan dan tidak terdapat gambar latar sehingga bisa digunakan untuk
proses selanjutnya.
4.4 Implementasi Ekstraksi Ciri
Ciri yang digunakan dalam penelitian ini adalah Intensity of Character.

Ukuran yang digunakan dalam penelitian ini adalah 3x3, 4x4, dan 5x5. Ciri tersebut
diperoleh dengan cara menghitung nilai piksel hitam dalam matriks citra hasil
preprocessing sehingga setiap halaman adalah hasil penjumlahan dari pixel hitam.
Hasil dari ekstraksi ciri IoC adalah data berbentuk sel yang berisi masing-
masing ukuran IoC aksara yang telah diproses. Proses selanjutnya adalah mengubah
hasil ekstraksi ciri yang awalnya berbentuk sel menjadi berbentuk array untuk
mempermudah proses clustering. Hasil pengubahan sel menjadi array ini
menghasilkan matriks berukuran 597x9 untuk ciri 3x3, 597x16 untuk ciri 4x4 dan
597x25 untuk ciri 5x5 dimana 597 merupakan banyak data pada penelitian.
63
Tabel 4. 6 Tabel Contoh Hasil Rosenfeld
Data Aksara 1
Ukuran 33x33
Data Aksara 1 ketika ditampilkan pikselnya dan dipindahkan kedalam excel

akan menjadi seperti ini, dimana piksel bernilai 1 akan berwarna putih dan piksel
bernilai 0 akan berwarna hitam.
Gambar 4. 4 Hasil IoC Data Aksara 1 Setelah dipindah ke Excel

Setelah itu akan dibagi menjadi 9 bagian, sebagai contoh adalah gambar
berikut dimana data IoC 3x3 tadi dibagi menjadi 9 warna yang mana tiap warna
akan memiliki 11 baris dan 11 kolom.
64
Gambar 4. 5 Pembagian Hasil IoC ke 9 Warna

Kemudian akan di hitung berapa jumlah piksel bernilai 0 pada tiap bagian
warna tersebut. Piksel bernilai 0 inilah yang sebenarnya membentuk kerangka dari
data citra.
Gambar 4. 6 Seleksi Piksel Bernilai 0

65
Didapatkan total penghitungan piksel bernilai 0 untuk semua bagian warna

sebagai berikut :
Tabel 4. 7 Hasil Penghitungan Ciri IoC 3 Aksara 1
Warna Total Piksel Bernilai 0

Merah = Ciri 1 22
Biru Pucat = Ciri 2 22
Kuning = Ciri 3 17
Hijau = Ciri 4 15
Biru Muda = Ciri 5 11
Ungu = Ciri 6 11
Biru Tua = Ciri 7 31
Cokelat = Ciri 8 22
Hijau Pucat = Ciri 9 14
Maka untuk Aksara 1 akan memiliki 9 ciri dimana ciri 1 berisi 22, ciri 2
berisi 22, ciri 3 berisi 17, ciri 4 berisi 15, ciri 5 berisi 11, ciri 6 berisi 11, ciri 7 berisi
31, ciri 8 berisi 22, dan juga ciri 9 berisi 14.
Tabel 4.8 Contoh Matriks Ciri IoC 3x3

Matriks Ciri IoC 3x3
Data Ciri 1 Ciri 2 Ciri 3 Ciri 4 Ciri 5 Ciri 6 Ciri 7 Ciri 8 Ciri 9
Aksara 1 22 22 17 15 11 11 31 22 14
Aksara 2 9 3 15 11 10 12 26 14 4
Aksara 3 25 23 12 9 16 11 22 14 13
Disini data Aksara 1, 2, dan 3 memiliki 9 kolom ciri dimana karena awalnya
IoC berbentuk 3 baris x 3 kolom akan diubah menjadi 1 baris 9 kolom untuk
mempermudah proses clustering.
66
4.5 Implementasi K-Means Clustering
Hasil ekstraksi ciri kemudian dikelompokkan dengan menggunakan K

mulai dari 2 sampai 597. Proses clustering menggunakan function kmeans dari
MATLAB. Proses clustering yang ini sangat tergantung pada nilai centroid yang
ditentukan secara random. [idx,sumd]=kmeans(CC,k) berarti akan mengambil
output berupa index untuk tiap data, C adalah lokasi centroid, dan sumd adalah
jumlah jarak antar titik ke centroid dalam cluster. Kemudian kmeans merupakan
function dari MATLAB dengan inputnya adalah CC dimana merupakan data IoC
dan K adalah banyak cluster yang dibutuhkan.
function [datacluster,idx,sumd] = cluster(K,dataioc)
CC=dataioc;
k=K;
[idx,sumd]=kmeans(CC,k);
datacluster = cell(k,1);
for i = 1:k
datacluster{i} = CC(idx==i,:);
end
end
4.6 Implementasi Silhouette
Hasil dari pengelompokan menggunakan K-Means clustering kemudian

akan dilakukan proses penghitungan nilai silhouette yaitu untuk menguji
kekompakan cluster hasil dari K-Means tadi. Perhitungan nilai silhouette dilakukan
dengan menggunakan fungsi Silhouette pada MATLAB. Hasil dari silhouette ini
67
adalah nilai silhouette untuk semua cluster. [s,h] = silhouette(data,idx) berarti akan
mengambil 2 output yaitu s untuk nilai silhouettenya dan h adalah plot grafik
berdasarkan nilai silhouette yang didapatkan. Lalu silhouette sendiri adalah
function dari matlab dengan input berupa data yang berisi data IoC dan juga idx
yang merupakan idx hasil proses clustering k-means.
function [akurasi,detail] = hitungsilhouette(data,idx)
[s,h] = silhouette(data,idx);
xlabel('Value');
ylabel('Cluster');
SIcluster=mean(s);
akurasi=SIcluster;
detail=s;
end
4.7 Implementasi Elbow Method
Hasil dari pengelompokan menggunakan K-Means clustering kemudian

akan dilakukan proses penghitungan nilai distortion/error dengan menggunakan
penjumlahan SUMD tiap K hasil dari proses K-Means clustering, lalu akan
menghitung variance dimana akan digunakan untuk menghitung distortion percent.
Setelah itu menghitung distortion percent dengan menghitung cumsum dari
variance dibagi dengan distortion awal dikurang distortion akhir. Dari hasil
penghitungan distortion percent kemudian akan mencari nilai distortion pertama
yang diatas 0.90. Hasil dari metode elbow ini adalah nilai distortion dan distortion
percent untuk semua K.
68
function [K,distortion,variance,distortion_percent]=elbow (sumdioc)
cluster=length(sumdioc);
distortion=zeros(cluster,1);
for k_temp=2:597
sumd=sumdioc{k_temp};
destortion_temp=sum(sumd);
distortion((k_temp)-1,1)=destortion_temp;
end
variance=distortion(1:end-1)-distortion(2:end);
distortion_percent=cumsum(variance)/(distortion(1)-distortion(end));
plot(distortion_percent,'b*--');
distortion90=find(distortion_percent>0.90);
K=distortion90 (1,1)+1;
end
4.8 Hasil Penelitian
a. Implementasi hasil penelitian ini menggunakan tiga ciri Intensity of

Character (IoC) yaitu dengan ukuran 3x3, 4x4, dan 5x5 untuk semua data
yang berjumlah 597. Percobaan silhouette pertama sampai ketiga akan
menggunakan data IoC 3x3, lalu percobaan silhouette keempat sampai
keenam akan menggunakan data IoC 4x4, dan percobaan silhouette ketujuh
sampai kesembilan akan menggunakan data IoC 5x5. Sementara percobaan
elbow pertama akan menggunakan data IoC 3x3, lalu percobaan elbow
kedua akan menggunakan data IoC 4x4, dan percobaaan elbow ketiga akan
menggunakan data IoC 5x5.
69
b. Dari ekstraksi ciri tersebut kemudian akan dikelompokkan dengan metode

K-Means clustering dari 2 sampai dengan 597. Kemudian hasil clustering
akan dianalisis menggunakan metode silhouette dan metode elbow dan
memfokuskan pengelompokan sampai K hanya sampai 120 atas
pengamatan jumlah aksara Jawa (pokok, pasangan, sandhangan, angka, dll)
dan juga pertimbangan yang telah didiskusikan.
4.8.1 Hasil Percobaan Silhouette Pertama
Gambar 4.7 Hasil Percobaan Silhouette Pertama
Menggunakan jarak default(squared euclidean) nilai 0.5 baru sering

muncul(konsisten) ketika K diatas 202 karena mulai dari 202 nilai rata-rata
silhouette sudah selalu diatas 0.5. Ketika diambil 120 K saja lalu disort nilai SI
terbesar berada di K 19 dengan nilai 0.5476. Kemudian diikuti dengan K 15 dengan
nilai 0.5245 dan K 51 dengan nilai 0.5231. Namun nilai 0.5 pertama dan terkecil
ada di K 65 dengan nilai 0.5060.
70
4.8.2 Hasil Percobaan Silhouette Kedua
Gambar 4.8 Hasil Percobaan Silhouette Kedua
Menggunakan jarak cosine nilai 0.5 baru sering muncul(konsisten) ketika K

diatas 237 karena mulai dari 237 nilai rata-rata silhouette selalu diatas 0.5. Kalau
diambil 120 K saja lalu disort nilai tertinggi ada di K 17 dengan nilai 0.5652.
Kemudian diikuti dengan K 14 dengan nilai 0.5466 dan K 13 dengan nilai 0.5433.
71
4.8.3 Hasil Percobaan Silhouette Ketiga
Gambar 4.9 Hasil Percobaan Silhouette Ketiga
Menggunakan jarak cityblock nilai 0.5 baru sering muncul(konsisten) ketika

K diatas 333 karena mulai dari 333 nilai rata-rata silhouette selalu diatas 0.5. Kalau
diambil 120 K saja lalu disort nilai tertingginya berada di K 13 dengan nilai 0.3779.
72
4.8.4 Hasil Percobaan Silhouette Keempat
Gambar 4.10 Hasil Percobaan Silhouette Keempat

silhouette selalu diatas 0.5. Ketika diambil 120 K saja lalu disort nilai SI terbesar
berada di K 49 dengan nilai 0.5228. Kemudian diikuti dengan K 65 dengan nilai
0.5204 dan K 66 dengan nilai 0.5048. Namun nilai 0.5 pertama dan terkecil ada di
K 63 dengan nilai 0.5016.
73
4.8.5 Hasil Percobaan Silhouette Kelima
Gambar 4.11 Hasil Percobaan Silhouette Kelima

74
4.8.6 Hasil Percobaan Silhouette Keenam
Gambar 4.12 Hasil Percobaan Silhouette Keenam

75
4.8.7 Hasil Percobaan Silhouette Ketujuh
Gambar 4.13 Hasil Percobaan Silhouette Ketujuh

silhouette selalu diatas 0.5. Ketika diambil 120 K saja lalu disort nilai SI terbesar
berada di K 61 dengan nilai 0.5127. Kemudian diikuti dengan K 47 dengan nilai
0.3516 dan K 59 dengan nilai 0.5088. Namun nilai 0.5 pertama dan terkecil ada di
K 54 dengan nilai 0.5024.
76
4.8.8 Hasil Percobaan Silhouette Kedelapan
Gambar 4.14 Hasil Percobaan Silhouette Kedelapan

77
4.8.9 Hasil Percobaan Silhouette Kesembilan
Gambar 4.15 Hasil Percobaan Silhouette Kesembilan

Setelah dilakukan penghitungan nilai Silhouette K mulai dari 1 sampai 597,

melihat dari hasil percobaan tadi, data rentang untuk data yang digunakan bisa
dibilang memiliki struktur persebaran yang lemah. Hal ini bisa dilihat dari hasil
silhouette dimana ketika diambil nilai K dari 2 sampai 120 hasilnya masih banyak
yang berada dibawah nilai 0.5. Padahal untuk dikatakan persebaran yang standar
baik seharusnya memiliki nilai silhouette diatas 0.5. Nilai Silhouette yang didapat
ini juga dipengaruhi oleh jarak yang digunakan untuk menghitung silhuettenya.
Dimana jarak default(Squared Euclidean) dapat menghasilkan nilai yang lebih
tinggi dibanding ketika menggunakan jarak Cosine dan Cityblock yang hasilnya
78
Silhouette nilainya justru menurun. Hal tersebut dapat dilihat pada hasil dibawah
ini :
Tabel 4.9 Hasil Silhouette Jarak Default

Jarak Default(Squared Euclidean)
Ukuran IoC Nilai Silhouette Nilai Silhouette Nilai Silhouette

Terbaik Pertama (K) Terbaik Kedua (K) Terbaik Ketiga (K)
3x3 0.5476 (19) 0.5245 (15) 0.5231 (51)
4x4 0.5228 (49) 0.5204 (65) 0.5048 (66)
5x5 0.5127 (61) 0.5116 (49) 0.5088 (59)
Tabel 4.10 Hasil Silhouette Jarak Cosine

Jarak Cosine

3x3 0.5652 (17) 0.5466 (14) 0.5433 (13)
4x4 0.5153 (90) 0.5013 (6) 0.4993 (23)
5x5 0.3716 (40) 0.3635 (38) 0.3604 (24)

79
Tabel 4.11 Hasil Silhouette Jarak Cityblock

Jarak Cityblock

3x3 0.3779 (13) 0.3676 (16) 0.5652 (12)
4x4 0.3648 (19) 0.3495 (34) 0.3492 (30)
5x5 0.3629 (18) 0.3546 (14) 0.3517 (13)
Tabel 4. 12 Hasil SI Terbaik Pertama Range K 120

Nilai SI Terbaik Pertama Dalam Range K 120
Rumus Jarak IoC 3x3 IoC 4x4 IoC 5x5
Default 0.5376 (K=19) 0.5228 (K=49) 0.5127 (K=61)
Cosine 0.5652 (K=17) 0.5153 (K=90) 0.3716 (K=40)
Cityblock 0.3779 (K=13) 0.3648 (K=19) 0.3629 (K=18)
Pada percobaan pertama sampai ketiga menggunakan ciri IoC 3x3

menghasilkan hasil nilai silhouette 1 untuk semua 597 data dengan 3 jarak berbeda
semuanya berada di K 591. Yang berarti dari 597 data akan membentuk cluster
dengan struktur kuat pada K = 591.
Pada percobaan keempat sampai keenam menggunakan ciri IoC 4x4

semuanya berada di K 593. Yang berarti dari 594 data akan akan membentuk cluster
80
Pada percobaan ketujuh sampai kesembilan menggunakan ciri IoC 5x5

semuanya berada di K 593. Yang berarti dari 597 data akan akan membentuk cluster
4.8.10 Hasil Percobaan Elbow Pertama
Gambar 4.16 Hasil Percobaan Elbow Pertama

Hasil dari percobaan pertama menggunakan IoC 3 didapatkan grafik seperti
pada Gambar 4.16, lalu dari hasil perhitungan distortion percentnya nilai 0.90
pertama berada di K = 62 dengan nilai distortion percent sebesar 0.9027.
81
4.8.11 Hasil Percobaan Elbow Kedua
Gambar 4.17 Hasil Percobaan Elbow Kedua

pada Gambar 4.17 lalu dari hasil perhitungan distortion percentnya nilai 0.90
82
4.8.12 Hasil Percobaan Elbow Ketiga
Gambar 4.18 Hasil Percobaan Elbow Ketiga

pada Gambar 4.18, lalu dari hasil perhitungan distortion percentnya nilai 0.90
Setelah dilakukan percobaan elbow, nilai K optimalnya untuk setiap IoC

menghasilkan nilai K yang berbeda. Hal ini bisa dilihat dari distortion IoC 3
distortion 0 mulai berada di K 562, IoC 4 distortion 0 mulai berada di K 583, dan
IoC 5 distortion 0 mulai berada di K 590. Untuk nilai distortion percent IoC 3
bernilai 1 ketika berada di K 578, IoC 4 bernilai 1 ketika berada di K 582, IoC 5
bernilai 1 ketika berada di K 585. Nilai distortion yang didapat ini juga dipengaruhi
hasil sumd dari K-Means clustering hasilnya sangat tergantung pada centroid yang
bernilai random.
83
Tabel 4.13 Hasil Elbow
Metode Elbow
Ukuran IoC Nilai Distortion Percent K Optimal
3x3 0.9027 62
4x4 0.9001 84
5x5 0.9004 106
4.8.13 Hasil Percobaan Pengelompokan K 65
Setelah dilakukan analisis dengan metode silhouette dan metode elbow,

dilanjutkan percobaan untuk mencoba mengelompokan aksara Jawa secara manual
untuk menguji apakah hasilnya relevan atau tidak. Percobaan ini menggunakan
hasil IoC 3x3 dan jumlah cluster yang dipilih secara acak yaitu 65 berdasarkan
pengamatan dari hasil penelitian yang dilakukan untuk data IoC 3.
84
Gambar 4.19 Hasil Percobaan Pengelompokan Cluster 1
Hasil pengelompokan K 65 yang sudah dimasukan kedalam folder yang

sesuai kelompoknya didapatkan hasil sebagai berikut, dengan catatan ‘P’ berarti
pasangan :
Tabel 4. 14 Hasil Analisa Manual Hasil Pengelompokan K 65
Label 1 Label 2 Label 3 Label 4 Total Data Ground

Truth
Cluster 1 22 Wulu 22 1
Cluster 2 5 Wingyan 5 1
Cluster 3 23 Na 3 Ja 26 0,88
Cluster 4 8 '2' 8 1
Cluster 6 5 Pangkon + 1 Ha + Suku 1 La _ 7 0,71
Suku Suku
Cluster 8 2 Na + P Na 1 Nga + P Na 1 Ka + 4 0,5
P Na
85
Label 1 Label 2 Label 3 Label 4 Total DataGround

Truth
Cluster 9 7 Ha + Suku 4 Ra 1 Ta + 12 0,58
Suku
Cluster 10 9 Pada 9 1
Lingsa
Cluster 11 5 Ka 4 Ta 9 0,56
Cluster 12 6 Ta 4 Ka 1 Ma 11 0,55
Cluster 13 45 Taling 1 Pangkon + 46 0,98
Suku
Cluster 14 7 Cecak 7 1
Cluster 15 2 Pangkon 2 1
Cluster 16 2 Layar 2 1
Cluster 17 1 Nya 1 Kar 2 0,5
Cluster 18 14 Ta 14 1
Cluster 19 9 Na 1 Ha 10 0,9
Cluster 20 6 Pa 3 Wa 1 Dha 10 0,6
Cluster 21 2 Pa + Suku 1 Nga + 1 Ta + 1 Pepet 5 0,4
+ Cakra Ra Cakra Ra Cakra + layar
Ra
Cluster 22 5 '2' 5 1
Cluster 23 5 '2' 5 1
Cluster 24 6 Ha 2 Ma 1 Sa 9 0,67
Cluster 25 2 Ma + tha 1 '3' 1 Sa + 1 Sa + 5 0,4
P da P wa
Cluster 26 9 Ta 2 La 1 Ga 12 0,75
Cluster 27 12 Pa + Suku 1 Ma + Suku 1 Da + 14 0,86
Suku
Cluster 28 18 Pepet 3 Pepet + 21 0,86
Cecak
Cluster 29 7 Ha 2 Ma 9 0,78
Cluster 31 2 Ta 2 1
Cluster 32 10 Ga 2 Ma + Cakra 1 Na + 13 0,77
Ra Cakra
Ra
Cluster 33 15 Na 5 Da 4 Ma 1 Pa 25 0,6
Cluster 34 2 P Ha 2 1
Cluster 35 9 Na 2 Da 1 Ma 12 0,75
Cluster 36 12 Pepet 2 Pepet + 14 0,86
Wulu
Cluster 37 9 P Ka 8 P Ta 17 0,53
Cluster 38 3 P Ba 1 '2' 4 0,75
86
Label 1 Label 2 Label 3 Label 4 Total Data Ground

Truth
Cluster 39 5 '0' 5 1
Cluster 40 1 'A' 1 1
Cluster 41 4 P La 1 Pada 5 0,8
Lungsa
Cluster 43 10 Sa 1 Wa 11 0,91
Cluster 44 13 La 13 1
Cluster 45 16 Pepet 16 1
Cluster 46 4 Ka 1 Ha 5 0,8
Cluster 47 2 Pa 2 Sa 4 1
Cluster 48 3 Wingyan 3 1
Cluster 49 8 P Sa 8 1
Cluster 51 13 Ka 3 Sa 16 0,81
Cluster 53 5 Pa 5 1
Cluster 54 8 Wa 2 Pa 10 0,8
Cluster 56 8 Ma 1 Ha 9 0,89
Cluster 57 4 P Wa 2 P Dha 1 P Ma 7 0,57
Cluster 58 1 'A' 1 1
Cluster 60 12 P Ha 12 1
Cluster 63 8 Ya 8 1
Cluster 64 11 Sa 11 1
Cluster 65 2 '1' 1 '4' 1 4 0,5
Cecak
Total Akurasi
597 0,86
Dari penghitungan manual hasil pengelompokan K 65 yang sudah

dimasukan kedalam folder yang sesuai kelompoknya didapatkan hasil yang baik
karena mendapatkan akurasi ground truth sebesar 86% berdasarkan nilai rata-rata
dari perhitungan seluruh kelompoknya.
87
Dari pengujian ini didapatkan hasil pengelompokan yang baik. Hal ini
dikarenakan pada IoC 3x3 berdasarkan analisa metode silhouette karena K = 65
memiliki SI yang berada 0,5060 maka persebaran datanya menjadi baik karena hasil
berdasarkan tabel nilai SI untuk nilai 0,50 - 0,70 membentuk struktur yang layak.
Begitu juga dengan metode elbow 65 memiliki distortion 0,9027 yang dianggap
masih belum sempurna pengelompokannya. Sehingga dari pengujian yang
dilakukan hasil pengelompokan baik ini sudah bisa diprediksi dan dianggap relevan
dengan akurasi sebesar 86%.
4.8.14 Hasil Percobaan Pengelompokan 14 Aksara Pokok
Setelah dilakukan percobaan pengelompokan K 65, sekarang dilakukan

percobaan untuk mengelompokan 20 Aksara Pokok saja dengan IoC 3. Yang
dilakukan pertama kali adalah menghitung banyak data secara manual dari 597
dimana hanya difokuskan 20 Aksara Pokok. Disini diperoleh data Aksara Pokok
berjumlah 247 data citra. Lalu dilakukan pencarian label secara manual juga dan
hasilnya didapat hanya ada 14 jumlah label. 14 label tersebut adalah : Ha, Na, Ka,
Da, Ta, Sa, Wa, La, Ma, Ga, Pa, Dha, Ja, dan Ya. Setelah itu akan digunakan
metode K-Means untuk mendapatkan clusternya.
88
Gambar 4. 20 Hasil Pengelompokan Cluster 1 14 Aksara Pokok
Hasil pengelompokan 14 Aksara Pokok yang sudah dimasukan kedalam

folder yang sesuai kelompoknya didapatkan hasil sebagai berikut :
Tabel 4. 15 Hasil Analisa Manual Hasil Pengelompokan 14 Aksara Pokok
Label 1 Label 2 Label 3 Label 4 Jumlah Data Ground Truth

Cluster 1 9 Na 1 Ma 3 Da 13 0,69
Cluster 2 12 Ha 4 Ka 3 Ma 19 0,63
Cluster 3 10 Ga 10 1
Cluster 4 8 Ya 6 Ta 4 Ka 1 Ma 19 0,42
Cluster 5 3 Ja 3 1
Cluster 6 15 Ka 7 Ta 1 Ha 23 0,65
Cluster 7 9 Na 1 Ha 1 Da 11 0,81
Cluster 8 13 La 3 Ka 7 Ma 2 Ha 25 0,52
Cluster 9 11 Sa 2 Pa 2 Dha 15 0,73
Cluster 10 13 Sa 13 1
Cluster 11 15 Ta 1 Ka 16 0,93
Cluster 12 38 Na 1 Pa 3 Da 42 0,90
89
Label 1 Label 2 Label 3 Label 4 Jumlah Data Ground Truth

Cluster 13 13 Pa 10 Wa 1 Dha 24 0,54
Cluster 14 8 Ta 1 La 1 Ha 2 Ma 13 0,61
Total Akurasi
247 0,75
Dari Tabel 4.12 ditemukan bahwa dari 14 label hanya didapat 10 kelompok
label saja. Karena ada kelompok yang pembagiannya masih belum tepat. Seperti
dapat dilihat bahwa ada 3 kelompok yang didominasi Na, 2 kelompok yang
didominasi Sa dan Ta. Lalu label yang jumlahnya sedikit jadi ikut tercampur dengan
label yang tadi. Label yang jumlahnya sedikit tersebut adalah Ma, Dha, dan Wa.
Percobaan pengelompokan 14 Aksara Pokok ini mendapatkan hasil akurasi

yang baik karena mendapatkan akurasi ground truth sebesar 75% berdasarkan nilai
rata-rata dari perhitungan seluruh kelompoknnya.
BAB V KESIMPULAN DAN SARAN
5.1 Kesimpulan
5.1.1 Metode Silhouette
Dari hasil percobaan pengelompokan 597 citra aksara Jawa dengan

metode Silhouette untuk IoC 3 hasil K optimalnya adalah ketika K 19,
IoC 4 hasil K optimalnya adalah ketika K 49, dan IoC 5 hasil K
optimalnya adalah ketika K 61. Didapatkan kesimpulan bahwa untuk
mendapatkan nilai silhouette itu ada banyak faktor yang mempengaruhi
seperti tahap preprocessing, tahap resize data, ukuran IoC yang
digunakan, dan juga nilai centroid K-Means yang random. Ada juga
pengaruh jarak yang digunakan dalam silhouette yang membuat hasil
penghitungannya menjadi berbeda. Hasil K dari metode silhouette
cenderung kecil dan akan membuat hasil akurasi pengelompokannya
menjadi jelek.
5.1.2 Metode Elbow
Dari hasil percobaan pengelompokan 597 citra aksara Jawa dengan

metode Elbow karena pada penelitian ini digunakan nilai distortion
percent diatas 0.90 maka untuk IoC 3 hasil K optimalnya adalah ketika
K 62, IoC 4 hasil K optimalnya adalah ketika K 84, dan IoC 5 hasil K
optimalnya adalah ketika K 106. Didapatkan kesimpulan bahwa untuk
mendapatkan nilai distortion itu ada banyak faktor yang mempengaruhi
seperti tahap preprocessing, tahap resize data, ukuran IoC yang
digunakan, dan juga nilai centroid K-Means yang random. Ada juga
pengaruh sumd hasil k-means dan penentuan nilai distortion percent
minimal yang digunakan dalam metode elbow yang membuat hasil
penghitungan dan penentuan K optimalnya menjadi berbeda. Dari hasil
K yang lebih besar inilah maka metode elbow dianggap lebih baik
90
91
karena semakin besar K dalam clustering maka hasil akurasi

pengelompokannya akan menjadi lebih baik.
5.1.3 Hasil Relevansi
Hasil pengujian dengan 597 citra aksara Jawa ukuran IoC 3 dan
jumlah cluster 65 mendapatkan hasil pengelompokan yang baik dengan
akurasi sebesar 86%, ini sudah bisa diprediksi sehingga dianggap
relevan. Hal ini karena pada cluster 65 memiliki SI 0,5060 untuk
metode silhouette dan juga distortion 0,9027 untuk metode elbow. Dari
pengujian tadi dapat disimpulkan jika K nya lebih besar maka akan
menghasilkan hasil pengelompokan yang bagus sehingga metode
elbow dianggap sebagai metode yang ideal untuk menentukan nilai K.
Hasil pengujian 14 Aksara Pokok dengan 247 citra ukuran IoC

3 didapatkan akurasi pengelompokan yang baik yaitu sebesar 75%
dimana terdapat 10 label kelompok yang benar.
5.2 Saran
a. Perlu dilakukan percobaan dengan ukuran ciri IoC yang lainnya untuk
memperoleh hasil yang lebih baik.
b. Perlu dilakukan proses preprocessing sampai mendapatkan hasil yang

baik agar hasil segmentasi dan juga hasil pengelompokan menjadi
lebih baik.
c. Ketika memilih hasil SI untuk metode silhouette bisa mengambil nilai

nilai diatas 0.5 agar hasil pengelompokan menjadi lebih baik lagi.
d. Ketika memilih nilai distortion percent untuk metode elbow bisa

menggunakan nilai diatas 0.9 agar hasil pengelompokan lebih baik
lagi.
DAFTAR PUSTAKA
Aksara Jawa. (2020). https://id.wikipedia.org/wiki/Aksara_Jawa
Ankrisnar, V. A. (2020). Pengelompokan Citra Aksara Bali Menggunakan Metode

K-Means Clustering. Universitas Sanata Dharma.
Bao, F. (n.d.). best_kmeans(X). MATLAB Central File Exchange.

https://www.mathworks.com/matlabcentral/fileexchange/49489-
best_kmeans-x
Dewi D.A., & Pramita D.A (2019). Analisis Perbandingan Metode Elbow dan
Silhouette pada Algoritma Clustering K-Medoids dalam Pengelompokan
Produksi Kerajinan Bali. Jurnal Manajemen Teknologi dan Informatika, 102-
109.
Gonzalez, R.C., & Woods, R.E. (2002). Digital Image Processing. 2nd Edition,
Prentice Hall, Upper Saddle River.
Hadiprijono (2013). Trampil Maca lan Nulis Aksara Jawa. Kanisius Yogyakarta.
Holle, K. (1876). Hamong Tani.
Jamaludin, A., & Purnamasari, I. (2020). Pengelompokan Desa Menggunakan K-

Means Untuk Penyelenggaraan Penanggulangan Bencana Banjir. JOINS
(Journal of Information System), 5(2), 156–167.
Kodinariya, T & Makwana, P (2013) Review on Determining of Cluster in K-means

Clustering. International Journal of Advance Research in Computer Science
and Management Studies.
Leonard K, & Peter J. Rousseeuw (1990). Finding Groups in Data: An Introduction

to Cluster Analysis. John Wiley & Sons, Inc., Hoboken, 68-125.
Sebastien D. L. (n.d.). kmeans_opt. MATLAB Central File Exchange.

https://www.mathworks.com/matlabcentral/fileexchange/65823-kmeans_opt
92
Widiarti, A. R., & Himamunanto, A. R. (2012). Teori Dan Aplikasi Pengolahan

Citra Digital Transliterasi Otomatis Citra Dokumen Teks Aksara Jawa.
Lintang Pustaka Utama.
Widiarti, A. R. (2011). Comparing Hilditch, Rosenfeld, Zhang-Suen, and

Nagendraprasad-Wang-Gupta Thinning. International Journal of Computer
and Information Engineering, 5(6), 563–567.
LAMPIRAN

Analisis Cluster (Elbow and Silhoutte)

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Analisis Cluster (Elbow and Silhoutte)

Diunggah oleh

Hak Cipta:

Format Tersedia

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

ANALISA PERBANDINGAN NILAI K TERBAIK UNTUK

Memperoleh Gelar Sarjana Komputer

Program Studi Informatika

Gabriel Ryan Prima

PROGRAM STUDI INFORMATIKA

COMPARATIVE ANALYSIS OF THE BEST K-VALUE FOR

to Obtain Sarjana Komputer Degree

in Informatics Study Program

Gabriel Ryan Prima

INFORMATICS STUDY PROGRAM

Kata kunci: Aksara Jawa, Preprocessing, Segmentasi, Ekstraksi Ciri, K-Means,

Keywords: Javanese script, Preprocessing, Segmentation, Feature Extraction, K-

HALAMAN PERSETUJUAN PEMBIMBING ..................................................... ii

2.10 Nilai Ground Truth ................................................................................. 25

4.8.13 Hasil Percobaan Pengelompokan K 65 ............................................... 83

Gambar 2.1 20 Aksara Pokok ................................................................................. 5

Tabel 2.1 Tabel Representasi Data Citra berukuran 9x9 ...................................... 12

Tabel 4.13 Hasil Elbow ......................................................................................... 83

Hal pertama dalam clustering K-means adalah dimulai dengan kelompok

Berdasarkan penelitian yang dilakukan oleh Purnamasari (2020) diperoleh

1.2 Rumusan Masalah

1.3 Tujuan Penelitian

1.4 Manfaat Penelitian

1.5 Batasan Penelitian

1.6 Sistematika Penulisan

BAB II LANDASAN TEORI

BAB III METODE PENELITIAN

BAB IV HASIL PENELITIAN DAN ANALISIS

BAB V KESIMPULAN DAN SARAN

BAB II LANDASAN TEORI

Aksara Jawa terdiri dari 20 aksara pokok (legena) yang bersifat

Gambar 2.2 Aksara Sandhangan

Gambar 2.3 Aksara Penyigeg Wanda

membentuk kata “gajah” maka dapat ditulis dengan aksara ga dan ja

Gambar 2. 4 Sandhangan Wyanjana

Gambar 2.5 Sandhangan Pangkon

Gambar 2.6 Aksara Pasangan

Aksara berikutnya adalah aksara wilangan, yakni aksara yang

Gambar 2.7 Aksara Wilangan

Gambar 2.7 merupakan kumpulan aksara wilangan. Dengan

2.2 Pengertian Citra

0 < 𝑓(𝑥, 𝑦) < ∞ …………………………………..(2.1)

2.3 Pemrosesan Citra

Pemrosesan citra merupakan metode-metode yang digunakan untuk

Tahapan preprocessing berguna untuk menyiapkan data seperti mengubah

Thining merupakan suatu operasi dalam preprocessing, yang berfungsi

Filtering atau reduksi derau atau noise reduction merupakan tahapan

Segmentasi merupakan proses pemecahan citra untuk memperoleh objek-

2.5.1. Profil Proyeksi

Profil proyeksi merupakan bagian dari segmentasi citra yang berfungsi

Resize citra merupakan bagian dari segmentasi citra yang berfungsi

2.6 Ekstraksi Ciri

2.6.1. Intensity of Character

Intensity of Character merupakan salah satu metode yang digunakan dalam

Tabel 2.1 Tabel Representasi Data Citra berukuran 9x9

Tabel 2.2 Hasil IoC 3x3

2.7 K-means Clustering

K-means clustering adalah metode untuk mengelompokan objek ke dalam

Pada K-means terdapat beberapa langkah yang harus dilakukan

1. Tentukan jumlah cluster

2. Alokasikan data ke dalam cluster

3. Hitung centroid/rata-rata dari data yang ada di masing-

4. Hitung perhiyungan jarak lalu alokasikan masing-masing data