Anda di halaman 1dari 112

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

ANALISA PERBANDINGAN NILAI K TERBAIK UNTUK


CLUSTERING K-MEANS MENGGUNAKAN PENDEKATAN
ELBOW DAN SILHOUETTE PADA CITRA AKSARA JAWA

SKRIPSI
Diajukan Untuk Memenuhi Salah Satu Syarat

Memperoleh Gelar Sarjana Komputer

Program Studi Informatika

Oleh:

Gabriel Ryan Prima

175314084

PROGRAM STUDI INFORMATIKA


FAKULTAS SAINS DAN TEKNOLOGI
UNIVERSITAS SANATA DHARMA
YOGYAKARTA
2021
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

COMPARATIVE ANALYSIS OF THE BEST K-VALUE FOR


CLUSTERING K-MEANS USING ELBOW AND SILHOUETTE
APPROACH ON JAVANESE SCRIPT IMAGE

THESIS
Present as Partial Fulfillment of The Requirements

to Obtain Sarjana Komputer Degree

in Informatics Study Program

Created by:

Gabriel Ryan Prima

175314084

INFORMATICS STUDY PROGRAM


FACULTY OF SCIENCE OF TECHNOLOGY
SANATA DHARMA UNIVERSITY
YOGYAKARTA
2021
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Halaman Persembahan
“Segala perjuangan saya hingga titik ini saya persembahkan pada dua orang
paling berharga dalam hidup saya. Hidup menjadi begitu mudah dan lancar ketika
kita memiliki orang tua yang lebih memahami kita daripada diri kita sendiri.
Terima kasih telah menjadi orang tua yang sempurna.”

iv
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Abstrak
Pada penelitian ini akan dilakukan pencarian nilai K terbaik dari 2 metode
pendekatan clustering K-Means yaitu Elbow dan Silhouette. Berdasarkan penelitian
sebelumnya oleh Purnamasari (2020) ditemukan pendekatan Elbow menghasilkan
hasil yang lebih ideal. Maka dari itulah penulis berpikir untuk melakukan pencarian
nilai K terbaik pada clustering aksara Jawa.

Terdapat banyak tahapan yang dilakukan pada penelitian ini. Yang pertama
adalah pengumpulan data yang berupa buku hamong tani halaman 2 dan 59.
Kemudian preprocessing untuk mendapatkan data yang bersih. Setelah itu akan
disegmentasi untuk mendapatkan tiap aksaranya. Lalu akan diambil ciri untuk tiap
aksaranya dengan menggunakan Intensity of Character. Data ciri kemudian
dikelompokan menggunakan K-Means clustering yang mana akan menghasilkan
jumlah cluster, idx, dan sumd. Kemudian idx akan digunakan untuk evaluasi
silhouette dan sumd akan digunakan untuk evaluasi elbow. Hasil kedua metode
tersebut akan dibandingkan untuk mencari K terbaiknya.

Dari pengujian yang dilakukan disimpulkan jika K nya lebih besar maka
akan menghasilkan hasil pengelompokan yang bagus sehingga metode elbow
dianggap sebagai metode yang ideal untuk menentukan nilai K.

Kata kunci: Aksara Jawa, Preprocessing, Segmentasi, Ekstraksi Ciri, K-Means,


Silhouette, Elbow.

vii
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Absract
In this research, the best K value will be searched from 2 methods of K-
Means clustering approach, namely Elbow and Silhouette. Based on previous
research by Purnamasari (2020) it was found that the Elbow approach produced
more ideal results. That's why the writer thought to search for the best K value in
Javanese script clustering.

There are many stages carried out in this research. The first is collecting
data in the form of the Hamong Tani book page 2 and 59. Then preprocessing to
get clean data. After that it will be segmented to get each character. Then the
characteristics for each character will be taken using the Intensity of Character. The
feature data are then grouped using K-Means clustering which will produce the
number of clusters, idx, and sumd. Then idx will be used for silhouette evaluation
and sumd will be used for elbow evaluation. The results of the two methods will be
compared to find the best K.

From the tests carried out, it is concluded that if the K is greater then it will
produce good grouping results so that the elbow method is considered an ideal
method to determine the K value.

Keywords: Javanese script, Preprocessing, Segmentation, Feature Extraction, K-


Means, Silhouette, Elbow.

viii
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Kata Pengantar
Puji dan syukur penulis panjatkan kepada Tuhan Yang Maha Esa atas rahmat dan
karunia-Nya, sehingga penulis dapat menyelesaikan tugas akhir dengan judul
“Analisa Perbandingan Nilai K Terbaik Untuk Clustering K-Means Menggunakan
Pendekatan Elbow Dan Silhouette Pada Citra Aksara Jawa” dengan baik dan tepat
waktu. Tugas akhir ini merupakan salah satu persyaratan yang wajib untuk
ditempuh sebagai syarat akademik untuk memperoleh gelar sarjana komputer
program studi Informatika Universitas Sanata Dharma Yogyakarta.

Selama proses penelitian, penulis mendapat banyak dukungan dari berbagai pihak
sehingga sudah sepantasnya penulis menyampaikan terima kasih yang kepada:

1. Ibu Dr. Anastasia Rita Widiarti, M.Kom selaku dosen pembimbing tugas
akhir yang telah bersedia memberikan arahan, masukan, waktu serta
motivasi kepada penulis selama menyelesaikan skripsi.
2. Bapak Sudi Mungkasi, S.Si., M.Math.Sc., Ph.D. selaku dekan Fakultas
Sains dan Teknologi.
3. Seluruh dosen Informatika Universitas Sanata Dharma yang telah mendidik
dan memberikan ilmu pengetahuan kepada penulis yang digunakan sebagai
bekal untuk menyelesaikan tugas akhir ini.
4. Keluarga tercinta, Ayah Drs. Ary Widayanto, Mama Rini Sudiastuti, dan
saudara-saudari yang selalu memberikan dukungan dan doa sehingga
membuat penulis semakin semangat dalam mengerjakan serta
menyelesaikan tugas akhir ini.
5. Saudara Edrick Hernando, Atanasius Ivannoel Rio Aji, Yudistira Prama
Putra, Hieronimus Fredy Morgan, Albertus Ivan Adhyatma Maheswara,
Joseph Hutagalung, Agung Kristanto yang selalu bisa diajak diskusi
masalah tugas akhir.
6. Teman – teman dari grup “Pejuang Ekspetasi”, “Mesin Goblog”, dan
“Brokeback” yang senantiasa memberikan saran dan hiburan dalam

ix
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

DAFTAR ISI

HALAMAN PERSETUJUAN PEMBIMBING ..................................................... ii


HALAMAN PENGESAHAN ................................................................................ iii
PERNYATAAN KEASLIAN KARYA ................................................................. v
LEMBAR PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH .. vi
DAFTAR ISI .......................................................................................................... xi
DAFTAR GAMBAR ........................................................................................... xiv
DAFTAR TABEL ................................................................................................. xv
BAB I PENDAHULUAN ....................................................................................... 1
1.1 Latar Belakang ......................................................................................... 1
1.2 Rumusan Masalah .................................................................................... 2
1.3 Tujuan Penelitian ...................................................................................... 2
1.4 Manfaat Penelitian .................................................................................... 2
1.5 Batasan Penelitian .................................................................................... 3
1.6 Sistematika Penulisan ............................................................................... 3
BAB II LANDASAN TEORI ................................................................................. 5
2.1 Aksara Jawa .............................................................................................. 5
2.2 Pengertian Citra ........................................................................................ 9
2.3 Pemrosesan Citra ...................................................................................... 9
2.4 Preprocessing .......................................................................................... 10
2.4.1. Binerisasi ............................................................................................ 10
2.4.2. Thinning .............................................................................................. 10
2.4.3. Filtering ............................................................................................... 10
2.5 Segmentasi.............................................................................................. 11
2.5.1. Profil Proyeksi .................................................................................... 11
2.5.2. Resize .................................................................................................. 11
2.6 Ekstraksi Ciri .......................................................................................... 12
2.6.1. Intensity of Character.......................................................................... 12
2.7 K-means Clustering ................................................................................ 13
2.8 Metode Elbow ........................................................................................ 18
2.9 Metode Silhouette................................................................................... 21

xi
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

2.10 Nilai Ground Truth ................................................................................. 25


BAB III METODE PENELITIAN........................................................................ 27
3.1 Deskripsi Data ........................................................................................ 27
3.2 Pengolahan Data ..................................................................................... 29
3.3 Contoh Perhitungan 10 Data Dummy .................................................... 30
3.4 Perancangan Sistem ................................................................................ 36
3.5 Cara Pengujian ....................................................................................... 50
3.6 Kebutuhan Sistem................................................................................... 51
3.6.1 Perangkat Keras (Hardware) ............................................................... 51
3.6.2 Perangkat Lunak (Software) ............................................................... 52
3.7 Desain GUI ............................................................................................. 52
BAB IV HASIL DAN ANALISIS ........................................................................ 54
4.1 Data ........................................................................................................ 54
4.2 Implementasi Preprocessing ................................................................... 54
4.3 Implementasi Segmentasi ....................................................................... 59
4.4 Implementasi Ekstraksi Ciri ................................................................... 62
4.5 Implementasi K-Means Clustering ......................................................... 66
4.6 Implementasi Silhouette ......................................................................... 66
4.7 Implementasi Elbow Method ................................................................. 67
4.8 Hasil Penelitian....................................................................................... 68
4.8.1 Hasil Percobaan Silhouette Pertama ................................................... 69
4.8.2 Hasil Percobaan Silhouette Kedua ...................................................... 70
4.8.3 Hasil Percobaan Silhouette Ketiga ..................................................... 71
4.8.4 Hasil Percobaan Silhouette Keempat .................................................. 72
4.8.5 Hasil Percobaan Silhouette Kelima .................................................... 73
4.8.6 Hasil Percobaan Silhouette Keenam ................................................... 74
4.8.7 Hasil Percobaan Silhouette Ketujuh ................................................... 75
4.8.8 Hasil Percobaan Silhouette Kedelapan ............................................... 76
4.8.9 Hasil Percobaan Silhouette Kesembilan ............................................. 77
4.8.10 Hasil Percobaan Elbow Pertama ......................................................... 80
4.8.11 Hasil Percobaan Elbow Kedua ........................................................... 81
4.8.12 Hasil Percobaan Elbow Ketiga ........................................................... 82

xii
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

4.8.13 Hasil Percobaan Pengelompokan K 65 ............................................... 83


4.8.14 Hasil Percobaan Pengelompokan 14 Aksara Pokok ........................... 87
BAB V KESIMPULAN DAN SARAN ................................................................ 90
5.1 Kesimpulan ............................................................................................. 90
5.2 Saran ....................................................................................................... 91
DAFTAR PUSTAKA ........................................................................................... 92
LAMPIRAN .......................................................................................................... 94

xiii
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

DAFTAR GAMBAR

Gambar 2.1 20 Aksara Pokok ................................................................................. 5


Gambar 2.2 Aksara Sandhangan ............................................................................. 6
Gambar 2.3 Aksara Penyigeg Wanda ..................................................................... 6
Gambar 2.4 Sandhangan Wyanjana ........................................................................ 7
Gambar 2.5 Sandhangan Pangkon .......................................................................... 7
Gambar 2.6 Aksara Pasangan ................................................................................. 8
Gambar 2.7 Aksara Wilangan ................................................................................. 8
Gambar 3.1 Halaman 2 buku Hamong Tani ......................................................... 27
Gambar 3.2 Halaman 59 buku Hamong Tani ....................................................... 28
Gambar 3.3 Contoh Citra Hasil Crop.................................................................... 29
Gambar 3.4 Data Dummy Berjumlah 10 .............................................................. 30
Gambar 3.5 Diagram Perancangan Sistem............................................................ 37
Gambar 3.6 Flowchart Penelitian .......................................................................... 38
Gambar 3.7 Diagram Preprocessing ..................................................................... 39
Gambar 3.8 Diagram Segmentasi ......................................................................... 43
Gambar 3.9 Diagram Ekstraksi Ciri ...................................................................... 45
Gambar 3.10 Diagram K-Means ........................................................................... 47
Gambar 3.11 Diagram Evaluasi Hasil Clustering ................................................. 49
Gambar 3.12 Desain GUI ...................................................................................... 52
Gambar 4.1 Hasil Projeksi Horisontal Halaman 2 ................................................ 59
Gambar 4.2 Hasil Projeksi Horisontal Halaman 59 .............................................. 60
Gambar 4.3 Contoh Hasil Segmentasi Baris 1 ...................................................... 61
Gambar 4.4 Hasil IoC Data Aksara 1 Setelah dipindah ke Excel ......................... 63
Gambar 4.5 Pembagian Hasil IoC ke 9 Warna ..................................................... 64
Gambar 4.6 Seleksi Piksel Bernilai 0 .................................................................... 64
Gambar 4.7 Hasil Percobaan Silhouette Pertama ................................................. 69
Gambar 4.8 Hasil Percobaan Silhouette Kedua .................................................... 70
Gambar 4.9 Hasil Percobaan Silhouette Ketiga .................................................... 71
Gambar 4.10 Hasil Percobaan Silhouette Keempat .............................................. 72
Gambar 4.11 Hasil Percobaan Silhouette Kelima ................................................. 73
Gambar 4.12 Hasil Percobaan Silhouette Keenam ............................................... 74
Gambar 4.13 Hasil Percobaan Silhouette Ketujuh ................................................ 75
Gambar 4.14 Hasil Percobaan Silhouette Kedelapan ........................................... 76
Gambar 4.15 Hasil Percobaan Silhouette Kesembilan ......................................... 77
Gambar 4.16 Hasil Percobaan Elbow Pertama ..................................................... 80
Gambar 4.17 Hasil Percobaan Elbow Kedua ........................................................ 81
Gambar 4.18 Hasil Percobaan Elbow Ketiga ........................................................ 82
Gambar 4.19 Hasil Percobaan Pengelompokan Cluster 1 .................................... 84
Gambar 4.20 Hasil Pengelompokan Cluster 1 14 Aksara Pokok.......................... 88

xiv
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

DAFTAR TABEL

Tabel 2.1 Tabel Representasi Data Citra berukuran 9x9 ...................................... 12


Tabel 2.2 Hasil IoC 3x3 ........................................................................................ 13
Tabel 2.3 Data Clustering ..................................................................................... 14
Tabel 2.4 Centroid Random .................................................................................. 15
Tabel 2.5 Hasil Iterasi 1 ........................................................................................ 16
Tabel 2.6 Hasil Centroid Iterasi 1 ......................................................................... 17
Tabel 2.7 Hasil Iterasi 2 ........................................................................................ 17
Tabel 2.8 Hasil Centroid Iterasi 2 ......................................................................... 17
Tabel 2.9 Hasil Iterasi 3 ........................................................................................ 18
Tabel 2.10 Hasil Centroid Iterasi 3 ....................................................................... 18
Tabel 2.11 Contoh Data Silhouette ....................................................................... 22
Tabel 2.12 Rentang nilai Silhouette Coefficient ................................................... 25
Tabel 3.1 Hasil Segmentasi Aksara pertama halaman 2 ....................................... 29
Tabel 3.2 Ciri IoC 3x3 10 Data Dummy ............................................................... 30
Tabel 3.3 Centroid Awal ....................................................................................... 31
Tabel 3.4 Hasil Iterasi 1 ........................................................................................ 31
Tabel 3.5 Centroid Baru ........................................................................................ 32
Tabel 3.6 Hasil Iterasi 2 ........................................................................................ 32
Tabel 3.7 Data Silhouette Hasil K-Means Clustering ........................................... 33
Tabel 3.8 Penghitungan Jarak Antar Data ............................................................ 33
Tabel 3.9 Penghitungan ai dan bi Data 1-5 ........................................................... 34
Tabel 3.10 Penghitungan ai dan bi Data 6-10 ....................................................... 34
Tabel 3.11 Hasil SI Tiap Data ............................................................................... 34
Tabel 3.12 Hasil Akurasi SIlhouette ..................................................................... 35
Tabel 3.13 Data Jarak K-Means Iterasi 2 .............................................................. 35
Tabel 3.14 Penjumlahan Jarak 3 Cluster ............................................................... 36
Tabel 3.15 Hasil Distortion Elbow........................................................................ 36
Tabel 3.16 Perangkat Keras .................................................................................. 51
Tabel 4.1 Perbandingan Citra Awal dan Hasil Binerisasi ..................................... 55
Tabel 4.2 Perbandingan Hasil Binerisasi dan Hasil Invers ................................... 56
Tabel 4.3 Perbandingan Hasil Filtering ................................................................ 57
Tabel 4.4 Perbandingan Hasil Resize ................................................................... 61
Tabel 4.5 Perbandingan Citra Awal dengan Hasil Penipisan ............................... 62
Tabel 4.6 Tabel Contoh Hasil Rosenfeld .............................................................. 63
Tabel 4.7 Hasil Penghitungan Ciri IoC 3 Aksara 1 ............................................... 65
Tabel 4.8 Contoh Matriks Ciri IoC 3x3 ................................................................ 65
Tabel 4.9 Hasil Silhouette Jarak Default............................................................... 78
Tabel 4.10 Hasil Silhouette Jarak Cosine ............................................................. 78
Tabel 4.11 Hasil Silhouette Jarak Cityblock ......................................................... 79
Tabel 4.12 Hasil SI Terbaik Pertama Range K 120 .............................................. 79

xv
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Tabel 4.13 Hasil Elbow ......................................................................................... 83


Tabel 4.14 Hasil Analisa Manual Hasil Pengelompokan K 65 ............................. 84
Tabel 4.15 Hasil Analisa Manual Hasil Pengelompokan 14 Aksara Pokok ......... 88

xvi
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

BAB I PENDAHULUAN
1.1 Latar Belakang
Pada zaman ini, banyak sekali metode yang digunakan untuk melakukan
proses clustering, Salah satunya yang paling populer adalah K-means clustering
karena merupakan “unsupervised machine learning algorithms” yang paling
sederhana.

Hal pertama dalam clustering K-means adalah dimulai dengan kelompok


pertama centroid yang dipilih secara acak, yang digunakan sebagai titik awal untuk
setiap cluster, dan kemudian melakukan perhitungan berulang untuk
mengoptimalkan posisi centroid. Dalam menentukan nilai K yang digunakan dalam
clustering k-means juga terdapat banyak sekali pendekatan yang dapat dilakukan
guna mencari nilai K yang paling ideal. Salah dua metode pendekatan tersebut
adalah metode Elbow dan metode Silhouette.

Banyak sekali manfaat yang dapat diperoleh jika kita melakukan proses
clustering. Salah satunya adalah kita dapat mengelompokkan citra aksara Jawa
yang terdapat pada dokumen-dokumen kuno yang dapat berguna untuk membantu
proses labeling pada aksara Jawa. Salah satu dokumen yang memuat aksara Jawa
itu adalah buku Hamong Tani.

Berdasarkan penelitian yang dilakukan oleh Purnamasari (2020) diperoleh


hasil dimana metode Elbow menghasilkan nilai K yang lebih ideal dibanding
metode Silhouette.
Sementara itu ada juga penelitian yang dilakukan oleh Akrisnar (2020) dimana
hasil metode Silhouette menghasilkan nilai K sebesar 72 berdasarkan
kemunculannya pada 3 ciri IoC dan size dengan ukuran 3x3, 5x5, dan 8x8.

1
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

1.2 Rumusan Masalah


Berdasarkan latar belakang yang dibuat di atas, maka rumusan masalah pada
penelitian ini adalah:
a. Berapa nilai K yang disarankan oleh kedua metode pendekatan elbow dan
silhouette?
b. Dari dua metode pendekatan elbow dan silhouette, mana yang paling ideal
untuk menentukan nilai K?
c. Bagaimana keberhasilan proses clustering dilihat dari akurasi ground truth
hasil clustering k-means?

1.3 Tujuan Penelitian


Berdasarkan rumusan masalah yang dibuat di atas, maka tujuan dari penelitian
ini adalah:
a. Mengetahui nilai K yang disarankan oleh metode pendekatan elbow dan
silhouette.
b. Mengetahui metode pendekatan mana yang paling ideal antara elbow atau
silhouette.
c. Mengetahui keberhasilan proses clustering yang dilihat dari akurasi
ground truth hasil clustering k-means.

1.4 Manfaat Penelitian


Berdasarkan rumusan masalah yang dibuat di atas, maka manfaat dari
penelitian ini adalah:
a. Manfaat dari penelitian ini bagi peneliti adalah untuk mengimplementasikan
ilmu Informatika terutama yang berkaitan dengan pemrosesan citra pada
suatu aksara.
b. Manfaat dari penelitian ini bagi universitas adalah dapat memberikan
kontribusi penambahan ilmu pengetahuan, khususnya bagi prodi
Informatika serta menjadi bahan bacaan di perpustakaan Universitas dan
dapat memberikan referensi bagi mahasiswa lain.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

1.5 Batasan Penelitian


Batasan – batasan masalah pada penyusunan penelitian ini adalah sebagai
berikut:
1. Data yang digunakan adalah hasil dari scan halaman dari buku Hamong
Tani (Holle, 1876).
2. Ekstraksi ciri yang digunakan adalah IoC dengan ukuran 3x3, 4x4, dan
5x5.
3. Masukan data hanya berupa citra yang berformat .png.
4. Memfokuskan pencarian K optimal pada range sampai 120 saja.
5. Nilai SI hasil metode silhouette yang digunakan adalah ketika diatas 0,5.
6. Nilai distortion percent hasil metode elbow yang digunakan adalah ketika
diatas 0,9.

1.6 Sistematika Penulisan


BAB I PENDAHULUAN
Bab ini berisi tentang latar belakang, rumusan masalah, tujuan penelitian,
manfaat penelitian, batasan masalah, dan sistematika penulisan.

BAB II LANDASAN TEORI


Bab ini berisi tentang teori-teori dasar yang berkaitan dengan penelitian
yang akan dilakukan, yang meliputi dari objek yang digunakan, metode
preprocessing yang digunakan, segmentasi yang digunakan, ekstraksi ciri
yang digunakan, dan clustering yang digunakan.

BAB III METODE PENELITIAN


Bab ini berisi tentang langkah-langkah yang dilakukan dalam penelitian
yang bertujuan untuk menjawab dan menyelesaikan rumusan masalah
yang dimiliki.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

BAB IV HASIL PENELITIAN DAN ANALISIS


Bab ini berisi tentang penjelasan mengenai sistem yang akan dibangun,
penerapan algoritma serta rancangan yang telah dibuat, cara penggunaan
sistem, serta hasil analisa dari pengujian-pengujian yang dilakukan.

BAB V KESIMPULAN DAN SARAN


Bab ini berisi kesimpulan dari hasil penelitian serta saran yang diusulkan
untuk dapat mengembangkan penelitian ini.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

BAB II LANDASAN TEORI


2.1 Aksara Jawa

Aksara Jawa terdiri dari 20 aksara pokok (legena) yang bersifat


kesukukataan. Sifat penulisan aksara Jawa ditulis dari kiri ke kanan dan
ditulis secara bersambung tanpa spasi antar kata. Menurut Hadiprijono(2013)
aksara Jawa terdiri dari 20 aksara, yaitu dari aksara ha sampai nga adalah
seperti pada Gambar 2.1.

Gambar
Gambar
2.13.201 Aksara
20 Aksara
Pokok
Jawa Pokok
Gambar 2.1 merupakan aksara dasar atau pokok yang berjumlah
sebanyak 20 aksara. Aksara pokok atau sering disebut legena memiliki arti
aksara wuda (telanjang) sebab belum diikuti dengan sandhangan. Selain
aksara pokok (legena), aksara vokal (swara), aksara rekaan (rekan),
pengubah bunyi (sandhangan), penutup konsonan (pasangan), penutup
suku kata (sigeg), angka (wilangan), dan tanda baca. Aksara sandhangan
adalah aksara yang dipakai untuk mengubah bunyi dari aksara yang
diikutinya. Secara khusus, aksara sandhangan tersebut dibagi ke dalam 4
jenis, yaitu 5 sandhangan swara, 3 sandhangan penyigeg wanda, 3
sandhangan wyanjana, dan sandhangan pangkon. Untuk sandhangan
swara terdiri dari 5 aksara, seperti pada Gambar 2.2.

5
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Gambar 2.2 Aksara Sandhangan


Gambar 2.2 merupakan kumpulan dari sandhangan swara, yaitu
terdiri dari wulu, suku, taling, taling-tarung, dan pepet. Masing-masing
sandhangan mempunyai karakteristik tersendiri dalam mengubah bunyi
suatu aksara yangdiikutinya, yaitu wulu akan membuat suku kata menjadi
bunyi vokal /i/, sukuakan membuat suku kata menjadi bunyi vokal /u/, taling
akan membuat suku kata menjadi bunyi vokal /é/, taling-tarung akan
membuat suku kata menjadibunyi vokal /o/, dan pepet akan membuat suku
kata menjadi bunyi vokal /ê/.Sebagai contoh, untuk membentuk kata “siji”
berarti harus menambahkan wulu pada aksara sa dan ja untuk mengubah
bunyinya menjadi si dan ji. Selanjutnya, sandhangan panyigeg wanda
terdiri 3 aksara seperti Gambar 2.3.

Gambar 2.3 Aksara Penyigeg Wanda


Gambar 2.3 adalah sandhangan panyigeg wanda yang terdiri dari
layar, wignyan, dan cecak. Sigeg artinya pembuat konsonan atau penutup
suku kata sedangkan wanda artinya suku kata. Fungsi sandhangan layar
akan memberibunyi /r/, wignyan akan memberi bunyi /h/, dan cecak akan
membuat bunyi /ng/ pada suku kata yang diikutinya. Sebagai contoh, untuk
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

membentuk kata “gajah” maka dapat ditulis dengan aksara ga dan ja


kemudian diberi sandhangan wignyan yang akan memberi konsonan atau
akhiran h. Jenis sandhangan berikutnya adalah sandhangan wyanjana yang
terdiri dari 3 aksara seperti Gambar 2.4.

Gambar 2. 4 Sandhangan Wyanjana


Gambar 2.4 adalah contoh dari sandhangan wyanjana yang terdiri dari
cakra, keret, dan pengkal. Sandhangan wyanjana merupakan penanda dari gugus
konsonan, yakni cakra akan memberikan sisipan kata /ra/, keret akan memberikan
sisipan kata /re/ dan pengkal akan memberikan sisipan kata /ya/ pada masing-
masing aksara yang diikutinya. Sebagai contoh pada Gambar 2.4 untuk
membentuk kata “putra” maka dapat ditulis dengan aksara pa yangdiberi suku lalu
aksara ta tang diberi cakra. Jenis sandhangan terakhir adalah,sandhangan pangkon.

Gambar 2.5 Sandhangan Pangkon


Gambar 2.5 adalah sandhangan pangkon. Fungsi pangkon adalah sebagai
penutup suku kata atau membentuk konsonan pada suku kata yang berada di
depannya. Sebagai contoh, ketika ingin membentuk kata “tangan” maka dapatditulis
dengan aksara ta, nga, dan na yang diberi pangkon sehingga menjadi konsonan n.
Selain aksara pokok, dalam penulisan aksara Jawa juga terdapat aksarapasangan.
Jumlah dan bunyi aksara pasangan sama seperti aksara legena, yaitu berjumlah 20
dan terdiri dari ha sampai nga. Berikut ini adalah contoh dari aksara pasangan.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Gambar 2.6 Aksara Pasangan


Gambar 2.6 adalah contoh dari aksara pasangan. Hanya terdapat 3 aksara
saja yang ditulis sejajar dengan legena, yaitu pasangan ha, pasangan sa, dan
pasangan pa, selain itu penulisan pasangan ditulis di bawah legena. Fungsi dari
aksara pasangan adalah pembentuk konsonan atau penutup suku kata sehingga
suku kata yang diberi pasangan dapat digabungkan dengan aksara selanjutnya.

Aksara berikutnya adalah aksara wilangan, yakni aksara yang


mempresentasikan angka. Berikut adalah aksara wilangan yang dapat dilihat
melalui Gambar 2.7.

Gambar 2.7 Aksara Wilangan


PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Gambar 2.7 merupakan kumpulan aksara wilangan. Dengan


adanya aksara wilangan maka bentuk-bentuk angka yang ditulis dapat
dipenuhi.

2.2 Pengertian Citra

Citra adalah kombinasi antara titik, garis, bidang, dan warna untuk
menciptakan suatu objek-biasanya objek fisik atau manusia. Citra didefinisikan
sebagai suatu fungsi kontinu dalam dua dimensi dari intensitas cahaya (Gonzalez
& Woods, 2002). Setiap titik citra dapat dinyatakan dalam rumus matematis :

0 < 𝑓(𝑥, 𝑦) < ∞ …………………………………..(2.1)

Variabel f(x,y) adalah intensitas cahaya pada citra yang terletak dilokasi (x,y).

Citra digital dapat diartikan sebagai suatu matriks yang terdiri atas baris dan
kolom, di mana setiap elemennya merupakan nilai intensitas kecerahan. Titik dari
setiap matriks dinamakan dengan piksel. Citra digital merupakan kumpulan dari
piksel dengan jumlah piksel tertentu.

2.3 Pemrosesan Citra

Pemrosesan citra merupakan metode-metode yang digunakan untuk


mengolah citra digital agar citra tersebut memiliki kualitas yang lebih baik,
sehingga dapat ditafsirkan oleh manusia atau mesin. Konsep dasar yang ada dalam
setiap metode pemrosesan citra ini adalah memodifikasi setiap piksel atau titik pada
bidang citra sesuai dengan keperluan yang dibutuhkan (Widiarti & Himamunanto,
2012).
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

10

2.4 Preprocessing

Tahapan preprocessing berguna untuk menyiapkan data seperti mengubah


ukuran citra, membuang noise, atau memisahkan latar belakang citra dengan
objeknya, sebelum citra tersebut masuk ke tahap selanjutnya. Pada tahapan ini, akan
banyak mengimplementasikan metode-metode pemrosesan citra dalam mengolah
citra aksara.

2.4.1. Binerisasi

Binerisasi adalah tahapan dimana citra dimensi dua akan diubah menjadi
citra hitam putih dengan dimensi satu dengan cara mengubah nilai elemen dalam
matriks citra menjadi 0 dan 1 dimana nilai 0 sebagai warna hitam dan 1 sebagai
warna putih. Tujuan utama dari proses ini adalah secara otomatis menentukan nilai
ambang treshold yang akan membagi citra dalam dua kelompok yaitu, kelompok
obyek dan kelompok latar belakang (Widiarti & Himamunanto, 2012).

2.4.2. Thinning

Thining merupakan suatu operasi dalam preprocessing, yang berfungsi


untuk mereduksi suatu obyek menjadi kerangka dari objek tersebut (Widiarti &
Himamunanto, 2012). Tujuan utama penipisan adalah menyederhanakan suatu
objek agar menjadi lebih sederhana dan tidak memakan memori terlalu besar.

2.4.3. Filtering

Filtering atau reduksi derau atau noise reduction merupakan tahapan


penting dalam pemrosesan citra karena mampu menghilangkan piksel-piksel yang
tidak dibutuhkan untuk mengurangi kesalahan dalam proses pengenalan obyek
(Widiarti & Himamunanto, 2012).
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

11

Bentuk derau bisa berupa suatu piksel yang letaknya terasing dari piksel
yang lain. Biasanya berbentuk titik hitam kecil dalam suatu gambar citra. Jika kita
tidak melakukan reduksi derau maka proses identifikasi akan terganggu oleh derau
tersebut.

2.5 Segmentasi

Segmentasi merupakan proses pemecahan citra untuk memperoleh objek-


objek yang terkandung dalam citra tersebut. Segmentasi terbagi menjadi dua tahap.
Tahap pertama adalah pemisahan objek dengan objek lain yang berada ada baris
yang sama, lalu tahap kedua yaitu mendapatkan huruf tersebut secara individu
dengan mendapatkan kolom-kolom karakter citra aksara dari baris yang telah
dipotong pada tahap pertama.

2.5.1. Profil Proyeksi

Profil proyeksi merupakan bagian dari segmentasi citra yang berfungsi


memisahkan latar belakang dengan objek dengan memotong secara vertikal dan
horisontal. Proyeksi vertikal digunakan untuk mengambil kolom dari citra,
sedangkan proyeksi horisontal berfungsi untuk mengambil baris dari citra.

2.5.2. Resize

Resize citra merupakan bagian dari segmentasi citra yang berfungsi


mengubah resolusi atau citra mengubah ukuran piksel vertikal dan horisontal.
Adakalanya ukuran file berubah setelah resize menjadi lebih kecil atau menjadi
lebih besar sesuai dengan resolusinya.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

12

2.6 Ekstraksi Ciri

Ekstraksi ciri merupakan suatu proses pengambilan ciri atau informasi yang
berada pada suatu obyek. Hal ini dilakukan untuk mempermudah dalam proses
pencarian informasi tentang obyek tersebut. Proses ektraksi ciri pada citra digital
dilakukan dengan menemukan karakteristik dari suatu citra yang biasanya
ditemukan dalam bentuk citra tersebut.

2.6.1. Intensity of Character

Intensity of Character merupakan salah satu metode yang digunakan dalam


proses ektraksi ciri. Intensity of character berbentuk matriks ukuran NxN, yang
mana setiap unit 1x1 nya berisikan n piksel hasil penjumlahan piksel yang bernilai
0 (hitam). Pada proses ini data citra akan dibagi menjadi beberapa segmen yang
lebih kecil. Proses ini bertujuan untuk mempermudah dalam pencirian data. Sebagai
contoh sederhana, berikut merupakan proses gambaran untuk mendapatkan ciri IoC
berukuran 3x3:

a. Terdapat Citra berukuran sebesar 9x9, maka untuk setiap unit IoC 1x1
nya akan mencakup matrix sebesar 3x3.

Tabel 2.1 Tabel Representasi Data Citra berukuran 9x9


1 1 0 0 1 1 0 1 0

1 0 1 1 0 0 1 1 1

1 1 1 1 1 1 1 0 0

1 0 1 1 0 1 0 1 1

0 0 0 0 1 1 0 0 0

1 1 1 0 1 1 0 1 1

1 1 1 0 1 0 1 1 1
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

13

0 0 1 1 0 1 1 0 1

0 1 1 0 1 1 1 1 1

b. Untuk setiap unit 1x1, akan menyimpan nilai yang merupakan banyaknya
anggota piksel berwarna hitam untuk setiap area 3x3nya. Berikut adalah
bentuk IoC 3x3 tersebut ketika telah dilakukannya penjumlahan untuk
setiap unit nya.

Tabel 2.2 Hasil IoC 3x3


2 3 4

4 3 5

3 4 1

2.7 K-means Clustering

K-means clustering adalah metode untuk mengelompokan objek ke dalam


K kelompok dengan K adalah jumlah kelompok yang diinginkan. Dalam
penghitungan K-means dimulai dengan kelompok pertama centroid. Centroid
adalah titik pusat data, dimana centroid ini dapat ditentukan secara random sesuai
dengan kebutuhan atau bergantung dari data yang digunakan.

Pada K-means terdapat beberapa langkah yang harus dilakukan


yaitu:

1. Tentukan jumlah cluster

2. Alokasikan data ke dalam cluster

3. Hitung centroid/rata-rata dari data yang ada di masing-


masing cluster
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

14

4. Hitung perhiyungan jarak lalu alokasikan masing-masing data


ke centroid

5. Kembali ke Step 3, apabila masih ada data yang berpindah


cluster atau apabila perubahan nilai centroid.

Secara rinci tahap-tahap diatas dapat dijabarkan pada contoh berikut


ini.

Misal ada 4 data di Tabel 2.3 yang ingin dipisahkan menjadi 2 buah
cluster dari data.

Tabel 2.3 Data Clustering

N Ciri 1 Ciri 2 Ciri 3 Ciri 4

1 1 1 2 1

2 2 1 2 2

3 4 3 3 2

4 5 4 1 5

1. Dipilih jumlah cluster sebanyak 2.

2. Alokasikan data kedalam cluster.

N Ciri 1 Ciri 2 Ciri 3 Ciri 4 Cluster

1 1 1 2 1 1

2 2 1 2 2 1

3 4 3 3 2 2

4 5 4 1 5 2
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

15

3. Pencarian centroid secara random.

Tabel 2.4 Centroid Random


C1 1 1 2 1

C2 2 1 2 2

Disini kita menggunakan data 1 dan 2 sebagai centroid awal pada 2


cluster.

4. Melakukan perhitungan jarak dengan centroid

Perhitungan jarak dilakukan dengan menggunakan rumus jarak


Euclidean yaitu dengan rumus :

𝑑(𝑥, 𝑦) = √∑𝑛𝑖= 1(𝑥𝑖 − 𝑦𝑖 )2 ………….( 2.2)

Dimana,

𝑑 = jarak antara x dan y

𝑥 = data pusat klaster

𝑦 = data pada atribut

Iterasi 1

d(x1,c1) = √(1 − 1)2 + (1 − 1)2 + (2 − 2)2 + (1 − 1)2 = 0

d(x2,c1) = √(2 − 1)2 + (1 − 1)2 + (2 − 2)2 + (2 − 1)2 = 1,414214

d(x3,c1) = √(4 − 1)2 + (3 − 1)2 + (3 − 2)2 + (2 − 1)2 = 3,872983

d(x4,c1) = √(5 − 1)2 + (4 − 1)2 + (1 − 2)2 + (5 − 1)2 = 6,480741

d(x1,c2) = √(1 − 2)2 + (1 − 1)2 + (2 − 2)2 + (1 − 2)2 = 1,414214

d(x2,c2) = √(2 − 2)2 + (1 − 1)2 + (2 − 2)2 + (2 − 2)2 = 0


PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

16

d(x3,c2) = √(4 − 2)2 + (3 − 1)2 + (3 − 2)2 + (3 − 2)2 = 3

d(x4,c2) = √(5 − 2)2 + (4 − 1)2 + (1 − 2)2 + (5 − 2)2 = 5,291503

maka didapatkan hasil tabel berikut :

Tabel 2.5 Hasil Iterasi 1


Data Hasil Euclidean C1 Hasil Euclidean C2 C1 C2

1 0 1,414214 v

2 1,414214 0 v

3 3,872983 3 v

4 6,480741 5,291503 v

Dari tabel diatas kita mencari minimum dari jarak data ke


setiap centroid cluster dan dimasukan sementara pada cluster yang
ada. Dimana data 1 masuk ke C1 dan data 2 sampai 4 masuk ke C2.

5. Pencarian centroid baru

Pencarian nilai centroid baru didasarkan pada rumus berikut :

∑𝑛
𝑖=1 𝑥𝑖 ∈ 𝑠𝑖
𝐶𝑖 = …………………..( 2.3)
𝑛

Dimana,

𝐶𝑖 = Centroid baru ke i

𝑠𝑖 = obyek ke i

𝑥𝑖 = nilai pada obyek ke i

𝑛 = jumlah data pada tiap kelompok atau cluster


PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

17

Maka, hasil centroid baru pada iterasi 1 adalah sebagai


berikut :

Tabel 2.6 Hasil Centroid Iterasi 1


C1 1 1 2 1

C2 3,666666667 2,666666667 2 3

Selanjutnya adalah menghitung nilai jarak dan centroid baru


sampai dengan data dalam cluster tidak ada yang berpindah lagi.
Dianggap centroid telah stabil jika tidak ada perubahan dalam nilai-
nilai mereka karena pengelompokan telah berhasil.

Iterasi 2 :

Tabel 2.7 Hasil Iterasi 2


Data Hasil Euclidean C1 Hasil Euclidean C2 C1 C2

1 0 3,72678 v

2 1,414214 2,560382 v

3 3,872983 1,490712 v

4 6,480741 2,924988 v

Tabel 2.8 Hasil Centroid Iterasi 2


C1 1,5 1 2 1,5

C2 4,5 3,5 2 3,5


PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

18

Iterasi 3 :

Tabel 2.9 Hasil Iterasi 3


Data Hasil Euclidean C1 Hasil Euclidean C2 C1 C2

1 0,707107 4,974937 v

2 0,707107 3,840573 v

3 3,391165 1,936492 v

4 5,87367 1,936492 v

Tabel 2.10 Hasil Centroid Iterasi 3


C1 1,5 1 2 1,5

C2 4,5 3,5 2 3,5

Hasil pada Tabel 2.10 tidak ditemukan data yang berpindah


sehingga iterasi selesai. Hasil yang didapatkan cluster 1 adalah data
1 dan 2 sementara itu cluster 2 adalah data 3 dan 4.

2.8 Metode Elbow

Metode Elbow adalah salah satu metode yang digunakan untuk menentukan
jumlah cluster terbaik melalui perbandingan hasil persentase antara jumlah cluster
yang akan membentuk siku pada suatu titik. Jika perbandingan nilai cluster pertama
dengan nilai cluster kedua menghasilkan sudut dalam grafik atau nilainya
mengalami penurunan paling besar maka jumlah nilai cluster tersebut yang tepat.

Untuk mendapatkan perbandingannya adalah dengan menghitung Sum of


Square Error (SSE) dari masing-masing nilai cluster. Karena semakin besar jumlah
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

19

nilai cluster K, maka nilai SSE akan semakin kecil (Dewi & Pramita, 2019).
Berikut rumus persamaan SSE :

𝑆𝑆𝐸 = ∑𝐾 2
𝐾=1 ∑ |𝑥𝑖 − 𝑐𝑘 | ……………..….……..(2.4)

Keterangan:

K = cluster ke-c

𝑥𝑖 = jarak data obyek ke-i

𝑐𝑘 = pusat cluster ke-i

Contoh hitung Elbow :

Data

1 2 3 4 5 6 7 8 9 10

98 97,8 97 98,2 99,4 97,6 99,2 98,4 98,7 97,9

a. Hitung rata2 semua data

98 + 97,8 + 97 + 98,2 + 99,4 + 97,6 + 99,2 + 98,4 + 98,7 + 97,9


= 98,22
10

b. Menghitung deviasi semua data dengan rumus 2.4

Setelah didapatkan rata-rata semua data maka langkah


selanjutnya adalah menghitung deviasi dimana nilai pada data akan
dikurang dengan rata rata.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

20

Penghitungan Deviasi Deviasi^2

98 – 98,22 -0,22 0,0484

97,8 – 98,22 -0,42 0,1764

97 – 98,22 -1,22 1,4884

98,2 – 98,22 -0,02 0,0004

99,4 – 98,22 1,18 1,3924

97,6 – 98,22 -0,62 0,3844

99,2 – 98,22 0,98 0,9604

98,4 – 98,22 0,18 0,0324

98,7 – 98,22 0,48 0,2304

97,9 – 98,22 0,32 0,1024

c. Menghitung SSE

SSE didapatkan dengan menjumlah seluruh hasil deviasi^2.

0,0484 + 0,1764 + 1,4884 + 0,0004 + 1,3924 + 0,3844


+ 0,9604 + 0,0324 + 0,2304 + 0,1024
= 4,816

Untuk perhitungan dataset ini didapatkan nilai SSE sebesar 4,816. Hasil
ini biasanya akan dibandingkan dengan SSE dari dataset lain dan kemudian
akan dipilih yang paling minimum karena jika semakin kecil errornya maka
data akan dianggap baik.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

21

2.9 Metode Silhouette

Metode Silhouette Coefficient merupakan gabungan dari metode cohesion


dan separation. Metode ini sering digunakan untuk melihat kualitas dan kekuatan
cluster yaitu seberapa baik suatu objek ditempatkan dalam suatu cluster. Selain itu
dapat juga digunakan untuk mengukur seberapa dekat relasi antara objek dalam
sebuah cluster. Metode separation yang berfungsi untuk mengukur seberapa jauh
sebuah cluster terpisah dengan cluster lain.

Tahapan perhitungan Silhouette Coefficient adalah sebagai berikut:

A. Hitung rata-rata jarak dari suatu objek misalkan i dengan semua


objek lain yang masih berada dalam satu cluster

1
𝑎(𝑖) = |𝐴|−1 ∑ 𝑗 ∈𝑎,𝑗=1 𝑑(𝑖, 𝑗)……..………….( 2.5)

dengan j adalah objek lain yang berada dalam satu cluster A


dan d(i,j) adalah jarak antara objek i dengan j.

B. Hitung rata-rata jarak dari objek i tersebut dengan semua objek


yang berada di cluster lain, dan diambil nilai paling minimumnya.

1
𝑑(𝑖, 𝐶) = |𝐴| ∑ 𝑗 ∈ 𝐶 𝑑(𝑖, 𝑗)………………..(2.6)

d(i,C) adalah jarak rata-rata objek i dengan semua objek pada


cluster lain C dimana A ≠ C.

𝑑(𝑖, 𝐶) = 𝑚𝑖𝑛 𝐶 ≠ 𝐴𝑑(𝑖, 𝑗)………..……….(2.7)

C. Nilai Silhouette Coefficient nya adalah :

𝑏(𝑖)−𝑎(𝑖)
𝑠(𝑖) = 𝑚𝑎𝑥 (𝑎(𝑖),𝑏(𝑖))…………………( (2.8)
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

22

Nilai yang didapat dari metode silhouette coefficient terletak pada


kisaran nilai -1 hingga 1. Jika nilai silhouette coefficient mendekati
nilai 1, maka semakin baik pengelompokan objeknya dalam satu
cluster. Sebaliknya jika silhouette coefficient mendekati nilai -1,
maka semakin buruk pengelompokan objeknya didalam satu cluster.

Contoh hitung Silhouette :

Tabel 2.11 Contoh Data Silhouette


Data Ciri 1 Ciri 2 Ciri 3 Ciri 4 Cluster

1 2 1 2 1 1

2 2 1 2 2 1

3 3 2 3 2 2

4 4 3 2 1 2

Menghitung nilai 𝑎𝑖 masing-masing data menggunakan rumus 2.5

a. Data 1 cluster 1:

d(data 1, data 2) =
√(2 − 2)2 + (1 − 1)2 + (2 − 2)2 + (1 − 2)2 = 1

nilai 𝑎𝑖 = 1/(2-1) = 1

b. Data 2 cluster 1:

d(data 2, data 1) =
√(2 − 2)2 + (1 − 1)2 + (2 − 2)2 + (2 − 1)2 = 1

nilai 𝑎𝑖 = 1/(2-1) = 1
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

23

c. Data 3 cluster 2:

d(data 3, data 4) =
√(3 − 4)2 + (2 − 3)2 + (3 − 2)2 + (2 − 1)2 = 2

nilai 𝑎𝑖 = 2/(2-1) = 2

d. Data 4 cluster 2:

d(data 4, data 3) =
√(4 − 3)2 + (3 − 2)2 + (2 − 3)2 + (1 − 2)2 =
2,645751

nilai 𝑎𝑖 = 2,645751/(2-1) = 2,645751

Menghitung nilai 𝑏𝑖 masing-masing data dengan menggunakan


rumus 2.7

a. Data 1 cluster 1:

d(data 1, data 3) =
√(2 − 3)2 + (1 − 2)2 + (2 − 3)2 + (1 − 2)2 = 2

d(data 1, data 4) =
√(2 − 4)2 + (1 − 3)2 + (2 − 2)2 + (1 − 1)2 =
2,828427

nilai 𝑏𝑖 = (2,828427 – 2)/2 = 1,828427

b. Data 2 cluster 1:

d(data 2, data 3) =
√(2 − 3)2 + (1 − 2)2 + (2 − 3)2 + (2 − 2)2 =
1,732051

d(data 2, data 4) =
√(2 − 4)2 + (1 − 3)2 + (2 − 2)2 + (2 − 1)2 = 3
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

24

nilai 𝑏𝑖 = (3 – 1,732051)/2 = 2,133975

c. Data 3 cluster 2:

d(data 3, data 1) =
√(3 − 2)2 + (2 − 1)2 + (3 − 2)2 + (2 − 1)2 = 2

d(data 3, data 2) =
√(3 − 2)2 + (2 − 1)2 + (3 − 2)2 + (2 − 2)2 =
1,732051

nilai 𝑏𝑖 = (1,732051-2)/2 = 0,866026

d. Data 4 cluster 2:

d(data 4, data 1) =
√(4 − 2)2 + (3 − 1)2 + (2 − 2)2 + (1 − 1)2 =
2,828427

d(data 4, data 2) =
√(4 − 2)2 + (3 − 1)2 + (2 − 2)2 + (1 − 2)2 =

nilai 𝑏𝑖 = (3 – 2,828427)/2 = 1,585786

Menghitung nilai Si(Silhouette data) menggunakan rumus 2.8

a. Si data 1 = (1,828427-1)/1,828427 = 0,453082

b. Si data 2 = (2,133975-1)/ 2,133975 = 0,531391

c. Si data 3 = (0,866026-2)/ 0,866026 = -1,3094

d. Si data 4 = (1,585786-2,645751)/ 1,585786= -0,66842


PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

25

Menghitung nilai SI tiap Cluster

a. Si cluster 1 = (0,453082+0,531391) = 0,984473

b. Si cluster 2 = (-1,3094 + (-0,66842) = -1,97782

Menghitung nilai SI global

Si global = (0,984473 + (-1,97782)) = -0,99334

Dari 4 data didapatkan nilai SI global (SI Keseluruahan data) yaitu -


0,99334. Hal ini menunjukan bahwa hasil pengelompokan akan memiliki struktur
yang buruk.

Untuk menentukan kualitas dari cluster yang telah dibentuk, maka semua
nilai silhouette dari semua data yang ada dalam cluster akan dijumlahkan lalu
dirata-rata. Berikut adalah kriteria penilaian suatu cluster menurut Kaufmann &
Roesseeuw(1990).

Tabel 2.12 Rentang nilai Silhouette Coefficient


Nilai Silhouette Coefficient Kualitas

0,71 – 1,00 Struktur yang kuat telah terbentuk

0,51 – 0,70 Struktur yang layak telah terbentuk

0,26 – 0,50 Struktur lemah

≤ 0,25 Struktur buruk

2.10 Nilai Ground Truth

Nilai ground truth merupakan salah satu cara validasi. Nilai ground
truth digunakan sebagai tolak ukur lain untuk mengukur akurasi dari suatu
proses yang dilakukan oleh mesin. Pada kasus clustering yang dengan nilai
ground truth adalah mengecek nilai kebenaran dari cluster yang telah
terbentuk dari proses clustering.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

26

Cara untuk menghitung nilai ground truth pada kasus clustering


aksara berpatokan pada rumus berikut ini:

𝑗𝑢𝑚𝑙𝑎ℎ 𝑎𝑘𝑠𝑎𝑟𝑎 𝑏𝑒𝑛𝑎𝑟


𝐺𝑟𝑜𝑢𝑛𝑑 𝑇𝑟𝑢𝑡ℎ = ………..……….(2.9)
𝑗𝑢𝑚𝑙𝑎ℎ 𝑎𝑘𝑠𝑎𝑟𝑎

Rumus 2.9 bertujuan untuk menghitung nilai kebenaran dari proses


clustering dengan cara menghitung jumlah aksara yang benar sesuai dengan
kelompoknya lalu dibagi dengan jumlah keseluruhan data aksara.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

BAB III METODE PENELITIAN

3.1 Deskripsi Data

Set data mentah dalam penelitian ini diperoleh dari scan halaman dari buku
Hamong Tani (Holle, 1876). Data yang dipakai adalah aksara Jawa yang terdapat
pada halaman buku Hamong Tani. Banyak halaman yang digunakan adalah
sebanyak 2 halaman yaitu halaman 2 dan 59 hal ini berdasarkan dari pertimbangan
waktu yang diperlukan untuk mengolah data, banyak total data, dan pengerjaan
penelitian. Data yang nanti akan diolah akan dipotong sendiri-sendiri sehingga
aksara pokok akan terpisah dengan pasangan, angka, dan juga tanda baca.

Gambar 3.1 Halaman 2 buku Hamong Tani (Holle, 1876)

27
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

28

Gambar 3.2 Halaman 59 buku Hamong Tani (Holle, 1876)

Pada Gambar 3.2 terdapat gambar bagian sisi kiri yang akan menyulitkan
proses segmentasi sehingga yang dilakukan adalah memotong gambar tersebut
sehingga hanya menyisahkan aksaranya saja.

Namun, set data yang diperoleh tersebut tidak dapat langsung diproses. Hal
ini dikarenakan harus dilakukan proses cropping terlebih dahulu dan juga masih
adanya noise yang terdapat pada tiap aksara sehingga harus dibersihkan.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

29

Gambar 3.3 Contoh Citra Hasil Crop


Gambar 3.3 merupakan contoh data citra setelah cropping manual yang
masih mengandung banyak noise berupa bintik hitam yang terdapat ditengah-
tengah. Noise tersebut seharusnya tidak ada maka perlu dihilangkan untuk
memperoleh data yang bersih untuk mempermudah proses selanjutnya.

Tabel 3.1 Hasil Segmentasi Aksara pertama halaman 2

Pada Tabel 3.1 menunjukan hasil pemotongan yang memisahkan data


aksara pokok akan dengan pasangan, angka, dan juga tanda baca.

3.2 Pengolahan Data

Sebelum data akan dikelompokan dan diambil cirinya maka perlu adanya
pengolahan data. Pengolahan data dimulai dengan memasukan data citra hasil scan
halaman buku Hamong Tani ke matlab. Lalu data akan dibersihkan melalui proses
preprocessing dimana data citra yang hasil scan akan melalui berbagai tahap
preprocessing. Adapun tahap preprocessing tersebut adalah binerisasi, invers,
filtering, invers kembali. Hasil preprocessing adalah data citra yang sudah bersih
dan siap untuk disegmentasi. Dalam proses segmentasi citra akan dipotong per
karakter dengan profil projeksi ditambah dengan bwlabel dan kemudian di resize
ukurannya menjadi 33x33, 88x88, dan 60x60 lalu di thinning. Setelah itu data akan
di ekstraksi cirinya dengan ukuran IoC 3x3, 4x4, dan 5x5. Setelah diperoleh ciri
dari tiap data maka akan masuk ke proses clustering.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

30

3.3 Contoh Perhitungan 10 Data Dummy

Diambil 10 data dari total 597. Dari 10 data tersebut 3 data adalah pepet, 5
data adalah sa, dan 2 data adalah ma.

Gambar 3.4 Data Dummy Berjumlah 10

Dari 10 data tersebut diambil cirinya

Tabel 3.2 Ciri IoC 3x3 10 Data Dummy

Aksara Ciri 1 Ciri 2 Ciri 3 Ciri 4 Ciri 5 Ciri 6 Ciri 7 Ciri 8 Ciri 9
Pepet 1 8 15 21 16 0 13 14 18 24
Pepet 2 7 15 22 23 0 18 7 11 25
Pepet 3 6 16 22 20 0 13 8 25 20
Ta 1 16 22 17 20 11 11 27 24 19
Ta 2 22 22 16 23 13 16 27 23 14
Ta 3 22 22 17 22 11 16 29 24 14
Ta 4 14 22 19 22 11 15 24 25 15
Ta 5 16 22 17 22 13 15 27 22 14
Ma 1 12 14 14 13 16 12 24 26 16
Ma 2 15 15 14 13 10 11 21 25 21
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

31

1. Proses K-Means

a. Dipilih 3 awal centroid yaitu pepet 1, ta 2, dan ma 1.

Tabel 3.3 Centroid Awal

Centroid Ciri 1 Ciri 2 Ciri 3 Ciri 4 Ciri 5 Ciri 6 Ciri 7 Ciri 8 Ciri 9
Pepet 1 8 15 21 16 0 13 14 18 24
Ta 2 22 22 16 23 13 16 27 23 14
Ma 1 12 14 14 13 16 12 24 26 16

b. Hasil Iterasi 1, Penghitungan jarak menggunakan rumus euclidean.


Data pepet masuk ke cluster 1, data ta masuk ke cluster 2, dan data
ma masuk ke cluster 3.

Tabel 3.4 Hasil Iterasi 1

X1 X2 X3 C1 C2 C3
0 28.12472222 23.66431913 v
13.22875656 33.88214869 32.81767816 v
11.09053651 30.2654919 26.13426869 v
22.36067977 10.04987562 13.6381817 v
28.12472222 0 17.74823935 v
28.0713377 3.31662479 18.11077028 v
21.9089023 9.643650761 14.49137675 v
24.95996795 6.32455532 14.73091986 v
23.66431913 17.74823935 0 v
17.8325545 18.02775638 9.055385138 v
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

32

c. Lalu menghitung centroid baru yang akan digunakan di Iterasi 2

Tabel 3.5 Centroid Baru

Centroid Ciri 1 Ciri 2 Ciri 3 Ciri 4 Ciri 5 Ciri 6 Ciri 7 Ciri 8 Ciri 9
Baru
c1 7 15.34 21.67 19.67 0 14.67 9.67 18 23
c2 18 22 17.2 21.8 11.8 14.6 26.8 23.6 15.2
c3 13.5 14.5 14 13 13 11.5 22.5 25.5 18.5

d. Menghitung jarak lagi dengan centroid baru. Hasil iterasi 2 sama


dengan hasil iterasi 1 dimana tidak ada perpidahan data sehingga
dianggap selesai dan terbentuk 3 cluster.

Tabel 3.6 Hasil Iterasi 2

X1 X2 X3 C1 C2 C3
6.12825877 24.72893043 20.45727255 v
9.08600878 31.49793644 30.17449254 v
8.076027626 26.95403495 23.5690475 v
25.18376902 5.95986577 12.1449578 v
29.8310055 4.911211663 17.3060683 v
30.16988933 5.011985634 17.53567792 v
23.35713072 5.469917732 13.91042774 v
25.40778533 3.117691454 14.7478812 v
26.6749987 15.04393566 4.527692569 v
21.499354 15.20263135 4.527692569 v

Dari hasil diatas dapat disimpulkan bahwa data 1, 2, dan 3 akan masuk ke cluster
1, lalu data 4, 5, 6, 7, dan 8 akan masuk ke cluster 2, serta data 9 dan 10 akan masuk
ke cluster 3 sehingga terbentuk 3 cluster.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

33

2. Proses Silhouette

a. Setelah didapatkan pengelompokan menjadi 3 kelompok akan dihitung SI


tiap datanya.

Tabel 3.7 Data Silhouette Hasil K-Means Clustering

8 15 21 16 0 13 14 18 24 Cluster 1
7 15 22 23 0 18 7 11 25 Cluster 1
6 16 22 20 0 13 8 25 20 Cluster 1
16 22 17 20 11 11 27 24 19 Cluster 2
22 22 16 23 13 16 27 23 14 Cluster 2
22 22 17 22 11 16 29 24 14 Cluster 2
14 22 19 22 11 15 24 25 15 Cluster 2
16 22 17 22 13 15 27 22 14 Cluster 2
12 14 14 13 16 12 24 26 16 Cluster 3
15 15 14 13 10 11 21 25 21 Cluster 3
b. Menghitung jarak tiap data ke data yang lain dengan rumus euclidean.

Tabel 3.8 Penghitungan Jarak Antar Data

Data 1 Data 2 Data 3 Data 4 Data 5 Data 6 Data 7 Data 8 Data 9 Data 10

Data 1 0.00 13.23 11.09 22.36 28.12 28.07 21.91 24.96 23.66 17.83
Data 2 13.23 0.00 16.06 30.64 33.88 34.63 28.69 31.24 32.82 28.02
Data 3 11.09 16.06 0.00 25.48 30.27 30.48 22.78 27.28 26.13 21.66
Data 4 22.36 30.64 25.48 0.00 10.05 9.70 7.35 7.28 13.64 12.25
Data 5 28.12 33.88 30.27 10.05 0.00 3.32 9.64 6.32 17.75 18.03
Data 6 28.07 34.63 30.48 9.70 3.32 0.00 9.80 7.00 18.11 18.11
Data 7 21.91 28.69 22.78 7.35 9.64 9.80 0.00 5.57 14.49 14.76
Data 8 24.96 31.24 27.28 7.28 6.32 7.00 5.57 0.00 14.73 16.09
Data 9 23.66 32.82 26.13 13.64 17.75 18.11 14.49 14.73 0.00 9.06
Data 10 17.83 28.02 21.66 12.25 18.03 18.11 14.76 16.09 9.06 0.00
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

34

c. Menghitung ai tiap data dengan menghitung rata-rata nilai dikelompoknya


saja dan juga menghitung bi dimana akan menghitung rata-rata nilai dari
kelompok lainnya. Untuk bi akan dipilih yang paling kecil dari hasil yang
didapatkan.

Tabel 3.9 Penghitungan ai dan bi Data 1-5

ai 1 12.16 ai 2 9.76 ai 3 9.05 26.16 30.76


25.09 31.82 27.26 ai 4 6.87 ai 5 5.87
bi 1 20.75 bi 2 30.42 bi 3 23.90 bi 4 12.94 bi 5 17.89

Tabel 3.10 Penghitungan ai dan bi Data 6-10

31.06 24.46 27.83 27.54 22.50


ai 6 5.96 ai 7 6.47 ai 8 5.23 bi 9 15.74 bi 10 15.85
bi 6 18.11 bi 7 14.63 bi 8 15.41 ai 9 4.53 ai 10 4.53

d. Menghitung SI tiap data dengan cara 1 dikurang dengan ai dibagi bi

Tabel 3.11 Hasil SI Tiap Data

S(i) 1 0.4139487886
S(i) 2 0.6790128494
S(i) 3 0.621224377
S(i) 4 0.4688355832
S(i) 5 0.6720180009
S(i) 6 0.670804245
S(i) 7 0.5575933506
S(i) 8 0.6603673416
S(i) 9 0.7124160301
S(i) 10 0.7143205267
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

35

e. Menghitung akurasi silhouette dari hasil k-means 3 cluster ini dengan cara
menghitung rata-rata SI dari semua data.

Tabel 3.12 Hasil Akurasi Silhouette

Akurasi Silhouette
0.6170541093

Didapatkan hasil SI K = 3 ini sebesar 0,62 dimana dalam arti silhouette berarti
sudah membentuk struktur pengelompokan yang layak. Hasil ini akan dibuat
sebagai perbandingan dengan nilai SI cluster lainnya.

3. Proses Elbow

a. Dari hasil penghitungan jarak k-means pada iterasi ke 2 diambil nilai yang
menunjukan posisi cluster (paling kecil).

Tabel 3.13 Data Jarak K-Means Iterasi 2

6.12825877

9.08600878

8.076027626
5.95986577
4.911211663
5.011985634
5.469917732
3.117691454
4.527692569
4.527692569
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

36

b. Kemudian menjumlah seluruh jarak pada data yang terbagi menjadi 3


cluster.

Tabel 3.14 Penjumlahan Jarak 3 Cluster

Cluster 1 23.29029518
Cluster 2 24.47067225
Cluster 3 9.055385138

c. Lalu dicari distortionnya dengan menjumlah dari seluruh nilai jarak cluster.

Tabel 3.15 Hasil Distortion Elbow

Distortion 56.81635257

Didapatkan distortion untuk K=3 sebesar 56.81635257. Data distortion inilah yang
akan diolah untuk mencari nilai K terbaik dengan membandingkan nilai distortion
dari K lainnya.

3.4 Perancangan Sistem

Sistem ini akan lakukan pengelompokan citra aksara Jawa menggunakan


metode K-Means. Pengelompokan citra akan dilakukan berdasarkan kesamaan ciri
atau bentuk. Proses pertama adalah sistem akan membaca ciri citra aksara jawa
yang akan diproses dari input user. Setelah itu sistem akan melakukan clustering
dengan k-means lalu hasil clusteringnya akan dievaluasi dengan menggunakan 2
metode yaitu metode elbow dan juga metode silhouette. Hasil evaluasi tersebut akan
menjadi saran nilai K yang dinilai ideal antara 2 metode tersebut. Hasil clustering
kedua metode juga akan ditampilkan.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

37

Gambar 3.5 Diagram Perancangan Sistem

Terdapat banyak tahapan yang dilakukan pada penelitian ini. Yang pertama
kali dilakukan adalah pengumpulan data yang berupa buku hamong tani halaman 2
dan 59. Kemudian data itu akan dilakukan preprocessing guna mendapatkan data
yang bersih dan bagus. Setelah itu akan disegmentasi untuk mendapatkan tiap tiap
aksaranya. Lalu akan diambil ciri untuk tiap aksaranya dengan menggunakan
Intensity of Character. Data ciri kemudian akan dikelompokan menggunakan k-
means clustering yang mana akan menghasilkan jumlah cluster, idx, dan sumd.
Kemudian idx akan digunakan untuk evaluasi silhouette dan sumd akan digunakan
untuk evaluasi elbow. Hasil kedua metode tersebut akan dibandingkan untuk
mencari K terbaiknya.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

38

Gambar 3.6 Flowchart Penelitian


Flowchart pada Gambar 3.6 akan dijelaskan tiap tahapnya secara lengkap
dengan langkah-langkah sebagai berikut :
a. Preprocessing

Berdasarkan Flowchart pada Gambar 3.6, data yang berupa scan halaman
dari buku Hamong Tani akan diproses dengan berbagai metode preprocessing
seperti binerisasi, invers, filtering, dan invers kembali. Lalu data hasil
preprocessing tersebut akan siap diolah di tahap segmentasi.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

39

Gambar 3.7 Diagram Preprocessing


i. Input

Input yang akan diolah pada tahap ini adalah data aksara Jawa dari
halaman buku Hamong Tani.

ii. Output

Output dari tahap ini adalah data hasil preprocessing yang


merupakan data bersih dan siap dipakai untuk tahap selanjutnya.

iii. Algoritma

Pada tahap preprocessing, citra aksara jawa akan melalui berbagai


tahapan pemprosesan citra. Tahapan tersebut adalah :

1. Binerisasi Citra

Pada tahap ini mengubah citra tadi menjadi hanya memiliki


warna yang bernilai 0 (hitam) dan 1 (putih) saja. Pada tahapan
ini menggunakan function im2bw() yang merupakan function
dari MATLAB. Algoritma Binerisasinya yaitu :
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

40

1. Baca data citra yang akan diolah menggunakan function


imread dan akan disimpan pada sebuah variabel bernama
aksara.

2. Data yang tersimpan dalam variabel aksara akan diubah


menjadi citra hitam-putih dengan function im2bw. Lalu
hasil binerisasi akan disimpan pada variabel hasilbw.

2. Invers Citra

Pada tahap ini citra hasil binerisasi akan ditukar nilai


warnanya dimana nilai 0 (hitam) akan menjadi 1 (putih) dan nilai
1 (putih) akan menjadi 0 (hitam). Pada tahapan ini digunakan
function imcomplement() yang merupakan function dari
MATLAB.

1. Baca data citra yang akan diolah menggunakan function


imread dan akan disimpan pada sebuah variabel bernama
aksara.

2. Data yang tersimpan dalam variabel aksara akan diubah


menjadi citra hitam-putih dengan function im2bw. Lalu
hasil binerisasi akan disimpan pada variabel hasilbw.

3. Data citra yang tersimpan dalam variabel hasilbw akan


dilakukan proses invers dengan function imcomplement.
Lalu hasil binerisasi akan disimpan pada variabel
hasilinvers.

3. Filtering Citra

Pada tahap ini citra hasil invers akan difilter untuk


menghilangkan noise seperti noda bintik hitam yang terdapat
pada citra. Dalam kasus ini yang dihilangkan adalah bintik putih
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

41

karena citra telah melalui tahap invers sehingga nilai warnanya


tertukar. Pada tahapan ini digunakan function bwareaopen()
yang merupakan function dari MATLAB.

1. Baca data citra yang akan diolah menggunakan function


imread dan akan disimpan pada sebuah variabel bernama
aksara.

2. Data yang tersimpan dalam variabel aksara akan diubah


menjadi citra hitam-putih dengan function im2bw. Lalu
hasil binerisasi akan disimpan pada variabel hasilbw.

3. Data citra biner yang tersimpan dalam variabel hasilbw


akan dilakukan proses invers dengan function
imcomplement. Lalu hasil binerisasi akan disimpan pada
variabel hasilinvers.

4. Data citra hasil invers yang tersimpan dalam variabel


hasilinvers akan dilakukan proses filtering dengan
function bwareaopen. Lalu hasil filtering akan disimpan
pada variabel hasilfilter.

4. Invers Citra Kembali

Pada tahap ini citra hasil fitering akan ditukar kembali nilai
warnanya dimana nilai 1 (putih) akan menjadi 0 (hitam) dan nilai
0 (hitam) akan menjadi 1 (putih). Pada tahapan ini digunakan
function imcomplement() yang merupakan function dari
MATLAB.

1. Baca data citra yang akan diolah menggunakan function


imread dan akan disimpan pada sebuah variabel bernama
aksara.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

42

2. Data yang tersimpan dalam variabel aksara akan diubah


menjadi citra hitam-putih dengan function im2bw. Lalu
hasil binerisasi akan disimpan pada variabel hasilbw.

3. Data citra biner yang tersimpan dalam variabel hasilbw


akan dilakukan proses invers dengan function
imcomplement. Lalu hasil binerisasi akan disimpan pada
variabel hasilinvers.

4. Data citra hasil invers yang tersimpan dalam variabel


hasilinvers akan dilakukan proses filtering dengan
function bwareaopen. Lalu hasil filtering akan disimpan
pada variabel hasilfilter.

5. Data citra hasil filtering yang tersimpan dalam variabel


hasilfilter akan dilakukan proses invers kembali dengan
function imcomplement. Lalu hasil invers kembali akan
disimpan pada variabel hasilinverslagi.

b. Segmentasi

Berdasarkan Flowchart pada Gambar 3.6, data yang telah melalui proses
preprocessing akan diambil tiap aksaranya dengan mengunakan profil projeksi.
Setelah didapat semua aksaranya kemudian akan di resize lalu ditipiskan. Data tiap
aksara yang sudah tipis ini akan diambil cirinya pada tahap selanjutnya.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

43

Gambar 3.8 Diagram Segmentasi

i. Input

Input yang akan diolah pada tahap ini adalah data citra aksara jawa
yang merupakan hasil dari tahap preprocessing.

ii. Output

Output dari tahap ini adalah data hasil segmentasi yang merupakan
potongan aksara yang memiliki ukuran yang sama.

iii. Algoritma

Pada tahap segmentasi, citra aksara jawa akan melalui berbagai


tahapan pemprosesan citra. Tahapan tersebut adalah :

1. Profil Projeksi

Pada tahap ini citra yang telah selesai dipreprocessing akan


dipotong untuk mendapatkan bentuk karakter aksara secara utuh
per karakter. Pada tahapan ini digunakan function VerProj dan
bwlabel. Function bwlabel ini akan mengambil karakter yang
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

44

dilihat dari isi label yang terhubung dengan 8 titik hitam yang
ditemukan dibaris tersebut.

1. Baca data citra hasil preprocessing menggunakan


function imread dan akan disimpan pada sebuah variabel
bernama data.

2. Data citra tersimpan dalam variabel aksara akan


dilakukan pengambilan baris dengan function VerProj(). Lalu
hasilnya akan dimasukan ke excel untuk dibuat grafik.

3. Lalu dilakukan pengambilan karakter untuk tiap baris


menggunakan function bwlabel(). Hasilnya akan disimpan
kedalam folder menggunakan function imwrite().

2. Resize Citra

Pada tahap ini hasil semua segmentasi akan diubah


ukurannya. Tahap ini dilakukan agar seluruh data memiliki
ukuran yang sama sehingga mempermudah proses ekstraksi ciri.
Pada tahapan ini digunakan function imresize() yang merupakan
function dari MATLAB.

3. Penipisan Citra

Pada tahap ini citra yang telah diinvers kembali akan


ditipiskan. Hal ini bertujuan untuk mengambil bagian kerangka
saja dari tiap aksara dengan cara membuang bagian pixel yang
merupakan bagian tepi (edge) (Widiarti, 2011). Pada tahapan ini
digunakan function Rosenfeld().
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

45

1. Baca data citra hasil resize menggunakan function


imread dan akan disimpan pada sebuah variable bernama
aksara.

2. Data citra tersimpan dalam variabel aksara akan


dilakukan proses penipisan dengan function rosenfeld.
Lalu hasil penipisan akan disimpan pada variabel
hasiltipis.

c. Ekstraksi Ciri

Berdasarkan Flowchart pada Gambar 3.6, ditahapan ekstraksi ciri seluruh


data yang sudah ditipiskan hasil proses segmentasi akan diambil cirinya yang akan
digunakan dalam proses pengelompokan data. Pada proses ini, metode yang
digunakan adalah Intensity of Character (IoC).

Gambar 3.9 Diagram Ekstraksi Ciri

i. Input

Input yang akan diolah pada tahap ini adalah data citra aksara jawa
yang merupakan hasil dari tahap segmentasi sebanyak 597.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

46

ii. Output

Output dari tahap ini adalah data hasil ekstraksi ciri yang merupakan
array berisi matriks untuk tiap aksara.

iii. Algoritma

Pada tahap ekstraksi ciri, citra aksara jawa akan melalui


pengambilan ciri citra. Cara yang digunakan adalah :

Intensity of Character

Pada tahap ini data aksara yang telah melalui tahap


preprocessing dan segmentasi akan dilakukan proses ekstraksi ciri
dengan IoC. Perhitungan IoC dilakukan dengan mengubah matrik
hasil segmentasi menjadi matriks baru dengan ukuran NxN dengan
cara menambah jumlah piksel hitam sebanyak ukuran gambar dibagi
dengan ukuran matriks IoC. Banyak data citra yang dipakai adalah
597. Ukuran IoC yang digunakan adalah 3x3 yang menghasilkan 9
kolom dan 597 baris, 4x4 yang menghasilkan 16 kolom dan 597
baris, dan 5x5 yang menghasilkan 25 kolom dan 597 baris.

1. Buka berkas masukan, misal = aksara


2. Set tinggi = size(aksara,1)
3. Set lebar = size(aksara,2)
4. Bagi aksara menjadi 9/16/25 bagian
5. Cari jumlahan piksel yang bernilai 0 di setiap bagian
karakter
6. Simpan ciri tersebut menjadi ciri dari karakter yang
bersangkutan ke dalam file ciriAksara.mat
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

47

d. Clustering K-Means

Berdasarkan Flowchart pada Gambar 3.6, hasil ekstraksi ciri tadi akan
dikelompokan menggunakan Metode clustering K-Means dengan menggunakan
tools dari MATLAB sehingga ciri IoC dari citra yang digunakan hanya tinggal
dimasukkan kedalam tools dan mengatur jumlah K yang diperlukan dimana dalam
penelitian ini K nya diatur sebanyak 597 (seluruh data). Pada bagian ini terdapat 3
variabel penting yaitu datacluster, idx, dan sumd. Datacluster berisi citra yang sudah
dikelompokan sesuai clusternya. Idx berisi index yang menentukan citra tersebut
masuk ke kelompok mana. Sumd adalah jumlah jarak antar titik ke centroid dalam
cluster.

Gambar 3.10 Diagram K-Means


i. Input

Input yang akan diolah pada tahap ini adalah data cell matriks tiap
citra yang merupakan hasil dari tahap ekstraksi ciri.

ii. Output

Output dari tahap ini adalah data tabel cluster, idx, dan sumd yang
merupakan hasil proses clustering menggunakan K-means.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

48

iii. Algoritma

Pada tahap clustering, data sel matriks akan melalui tahapan


clustering. Tahapan tersebut adalah :

K-Means

Pada tahap ini data hasil ekstraksi ciri aksara akan dilakukan
proses clustering menggunakan K-Means. Nilai K akan dimulai
dari 2 hingga 597. Kemudian akan hasil dari tiap kali melakukan
clustering yang dilakukan akan disimpan kedalam sel untuk
proses selanjutnya. Pada tahapan ini digunakan function
kmeans() yang merupakan function dari MATLAB.

Input : jumlah K, data ciri hasil ekstraksi ciri


CC=data ciri
[idx,C,sumd]=kmeans(CC,K);
Datacluster = cell(K,1);
For i=1:K
Datacluster{i}=CC(idx=1,:);
end
Output : cell hasil clustering, idx, sumd

e. Evaluasi Hasil Clustering

Setelah didapatkan sel yang berisi kumpulan hasil clustering K-Means maka
akan dilakukan evaluasi menggunakan metode elbow dan silhouette. Untuk idx
hasil clustering akan dipakai dalam evaluasi silhouette dan untuk sumd akan dipakai
dalam evaluasi elbow.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

49

Gambar 3.11 Diagram Evaluasi Hasil Clustering


i. Input

Input yang akan diolah pada tahap ini adalah hasil tabel clustering
tiap nilai K yang merupakan hasil dari tahap clustering.

ii. Output

Output dari tahap ini adalah nilai K terbaik yang merupakan hasil
proses analisis yang membandingkan 2 metode.

iii. Algoritma

Pada tahap evaluasi, data clustering tiap K akan melalui berbagai


tahapan evaluasi. Tahapan tersebut adalah :

1. Evaluasi Elbow Method

Pada tahap ini data hasil clustering berupa sumd


menggunakan K-Means akan dihitung nilai SSE untuk tiap
cluster. Dari seluruh nilai SSE yang didapat dari tiap cluster
akan dicari yang terbaik nilainya. Cluster yang memiliki nilai
SSE 0,90 pertama akan menjadi nilai K untuk dibandingkan
dengan metode Silhouette Coefficient. Output dari evaluasi ini
adalah hasil perhitungan SSE semua data dan juga grafik elbow.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

50

2. Evaluasi Silhouette Coefficient

Pada tahap ini data hasil clustering berupa idx menggunakan


K-Means akan dihitung nilai Silhouette Index untuk tiap cluster.
Dari seluruh nilai Silhouette Index yang didapat dari tiap cluster
akan dicari yang terbaik nilainya. Akan digunakan 3 rumus jarak
yaitu default(squared euclidean), cosine, dan cityblock. Cluster
yang memiliki nilai Silhouette Index 0,5 pertama pada hasil
hitung dengan jarak default(squared euclidean), lalu untuk jarak
cosine dan cityblock akan diambil nilai Silhouette Index tertinggi
dan akan menjadi nilai K untuk dibandingkan dengan metode
Elbow. Output dari evaluasi ini adalah hasil perhitungan
Silhouette Index semua data dan juga grafik silhouette.

3. Bandingkan Hasil Evaluasi

Pada tahap ini nilai K dari Elbow Method dan nilai K dari
Silhouette Coefficient akan dibandingkan. Metode yang
memiliki nilai K yang terbaiklah yang akan dianggap sebagai
metode yang lebih ideal untuk clustering menggunakan K-
Means.

3.5 Cara Pengujian

Pada tahap ini akan dilakukan proses pengujian. Pengujian yang


dilakukan adalah dengan cara :

1. Mengubah nilai K mulai dari 2, 3, 4, seterusnya hingga nilai


K 597.

2. Kemudian untuk ciri Intensity of Character yang digunakan


ukuran 3x3, 4x4, dan 5x5. Ukuran resize yang dipakai adalah
30x30, 88x88, dan 60x60.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

51

3. Untuk Evaluasi Silhouette digunakan 3 jarak yang berbeda


yaitu jarak default (squared euclidean), cosine, dan
cityblock.

4. Memfokuskan pengelompokan sampai K hanya sampai 120


berdasarkan pengamatan jumlah aksara Jawa (pokok,
pasangan, sandhangan, angka, dll) dan juga pertimbangan
yang telah didiskusikan.

5. Menghitung akurasi hasil clustering K-Means K 65 untuk


597 data dan K 14 untuk 247 data 20 aksara pokok
menggunakan ground truth.

3.6 Kebutuhan Sistem

Pada penelitian ini menggunakan berbagai macam software dan


hardware. Adapun hardware dan software yang digunakan pada penelitian
ini adalah sebagai berikut:

3.6.1 Perangkat Keras (Hardware)

Adapun spesifikasi dari Personal Computer yang digunakan dalam


pembuatan sistem ini adalah :

Tabel 3.16 Perangkat Keras

Model Acer Swift 3

Platform Notebook-PC

Processor Intel Core i5-8250u

Harddisk 1 TB

Graphics Processing Unit Nvidia GeForce MX150


PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

52

Operation System Microsoft Windows 10

Memory 8GB DDR4

3.6.2 Perangkat Lunak (Software)

Perangkat lunak yang digunakan dalam penelitian ini adalah


MATLAB R2014a guna perancangan dan menjalankan sistem yang dibuat.

3.7 Desain GUI

Gambar 3.12 Desain GUI


Ketika user melakukan browse file IoC maka akan memilih file yang
berisikan kumpulan ciri citra aksara Jawa yang akan diproses. Kemudian user
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

53

memasukan nilai K yang akan digunakan untuk clustering K-Means. Lalu user
memilih jarak yang akan digunakan pada penghitungan silhouette.

Output yang muncul ketika user menekan tombol Mulai adalah hasil
Distortion dari metode Elbow dan juga hasil SI dari metode Silhoutte untuk nilai K
yang dimasukkan oleh user.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

BAB IV HASIL DAN ANALISIS

4.1 Data

Data yang digunakan adalah Data Citra aksara Jawa yang berjumlah 597
citra aksara. Data yang digunakan diperoleh dari buku Hamong Tani halaman 2 dan
59. Untuk mendapatkan datanya hal yang dilakukan adalah proses preprocessing
yang meliputi binerisasi, invers, dan filtering. Hasil dari halaman Hamong Tani
yang telah dipreprocessing akan diambil tiap aksaranya menggunakan proses
segmentasi profile projeksi dan bwlabel. Lalu dilakukan proses resize yang
ukurannya tergantung dengan kebutuhan IoC dan setelah itu dikenakan proses
penipisan citra menggunakan rosenfeld. Tahap selanjutnya adalah Ekstraksi ciri
menggunakan Intensity of Character atau bisa disingkat IoC. Ukuran yang
digunakan adalah 3x3, 4x4, dan 5x5.

4.2 Implementasi Preprocessing

a. Implementasi Binerisasi
Data yang telah dibaca menggunakan fungsi MATLAB kemudian akan
dilakukan proses binerisasi yang mana akan merubah citra warna menjadi citra
hitam putih dengan menggunakan fungsi im2bw.

54
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

55

Tabel 4.1 Perbandingan Citra Awal dan Hasil Binerisasi


Citra Awal Citra Hasil Binerisasi

Dari Tabel 4.1 hasil binerisasi dapat dilihat citra sebelah kiri terlihat tidak
terlalu jelas, buram, dan warna yang kurang baik. Hasil proses binerisasi ini
menunjukan hasil yang tampak lebih jelas dicitra sebelah kanan.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

56

b. Implementasi Invers
Data yang telah melalui proses binerisasi akan ditukar warnanya dimana
hitam menjadi putih dan putih menjadi hitam dengan menggunakan fungsi
imcomplement, tujuannya untuk proses selanjutnya sehingga data menjadi bersih.

Tabel 4.2 Perbandingan Hasil Binerisasi dan Hasil Invers


Citra Hasil Biner Citra Hasil Invers

Dari Tabel 4.2 dapat dilihat aksaranya menjadi berwarna putih dan latar
belakangnya menjadi berwarna hitam. Lalu noda-noda yang berbentuk titik kecil
juga berubah menjadi putih. Titik putih inilah yang akan dihilangkan.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

57

c. Implementasi Filtering
Data yang awalnya telah diinvers akan dihilangkan noisenya dimana akan
menghilangkan titik putih dengan menggunakan menggunakan fungsi bwareaopen.

Tabel 4.3 Perbandingan Hasil Filtering


Sebelum Filtering Setelah Filtering

Dari Tabel 4.3 hasil perbandingannya sudah terlihat dimana gambar disisi
kanan noda titik putih sudah menghilang dan data menjadi bersih dibanding
gambar disisi kiri yang terlihat terdapat banyak noda titik putih.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

58

d. Implementasi Invers Kembali


Data yang telah dibersihkan akan diinvers lagi dimana hitam menjadi putih
dan putih menjadi hitam dengan menggunakan fungsi imcomplement.

Tabel 4.4 Perbandingan Hasil Invers Kembali


Hasil Filtering Setelah diinvers Kembali

Dari Tabel 4.4 hasil perbandingannya terlihat dimana aksara yang awalnya
putih menjadi hitam dan juga latar belakang hitam diubah menjadi putih.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

59

4.3 Implementasi Segmentasi

a. Projeksi Horisontal
Data yang telah melalui proses preprocessing tadi akan diambil tiap
karakternya menggunakan proses segmentasi. Proses dilakukan dengan
menggunakan projeksi Horisontal. Hasil dari projeksi Horisontal tadi kemudian
akan dimasukkan ke dalam excel untuk dibentuk grafik garis dimana dari grafik
tersebut dapat dilihat mana yang berupa baris mana yang area kosong (jarak antar
baris). Kemudian hasil excel ini akan menjadi acuan pengambilan baris dengan
melanjutkan ke MATLAB untuk mendapatkan data perbaris yang nanti akan
berjumlah masing-masing 20 untuk tiap halaman.

Projeksi Horisontal Halaman 2


300

250
Nilai Lebar Halaman 2

200

150

100

50

0
560

1248
1
44
87
130
173
216
259
302
345
388
431
474
517

603
646
689
732
775
818
861
904
947
990
1033
1076
1119
1162
1205

Panjang Data Halaman 2

Gambar 4.1 Hasil Projeksi Horisontal Halaman 2

Melihat dari grafik pada Gambar 4.1 dapat diambil kesimpulan bahwa pada
halaman 2 terdapat 20 baris data karena titik puncaknya berjumlah 20.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

60

Projeksi Horisontal Halaman 59


120

100
Nilai Lebar Halaman 59

80

60

40

20

0
560

1248
1
44
87
130
173
216
259
302
345
388
431
474
517

603
646
689
732
775
818
861
904
947
990
1033
1076
1119
1162
1205
Panjang Data Halaman 59

Gambar 4.2 Hasil Projeksi Horisontal Halaman 59


Sama seperti sebelumnya dilihat dari grafik pada Gambar 4.2 dapat diambil
kesimpulan bahwa pada halaman 59 terdapat 20 baris data karena titik puncaknya
berjumlah 20.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

61

b. Projeksi Vertikal
Setelah didapatkankan data per baris akan diambil tiap aksaranya
menggunakan fungsi bwlabel. Fungsi ini akan mengambil tiap karakter yang
terdapat pada inputan baris hasil dari projeksi horisontal.

Gambar 4.3 Contoh Hasil Segmentasi Baris 1

c. Implementasi Resize
Hasil segmentasi yang telah didapatkan tiap askara akan dilakukan resize
ukuran citra menggunakan fungsi imresize.

Tabel 4.4 Perbandingan Hasil Resize


Hasil Segmentasi Hasil resize Hasil resize ukuran Hasil resize
ukuran 35x13 ukuran 33x33 88x88 ukuran 60x60

Dapat dilihat perubahan ukuran secara drastis pada tiap kolom di Tabel 4.4
dimana keempat gambar aksara memiliki ukuran yang berbeda.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

62

d. Implementasi Thinning
Data yang telah resize kemudian dilakukan proses pengambilan kerangka
aksara dengan menggunakan metode rosenfeld sehingga menghasilkan citra dengan
bentuk kerangka citra saja.

Tabel 4.5 Perbandingan Citra Awal dengan Hasil Penipisan


Citra Awal Hasil Rosenfeld

Dari Tabel 4.5 dapat dilihat digambar kiri masih merupakan 1 aksara yang
utuh dan disisi kanan hanya menyisakan kerangka citra saja. Hasil dari proses
penipisan dengan metode rosenfeld mendapatkan hasil penipisan yang baik yaitu
tepat kerangka dan dan tidak terdapat gambar latar sehingga bisa digunakan untuk
proses selanjutnya.

4.4 Implementasi Ekstraksi Ciri

Ciri yang digunakan dalam penelitian ini adalah Intensity of Character.


Ukuran yang digunakan dalam penelitian ini adalah 3x3, 4x4, dan 5x5. Ciri tersebut
diperoleh dengan cara menghitung nilai piksel hitam dalam matriks citra hasil
preprocessing sehingga setiap halaman adalah hasil penjumlahan dari pixel hitam.

Hasil dari ekstraksi ciri IoC adalah data berbentuk sel yang berisi masing-
masing ukuran IoC aksara yang telah diproses. Proses selanjutnya adalah mengubah
hasil ekstraksi ciri yang awalnya berbentuk sel menjadi berbentuk array untuk
mempermudah proses clustering. Hasil pengubahan sel menjadi array ini
menghasilkan matriks berukuran 597x9 untuk ciri 3x3, 597x16 untuk ciri 4x4 dan
597x25 untuk ciri 5x5 dimana 597 merupakan banyak data pada penelitian.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

63

Tabel 4. 6 Tabel Contoh Hasil Rosenfeld

Data Aksara 1
Ukuran 33x33

Data Aksara 1 ketika ditampilkan pikselnya dan dipindahkan kedalam excel


akan menjadi seperti ini, dimana piksel bernilai 1 akan berwarna putih dan piksel
bernilai 0 akan berwarna hitam.

Gambar 4. 4 Hasil IoC Data Aksara 1 Setelah dipindah ke Excel


Setelah itu akan dibagi menjadi 9 bagian, sebagai contoh adalah gambar
berikut dimana data IoC 3x3 tadi dibagi menjadi 9 warna yang mana tiap warna
akan memiliki 11 baris dan 11 kolom.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

64

Gambar 4. 5 Pembagian Hasil IoC ke 9 Warna


Kemudian akan di hitung berapa jumlah piksel bernilai 0 pada tiap bagian
warna tersebut. Piksel bernilai 0 inilah yang sebenarnya membentuk kerangka dari
data citra.

Gambar 4. 6 Seleksi Piksel Bernilai 0


PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

65

Didapatkan total penghitungan piksel bernilai 0 untuk semua bagian warna


sebagai berikut :

Tabel 4. 7 Hasil Penghitungan Ciri IoC 3 Aksara 1

Warna Total Piksel Bernilai 0


Merah = Ciri 1 22
Biru Pucat = Ciri 2 22
Kuning = Ciri 3 17
Hijau = Ciri 4 15
Biru Muda = Ciri 5 11
Ungu = Ciri 6 11
Biru Tua = Ciri 7 31
Cokelat = Ciri 8 22
Hijau Pucat = Ciri 9 14

Maka untuk Aksara 1 akan memiliki 9 ciri dimana ciri 1 berisi 22, ciri 2
berisi 22, ciri 3 berisi 17, ciri 4 berisi 15, ciri 5 berisi 11, ciri 6 berisi 11, ciri 7 berisi
31, ciri 8 berisi 22, dan juga ciri 9 berisi 14.

Tabel 4.8 Contoh Matriks Ciri IoC 3x3


Matriks Ciri IoC 3x3

Data Ciri 1 Ciri 2 Ciri 3 Ciri 4 Ciri 5 Ciri 6 Ciri 7 Ciri 8 Ciri 9

Aksara 1 22 22 17 15 11 11 31 22 14

Aksara 2 9 3 15 11 10 12 26 14 4

Aksara 3 25 23 12 9 16 11 22 14 13

Disini data Aksara 1, 2, dan 3 memiliki 9 kolom ciri dimana karena awalnya
IoC berbentuk 3 baris x 3 kolom akan diubah menjadi 1 baris 9 kolom untuk
mempermudah proses clustering.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

66

4.5 Implementasi K-Means Clustering

Hasil ekstraksi ciri kemudian dikelompokkan dengan menggunakan K


mulai dari 2 sampai 597. Proses clustering menggunakan function kmeans dari
MATLAB. Proses clustering yang ini sangat tergantung pada nilai centroid yang
ditentukan secara random. [idx,sumd]=kmeans(CC,k) berarti akan mengambil
output berupa index untuk tiap data, C adalah lokasi centroid, dan sumd adalah
jumlah jarak antar titik ke centroid dalam cluster. Kemudian kmeans merupakan
function dari MATLAB dengan inputnya adalah CC dimana merupakan data IoC
dan K adalah banyak cluster yang dibutuhkan.

function [datacluster,idx,sumd] = cluster(K,dataioc)

CC=dataioc;

k=K;

[idx,sumd]=kmeans(CC,k);

datacluster = cell(k,1);

for i = 1:k

datacluster{i} = CC(idx==i,:);

end

end

4.6 Implementasi Silhouette

Hasil dari pengelompokan menggunakan K-Means clustering kemudian


akan dilakukan proses penghitungan nilai silhouette yaitu untuk menguji
kekompakan cluster hasil dari K-Means tadi. Perhitungan nilai silhouette dilakukan
dengan menggunakan fungsi Silhouette pada MATLAB. Hasil dari silhouette ini
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

67

adalah nilai silhouette untuk semua cluster. [s,h] = silhouette(data,idx) berarti akan
mengambil 2 output yaitu s untuk nilai silhouettenya dan h adalah plot grafik
berdasarkan nilai silhouette yang didapatkan. Lalu silhouette sendiri adalah
function dari matlab dengan input berupa data yang berisi data IoC dan juga idx
yang merupakan idx hasil proses clustering k-means.

function [akurasi,detail] = hitungsilhouette(data,idx)

[s,h] = silhouette(data,idx);

xlabel('Value');

ylabel('Cluster');

SIcluster=mean(s);

akurasi=SIcluster;

detail=s;

end

4.7 Implementasi Elbow Method

Hasil dari pengelompokan menggunakan K-Means clustering kemudian


akan dilakukan proses penghitungan nilai distortion/error dengan menggunakan
penjumlahan SUMD tiap K hasil dari proses K-Means clustering, lalu akan
menghitung variance dimana akan digunakan untuk menghitung distortion percent.
Setelah itu menghitung distortion percent dengan menghitung cumsum dari
variance dibagi dengan distortion awal dikurang distortion akhir. Dari hasil
penghitungan distortion percent kemudian akan mencari nilai distortion pertama
yang diatas 0.90. Hasil dari metode elbow ini adalah nilai distortion dan distortion
percent untuk semua K.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

68

function [K,distortion,variance,distortion_percent]=elbow (sumdioc)

cluster=length(sumdioc);

distortion=zeros(cluster,1);

for k_temp=2:597

sumd=sumdioc{k_temp};

destortion_temp=sum(sumd);

distortion((k_temp)-1,1)=destortion_temp;

end

variance=distortion(1:end-1)-distortion(2:end);

distortion_percent=cumsum(variance)/(distortion(1)-distortion(end));

plot(distortion_percent,'b*--');

distortion90=find(distortion_percent>0.90);

K=distortion90 (1,1)+1;

end

4.8 Hasil Penelitian

a. Implementasi hasil penelitian ini menggunakan tiga ciri Intensity of


Character (IoC) yaitu dengan ukuran 3x3, 4x4, dan 5x5 untuk semua data
yang berjumlah 597. Percobaan silhouette pertama sampai ketiga akan
menggunakan data IoC 3x3, lalu percobaan silhouette keempat sampai
keenam akan menggunakan data IoC 4x4, dan percobaan silhouette ketujuh
sampai kesembilan akan menggunakan data IoC 5x5. Sementara percobaan
elbow pertama akan menggunakan data IoC 3x3, lalu percobaan elbow
kedua akan menggunakan data IoC 4x4, dan percobaaan elbow ketiga akan
menggunakan data IoC 5x5.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

69

b. Dari ekstraksi ciri tersebut kemudian akan dikelompokkan dengan metode


K-Means clustering dari 2 sampai dengan 597. Kemudian hasil clustering
akan dianalisis menggunakan metode silhouette dan metode elbow dan
memfokuskan pengelompokan sampai K hanya sampai 120 atas
pengamatan jumlah aksara Jawa (pokok, pasangan, sandhangan, angka, dll)
dan juga pertimbangan yang telah didiskusikan.

4.8.1 Hasil Percobaan Silhouette Pertama

Gambar 4.7 Hasil Percobaan Silhouette Pertama

Menggunakan jarak default(squared euclidean) nilai 0.5 baru sering


muncul(konsisten) ketika K diatas 202 karena mulai dari 202 nilai rata-rata
silhouette sudah selalu diatas 0.5. Ketika diambil 120 K saja lalu disort nilai SI
terbesar berada di K 19 dengan nilai 0.5476. Kemudian diikuti dengan K 15 dengan
nilai 0.5245 dan K 51 dengan nilai 0.5231. Namun nilai 0.5 pertama dan terkecil
ada di K 65 dengan nilai 0.5060.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

70

4.8.2 Hasil Percobaan Silhouette Kedua

Gambar 4.8 Hasil Percobaan Silhouette Kedua

Menggunakan jarak cosine nilai 0.5 baru sering muncul(konsisten) ketika K


diatas 237 karena mulai dari 237 nilai rata-rata silhouette selalu diatas 0.5. Kalau
diambil 120 K saja lalu disort nilai tertinggi ada di K 17 dengan nilai 0.5652.
Kemudian diikuti dengan K 14 dengan nilai 0.5466 dan K 13 dengan nilai 0.5433.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

71

4.8.3 Hasil Percobaan Silhouette Ketiga

Gambar 4.9 Hasil Percobaan Silhouette Ketiga

Menggunakan jarak cityblock nilai 0.5 baru sering muncul(konsisten) ketika


K diatas 333 karena mulai dari 333 nilai rata-rata silhouette selalu diatas 0.5. Kalau
diambil 120 K saja lalu disort nilai tertingginya berada di K 13 dengan nilai 0.3779.
Kemudian diikuti dengan K 16 dengan nilai 0.3676 dan K 12 dengan nilai 0.3585.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

72

4.8.4 Hasil Percobaan Silhouette Keempat

Gambar 4.10 Hasil Percobaan Silhouette Keempat

Menggunakan jarak default(squared euclidean) nilai 0.5 baru sering


muncul(konsisten) ketika K diatas 222 karena mulai dari 222 nilai rata-rata
silhouette selalu diatas 0.5. Ketika diambil 120 K saja lalu disort nilai SI terbesar
berada di K 49 dengan nilai 0.5228. Kemudian diikuti dengan K 65 dengan nilai
0.5204 dan K 66 dengan nilai 0.5048. Namun nilai 0.5 pertama dan terkecil ada di
K 63 dengan nilai 0.5016.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

73

4.8.5 Hasil Percobaan Silhouette Kelima

Gambar 4.11 Hasil Percobaan Silhouette Kelima

Menggunakan jarak cosine nilai 0.5 baru sering muncul(konsisten) ketika K


diatas 223 karena mulai dari 223 nilai rata-rata silhouette selalu diatas 0.5. Kalau
diambil 120 K saja lalu disort nilai tertinggi ada di K 90 dengan nilai 0.5153.
Kemudian diikuti dengan K 6 dengan nilai 0.5013 dan K 23 dengan nilai 0.4993.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

74

4.8.6 Hasil Percobaan Silhouette Keenam

Gambar 4.12 Hasil Percobaan Silhouette Keenam

Menggunakan jarak cityblock nilai 0.5 baru sering muncul(konsisten) ketika


K diatas 344 karena mulai dari 344 nilai rata-rata silhouette selalu diatas 0.5. Kalau
diambil 120 K saja lalu disort nilai tertingginya berada di K 19 dengan nilai 0.3648.
Kemudian diikuti dengan K 34 dengan nilai 0.3495 dan K 30 dengan nilai 0.3492.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

75

4.8.7 Hasil Percobaan Silhouette Ketujuh

Gambar 4.13 Hasil Percobaan Silhouette Ketujuh

Menggunakan jarak default(squared euclidean) nilai 0.5 baru sering


muncul(konsisten) ketika K diatas 253 karena mulai dari 253 nilai rata-rata
silhouette selalu diatas 0.5. Ketika diambil 120 K saja lalu disort nilai SI terbesar
berada di K 61 dengan nilai 0.5127. Kemudian diikuti dengan K 47 dengan nilai
0.3516 dan K 59 dengan nilai 0.5088. Namun nilai 0.5 pertama dan terkecil ada di
K 54 dengan nilai 0.5024.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

76

4.8.8 Hasil Percobaan Silhouette Kedelapan

Gambar 4.14 Hasil Percobaan Silhouette Kedelapan


Menggunakan jarak cosine nilai 0.5 baru sering muncul(konsisten) ketika K
diatas 331 karena mulai dari 331 nilai rata-rata silhouette selalu diatas 0.5. Kalau
diambil 120 K saja lalu disort nilai tertinggi ada di K 40 dengan nilai 0.3716.
Kemudian diikuti dengan K 38 dengan nilai 0.3635 dan K 24 dengan nilai 0.3604.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

77

4.8.9 Hasil Percobaan Silhouette Kesembilan

Gambar 4.15 Hasil Percobaan Silhouette Kesembilan

Menggunakan jarak cityblock nilai 0.5 baru sering muncul(konsisten) ketika


K diatas 341 karena mulai dari 341 nilai rata-rata silhouette selalu diatas 0.5. Kalau
diambil 120 K saja lalu disort nilai tertingginya berada di K 18 dengan nilai 0.3629.
Kemudian diikuti dengan K 14 dengan nilai 0.3546 dan K 13 dengan nilai 0.3517.

Setelah dilakukan penghitungan nilai Silhouette K mulai dari 1 sampai 597,


melihat dari hasil percobaan tadi, data rentang untuk data yang digunakan bisa
dibilang memiliki struktur persebaran yang lemah. Hal ini bisa dilihat dari hasil
silhouette dimana ketika diambil nilai K dari 2 sampai 120 hasilnya masih banyak
yang berada dibawah nilai 0.5. Padahal untuk dikatakan persebaran yang standar
baik seharusnya memiliki nilai silhouette diatas 0.5. Nilai Silhouette yang didapat
ini juga dipengaruhi oleh jarak yang digunakan untuk menghitung silhuettenya.
Dimana jarak default(Squared Euclidean) dapat menghasilkan nilai yang lebih
tinggi dibanding ketika menggunakan jarak Cosine dan Cityblock yang hasilnya
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

78

Silhouette nilainya justru menurun. Hal tersebut dapat dilihat pada hasil dibawah
ini :

Tabel 4.9 Hasil Silhouette Jarak Default


Jarak Default(Squared Euclidean)

Ukuran IoC Nilai Silhouette Nilai Silhouette Nilai Silhouette


Terbaik Pertama (K) Terbaik Kedua (K) Terbaik Ketiga (K)

3x3 0.5476 (19) 0.5245 (15) 0.5231 (51)

4x4 0.5228 (49) 0.5204 (65) 0.5048 (66)

5x5 0.5127 (61) 0.5116 (49) 0.5088 (59)

Tabel 4.10 Hasil Silhouette Jarak Cosine


Jarak Cosine

Ukuran IoC Nilai Silhouette Nilai Silhouette Nilai Silhouette


Terbaik Pertama (K) Terbaik Kedua (K) Terbaik Ketiga (K)

3x3 0.5652 (17) 0.5466 (14) 0.5433 (13)

4x4 0.5153 (90) 0.5013 (6) 0.4993 (23)

5x5 0.3716 (40) 0.3635 (38) 0.3604 (24)


PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

79

Tabel 4.11 Hasil Silhouette Jarak Cityblock


Jarak Cityblock

Ukuran IoC Nilai Silhouette Nilai Silhouette Nilai Silhouette


Terbaik Pertama (K) Terbaik Kedua (K) Terbaik Ketiga (K)

3x3 0.3779 (13) 0.3676 (16) 0.5652 (12)

4x4 0.3648 (19) 0.3495 (34) 0.3492 (30)

5x5 0.3629 (18) 0.3546 (14) 0.3517 (13)

Tabel 4. 12 Hasil SI Terbaik Pertama Range K 120


Nilai SI Terbaik Pertama Dalam Range K 120

Rumus Jarak IoC 3x3 IoC 4x4 IoC 5x5

Default 0.5376 (K=19) 0.5228 (K=49) 0.5127 (K=61)

Cosine 0.5652 (K=17) 0.5153 (K=90) 0.3716 (K=40)

Cityblock 0.3779 (K=13) 0.3648 (K=19) 0.3629 (K=18)

Pada percobaan pertama sampai ketiga menggunakan ciri IoC 3x3


menghasilkan hasil nilai silhouette 1 untuk semua 597 data dengan 3 jarak berbeda
semuanya berada di K 591. Yang berarti dari 597 data akan membentuk cluster
dengan struktur kuat pada K = 591.

Pada percobaan keempat sampai keenam menggunakan ciri IoC 4x4


menghasilkan hasil nilai silhouette 1 untuk semua 597 data dengan 3 jarak berbeda
semuanya berada di K 593. Yang berarti dari 594 data akan akan membentuk cluster
dengan struktur kuat pada K = 594.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

80

Pada percobaan ketujuh sampai kesembilan menggunakan ciri IoC 5x5


menghasilkan hasil nilai silhouette 1 untuk semua 597 data dengan 3 jarak berbeda
semuanya berada di K 593. Yang berarti dari 597 data akan akan membentuk cluster
dengan struktur kuat pada K = 593.

4.8.10 Hasil Percobaan Elbow Pertama

Gambar 4.16 Hasil Percobaan Elbow Pertama


Hasil dari percobaan pertama menggunakan IoC 3 didapatkan grafik seperti
pada Gambar 4.16, lalu dari hasil perhitungan distortion percentnya nilai 0.90
pertama berada di K = 62 dengan nilai distortion percent sebesar 0.9027.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

81

4.8.11 Hasil Percobaan Elbow Kedua

Gambar 4.17 Hasil Percobaan Elbow Kedua


Hasil dari percobaan pertama menggunakan IoC 4 didapatkan grafik seperti
pada Gambar 4.17 lalu dari hasil perhitungan distortion percentnya nilai 0.90
pertama berada di K = 84 dengan nilai distortion percent sebesar 0.9001.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

82

4.8.12 Hasil Percobaan Elbow Ketiga

Gambar 4.18 Hasil Percobaan Elbow Ketiga


Hasil dari percobaan pertama menggunakan IoC 5 didapatkan grafik seperti
pada Gambar 4.18, lalu dari hasil perhitungan distortion percentnya nilai 0.90
pertama berada di K = 106 dengan nilai distortion percent sebesar 0.9004.

Setelah dilakukan percobaan elbow, nilai K optimalnya untuk setiap IoC


menghasilkan nilai K yang berbeda. Hal ini bisa dilihat dari distortion IoC 3
distortion 0 mulai berada di K 562, IoC 4 distortion 0 mulai berada di K 583, dan
IoC 5 distortion 0 mulai berada di K 590. Untuk nilai distortion percent IoC 3
bernilai 1 ketika berada di K 578, IoC 4 bernilai 1 ketika berada di K 582, IoC 5
bernilai 1 ketika berada di K 585. Nilai distortion yang didapat ini juga dipengaruhi
hasil sumd dari K-Means clustering hasilnya sangat tergantung pada centroid yang
bernilai random.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

83

Tabel 4.13 Hasil Elbow

Metode Elbow

Ukuran IoC Nilai Distortion Percent K Optimal

3x3 0.9027 62

4x4 0.9001 84

5x5 0.9004 106

4.8.13 Hasil Percobaan Pengelompokan K 65

Setelah dilakukan analisis dengan metode silhouette dan metode elbow,


dilanjutkan percobaan untuk mencoba mengelompokan aksara Jawa secara manual
untuk menguji apakah hasilnya relevan atau tidak. Percobaan ini menggunakan
hasil IoC 3x3 dan jumlah cluster yang dipilih secara acak yaitu 65 berdasarkan
pengamatan dari hasil penelitian yang dilakukan untuk data IoC 3.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

84

Gambar 4.19 Hasil Percobaan Pengelompokan Cluster 1

Hasil pengelompokan K 65 yang sudah dimasukan kedalam folder yang


sesuai kelompoknya didapatkan hasil sebagai berikut, dengan catatan ‘P’ berarti
pasangan :

Tabel 4. 14 Hasil Analisa Manual Hasil Pengelompokan K 65

Label 1 Label 2 Label 3 Label 4 Total Data Ground


Truth
Cluster 1 22 Wulu 22 1
Cluster 2 5 Wingyan 5 1
Cluster 3 23 Na 3 Ja 26 0,88
Cluster 4 8 '2' 8 1
Cluster 5 11 Wulu 11 1
Cluster 6 5 Pangkon + 1 Ha + Suku 1 La _ 7 0,71
Suku Suku
Cluster 7 5 Wulu 5 1
Cluster 8 2 Na + P Na 1 Nga + P Na 1 Ka + 4 0,5
P Na
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

85

Label 1 Label 2 Label 3 Label 4 Total DataGround


Truth
Cluster 9 7 Ha + Suku 4 Ra 1 Ta + 12 0,58
Suku
Cluster 10 9 Pada 9 1
Lingsa
Cluster 11 5 Ka 4 Ta 9 0,56
Cluster 12 6 Ta 4 Ka 1 Ma 11 0,55
Cluster 13 45 Taling 1 Pangkon + 46 0,98
Suku
Cluster 14 7 Cecak 7 1
Cluster 15 2 Pangkon 2 1
Cluster 16 2 Layar 2 1
Cluster 17 1 Nya 1 Kar 2 0,5
Cluster 18 14 Ta 14 1
Cluster 19 9 Na 1 Ha 10 0,9
Cluster 20 6 Pa 3 Wa 1 Dha 10 0,6
Cluster 21 2 Pa + Suku 1 Nga + 1 Ta + 1 Pepet 5 0,4
+ Cakra Ra Cakra Ra Cakra + layar
Ra
Cluster 22 5 '2' 5 1
Cluster 23 5 '2' 5 1
Cluster 24 6 Ha 2 Ma 1 Sa 9 0,67
Cluster 25 2 Ma + tha 1 '3' 1 Sa + 1 Sa + 5 0,4
P da P wa
Cluster 26 9 Ta 2 La 1 Ga 12 0,75
Cluster 27 12 Pa + Suku 1 Ma + Suku 1 Da + 14 0,86
Suku
Cluster 28 18 Pepet 3 Pepet + 21 0,86
Cecak
Cluster 29 7 Ha 2 Ma 9 0,78
Cluster 30 8 Cecak 8 1
Cluster 31 2 Ta 2 1
Cluster 32 10 Ga 2 Ma + Cakra 1 Na + 13 0,77
Ra Cakra
Ra
Cluster 33 15 Na 5 Da 4 Ma 1 Pa 25 0,6
Cluster 34 2 P Ha 2 1
Cluster 35 9 Na 2 Da 1 Ma 12 0,75
Cluster 36 12 Pepet 2 Pepet + 14 0,86
Wulu
Cluster 37 9 P Ka 8 P Ta 17 0,53
Cluster 38 3 P Ba 1 '2' 4 0,75
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

86

Label 1 Label 2 Label 3 Label 4 Total Data Ground


Truth
Cluster 39 5 '0' 5 1
Cluster 40 1 'A' 1 1
Cluster 41 4 P La 1 Pada 5 0,8
Lungsa
Cluster 42 3 Cecak 3 1
Cluster 43 10 Sa 1 Wa 11 0,91
Cluster 44 13 La 13 1
Cluster 45 16 Pepet 16 1
Cluster 46 4 Ka 1 Ha 5 0,8
Cluster 47 2 Pa 2 Sa 4 1
Cluster 48 3 Wingyan 3 1
Cluster 49 8 P Sa 8 1
Cluster 50 6 Pepet 6 1
Cluster 51 13 Ka 3 Sa 16 0,81
Cluster 52 1 Cecak 1 1
Cluster 53 5 Pa 5 1
Cluster 54 8 Wa 2 Pa 10 0,8
Cluster 55 9 Cecak 9 1
Cluster 56 8 Ma 1 Ha 9 0,89
Cluster 57 4 P Wa 2 P Dha 1 P Ma 7 0,57
Cluster 58 1 'A' 1 1
Cluster 59 6 Cecak 6 1
Cluster 60 12 P Ha 12 1
Cluster 61 10 Pepet 10 1
Cluster 62 4 Cecak 4 1
Cluster 63 8 Ya 8 1
Cluster 64 11 Sa 11 1
Cluster 65 2 '1' 1 '4' 1 4 0,5
Cecak
Total Akurasi
597 0,86

Dari penghitungan manual hasil pengelompokan K 65 yang sudah


dimasukan kedalam folder yang sesuai kelompoknya didapatkan hasil yang baik
karena mendapatkan akurasi ground truth sebesar 86% berdasarkan nilai rata-rata
dari perhitungan seluruh kelompoknya.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

87

Dari pengujian ini didapatkan hasil pengelompokan yang baik. Hal ini
dikarenakan pada IoC 3x3 berdasarkan analisa metode silhouette karena K = 65
memiliki SI yang berada 0,5060 maka persebaran datanya menjadi baik karena hasil
berdasarkan tabel nilai SI untuk nilai 0,50 - 0,70 membentuk struktur yang layak.
Begitu juga dengan metode elbow 65 memiliki distortion 0,9027 yang dianggap
masih belum sempurna pengelompokannya. Sehingga dari pengujian yang
dilakukan hasil pengelompokan baik ini sudah bisa diprediksi dan dianggap relevan
dengan akurasi sebesar 86%.

4.8.14 Hasil Percobaan Pengelompokan 14 Aksara Pokok

Setelah dilakukan percobaan pengelompokan K 65, sekarang dilakukan


percobaan untuk mengelompokan 20 Aksara Pokok saja dengan IoC 3. Yang
dilakukan pertama kali adalah menghitung banyak data secara manual dari 597
dimana hanya difokuskan 20 Aksara Pokok. Disini diperoleh data Aksara Pokok
berjumlah 247 data citra. Lalu dilakukan pencarian label secara manual juga dan
hasilnya didapat hanya ada 14 jumlah label. 14 label tersebut adalah : Ha, Na, Ka,
Da, Ta, Sa, Wa, La, Ma, Ga, Pa, Dha, Ja, dan Ya. Setelah itu akan digunakan
metode K-Means untuk mendapatkan clusternya.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

88

Gambar 4. 20 Hasil Pengelompokan Cluster 1 14 Aksara Pokok

Hasil pengelompokan 14 Aksara Pokok yang sudah dimasukan kedalam


folder yang sesuai kelompoknya didapatkan hasil sebagai berikut :

Tabel 4. 15 Hasil Analisa Manual Hasil Pengelompokan 14 Aksara Pokok

Label 1 Label 2 Label 3 Label 4 Jumlah Data Ground Truth


Cluster 1 9 Na 1 Ma 3 Da 13 0,69
Cluster 2 12 Ha 4 Ka 3 Ma 19 0,63
Cluster 3 10 Ga 10 1
Cluster 4 8 Ya 6 Ta 4 Ka 1 Ma 19 0,42
Cluster 5 3 Ja 3 1
Cluster 6 15 Ka 7 Ta 1 Ha 23 0,65
Cluster 7 9 Na 1 Ha 1 Da 11 0,81
Cluster 8 13 La 3 Ka 7 Ma 2 Ha 25 0,52
Cluster 9 11 Sa 2 Pa 2 Dha 15 0,73
Cluster 10 13 Sa 13 1
Cluster 11 15 Ta 1 Ka 16 0,93
Cluster 12 38 Na 1 Pa 3 Da 42 0,90
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

89

Label 1 Label 2 Label 3 Label 4 Jumlah Data Ground Truth


Cluster 13 13 Pa 10 Wa 1 Dha 24 0,54
Cluster 14 8 Ta 1 La 1 Ha 2 Ma 13 0,61
Total Akurasi
247 0,75

Dari Tabel 4.12 ditemukan bahwa dari 14 label hanya didapat 10 kelompok
label saja. Karena ada kelompok yang pembagiannya masih belum tepat. Seperti
dapat dilihat bahwa ada 3 kelompok yang didominasi Na, 2 kelompok yang
didominasi Sa dan Ta. Lalu label yang jumlahnya sedikit jadi ikut tercampur dengan
label yang tadi. Label yang jumlahnya sedikit tersebut adalah Ma, Dha, dan Wa.

Percobaan pengelompokan 14 Aksara Pokok ini mendapatkan hasil akurasi


yang baik karena mendapatkan akurasi ground truth sebesar 75% berdasarkan nilai
rata-rata dari perhitungan seluruh kelompoknnya.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

BAB V KESIMPULAN DAN SARAN

5.1 Kesimpulan

5.1.1 Metode Silhouette

Dari hasil percobaan pengelompokan 597 citra aksara Jawa dengan


metode Silhouette untuk IoC 3 hasil K optimalnya adalah ketika K 19,
IoC 4 hasil K optimalnya adalah ketika K 49, dan IoC 5 hasil K
optimalnya adalah ketika K 61. Didapatkan kesimpulan bahwa untuk
mendapatkan nilai silhouette itu ada banyak faktor yang mempengaruhi
seperti tahap preprocessing, tahap resize data, ukuran IoC yang
digunakan, dan juga nilai centroid K-Means yang random. Ada juga
pengaruh jarak yang digunakan dalam silhouette yang membuat hasil
penghitungannya menjadi berbeda. Hasil K dari metode silhouette
cenderung kecil dan akan membuat hasil akurasi pengelompokannya
menjadi jelek.

5.1.2 Metode Elbow

Dari hasil percobaan pengelompokan 597 citra aksara Jawa dengan


metode Elbow karena pada penelitian ini digunakan nilai distortion
percent diatas 0.90 maka untuk IoC 3 hasil K optimalnya adalah ketika
K 62, IoC 4 hasil K optimalnya adalah ketika K 84, dan IoC 5 hasil K
optimalnya adalah ketika K 106. Didapatkan kesimpulan bahwa untuk
mendapatkan nilai distortion itu ada banyak faktor yang mempengaruhi
seperti tahap preprocessing, tahap resize data, ukuran IoC yang
digunakan, dan juga nilai centroid K-Means yang random. Ada juga
pengaruh sumd hasil k-means dan penentuan nilai distortion percent
minimal yang digunakan dalam metode elbow yang membuat hasil
penghitungan dan penentuan K optimalnya menjadi berbeda. Dari hasil
K yang lebih besar inilah maka metode elbow dianggap lebih baik

90
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

91

karena semakin besar K dalam clustering maka hasil akurasi


pengelompokannya akan menjadi lebih baik.

5.1.3 Hasil Relevansi

Hasil pengujian dengan 597 citra aksara Jawa ukuran IoC 3 dan
jumlah cluster 65 mendapatkan hasil pengelompokan yang baik dengan
akurasi sebesar 86%, ini sudah bisa diprediksi sehingga dianggap
relevan. Hal ini karena pada cluster 65 memiliki SI 0,5060 untuk
metode silhouette dan juga distortion 0,9027 untuk metode elbow. Dari
pengujian tadi dapat disimpulkan jika K nya lebih besar maka akan
menghasilkan hasil pengelompokan yang bagus sehingga metode
elbow dianggap sebagai metode yang ideal untuk menentukan nilai K.

Hasil pengujian 14 Aksara Pokok dengan 247 citra ukuran IoC


3 didapatkan akurasi pengelompokan yang baik yaitu sebesar 75%
dimana terdapat 10 label kelompok yang benar.

5.2 Saran

a. Perlu dilakukan percobaan dengan ukuran ciri IoC yang lainnya untuk
memperoleh hasil yang lebih baik.

b. Perlu dilakukan proses preprocessing sampai mendapatkan hasil yang


baik agar hasil segmentasi dan juga hasil pengelompokan menjadi
lebih baik.

c. Ketika memilih hasil SI untuk metode silhouette bisa mengambil nilai


nilai diatas 0.5 agar hasil pengelompokan menjadi lebih baik lagi.

d. Ketika memilih nilai distortion percent untuk metode elbow bisa


menggunakan nilai diatas 0.9 agar hasil pengelompokan lebih baik
lagi.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

DAFTAR PUSTAKA

Aksara Jawa. (2020). https://id.wikipedia.org/wiki/Aksara_Jawa

Ankrisnar, V. A. (2020). Pengelompokan Citra Aksara Bali Menggunakan Metode


K-Means Clustering. Universitas Sanata Dharma.

Bao, F. (n.d.). best_kmeans(X). MATLAB Central File Exchange.


https://www.mathworks.com/matlabcentral/fileexchange/49489-
best_kmeans-x

Dewi D.A., & Pramita D.A (2019). Analisis Perbandingan Metode Elbow dan
Silhouette pada Algoritma Clustering K-Medoids dalam Pengelompokan
Produksi Kerajinan Bali. Jurnal Manajemen Teknologi dan Informatika, 102-
109.

Gonzalez, R.C., & Woods, R.E. (2002). Digital Image Processing. 2nd Edition,
Prentice Hall, Upper Saddle River.

Hadiprijono (2013). Trampil Maca lan Nulis Aksara Jawa. Kanisius Yogyakarta.

Holle, K. (1876). Hamong Tani.

Jamaludin, A., & Purnamasari, I. (2020). Pengelompokan Desa Menggunakan K-


Means Untuk Penyelenggaraan Penanggulangan Bencana Banjir. JOINS
(Journal of Information System), 5(2), 156–167.

Kodinariya, T & Makwana, P (2013) Review on Determining of Cluster in K-means


Clustering. International Journal of Advance Research in Computer Science
and Management Studies.

Leonard K, & Peter J. Rousseeuw (1990). Finding Groups in Data: An Introduction


to Cluster Analysis. John Wiley & Sons, Inc., Hoboken, 68-125.

Sebastien D. L. (n.d.). kmeans_opt. MATLAB Central File Exchange.


https://www.mathworks.com/matlabcentral/fileexchange/65823-kmeans_opt

92
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Widiarti, A. R., & Himamunanto, A. R. (2012). Teori Dan Aplikasi Pengolahan


Citra Digital Transliterasi Otomatis Citra Dokumen Teks Aksara Jawa.
Lintang Pustaka Utama.

Widiarti, A. R. (2011). Comparing Hilditch, Rosenfeld, Zhang-Suen, and


Nagendraprasad-Wang-Gupta Thinning. International Journal of Computer
and Information Engineering, 5(6), 563–567.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

LAMPIRAN
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Anda mungkin juga menyukai