Analisis Cluster (Elbow and Silhoutte)
Analisis Cluster (Elbow and Silhoutte)
SKRIPSI
Diajukan Untuk Memenuhi Salah Satu Syarat
Oleh:
175314084
THESIS
Present as Partial Fulfillment of The Requirements
Created by:
175314084
Halaman Persembahan
“Segala perjuangan saya hingga titik ini saya persembahkan pada dua orang
paling berharga dalam hidup saya. Hidup menjadi begitu mudah dan lancar ketika
kita memiliki orang tua yang lebih memahami kita daripada diri kita sendiri.
Terima kasih telah menjadi orang tua yang sempurna.”
iv
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Abstrak
Pada penelitian ini akan dilakukan pencarian nilai K terbaik dari 2 metode
pendekatan clustering K-Means yaitu Elbow dan Silhouette. Berdasarkan penelitian
sebelumnya oleh Purnamasari (2020) ditemukan pendekatan Elbow menghasilkan
hasil yang lebih ideal. Maka dari itulah penulis berpikir untuk melakukan pencarian
nilai K terbaik pada clustering aksara Jawa.
Terdapat banyak tahapan yang dilakukan pada penelitian ini. Yang pertama
adalah pengumpulan data yang berupa buku hamong tani halaman 2 dan 59.
Kemudian preprocessing untuk mendapatkan data yang bersih. Setelah itu akan
disegmentasi untuk mendapatkan tiap aksaranya. Lalu akan diambil ciri untuk tiap
aksaranya dengan menggunakan Intensity of Character. Data ciri kemudian
dikelompokan menggunakan K-Means clustering yang mana akan menghasilkan
jumlah cluster, idx, dan sumd. Kemudian idx akan digunakan untuk evaluasi
silhouette dan sumd akan digunakan untuk evaluasi elbow. Hasil kedua metode
tersebut akan dibandingkan untuk mencari K terbaiknya.
Dari pengujian yang dilakukan disimpulkan jika K nya lebih besar maka
akan menghasilkan hasil pengelompokan yang bagus sehingga metode elbow
dianggap sebagai metode yang ideal untuk menentukan nilai K.
vii
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Absract
In this research, the best K value will be searched from 2 methods of K-
Means clustering approach, namely Elbow and Silhouette. Based on previous
research by Purnamasari (2020) it was found that the Elbow approach produced
more ideal results. That's why the writer thought to search for the best K value in
Javanese script clustering.
There are many stages carried out in this research. The first is collecting
data in the form of the Hamong Tani book page 2 and 59. Then preprocessing to
get clean data. After that it will be segmented to get each character. Then the
characteristics for each character will be taken using the Intensity of Character. The
feature data are then grouped using K-Means clustering which will produce the
number of clusters, idx, and sumd. Then idx will be used for silhouette evaluation
and sumd will be used for elbow evaluation. The results of the two methods will be
compared to find the best K.
From the tests carried out, it is concluded that if the K is greater then it will
produce good grouping results so that the elbow method is considered an ideal
method to determine the K value.
viii
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Kata Pengantar
Puji dan syukur penulis panjatkan kepada Tuhan Yang Maha Esa atas rahmat dan
karunia-Nya, sehingga penulis dapat menyelesaikan tugas akhir dengan judul
“Analisa Perbandingan Nilai K Terbaik Untuk Clustering K-Means Menggunakan
Pendekatan Elbow Dan Silhouette Pada Citra Aksara Jawa” dengan baik dan tepat
waktu. Tugas akhir ini merupakan salah satu persyaratan yang wajib untuk
ditempuh sebagai syarat akademik untuk memperoleh gelar sarjana komputer
program studi Informatika Universitas Sanata Dharma Yogyakarta.
Selama proses penelitian, penulis mendapat banyak dukungan dari berbagai pihak
sehingga sudah sepantasnya penulis menyampaikan terima kasih yang kepada:
1. Ibu Dr. Anastasia Rita Widiarti, M.Kom selaku dosen pembimbing tugas
akhir yang telah bersedia memberikan arahan, masukan, waktu serta
motivasi kepada penulis selama menyelesaikan skripsi.
2. Bapak Sudi Mungkasi, S.Si., M.Math.Sc., Ph.D. selaku dekan Fakultas
Sains dan Teknologi.
3. Seluruh dosen Informatika Universitas Sanata Dharma yang telah mendidik
dan memberikan ilmu pengetahuan kepada penulis yang digunakan sebagai
bekal untuk menyelesaikan tugas akhir ini.
4. Keluarga tercinta, Ayah Drs. Ary Widayanto, Mama Rini Sudiastuti, dan
saudara-saudari yang selalu memberikan dukungan dan doa sehingga
membuat penulis semakin semangat dalam mengerjakan serta
menyelesaikan tugas akhir ini.
5. Saudara Edrick Hernando, Atanasius Ivannoel Rio Aji, Yudistira Prama
Putra, Hieronimus Fredy Morgan, Albertus Ivan Adhyatma Maheswara,
Joseph Hutagalung, Agung Kristanto yang selalu bisa diajak diskusi
masalah tugas akhir.
6. Teman – teman dari grup “Pejuang Ekspetasi”, “Mesin Goblog”, dan
“Brokeback” yang senantiasa memberikan saran dan hiburan dalam
ix
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
DAFTAR ISI
xi
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xii
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xiii
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
DAFTAR GAMBAR
xiv
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
DAFTAR TABEL
xv
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xvi
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
BAB I PENDAHULUAN
1.1 Latar Belakang
Pada zaman ini, banyak sekali metode yang digunakan untuk melakukan
proses clustering, Salah satunya yang paling populer adalah K-means clustering
karena merupakan “unsupervised machine learning algorithms” yang paling
sederhana.
Banyak sekali manfaat yang dapat diperoleh jika kita melakukan proses
clustering. Salah satunya adalah kita dapat mengelompokkan citra aksara Jawa
yang terdapat pada dokumen-dokumen kuno yang dapat berguna untuk membantu
proses labeling pada aksara Jawa. Salah satu dokumen yang memuat aksara Jawa
itu adalah buku Hamong Tani.
1
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Gambar
Gambar
2.13.201 Aksara
20 Aksara
Pokok
Jawa Pokok
Gambar 2.1 merupakan aksara dasar atau pokok yang berjumlah
sebanyak 20 aksara. Aksara pokok atau sering disebut legena memiliki arti
aksara wuda (telanjang) sebab belum diikuti dengan sandhangan. Selain
aksara pokok (legena), aksara vokal (swara), aksara rekaan (rekan),
pengubah bunyi (sandhangan), penutup konsonan (pasangan), penutup
suku kata (sigeg), angka (wilangan), dan tanda baca. Aksara sandhangan
adalah aksara yang dipakai untuk mengubah bunyi dari aksara yang
diikutinya. Secara khusus, aksara sandhangan tersebut dibagi ke dalam 4
jenis, yaitu 5 sandhangan swara, 3 sandhangan penyigeg wanda, 3
sandhangan wyanjana, dan sandhangan pangkon. Untuk sandhangan
swara terdiri dari 5 aksara, seperti pada Gambar 2.2.
5
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Citra adalah kombinasi antara titik, garis, bidang, dan warna untuk
menciptakan suatu objek-biasanya objek fisik atau manusia. Citra didefinisikan
sebagai suatu fungsi kontinu dalam dua dimensi dari intensitas cahaya (Gonzalez
& Woods, 2002). Setiap titik citra dapat dinyatakan dalam rumus matematis :
Variabel f(x,y) adalah intensitas cahaya pada citra yang terletak dilokasi (x,y).
Citra digital dapat diartikan sebagai suatu matriks yang terdiri atas baris dan
kolom, di mana setiap elemennya merupakan nilai intensitas kecerahan. Titik dari
setiap matriks dinamakan dengan piksel. Citra digital merupakan kumpulan dari
piksel dengan jumlah piksel tertentu.
10
2.4 Preprocessing
2.4.1. Binerisasi
Binerisasi adalah tahapan dimana citra dimensi dua akan diubah menjadi
citra hitam putih dengan dimensi satu dengan cara mengubah nilai elemen dalam
matriks citra menjadi 0 dan 1 dimana nilai 0 sebagai warna hitam dan 1 sebagai
warna putih. Tujuan utama dari proses ini adalah secara otomatis menentukan nilai
ambang treshold yang akan membagi citra dalam dua kelompok yaitu, kelompok
obyek dan kelompok latar belakang (Widiarti & Himamunanto, 2012).
2.4.2. Thinning
2.4.3. Filtering
11
Bentuk derau bisa berupa suatu piksel yang letaknya terasing dari piksel
yang lain. Biasanya berbentuk titik hitam kecil dalam suatu gambar citra. Jika kita
tidak melakukan reduksi derau maka proses identifikasi akan terganggu oleh derau
tersebut.
2.5 Segmentasi
2.5.2. Resize
12
Ekstraksi ciri merupakan suatu proses pengambilan ciri atau informasi yang
berada pada suatu obyek. Hal ini dilakukan untuk mempermudah dalam proses
pencarian informasi tentang obyek tersebut. Proses ektraksi ciri pada citra digital
dilakukan dengan menemukan karakteristik dari suatu citra yang biasanya
ditemukan dalam bentuk citra tersebut.
a. Terdapat Citra berukuran sebesar 9x9, maka untuk setiap unit IoC 1x1
nya akan mencakup matrix sebesar 3x3.
1 0 1 1 0 0 1 1 1
1 1 1 1 1 1 1 0 0
1 0 1 1 0 1 0 1 1
0 0 0 0 1 1 0 0 0
1 1 1 0 1 1 0 1 1
1 1 1 0 1 0 1 1 1
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
13
0 0 1 1 0 1 1 0 1
0 1 1 0 1 1 1 1 1
b. Untuk setiap unit 1x1, akan menyimpan nilai yang merupakan banyaknya
anggota piksel berwarna hitam untuk setiap area 3x3nya. Berikut adalah
bentuk IoC 3x3 tersebut ketika telah dilakukannya penjumlahan untuk
setiap unit nya.
4 3 5
3 4 1
14
Misal ada 4 data di Tabel 2.3 yang ingin dipisahkan menjadi 2 buah
cluster dari data.
1 1 1 2 1
2 2 1 2 2
3 4 3 3 2
4 5 4 1 5
1 1 1 2 1 1
2 2 1 2 2 1
3 4 3 3 2 2
4 5 4 1 5 2
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
15
C2 2 1 2 2
Dimana,
Iterasi 1
16
1 0 1,414214 v
2 1,414214 0 v
3 3,872983 3 v
4 6,480741 5,291503 v
∑𝑛
𝑖=1 𝑥𝑖 ∈ 𝑠𝑖
𝐶𝑖 = …………………..( 2.3)
𝑛
Dimana,
𝐶𝑖 = Centroid baru ke i
𝑠𝑖 = obyek ke i
17
C2 3,666666667 2,666666667 2 3
Iterasi 2 :
1 0 3,72678 v
2 1,414214 2,560382 v
3 3,872983 1,490712 v
4 6,480741 2,924988 v
18
Iterasi 3 :
1 0,707107 4,974937 v
2 0,707107 3,840573 v
3 3,391165 1,936492 v
4 5,87367 1,936492 v
Metode Elbow adalah salah satu metode yang digunakan untuk menentukan
jumlah cluster terbaik melalui perbandingan hasil persentase antara jumlah cluster
yang akan membentuk siku pada suatu titik. Jika perbandingan nilai cluster pertama
dengan nilai cluster kedua menghasilkan sudut dalam grafik atau nilainya
mengalami penurunan paling besar maka jumlah nilai cluster tersebut yang tepat.
19
nilai cluster K, maka nilai SSE akan semakin kecil (Dewi & Pramita, 2019).
Berikut rumus persamaan SSE :
𝑆𝑆𝐸 = ∑𝐾 2
𝐾=1 ∑ |𝑥𝑖 − 𝑐𝑘 | ……………..….……..(2.4)
Keterangan:
K = cluster ke-c
Data
1 2 3 4 5 6 7 8 9 10
20
c. Menghitung SSE
Untuk perhitungan dataset ini didapatkan nilai SSE sebesar 4,816. Hasil
ini biasanya akan dibandingkan dengan SSE dari dataset lain dan kemudian
akan dipilih yang paling minimum karena jika semakin kecil errornya maka
data akan dianggap baik.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
21
1
𝑎(𝑖) = |𝐴|−1 ∑ 𝑗 ∈𝑎,𝑗=1 𝑑(𝑖, 𝑗)……..………….( 2.5)
1
𝑑(𝑖, 𝐶) = |𝐴| ∑ 𝑗 ∈ 𝐶 𝑑(𝑖, 𝑗)………………..(2.6)
𝑏(𝑖)−𝑎(𝑖)
𝑠(𝑖) = 𝑚𝑎𝑥 (𝑎(𝑖),𝑏(𝑖))…………………( (2.8)
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
22
1 2 1 2 1 1
2 2 1 2 2 1
3 3 2 3 2 2
4 4 3 2 1 2
a. Data 1 cluster 1:
d(data 1, data 2) =
√(2 − 2)2 + (1 − 1)2 + (2 − 2)2 + (1 − 2)2 = 1
nilai 𝑎𝑖 = 1/(2-1) = 1
b. Data 2 cluster 1:
d(data 2, data 1) =
√(2 − 2)2 + (1 − 1)2 + (2 − 2)2 + (2 − 1)2 = 1
nilai 𝑎𝑖 = 1/(2-1) = 1
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
23
c. Data 3 cluster 2:
d(data 3, data 4) =
√(3 − 4)2 + (2 − 3)2 + (3 − 2)2 + (2 − 1)2 = 2
nilai 𝑎𝑖 = 2/(2-1) = 2
d. Data 4 cluster 2:
d(data 4, data 3) =
√(4 − 3)2 + (3 − 2)2 + (2 − 3)2 + (1 − 2)2 =
2,645751
a. Data 1 cluster 1:
d(data 1, data 3) =
√(2 − 3)2 + (1 − 2)2 + (2 − 3)2 + (1 − 2)2 = 2
d(data 1, data 4) =
√(2 − 4)2 + (1 − 3)2 + (2 − 2)2 + (1 − 1)2 =
2,828427
b. Data 2 cluster 1:
d(data 2, data 3) =
√(2 − 3)2 + (1 − 2)2 + (2 − 3)2 + (2 − 2)2 =
1,732051
d(data 2, data 4) =
√(2 − 4)2 + (1 − 3)2 + (2 − 2)2 + (2 − 1)2 = 3
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
24
c. Data 3 cluster 2:
d(data 3, data 1) =
√(3 − 2)2 + (2 − 1)2 + (3 − 2)2 + (2 − 1)2 = 2
d(data 3, data 2) =
√(3 − 2)2 + (2 − 1)2 + (3 − 2)2 + (2 − 2)2 =
1,732051
d. Data 4 cluster 2:
d(data 4, data 1) =
√(4 − 2)2 + (3 − 1)2 + (2 − 2)2 + (1 − 1)2 =
2,828427
d(data 4, data 2) =
√(4 − 2)2 + (3 − 1)2 + (2 − 2)2 + (1 − 2)2 =
25
Untuk menentukan kualitas dari cluster yang telah dibentuk, maka semua
nilai silhouette dari semua data yang ada dalam cluster akan dijumlahkan lalu
dirata-rata. Berikut adalah kriteria penilaian suatu cluster menurut Kaufmann &
Roesseeuw(1990).
Nilai ground truth merupakan salah satu cara validasi. Nilai ground
truth digunakan sebagai tolak ukur lain untuk mengukur akurasi dari suatu
proses yang dilakukan oleh mesin. Pada kasus clustering yang dengan nilai
ground truth adalah mengecek nilai kebenaran dari cluster yang telah
terbentuk dari proses clustering.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
26
Set data mentah dalam penelitian ini diperoleh dari scan halaman dari buku
Hamong Tani (Holle, 1876). Data yang dipakai adalah aksara Jawa yang terdapat
pada halaman buku Hamong Tani. Banyak halaman yang digunakan adalah
sebanyak 2 halaman yaitu halaman 2 dan 59 hal ini berdasarkan dari pertimbangan
waktu yang diperlukan untuk mengolah data, banyak total data, dan pengerjaan
penelitian. Data yang nanti akan diolah akan dipotong sendiri-sendiri sehingga
aksara pokok akan terpisah dengan pasangan, angka, dan juga tanda baca.
27
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
28
Pada Gambar 3.2 terdapat gambar bagian sisi kiri yang akan menyulitkan
proses segmentasi sehingga yang dilakukan adalah memotong gambar tersebut
sehingga hanya menyisahkan aksaranya saja.
Namun, set data yang diperoleh tersebut tidak dapat langsung diproses. Hal
ini dikarenakan harus dilakukan proses cropping terlebih dahulu dan juga masih
adanya noise yang terdapat pada tiap aksara sehingga harus dibersihkan.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
29
Sebelum data akan dikelompokan dan diambil cirinya maka perlu adanya
pengolahan data. Pengolahan data dimulai dengan memasukan data citra hasil scan
halaman buku Hamong Tani ke matlab. Lalu data akan dibersihkan melalui proses
preprocessing dimana data citra yang hasil scan akan melalui berbagai tahap
preprocessing. Adapun tahap preprocessing tersebut adalah binerisasi, invers,
filtering, invers kembali. Hasil preprocessing adalah data citra yang sudah bersih
dan siap untuk disegmentasi. Dalam proses segmentasi citra akan dipotong per
karakter dengan profil projeksi ditambah dengan bwlabel dan kemudian di resize
ukurannya menjadi 33x33, 88x88, dan 60x60 lalu di thinning. Setelah itu data akan
di ekstraksi cirinya dengan ukuran IoC 3x3, 4x4, dan 5x5. Setelah diperoleh ciri
dari tiap data maka akan masuk ke proses clustering.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
30
Diambil 10 data dari total 597. Dari 10 data tersebut 3 data adalah pepet, 5
data adalah sa, dan 2 data adalah ma.
Aksara Ciri 1 Ciri 2 Ciri 3 Ciri 4 Ciri 5 Ciri 6 Ciri 7 Ciri 8 Ciri 9
Pepet 1 8 15 21 16 0 13 14 18 24
Pepet 2 7 15 22 23 0 18 7 11 25
Pepet 3 6 16 22 20 0 13 8 25 20
Ta 1 16 22 17 20 11 11 27 24 19
Ta 2 22 22 16 23 13 16 27 23 14
Ta 3 22 22 17 22 11 16 29 24 14
Ta 4 14 22 19 22 11 15 24 25 15
Ta 5 16 22 17 22 13 15 27 22 14
Ma 1 12 14 14 13 16 12 24 26 16
Ma 2 15 15 14 13 10 11 21 25 21
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
31
1. Proses K-Means
Centroid Ciri 1 Ciri 2 Ciri 3 Ciri 4 Ciri 5 Ciri 6 Ciri 7 Ciri 8 Ciri 9
Pepet 1 8 15 21 16 0 13 14 18 24
Ta 2 22 22 16 23 13 16 27 23 14
Ma 1 12 14 14 13 16 12 24 26 16
X1 X2 X3 C1 C2 C3
0 28.12472222 23.66431913 v
13.22875656 33.88214869 32.81767816 v
11.09053651 30.2654919 26.13426869 v
22.36067977 10.04987562 13.6381817 v
28.12472222 0 17.74823935 v
28.0713377 3.31662479 18.11077028 v
21.9089023 9.643650761 14.49137675 v
24.95996795 6.32455532 14.73091986 v
23.66431913 17.74823935 0 v
17.8325545 18.02775638 9.055385138 v
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
32
Centroid Ciri 1 Ciri 2 Ciri 3 Ciri 4 Ciri 5 Ciri 6 Ciri 7 Ciri 8 Ciri 9
Baru
c1 7 15.34 21.67 19.67 0 14.67 9.67 18 23
c2 18 22 17.2 21.8 11.8 14.6 26.8 23.6 15.2
c3 13.5 14.5 14 13 13 11.5 22.5 25.5 18.5
X1 X2 X3 C1 C2 C3
6.12825877 24.72893043 20.45727255 v
9.08600878 31.49793644 30.17449254 v
8.076027626 26.95403495 23.5690475 v
25.18376902 5.95986577 12.1449578 v
29.8310055 4.911211663 17.3060683 v
30.16988933 5.011985634 17.53567792 v
23.35713072 5.469917732 13.91042774 v
25.40778533 3.117691454 14.7478812 v
26.6749987 15.04393566 4.527692569 v
21.499354 15.20263135 4.527692569 v
Dari hasil diatas dapat disimpulkan bahwa data 1, 2, dan 3 akan masuk ke cluster
1, lalu data 4, 5, 6, 7, dan 8 akan masuk ke cluster 2, serta data 9 dan 10 akan masuk
ke cluster 3 sehingga terbentuk 3 cluster.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
33
2. Proses Silhouette
8 15 21 16 0 13 14 18 24 Cluster 1
7 15 22 23 0 18 7 11 25 Cluster 1
6 16 22 20 0 13 8 25 20 Cluster 1
16 22 17 20 11 11 27 24 19 Cluster 2
22 22 16 23 13 16 27 23 14 Cluster 2
22 22 17 22 11 16 29 24 14 Cluster 2
14 22 19 22 11 15 24 25 15 Cluster 2
16 22 17 22 13 15 27 22 14 Cluster 2
12 14 14 13 16 12 24 26 16 Cluster 3
15 15 14 13 10 11 21 25 21 Cluster 3
b. Menghitung jarak tiap data ke data yang lain dengan rumus euclidean.
Data 1 Data 2 Data 3 Data 4 Data 5 Data 6 Data 7 Data 8 Data 9 Data 10
Data 1 0.00 13.23 11.09 22.36 28.12 28.07 21.91 24.96 23.66 17.83
Data 2 13.23 0.00 16.06 30.64 33.88 34.63 28.69 31.24 32.82 28.02
Data 3 11.09 16.06 0.00 25.48 30.27 30.48 22.78 27.28 26.13 21.66
Data 4 22.36 30.64 25.48 0.00 10.05 9.70 7.35 7.28 13.64 12.25
Data 5 28.12 33.88 30.27 10.05 0.00 3.32 9.64 6.32 17.75 18.03
Data 6 28.07 34.63 30.48 9.70 3.32 0.00 9.80 7.00 18.11 18.11
Data 7 21.91 28.69 22.78 7.35 9.64 9.80 0.00 5.57 14.49 14.76
Data 8 24.96 31.24 27.28 7.28 6.32 7.00 5.57 0.00 14.73 16.09
Data 9 23.66 32.82 26.13 13.64 17.75 18.11 14.49 14.73 0.00 9.06
Data 10 17.83 28.02 21.66 12.25 18.03 18.11 14.76 16.09 9.06 0.00
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
34
S(i) 1 0.4139487886
S(i) 2 0.6790128494
S(i) 3 0.621224377
S(i) 4 0.4688355832
S(i) 5 0.6720180009
S(i) 6 0.670804245
S(i) 7 0.5575933506
S(i) 8 0.6603673416
S(i) 9 0.7124160301
S(i) 10 0.7143205267
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
35
e. Menghitung akurasi silhouette dari hasil k-means 3 cluster ini dengan cara
menghitung rata-rata SI dari semua data.
Akurasi Silhouette
0.6170541093
Didapatkan hasil SI K = 3 ini sebesar 0,62 dimana dalam arti silhouette berarti
sudah membentuk struktur pengelompokan yang layak. Hasil ini akan dibuat
sebagai perbandingan dengan nilai SI cluster lainnya.
3. Proses Elbow
a. Dari hasil penghitungan jarak k-means pada iterasi ke 2 diambil nilai yang
menunjukan posisi cluster (paling kecil).
6.12825877
9.08600878
8.076027626
5.95986577
4.911211663
5.011985634
5.469917732
3.117691454
4.527692569
4.527692569
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
36
Cluster 1 23.29029518
Cluster 2 24.47067225
Cluster 3 9.055385138
c. Lalu dicari distortionnya dengan menjumlah dari seluruh nilai jarak cluster.
Distortion 56.81635257
Didapatkan distortion untuk K=3 sebesar 56.81635257. Data distortion inilah yang
akan diolah untuk mencari nilai K terbaik dengan membandingkan nilai distortion
dari K lainnya.
37
Terdapat banyak tahapan yang dilakukan pada penelitian ini. Yang pertama
kali dilakukan adalah pengumpulan data yang berupa buku hamong tani halaman 2
dan 59. Kemudian data itu akan dilakukan preprocessing guna mendapatkan data
yang bersih dan bagus. Setelah itu akan disegmentasi untuk mendapatkan tiap tiap
aksaranya. Lalu akan diambil ciri untuk tiap aksaranya dengan menggunakan
Intensity of Character. Data ciri kemudian akan dikelompokan menggunakan k-
means clustering yang mana akan menghasilkan jumlah cluster, idx, dan sumd.
Kemudian idx akan digunakan untuk evaluasi silhouette dan sumd akan digunakan
untuk evaluasi elbow. Hasil kedua metode tersebut akan dibandingkan untuk
mencari K terbaiknya.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
38
Berdasarkan Flowchart pada Gambar 3.6, data yang berupa scan halaman
dari buku Hamong Tani akan diproses dengan berbagai metode preprocessing
seperti binerisasi, invers, filtering, dan invers kembali. Lalu data hasil
preprocessing tersebut akan siap diolah di tahap segmentasi.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
39
Input yang akan diolah pada tahap ini adalah data aksara Jawa dari
halaman buku Hamong Tani.
ii. Output
iii. Algoritma
1. Binerisasi Citra
40
2. Invers Citra
3. Filtering Citra
41
Pada tahap ini citra hasil fitering akan ditukar kembali nilai
warnanya dimana nilai 1 (putih) akan menjadi 0 (hitam) dan nilai
0 (hitam) akan menjadi 1 (putih). Pada tahapan ini digunakan
function imcomplement() yang merupakan function dari
MATLAB.
42
b. Segmentasi
Berdasarkan Flowchart pada Gambar 3.6, data yang telah melalui proses
preprocessing akan diambil tiap aksaranya dengan mengunakan profil projeksi.
Setelah didapat semua aksaranya kemudian akan di resize lalu ditipiskan. Data tiap
aksara yang sudah tipis ini akan diambil cirinya pada tahap selanjutnya.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
43
i. Input
Input yang akan diolah pada tahap ini adalah data citra aksara jawa
yang merupakan hasil dari tahap preprocessing.
ii. Output
Output dari tahap ini adalah data hasil segmentasi yang merupakan
potongan aksara yang memiliki ukuran yang sama.
iii. Algoritma
1. Profil Projeksi
44
dilihat dari isi label yang terhubung dengan 8 titik hitam yang
ditemukan dibaris tersebut.
2. Resize Citra
3. Penipisan Citra
45
c. Ekstraksi Ciri
i. Input
Input yang akan diolah pada tahap ini adalah data citra aksara jawa
yang merupakan hasil dari tahap segmentasi sebanyak 597.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
46
ii. Output
Output dari tahap ini adalah data hasil ekstraksi ciri yang merupakan
array berisi matriks untuk tiap aksara.
iii. Algoritma
Intensity of Character
47
d. Clustering K-Means
Berdasarkan Flowchart pada Gambar 3.6, hasil ekstraksi ciri tadi akan
dikelompokan menggunakan Metode clustering K-Means dengan menggunakan
tools dari MATLAB sehingga ciri IoC dari citra yang digunakan hanya tinggal
dimasukkan kedalam tools dan mengatur jumlah K yang diperlukan dimana dalam
penelitian ini K nya diatur sebanyak 597 (seluruh data). Pada bagian ini terdapat 3
variabel penting yaitu datacluster, idx, dan sumd. Datacluster berisi citra yang sudah
dikelompokan sesuai clusternya. Idx berisi index yang menentukan citra tersebut
masuk ke kelompok mana. Sumd adalah jumlah jarak antar titik ke centroid dalam
cluster.
Input yang akan diolah pada tahap ini adalah data cell matriks tiap
citra yang merupakan hasil dari tahap ekstraksi ciri.
ii. Output
Output dari tahap ini adalah data tabel cluster, idx, dan sumd yang
merupakan hasil proses clustering menggunakan K-means.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
48
iii. Algoritma
K-Means
Pada tahap ini data hasil ekstraksi ciri aksara akan dilakukan
proses clustering menggunakan K-Means. Nilai K akan dimulai
dari 2 hingga 597. Kemudian akan hasil dari tiap kali melakukan
clustering yang dilakukan akan disimpan kedalam sel untuk
proses selanjutnya. Pada tahapan ini digunakan function
kmeans() yang merupakan function dari MATLAB.
Setelah didapatkan sel yang berisi kumpulan hasil clustering K-Means maka
akan dilakukan evaluasi menggunakan metode elbow dan silhouette. Untuk idx
hasil clustering akan dipakai dalam evaluasi silhouette dan untuk sumd akan dipakai
dalam evaluasi elbow.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
49
Input yang akan diolah pada tahap ini adalah hasil tabel clustering
tiap nilai K yang merupakan hasil dari tahap clustering.
ii. Output
Output dari tahap ini adalah nilai K terbaik yang merupakan hasil
proses analisis yang membandingkan 2 metode.
iii. Algoritma
50
Pada tahap ini nilai K dari Elbow Method dan nilai K dari
Silhouette Coefficient akan dibandingkan. Metode yang
memiliki nilai K yang terbaiklah yang akan dianggap sebagai
metode yang lebih ideal untuk clustering menggunakan K-
Means.
51
Platform Notebook-PC
Harddisk 1 TB
52
53
memasukan nilai K yang akan digunakan untuk clustering K-Means. Lalu user
memilih jarak yang akan digunakan pada penghitungan silhouette.
Output yang muncul ketika user menekan tombol Mulai adalah hasil
Distortion dari metode Elbow dan juga hasil SI dari metode Silhoutte untuk nilai K
yang dimasukkan oleh user.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
4.1 Data
Data yang digunakan adalah Data Citra aksara Jawa yang berjumlah 597
citra aksara. Data yang digunakan diperoleh dari buku Hamong Tani halaman 2 dan
59. Untuk mendapatkan datanya hal yang dilakukan adalah proses preprocessing
yang meliputi binerisasi, invers, dan filtering. Hasil dari halaman Hamong Tani
yang telah dipreprocessing akan diambil tiap aksaranya menggunakan proses
segmentasi profile projeksi dan bwlabel. Lalu dilakukan proses resize yang
ukurannya tergantung dengan kebutuhan IoC dan setelah itu dikenakan proses
penipisan citra menggunakan rosenfeld. Tahap selanjutnya adalah Ekstraksi ciri
menggunakan Intensity of Character atau bisa disingkat IoC. Ukuran yang
digunakan adalah 3x3, 4x4, dan 5x5.
a. Implementasi Binerisasi
Data yang telah dibaca menggunakan fungsi MATLAB kemudian akan
dilakukan proses binerisasi yang mana akan merubah citra warna menjadi citra
hitam putih dengan menggunakan fungsi im2bw.
54
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
55
Dari Tabel 4.1 hasil binerisasi dapat dilihat citra sebelah kiri terlihat tidak
terlalu jelas, buram, dan warna yang kurang baik. Hasil proses binerisasi ini
menunjukan hasil yang tampak lebih jelas dicitra sebelah kanan.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
56
b. Implementasi Invers
Data yang telah melalui proses binerisasi akan ditukar warnanya dimana
hitam menjadi putih dan putih menjadi hitam dengan menggunakan fungsi
imcomplement, tujuannya untuk proses selanjutnya sehingga data menjadi bersih.
Dari Tabel 4.2 dapat dilihat aksaranya menjadi berwarna putih dan latar
belakangnya menjadi berwarna hitam. Lalu noda-noda yang berbentuk titik kecil
juga berubah menjadi putih. Titik putih inilah yang akan dihilangkan.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
57
c. Implementasi Filtering
Data yang awalnya telah diinvers akan dihilangkan noisenya dimana akan
menghilangkan titik putih dengan menggunakan menggunakan fungsi bwareaopen.
Dari Tabel 4.3 hasil perbandingannya sudah terlihat dimana gambar disisi
kanan noda titik putih sudah menghilang dan data menjadi bersih dibanding
gambar disisi kiri yang terlihat terdapat banyak noda titik putih.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
58
Dari Tabel 4.4 hasil perbandingannya terlihat dimana aksara yang awalnya
putih menjadi hitam dan juga latar belakang hitam diubah menjadi putih.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
59
a. Projeksi Horisontal
Data yang telah melalui proses preprocessing tadi akan diambil tiap
karakternya menggunakan proses segmentasi. Proses dilakukan dengan
menggunakan projeksi Horisontal. Hasil dari projeksi Horisontal tadi kemudian
akan dimasukkan ke dalam excel untuk dibentuk grafik garis dimana dari grafik
tersebut dapat dilihat mana yang berupa baris mana yang area kosong (jarak antar
baris). Kemudian hasil excel ini akan menjadi acuan pengambilan baris dengan
melanjutkan ke MATLAB untuk mendapatkan data perbaris yang nanti akan
berjumlah masing-masing 20 untuk tiap halaman.
250
Nilai Lebar Halaman 2
200
150
100
50
0
560
1248
1
44
87
130
173
216
259
302
345
388
431
474
517
603
646
689
732
775
818
861
904
947
990
1033
1076
1119
1162
1205
Melihat dari grafik pada Gambar 4.1 dapat diambil kesimpulan bahwa pada
halaman 2 terdapat 20 baris data karena titik puncaknya berjumlah 20.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
60
100
Nilai Lebar Halaman 59
80
60
40
20
0
560
1248
1
44
87
130
173
216
259
302
345
388
431
474
517
603
646
689
732
775
818
861
904
947
990
1033
1076
1119
1162
1205
Panjang Data Halaman 59
61
b. Projeksi Vertikal
Setelah didapatkankan data per baris akan diambil tiap aksaranya
menggunakan fungsi bwlabel. Fungsi ini akan mengambil tiap karakter yang
terdapat pada inputan baris hasil dari projeksi horisontal.
c. Implementasi Resize
Hasil segmentasi yang telah didapatkan tiap askara akan dilakukan resize
ukuran citra menggunakan fungsi imresize.
Dapat dilihat perubahan ukuran secara drastis pada tiap kolom di Tabel 4.4
dimana keempat gambar aksara memiliki ukuran yang berbeda.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
62
d. Implementasi Thinning
Data yang telah resize kemudian dilakukan proses pengambilan kerangka
aksara dengan menggunakan metode rosenfeld sehingga menghasilkan citra dengan
bentuk kerangka citra saja.
Dari Tabel 4.5 dapat dilihat digambar kiri masih merupakan 1 aksara yang
utuh dan disisi kanan hanya menyisakan kerangka citra saja. Hasil dari proses
penipisan dengan metode rosenfeld mendapatkan hasil penipisan yang baik yaitu
tepat kerangka dan dan tidak terdapat gambar latar sehingga bisa digunakan untuk
proses selanjutnya.
Hasil dari ekstraksi ciri IoC adalah data berbentuk sel yang berisi masing-
masing ukuran IoC aksara yang telah diproses. Proses selanjutnya adalah mengubah
hasil ekstraksi ciri yang awalnya berbentuk sel menjadi berbentuk array untuk
mempermudah proses clustering. Hasil pengubahan sel menjadi array ini
menghasilkan matriks berukuran 597x9 untuk ciri 3x3, 597x16 untuk ciri 4x4 dan
597x25 untuk ciri 5x5 dimana 597 merupakan banyak data pada penelitian.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
63
Data Aksara 1
Ukuran 33x33
64
65
Maka untuk Aksara 1 akan memiliki 9 ciri dimana ciri 1 berisi 22, ciri 2
berisi 22, ciri 3 berisi 17, ciri 4 berisi 15, ciri 5 berisi 11, ciri 6 berisi 11, ciri 7 berisi
31, ciri 8 berisi 22, dan juga ciri 9 berisi 14.
Data Ciri 1 Ciri 2 Ciri 3 Ciri 4 Ciri 5 Ciri 6 Ciri 7 Ciri 8 Ciri 9
Aksara 1 22 22 17 15 11 11 31 22 14
Aksara 2 9 3 15 11 10 12 26 14 4
Aksara 3 25 23 12 9 16 11 22 14 13
Disini data Aksara 1, 2, dan 3 memiliki 9 kolom ciri dimana karena awalnya
IoC berbentuk 3 baris x 3 kolom akan diubah menjadi 1 baris 9 kolom untuk
mempermudah proses clustering.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
66
CC=dataioc;
k=K;
[idx,sumd]=kmeans(CC,k);
datacluster = cell(k,1);
for i = 1:k
datacluster{i} = CC(idx==i,:);
end
end
67
adalah nilai silhouette untuk semua cluster. [s,h] = silhouette(data,idx) berarti akan
mengambil 2 output yaitu s untuk nilai silhouettenya dan h adalah plot grafik
berdasarkan nilai silhouette yang didapatkan. Lalu silhouette sendiri adalah
function dari matlab dengan input berupa data yang berisi data IoC dan juga idx
yang merupakan idx hasil proses clustering k-means.
[s,h] = silhouette(data,idx);
xlabel('Value');
ylabel('Cluster');
SIcluster=mean(s);
akurasi=SIcluster;
detail=s;
end
68
cluster=length(sumdioc);
distortion=zeros(cluster,1);
for k_temp=2:597
sumd=sumdioc{k_temp};
destortion_temp=sum(sumd);
distortion((k_temp)-1,1)=destortion_temp;
end
variance=distortion(1:end-1)-distortion(2:end);
distortion_percent=cumsum(variance)/(distortion(1)-distortion(end));
plot(distortion_percent,'b*--');
distortion90=find(distortion_percent>0.90);
K=distortion90 (1,1)+1;
end
69
70
71
72
73
74
75
76
77
78
Silhouette nilainya justru menurun. Hal tersebut dapat dilihat pada hasil dibawah
ini :
79
80
81
82
83
Metode Elbow
3x3 0.9027 62
4x4 0.9001 84
84
85
86
87
Dari pengujian ini didapatkan hasil pengelompokan yang baik. Hal ini
dikarenakan pada IoC 3x3 berdasarkan analisa metode silhouette karena K = 65
memiliki SI yang berada 0,5060 maka persebaran datanya menjadi baik karena hasil
berdasarkan tabel nilai SI untuk nilai 0,50 - 0,70 membentuk struktur yang layak.
Begitu juga dengan metode elbow 65 memiliki distortion 0,9027 yang dianggap
masih belum sempurna pengelompokannya. Sehingga dari pengujian yang
dilakukan hasil pengelompokan baik ini sudah bisa diprediksi dan dianggap relevan
dengan akurasi sebesar 86%.
88
89
Dari Tabel 4.12 ditemukan bahwa dari 14 label hanya didapat 10 kelompok
label saja. Karena ada kelompok yang pembagiannya masih belum tepat. Seperti
dapat dilihat bahwa ada 3 kelompok yang didominasi Na, 2 kelompok yang
didominasi Sa dan Ta. Lalu label yang jumlahnya sedikit jadi ikut tercampur dengan
label yang tadi. Label yang jumlahnya sedikit tersebut adalah Ma, Dha, dan Wa.
5.1 Kesimpulan
90
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
91
Hasil pengujian dengan 597 citra aksara Jawa ukuran IoC 3 dan
jumlah cluster 65 mendapatkan hasil pengelompokan yang baik dengan
akurasi sebesar 86%, ini sudah bisa diprediksi sehingga dianggap
relevan. Hal ini karena pada cluster 65 memiliki SI 0,5060 untuk
metode silhouette dan juga distortion 0,9027 untuk metode elbow. Dari
pengujian tadi dapat disimpulkan jika K nya lebih besar maka akan
menghasilkan hasil pengelompokan yang bagus sehingga metode
elbow dianggap sebagai metode yang ideal untuk menentukan nilai K.
5.2 Saran
a. Perlu dilakukan percobaan dengan ukuran ciri IoC yang lainnya untuk
memperoleh hasil yang lebih baik.
DAFTAR PUSTAKA
Dewi D.A., & Pramita D.A (2019). Analisis Perbandingan Metode Elbow dan
Silhouette pada Algoritma Clustering K-Medoids dalam Pengelompokan
Produksi Kerajinan Bali. Jurnal Manajemen Teknologi dan Informatika, 102-
109.
Gonzalez, R.C., & Woods, R.E. (2002). Digital Image Processing. 2nd Edition,
Prentice Hall, Upper Saddle River.
Hadiprijono (2013). Trampil Maca lan Nulis Aksara Jawa. Kanisius Yogyakarta.
92
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
LAMPIRAN
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI