PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
HALAMAN JUDUL
PENGELOMPOKAN ARTIKEL
BERBAHASA JAWA DENGAN HIERARCHICAL K MEANS
CLUSTERING
SKRIPSI
Diajukan Untuk Memenuhi Salah Satu Syarat
Memperoleh Gelar Sarjana Komputer
Program Studi Teknik Informatika
Disusun Oleh :
Aluisius Bachtiar Bayu Saputra
115314076
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
HALAMAN JUDUL
A Final Project
Presented as Partial Fulfillment of The Requirements
To Obtain Sarjana Komputer Degree
In Informatics Engineering Study Program
By:
Aluisius Bachtiar Bayu Saputra
115314076
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
HALAMAN PERSETUJUAN
SKRIPSI
PENGELOMPOKAN ARTIKEL
BERBAHASA JAWA DENGAN HIERARCHICAL K MEANS
CLUSTERING
Disusun oleh:
Aluisius Bachtiar Bayu Saputra
115314076
Dosen Pembimbing
iii
Tanggal:
Juli 2015
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
HALAMAN PENGESAHAN
SKRIPSI
PENGELOMPOKAN ARTIKEL
BERBAHASA JAWA DENGAN HIERARCHICAL K MEANS
CLUSTERING
NIM
: 115314093
Tanda Tangan
Ketua
_____________
Sekretaris
_____________
Anggota
_____________
Yogyakarta,
Juli 2015
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
HALAMAN PERSEMBAHAN
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
vi
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
Nomor Mahasiswa
: 115314076
vii
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
ABSTRAK
PENGELOMPOKAN ARTIKEL
BERBAHASA JAWA DENGAN HIERARCHICAL K MEANS
CLUSTERING
ABSTRAK
Artikel memiliki berbagai jenis topik, sebagai contoh: berita ekonomi, kesehatan,
dan sebagainya. Berdasarkan pada jenis artikel di atas ternyata dapat digali
informasi yang dapat dimanfaatkan (knowledge discovery). Knowledge discovery
pada data teks dapat dilakukan dengan proses awal berupa information retrieval.
Proses dari information retrieval bertujuan untuk menemukan ciri dari dokumen,
untuk selanjutnya dilakukan analisis keterhubungan antar dokumen dengan
menggunakan metode pengelompokan. Sebelum dikelompokkan, data dokumen
dari media cetak harus diubah ke bentuk text file. Selanjutnya masuk tahap
information retrieval untuk memperoleh ciri dari suatu dokumen. Proses yang
dilakukan adalah tokenizing, stop word, stemming, dan weighting. Berdasarkan
proses information retrieval yang telah dilakukan, data dikelomopokan
menggunakan Hierarchical K Means. Metode Hierarchical K Means terdiri dari
dua buah algoritma utama, yaitu K Means dan agglomerative hierarchical
clustering (AHC) khususnya teknik single linkage. Single linkage dilakukan
mencari centroid yang paling baik. Proses selanjutnya dilakukan K Means dengan
menggunakan centroid hasil single linkage, guna menghasilkan cluster terbaik.
Setiap hasil cluster dievaluasi dengan metode evaluasi internal, metode yang
digunakan adalah sum of square error (SSE). Cluster yang memiliki error
minimum diuji kembali dengan evaluasi eksternal, yaitu dengan menggunakan
(confusiion matrix). Berdasarkan percobaan pengelompokan yang dilakukan
didapatkan pembentukan tiga cluster, yang memiliki error cluster minimum
19,84822 (evaluasi internal) dan memiliki akurasi maksimum 80% (evaluasi
eksternal). Pembentukan tiga kelompok ini juga sesuai dengan tujuan yang ingin
dicapai dalam tulisan ini, yaitu untuk mendapatkan pengelompokan dari artikel
dan dapat membantu untuk mengetahui jenis topik artikel.
viii
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
ABSTRACT
ix
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
KATA PENGANTAR
Puji dan syukur penulis panjatkan atas kehadirat Tuhan Yang Maha Esa
atas berkat, rahmat serta kasih-Nya sehingga penulis dapat menyelesaikan skripsi
yang berjudul Pengelompokan Artikel Berbahasa Jawa dengan Hierarchical
K Means Clustering.
Penulisan skripsi ini bertujuan untuk memenuhi
sebagian syarat
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
7. Semok Crew (Poldo, Ega, dan Nusa) yang senantiasa kompak dalam
kerjasama team, baik siang, malam, maupun subuh menjelang, baik di
kampus, base camp, maupun di bar.
8. Seluruh civitas akademika Teknik Informatika angkatan 2011,
terutama anggota C++ yang telah berjuang bersama dan saling memberi
semangat dan inspirasi.
9. Semua pihak, baik langsung maupun tidak, yang telah membantu
dalam proses penyelesaian skripsi ini.
Penulis menyadari bahwa masih banyak kekurangan yang terdapat dalam
skripsi ini. Saran dan kritik diharapkan untuk perbaikan-perbaikan pada masa
yang akan datang. Semoga bermafaat.
Penulis menyadari masih banyak kekurangan dalam menyusun skripsi ini,
namun penulis tetap berharap skripsi ini bermanfaat bagi pengembangan ilmu
pengetahuan.
xi
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
DAFTAR ISI
HALAMAN JUDUL................................................................................................ i
HALAMAN JUDUL............................................................................................... ii
HALAMAN PERSETUJUAN ............................................................................... iii
HALAMAN PENGESAHAN ................................................................................ iv
HALAMAN PERSEMBAHAN ............................................................................. v
PERNYATAAN KEASLIAN KARYA ................................................................ vi
ABSTRAK ........................................................................................................... viii
ABSTRACT ........................................................................................................... ix
KATA PENGANTAR ............................................................................................ x
DAFTAR ISI ......................................................................................................... xii
DAFTAR GAMBAR ........................................................................................... xiv
DAFTAR TABEL ................................................................................................. xv
BAB I PENDAHULUAN ....................................................................................... 1
1.1
1.2
1.3
1.4
Tujuan ....................................................................................................... 4
1.5
1.6
xii
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
xiii
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
DAFTAR GAMBAR
Gambar 2.1 Proses Information Retrieval (Manning, 2008)................................... 8
Gambar 2.2 Distribusi Zipf (Manning, 2008) ....................................................... 12
Gambar 2.3 Ilustrasi Penentuan Keanggotaan Kelompok Berdasarkan Jarak
(Turban dkk, 2005)................................................................................................ 20
Gambar 2.4 Dendrogram ....................................................................................... 24
Gambar 2.5 Dendrogram single linkage untuk 5 obyek data ................................ 29
Gambar 3.1 Diagram Block Proses Clustering. .................................................... 33
Gambar 3.2 Pembobotan tf-idf.............................................................................. 35
Gambar 3.3 Langkah Menghitung Jarak Minimum pada single linkage .............. 38
Gambar 3.4 Langkah Menghitung Menggabungkan Kelompok yang Berdekatan39
Gambar 3.5 Dendrogram ....................................................................................... 39
Gambar 3.6 Tampilan Menu Utama...................................................................... 42
Gambar 4.1 Implementasi User Interface Awal (sebelum proses dilakukan) ...... 44
Gambar 4.2 Implementasi User Interface (setelah dilakukan proses) .................. 44
Gambar 4.3 Button Preprocessing dan Button Proses .......................................... 45
Gambar 4.4 Hasil Kata Unik ................................................................................. 46
Gambar 4.5 Hasil Pengelompokan Terbaik .......................................................... 47
Gambar 4.6 Anggota Cluster dari Pengelompokan Terbaik ................................. 48
Gambar 4.7 Hasil Centroid Terbaik yang Digunakan Pengelompokan ................ 48
Gambar 4.8 Hasil Himpunan Centroid yang Divisualisasikan dengan Dendrogram
............................................................................................................................... 49
Gambar 4.9 Hasil Akurasi Berdasarkan Pengelompokan Terbaik........................ 49
Gambar 4.10 Peringatan/Informasi dari Aksi Menekan Button Preprocessing dan
Proses .................................................................................................................... 50
Gambar 4.11 Jumlah Data Dokumen yang Digunakan ......................................... 51
Gambar 4.12 Salah Satu Contoh Data Dokumen .................................................. 51
Gambar 4.13 Hasil Tokenizing .............................................................................. 53
Gambar 4.14 Hasil Stop Word .............................................................................. 54
Gambar 4.15 Hasil Stemming................................................................................ 56
Gambar 4.16 Hasil Indexing ................................................................................. 57
Gambar 4.17 Dendrogram..................................................................................... 59
Gambar 4.18 Centroid Awal ................................................................................. 60
Gambar 4.19 Pembagian Cluster Beserta Anggotanya ......................................... 62
Gambar 4.20 Pembagian Anggotanya Cluster ..................................................... 62
Gambar 4.21 Pemilihan SSE Minimum ................................................................ 63
Gambar 4.22 Hasil Akurasi ................................................................................... 64
Gambar 4.23 Perbandingan Pemotongan Frekuensi Kata .................................... 78
Gambar 4.24 Gambar Tabel Percobaan ................................................................ 79
xiv
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
DAFTAR TABEL
Tabel 2.1 Rule untuk Suffix ................................................................................... 14
Tabel 2.2 Rule untuk Prefix .................................................................................. 14
Tabel 2.3 Rule untuk Infix ..................................................................................... 15
Tabel 2.4 Contoh Data Perhitungan hierarchical clustering ................................ 25
Tabel 2.5 Matriks jarak ......................................................................................... 26
Tabel 2.6 Matriks Jarak Pertama single linkage ................................................... 27
Tabel 2.7 Matriks Jarak Kedua single linkage ...................................................... 27
Tabel 2.8 Matriks Jarak Ketiga single linkage ...................................................... 28
Tabel 3.1 Pembobotan ........................................................................................... 35
Tabel 3.2 Perhitungan Jarak antara Dokumen dengan Centroid........................... 37
Tabel 3.3 Hasil Himpunan Cluster Berdasarkan Pemotongan .............................. 40
Tabel 3.4 Hasil iterasi K Means yang Sudah Stabil .............................................. 41
Tabel 4.1 Percobaan 1 dengan range term frekuensi 0-152 (tanpa pemotongan
term) dengan jumlah kata unik 2.358 .................................................................... 66
Tabel 4.2 Hasil Akurasi 1 dengan tf 0-152(tanpa pemotongan) dengan jumlah kata
unik 2.358.............................................................................................................. 67
Tabel 4.3 Percobaan 2 dengan range term frekuensi 20-130, dengan jumlah kata
unik 236................................................................................................................. 68
Tabel 4.4 Hasil Akurasi 2 dengan tf 20-130 dengan jumlah kata unik 236. ......... 69
Tabel 4.5 Hasil Percobaan 3 dengan c=2 dan range 70-90 dengan jumlah kata unik
11. .......................................................................................................................... 70
Tabel 4.6 Hasil Akurasi 3 c=2 dan range 70-90 dengan jumlah kata unik 11...... 70
Tabel 4.7 Hasil Percobaan 4 dengan c=4 dan range 70-90 dengan jumlah kata unik
11. .......................................................................................................................... 71
Tabel 4.8 Hasil Akurasi 4 c=4 dan range 70-90 dengan jumlah kata unik 11...... 71
Tabel 4.9 Hasil Percobaan 5 dengan c=2 dan range 50-150 dengan jumlah kata
unik 40................................................................................................................... 72
Tabel 4.10 Hasil Akurasi 5 c=2 dan range 50-150 dengan jumlah kata unik 40.. 72
Tabel 4.11 Hasil Percobaan 6 dengan c=4 dan range 50-150 dengan jumlah kata
unik 40................................................................................................................... 73
Tabel 4.12 Hasil Akurasi 6 c=4 dan range 50-150 dengan jumlah kata unik 40.. 73
Tabel 4.13 Percobaan 7 dengan range term frekuensi 75-85 dengan jumlah kata
unik 4..................................................................................................................... 74
Tabel 4.14 Hasil Akurasi 7 dengan tf 75-85 dengan jumlah kata unik 4. ............. 75
xv
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
1. BAB I
PENDAHULUAN
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
Khotimah,
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
1.4 Tujuan
Penelitian ini diharapkan dapat :
1. Mengetahui kelompok dari artikel dan dapat membantu untuk
mengetahui jenis topik artikel pada dokumen berbahasa Jawa.
2. Mengukur
akurasi
dari metode
Hierarichal
K Means
pada
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
4. Pembuatan Sistem
Berdasarkan hasil analisis dan perancangan sistem, maka tahapan
selanjutnya adalah membuat sistem yang akan digunakan.
5. Implementasi dan Pengujian
Implementasi sistem dengan cara menjalankan sistem yang telah
dibuat dan dilakukan pengujian dengan menampilkan pengelompokan
dokumen teks dalam Bahasa Jawa untuk mengetahui pengklasifikasiannya.
6. Evaluasi
Menganalisis hasil implementasi dan membuat kesimpulan
terhadap penelitian yang telah dikerjakan.
1.6 Sistematika Penulisan
Sistematika penulisan yang akan digunakan adalah sebagai berikut :
BAB I PENDAHULUAN
Bab ini akan menjelaskan latar belakang, perumusan masalah, batasan
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
2. BAB II
LANDASAN TEORI
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
Sebelum data dikembalikan ke user, dokumen yang diretrieved akan diranking berdasarkan kedekatan dokumen
dengan query.
Tokenisasi
Penghilangan Stop-word
Stemming
Indexing
2.1.1.2.1 Tokenization
Tokenisasi merupakan proses pemenggalan kata dalam suatu
dokumen menjadi potongan potongan kata yang berdiri sendiri (token).
Proses ini juga akan menghilangkan tanda baca atau karakter yang melekat
pada kata tersebut dan semua kata menjadi huruf kecil (Manning, 2008).
Contoh tokenisasi :
Input :Friends, Romans, Countrymen, Lend, Me, Your, Eyes
Output : Friends Romans Countrymen Lend Me Your Eyes
10
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
Terkadang token dapat dikatakan juga sebagai term atau kata. Pemotongan
kumpulan karakter biasanya berdasarkan karakter spasi, namun beberapa
permasalahan yang terjadi dalam proses tokenisasi yaitu terdapat beberapa
kata yang akan berbeda arti bila dipotong berdasarkan spasi seperti San
Fransisco akan memiliki arti yang berbeda bila dipotong menjadi San dan
Fransisco. Setiap dokumen dan query direpresentasikan dengan model
bag-of-words, yaitu model yang mengabaikan urutan dari kata kata dan
struktur yang ada di dalam dokumen. Dokumen diubah menjadi sebuah
wadah yang berisi kata kata yang independen.
2.1.1.2.2 Penghilangan Stop Word
Stop-word didefinisikan sebagai term yang tidak berhubungan
(non-relevant) dengan subjek utama dari data meskipun kata tersebut
sering muncul di dalam dokumen. Penghilangan stop-word tidak bersifat
wajib pada beberapa desain dari modern information retrieval, dimana
memliki cara sendiri untuk menyelesaikan masalah kata-kata yang sering
digunakan dengan menggunakan data statistik. Contoh stop-word dalam
Bahasa Inggris adalah : a, an, the, this, that, these, those, her, his, its, my,
our, their, your, all, few, many, several, some, every, for, and, nor, bit, or,
yet, so, also, after, although, if, unless, because, on, beneath, over, of,
during, beside, dan etc. Contoh stop-word dalam bahasa Indonesia : yang,
juga, dari, dia, kami, kamu, aku, saya, ini, itu, atau, dan, tersebut, pada,
dengan, adalah, yaitu, ke, tak, tidak, di, pada, jika, maka, ada, pun, lain,
saja, hanya, namun, seperti, kemudian, dan dll.
11
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
2.1.1.2.3 Stemming
Sebuah kata kerja dalam dokumen sering kali memiliki banyak
bentuk atau tata bahasa yang berbeda, untuk mengatasinya dilakukan
stemming. Tujuan akhir dari stemming adalah mereduksi kata menjadi kata
dasar, proses ini dilakukan dengan pemotongan akhiran dan awalan kata.
Hasil dari langkah stemming diperoleh kelompok kata yang mempunyai
makna serupa tetapi berbeda wujud sintaktis satu dengan lainnya.
Kelompok tersebut dapat direpresentasikan oleh satu kata tertentu.
Meskipun demikian stemming dan lemmatisasi memiliki perbedaan dalam
12
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
(ny dihapus)
(ny diganti s)
13
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
dipun=>"",peng=>"",peny=>"",pem=>"",pam=>"",pany=>"",pra=>"",kuma=>"",kapi=>"",
bok=>"",mbok=>"",dak=>"",tak=>"",kok=>"",tok=>"",ing=>"",ang=>"",any=>"", am=>"",
sak=>"",
se=>"",su=>"",mang=>"",meng=>"",nge=>"",nya=>"",pi=>"",ge=>"",ke=>"",u=>"",
po=>"u",ke=>"u"
<2>
mer=>"",mra=>"",mi=>"",sa=>"",ku=>"",an=>"",ka=>"",ny=>"s",ng=>"k",di=>"",peng=>"
k",pang=>"k",pany=>"c", pam=>"p",ke=>"i",mang=>"k",meng=>"k"
<3>
14
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
<4>
<5>
pan=>"",pen=>"",man=>"t",men=>"t",n=>""
<6>
pa=>"",pe=>"",man=>"",men=>""
<7>
p=>"",ma=>"",me=>""
<8>
m=>"w"
<9>
m=>"p"
<10>
m=>""
gum=>"b",gem=>"b",kum=>"p",kem=>"p"
<2>
kum=>"w", kem=>w
15
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
16
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
17
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
dokumen satu dengan dokumen yang lain yang berada di dalam satu
collection. Indeks dengan ukuran yang kecil dapat memberikan hasil yang
kurang baik dan bisa saja beberapa dokumen yang seharusnya relevan
terabaikan. Sementara indeks dengan ukuran yang besar memungkinkan
ditemukannya dokumen yang tidak relevan dan menurunkan kecepatan
pencarian. Pembuatan inverted index harus melibatkan konsep linguistic
processing yang bertujuan mengekstrak term-term penting dari dokumen
yang direpresentasikan sebagai bag-of-words.
Pada tahap indexing, dapat dilakukam pengindeksan terhadap term
frekuensi (tf), idf, tf-idf, atau fitur bobot tf-idf dapat dihitung sebagai
berikut:
(2.1)
18
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
tf-idf = 6.9
19
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
20
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
tiap cluster dan proses pencarian anggota dari tiap-tiap cluster. Proses Algoritma
K Means sebagai berikut :
1. Tentukan K sebagai jumlah cluster yang ingin dibentuk.
2. Bangkitkan K centroid (titik pusat cluster) awal secara random.
3. Hitung jarak setiap data ke masing-masing centroid.
4. Setiap data memilih centroid yang terdekat.
5. Tentukan posisi centroid baru dengan cara menghitung nilai rata-rata
dari data-data yang terletak pada centroid yang sama.
6. Kembali ke langkah 3 jika posisi centroid baru kurang dari centroids
lama.
Berdasarkan cara kerjanya Algoritma K Means memiliki karakteristik sebagai
berikut :
1. K Means sangat cepat dalam proses clustering.
2. K Means sangat sensitif dalam proses pembangkitan centroid awal secara
random.
3. Memungkinkan suatu cluster tidak mempunyai anggota.
4. Hasil clustering dengan K Means bersifat tidak unik.
Proses pengelompokkan data ke dalam suatu cluster dapat dilakukan dengan cara
menghitung jarak terdekat dari suatu data ke sebuah titik centroid. Rumus untuk
menghitung jarak tersebut menggunakan euclidean matrix:
(2.3)
dimana:
21
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
(2.4)
dimana:
k = titik centroid dari cluster ke-K
Nk = banyaknya data pada cluster ke-K
xq = data ke-q pada cluster ke-K
22
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
(|
| ) (2.5)
(2.6)
Keterangan:
dan
adalah data
(2.7)
Keterangan:
*
Berdasarkan perhitungan rumus di atas akan didapatkan jarak antar cluster. Jarak
minimum antar data yang ditemukan pertama akan menjadi cluster yang pertama.
Perhitungan selanjutnya juga akan dilakukan untuk pembentukan cluster
selanjutnya. Berdasarkan hasil perhitungan akan diperoleh dendrogram.
23
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
J a r ak
1,5
1
0,5
0
Data
24
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
(|
| )
(|
| )
(|
| )
(|
| )
(|
| )
(|
| )
(|
| )
(|
| )
(|
| )
(|
| )
25
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
3.61
3.16
3.16
3.16
3.16
2.83
4.47
3.61
3.16
2.83
3.16
4.47
Single linkage
Selanjutnya dari tabel 2.5 dapat dilihat jarak obyek data yang paling dekat,
yaitu a dan c, berjarak 1. Kedua obyek data ini menjadi satu cluster pertama.
Kemudian untuk menemukan cluster berikutnya dicari jarak antar obyek data dari
sisa yang ada (b, d, e) dan berada paling dekat dengan cluster (ac). Untuk
pencarian jarak ini pertama digunakan single linkage.
+
+
+
26
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
Ac
Ac
2.83
4.47
3.16
3.16
B
D
Berdasar pada matriks jarak kedua (Tabel 2.6), dipilih kembali jarak
terdekat antar cluster. Ditemukan cluster (de) yang paling dekat, yaitu bernilai 2.
Kemudian dihitung jarak dengan cluster yang tersisa, (ac), dan b.
)(
+
+
+
+
Ac
B
De
Ac
De
2.83
3.16
0
27
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
Berdasar pada matriks jarak ketiga (Tabel 2.7), dipilih kembali jarak
terdekat antar cluster. Ditemukan cluster (acde) yang paling dekat, yaitu bernilai
2.83. Kemudian dihitung jarak dengan cluster yang tersisa, yaitu b.
Acde
B
acde
3
0
28
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
29
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
untuk
30
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
||
||
(2.8)
Keterangan:
di indeks
di cluster
31
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
3. BAB III
METODOLOGI PENELITIAN
Berdasar pada landasan teori yang telah disampaikan pada bab kedua di
atas, pada bab ini akan membahas metodologi yang akan digunakan pada skripsi
ini. Bab ini berisi diagram blok, data, tatap muka pengguna dan evaluasi.
3.1 Data
Data yang digunakan adalah artikel yang bersumber dari majalah
berbahasa Jawa Mekarsari, Praba, dan Djaka Lodhang yang terlebih dahulu
diubah menjadi dokumen berekstensi .txt . Data yang digunakan berjumlah 75
dokumen, dengan jumlah kata unik yang digunakan 2.358 kata.
3.1.1 Jenis Data
Jenis data yang diambil adalah artikel dari majalah Djaka Lodhang, Praba,
dan Mekarsari diubah ke bentuk dokumen berkestensi .txt. Data yang dipilih,
berasal dari tiga kelompok, yaitu pendidikan, kesehatan, dan ekonomi.
3.2 Teknik Analisis Data
Secara umum, sistem yang akan dibangun dalam penelitian ini adalah
sebuah sistem dengan fungsi utama untuk melakukan pengelompokan dokumen
berbahasa Jawa. Dokumen yang akan dikelompokkan adalah artikel yang diambil
dari majalah berbahasa Jawa yaitu Djaka Lodhang, Praba, dan Mekarsari. Proses
pengelompokan yang digunakan pada sistem ini adalah metode Hierarchical K
Means. Praktiknya, dokumen-dokumen yang akan dikelompokkan dijadikan
sebagai arsip digital dengan ekstensi .txt. File teks inilah yang nantinya akan
32
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
Input
Data
IR
Hiearchical
Kmeans
Tokenizing
K Means
StopWord
Hierarchical
Output
Akurasi
Hasil Cluster
SSE
(Single Linkage)
Confusion
Matrix
Stemming
K Means
Indexing
model.
Langkah
berikutnya
adalah
dengan
melakukan
33
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
34
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
TF
IDF
w=tf*idf
Pergok
1,77815125
1,77815125
Wong
1,77815125
1,77815125
Nandhang
1,77815125
1,77815125
Racun
2 1,477121255 1,477121255
Dhahar
2 1,477121255 2,954242509
W = 1,77815125
35
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
wong:
W = 1,77815125
( )
( ))
( )
pengelompokan
yang
digunakan
adalah
dilakukannya
menghasilkan
metode
tiga
centroid
Means
(c=3),
random
yang
36
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
1,778151 1,778151
doc2
wdc1
doc1
doc1
sum
3,161822 3,161822
doc2
Sum
3,161822 3,161822
doc2
dj q
dj q
W2
3,161822
3,161822 x 3,161822
dj q
dj q
0
3,161822 x 0
Lakukan untuk semua himpunan centroid dan kemudian lanjutkan dengan proses
hierarchical single linkage.
37
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
38
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
39
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
Tahap ini bertujuan untuk mendapatkan tiga buah cluster, maka bisa dipotong
pada dendogram, sehingga diperoleh pusat cluster sebagai berikut:
Tabel 3.3 Hasil Himpunan Cluster Berdasarkan Pemotongan
c1
c2
c3
Ab
Cde
1,2
3,4,5
dj q
dj q
3,161822
1
3,161822 x 3,161822
dj q
dj q
0
3,161822 x 0
40
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
Lakukan langkah K Means sampai anggota setiap centroid tidak terjadi peubahan,
dan ternyata iterasi berhenti di iterasi 1 (2 kali iterasi), sehingga didapatkan
pengelompokan dengan anggota cluster sebagai berikut:
Kelompok 1 : doc 1 dan 2
Kelompok 2 : doc 3,4, dan 5
Kelompok 3 : doc 6
3.2.1.5 Output
Output yang diharapkan pada penelitian ini adalah menampilkan pembagian
cluster, sehingga secara visual dapat dilihat hasil pembagian cluster-nya
3.2.1.6 Penghitungan Evaluasi
Penelitian ini menggunakan beberapa prosedur uji coba, di antaranya
variasi jenis range kata unik yang digunakan dan variasi computation(c) yang
merupakan jumlah dilakukan K Means pertama. Berdasarkan prosedur uji coba di
atas dihasilkan SSE sebagai akurasi internal sistem di setiap pembentukan cluster-
41
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
nya. SSE dengan nilai yang paling rendah mengindikasikan bahwa cluster yang
terbentuk adalah yang paling baik. Nilai SSE terkecil dipilih sebagai pedoman
pengukuran akurasi eksternal sistem, yaitu pencocokan hasil pengelompokan
dokumen dengan dokumen yang sebenarnya. Pada pengujian eksternal sistem ini
dapat digunakan confussion matrix sebagai metodenya.
3.3 Desain User Interface
Tabel Hasil
Pengujian
akurasi
Dendrogram
button
button
Gambar 3.6 Tampilan Menu Utama
42
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
4. BAB IV
IMPLEMENTASI DAN ANALISIS HASIL
user
interface
yang
telah
dipaparkan
pada
bab
sebelumnya
43
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
44
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
Proses input data sengaja tidak ditampilkan pada user interface karena
data yang digunakan sudah tetap dan menempel pada code program.
Pengguna cukup untuk menekan button preprocessing untuk melakukan
information retrieval pada dokumen dan button proses untuk melakukan
proses pengelompokan. Pengguna juga dapat mengetahui proses dari
sistem melalui informasi teks iterasi dan melalui message yang
memberikan informasi bahwa suatu proses telah dilakukan, dapat dilihat
di gambar 4.3 di bawah.
45
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
pengelompokan
(lihat
gambar
4.5).
Hasil
yang
memiliki
46
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
SSE
merupakan
hasil
evaluasi
internal
dari
47
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
48
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
7. Message Informasi
Message Box (lihat gambar 4.10) merupakan feedback dari suatu
aksi yang dilakukan pengguna, aksi yang dilakukan adalah menekan
button proses dan button preprocessing. Message box membantu
pengguna dalam mengetahui suatu proses yang dilakukan sistem.
50
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
51
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
data=strtrim(data);
data(strcmp('',data)) = []; % Menghilangkan cell yang kosong
data=lower(data); % Mengubah huruf besar menjadi kecil
fid = fopen('Data\dataAwal.txt','w');
52
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
2. Stop Word
Proses stop word merupakan langkah lanjutan dari proses Tokenizing.
proses ini membuang kata-kata yang tidak memiliki arti seperti halnya kata
hubung. Pada tahap ini juga ditambahkan metode distribusi Zipf, yaitu melakukan
pemotongan kata yang memiliki frekuensi kemunculan terlalu banyak maupun
terlalu sedikit. Hal ini dilakukan untuk mencari ciri atau key word dari suatu
dokumen. Pada penelitian ini digunakan dua buah range frekuensi kata. Range
pertama (50-150) dan range ke dua (70-90). Batasan ini dipilih karena batasan
tersebut paling optimum (berdasarkan ujicoba yang telah dilakukan). Berikut
53
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
adalah implementasi dari stop word dan penggunaan zipf distribution dimana hasil
dari proses tersebut dapat dilihat melalui gambar 4.14.
%cek data dengan kamus stop word
yaTdk=ismember(matrixGabungan,kamusHubung);
[m,n]=size(matrixGabungan);
dataTemp=[];
z=1;
for j=1:m
if yaTdk(j,1)==0
dataTemp{z}=matrixGabungan{j};
z=z+1;
end
end
hasilStem=dataTemp';
%potong frekuensi kata dengan batas atas dan batas bawah
%=======================================================
for i=1:m
if jmlPerKataUnik(i,1)>batasAwal(k,1) &&
jmlPerKataUnik(i,1)<batasAkhir(k,1)
dataTemp2(x,1)=jmlPerKataUnik(i,1);
dataTemp3{x,1}=kataUnik{i,1};
x=x+1;
else
dataTemp4(y,1)=jmlPerKataUnik(i,1);
dataTemp5{y,1}=kataUnik{i,1};
y=y+1;
end
end
jmlPerKataUnik= dataTemp2;
kataUnik= dataTemp3;
54
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
3. Stemming
Berdasarkan proses stop word, didapatlah matriks yang berisi kata-kata,
namun kata-kata tersebut harus melalui sebuah tahap lagi yang dinamakan tahap
stemming. Pada tahap ini setap kata akan dicek menggunakan stemmer Bahasa
Jawa, dimana setiap imbuhan baik itu di awal, tengah, maupun akhir akan
dihilangkan sehingga dihasilkan kata dasar. Proses berikutnya adalah pengecekan
kata dasar ke kamus Bahasa Jawa, kata dasar yang tidak ada dalam kamus akan
dihilangkan. Data awal yang digunakan diambil dari dataHasil.txt yang
merupakan hasil dari proses sebelumnya. Setiap kata yang ada pada data awal
dicek untuk menemukan kata dasar dengan menggunakan algoritma stememer
bahasa Jawa yang diimplementasikan pada stemcoba.pl (terlampir pada lampiran
7). Kata dasar yang terdapat di dalam kamus disimpan dalam matriks hasilStem
untuk proses selanjutnya, yaitu pembobotan. Berikiut adalah implementasinya,
untuk lebih jelasnya bisa dilihat gambar 4.15
perl('stemcoba.pl');
fileID = fopen('Data\dataHasil.txt');
data = textscan(fileID,'%s');
fclose(fileID);
hasilStem=data{1};
hasilStem=regexprep(hasilStem,'-','');
hasilStem=strtrim(hasilStem);
hasilStem(strcmp('',hasilStem)) = [];
matrixFIle{i} = hasilStem;
55
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
4. Indexing
Data yang dihasilkan proses stemming dilanjutkan dengan proses
pembobotan. Proses ini diawali dengan menghitung frekuensi kata dari tiap kata
yang pada tiap dokumen, kemudian dilanjutkan dengan mengalikannya dengan
idf. Berdasarkan perhitungan tf dan idf , diterapkanlah rumus pembootan/weight
(tf.idf). Data hasil dari proses stemming yang telah dibobot mengasilkan sebuah
matriks, yang kemudian disebut sebagai calonData yang siap untuk digunakan di
tahap clustering. Berikut adalah implementasinya, dimana hasil dari implementasi
pembonbotan dapat dilihat pada gambar 4.16.
countKataUnik = sum(jmlPerKataUnik);
[m,n]=size(jmlPerKataUnik);
matrixBobot=zeros(m,n);
for i=1:m
matrixBobot(i)=log10(countKataUnik/jmlPerKataUnik(i));
end
calonData=zeros(size(matrixBobot,1),N);
56
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
for i=1:N
tempMatrixFile=matrixFIle{i};
[m,n]=size(tempMatrixFile);
for j=1:m
[row,~] = find(ismember(kataUnik,tempMatrixFile(j,1)));
calonData(row, i)=matrixBobot(row,1);
end
end
calonDataCell{k}=calonData';
57
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
1. K Means
Pada tahap ini, hasil dari pembobotan, data dikelompokkan dengan
menggunakan metode K Means yang implementasinya sudah terlampir
pada lampiran 4, yaitu dengan menggunakan fungsi() Kmeans1 yang ada
pada Kmeans1.m. Hal pertama yang dilakukan adalah menentukan jumlah
cluster. Jumlah cluster yang digunakan pada penelitian ini adalah tiga
buah, selanjutnya centroid harus ditentukan terlebih dahulu, pada
penelitian ini centroid K Means yang pertama dilakukan secara random
atau acak. Setiap term/kata pada setiap dokumen diukur jaraknya dengan
masing-masing centoid awal menggunakan euclidean distance. Proses ini
dilakukan sampai tidak terjadi perubahan centorid atau letak indeks dari
dokumen tidak berubah lagi. Proses K Means pertama dilakukan sampai
batas computation (c), dimana c bernilai dua dan empat. Pengulangan K
Means pada penelitian ini bertujuan untuk menghasilkan himpunan
centroid random yang nantinya menjadi data awal proses Agglomerative
Hierarchical Clustering dengan tujuan untuk mengasilkan centroid
terbaik.
2. Agglomerative Hierarchical Clustering (Single Linkage)
Proses Agglomerative Hierarchical Clustering yang dipilih adalah
single linkage. Metode ini dipilih karena penggunaannya menggunakan
himpunan centroid sebagai data awal, yang nantinya akan dikelompokkan
berdasarkan jarak dengan salah satu Agglomerative Hierarchical
Clustering yaitu Single Linkage. Perhitungan jarak yang digunakan adalah
58
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
59
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
3. K Means
Pada tahap ini K Means kembali dilakukan, implementasinya
sudah terlampir pada lampiran 4, yaitu dengan menggunakan fungsi()
Kmeans1 yang ada pada Kmeans1.m, namun terdapat perbedaan proses
yang dilakukan, yaitu berkaitan dengan pemilihan centroid yang sudah
ditentukan berdasarkan hasil dari single linkage. Sama halnya dengan
proses K Means sebelumnya, iterasi K Means dilakukan sampai tidak
terjadi perubahan centorid atau letak indeks dari dokumen tidak berubah
lagi. Berikut adalah centroid hasil single linkage yang digunakan sebagai
centroid awal(gambar 4.18).
60
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
61
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
62
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
yang
hitungSSE.m.
guna
mendapatkan akurasi eksternal terbaik dari tiap cluster, dimana data hasil
pengelompokan dihitung dengan membandingkan antara hasil pengelompokan
yang dihasilkan sistim dengan pengelompokan data yang ideal. Pengecekan
dilakukan setiap cluster hasil sistem dengan cluster ideal. Berdasarkan dari
pengecekan setiap anggota cluster antara sistem dengan ideal, terbentuklah
diagonal yang menyatakan hasil yang cocok atau sesuai. Hasil dari diagonal
dijumlahkan kemudian dibagi dengan sejumlah data. Inilah hasil dari evaluasi
internal sistem. Pada penelitian kali ini proses running dilakukan 10 kali dengan
empat macam percobaan yang berbeda, sehingga didapatkan empat akurasi yang
berbeda .
63
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
pada
kamus
apakah
ada
atau
tidak,
kata-kata
yang
diambil/digunakan adalah kata-kata yang ada pada kamus untuk dijadikan kata
unik yang kemudian dicek ke data awal untuk menentukan jumlah
kemunculan/frekuensi dari kata tersebut. Kata
menjadi data numerik melalui proses indexing. Proses indexing berfungsi untuk
mencari mana kata yang bisa menjadikan suatu ciri khas dari sebuah dokumen,
64
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
karena kata yang lebih sering muncul pada suatu dokumen dianggap lebih
penting.
Untuk mengukur keberhasilan dari penulisan ini adalah dengan
menggunakan percobaan. Langkah mengetahuinya adalah dengan melakukan
percobaan. Berikut adalah langkah-langkah perobaan yang dilakukan:
1. Menentukan jumlah cluster=3, sesuai dengan topik yang telah
ditentukan sebelumnya
2. Memilih computation (c) awal (jumlah dilakukan K Means
pertama), ditentukan dua buah parameter percobaan, c=2 dan c=4.
Computation dipilih 2 dan 4 karena di penelitian sebelumnya
digunakan 10 computation dari 1000, karena pada percobaan ini
jumlah data ada 75, maka dipilihlah computation 2 dan 4 agar
kurang lebih serupa dengan perbandingan antara jumlah data
dengan computation-nya.
3. Menerapkan distribusi zipf dengan memilih beberapa range
pemotongan frekuensi kata unik yang digunakan, dengan
menentukan range pertama 0-152(tanpa pemotongan frekuensi),
range ke dua 20-130, range ke tiga 50-150, range ke empat 7090, dan range ke lima 75-85.
4. Tiap
dipasangkan
dengan
masing-masing
range
untuk
65
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
Tabel 4.1 Percobaan 1 dengan range term frekuensi 0-152 (tanpa pemotongan
term) dengan jumlah kata unik 2.358
No
Hasil Percobaan
Hasil
Hasil SSE
Akurasi
Pembentukan
(confusion
cluster
matrix)
20,6 %
>12588
17%
>12940
21,3%
>11106
17,3%
>14128
17%
>13948
66
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
23%
>14361
17%
>14294
20,6%
>12339
20,6%
>13233
10
17,3%
>14219
SSE
Akurasi
14361 23,00%
11106 17,00%
13315,6 19,17%
67
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
Tabel 4.3 Percobaan 2 dengan range term frekuensi 20-130, dengan jumlah
kata unik 236.
No
Hasil Percobaan
Hasil
Hasil SSE
Akurasi
Pembentukan
(confusion
cluster
matrix)
38,6 %
>685
40%
>730
37,3%
>800
37,3%
>1030
37,3%
>977
68
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
40%
>678
36%
>1043
38,6%
>763
37,3%
>1040
10
38,6%
>954
Tabel 4.4 Hasil Akurasi 2 dengan tf 20-130 dengan jumlah kata unik 236.
SSE
max
min
rerata
Akurasi
1043 40,00%
678 36,00%
870 38,10%
69
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
Tabel 4.5 Hasil Percobaan 3 dengan c=2 dan range 70-90 dengan jumlah kata
unik 11.
Percobaan
compt TF_0 TF_1 SSE(MIN)
ke:
1
2
3
4
5
6
7
8
9
10
2
2
2
2
2
2
2
2
2
2
70
70
70
70
70
70
70
70
70
70
90
90
90
90
90
90
90
90
90
90
22,83278
23,4099
22,10818
21,93853
22,39229
22,21632
19,84822
22,91106
22,22598
22,38202
Pembagian
Cluster
akurasi error
c1 c2 c3
29 27 19
20
80
29 20 26
24
76
24 22 29
70,6 29,4
30 24 21
63,5 36,5
13 36 26
24
76
26 19 30
32
68
34 19 22
24
76
24 23 28
20
80
15 32 28
73,3 26,7
14 30 31
77,3 22,7
Tabel 4.6 Hasil Akurasi 3 c=2 dan range 70-90 dengan jumlah kata unik 11.
max
min
rata-rata
SSE
Akurasi
23,4099
19,84822
22,22653
80%
63,5%
74,07%
70
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
Tabel 4.7 Hasil Percobaan 4 dengan c=4 dan range 70-90 dengan jumlah kata
unik 11.
Percobaan
ke:
1
2
3
4
5
6
7
8
9
10
70
70
70
70
70
70
70
70
70
70
90
90
90
90
90
90
90
90
90
90
22,3336
20,7682
21,22373
22,06013
23,34443
22,9735
21,8329
18,6674
23,0809
22,9603
Pembagian
Cluster
akurasi
c1 c2 c3
35 17 23
66,6
31 27 17
52
18 27 30
72
32 24 19
54,6
27 25 23
70,6
21 26 28
62,6
18 30 27
58,65
26 20 29
62,6
25 26 24
65,3
25 25 25
70,6
error
33,4
48
28
45,4
29,4
37,4
41,35
37,4
34,7
29,4
Tabel 4.8 Hasil Akurasi 4 c=4 dan range 70-90 dengan jumlah kata unik 11.
SSE
Akurasi
max
23,34443
min
rata-rata
18,6674
52%
21,92451 63,555%
72%
71
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
Tabel 4.9 Hasil Percobaan 5 dengan c=2 dan range 50-150 dengan jumlah kata
unik 40.
Percobaan
compt TF_0 TF_1 SSE(MIN)
ke:
1
2
3
4
5
6
7
8
9
10
2
2
2
2
2
2
2
2
2
2
50
50
50
50
50
50
50
50
50
50
150
150
150
150
150
150
150
150
150
150
98,5651
98,1921
98,6601
87,2725
106,6736
90,1228
100,9536
96,6804
100,60754
84,40719
Pembagian
Cluster
akurasi error
c1 c2 c3
41 5 29
44
56
21 29 25
40
60
22 29 24
32
68
15 28 32
48
52
17 33 25
54,6 45,4
38 32
5
57,3 42,7
10 37 28
36
64
23 27 25
40
60
28 21 26
44
56
25 37 13
48
52
Tabel 4.10 Hasil Akurasi 5 c=2 dan range 50-150 dengan jumlah kata unik 40.
max
min
rata-rata
SSE
Akurasi
106,6736
84,40719
96,21349
68%
52%
57,99%
72
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
Tabel 4.11 Hasil Percobaan 6 dengan c=4 dan range 50-150 dengan jumlah
kata unik 40.
Percobaan
ke:
1
2
3
4
5
6
7
8
9
10
50
50
50
50
50
50
50
50
50
50
150
89,773
150
99,9551
150 118,9248
150 94,631719
150
84,7839
150 111,2917
150
94,6199
150 107,8188
150
91,348
150
80,1049
Pembagian
Cluster
akurasi
c1 c2 c3
21 17 37
45,3
29 13 34
58,6
22 41 12
60
19 22 34
66,6
39 28
8
52
12 39 24
62,6
31 27 17
58,6
12 29 34
57,3
22 43 10
44
29 36 10
56
error
54,7
41,4
40
33,4
48
37,4
41,4
42,7
56
44
Tabel 4.12 Hasil Akurasi 6 c=4 dan range 50-150 dengan jumlah kata unik 40.
SSE
max
min
rata-rata
118,9248
80,1049
97,32518
Akurasi
66,6%
44%
56,1%
73
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
Tabel 4.13 Percobaan 7 dengan range term frekuensi 75-85 dengan jumlah
kata unik 4.
No
Hasil Percobaan
Hasil
Hasil SSE
Akurasi
Pembentukan
(confusion
cluster
matrix)
40 %
>29,10
48%
>28,04
53,3%
>27,94
44%
>29,121
44%
>29,121
46,6%
>27,118
74
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
46,6%
>28,44
40%
>26,70
42,6%
>26,34
10
45,3%
>27,42
Tabel 4.14 Hasil Akurasi 7 dengan tf 75-85 dengan jumlah kata unik 4.
Max
Min
Rerata
SSE
Akurasi
29,121 53,30%
26,34 40,00%
27,934 45,04%
75
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
76
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
77
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
75-85 terlalu sedikit sehingga kata unik pada range tersebut tidak bisa
mewakili dalam merepresentasikan kelompok dokumen yang ada.
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
79
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
5. BAB V
PENUTUP
Bab akhir tulisan ini berisikan tentang kesimpulan dan saran. Kesimpulan
berisi tentang hal-hal yang berkaitan dengan pengelompokan artikel berbahasa
Jawa. Saran akan memuat hal-hal yang berkaitan tentang pengembangan sistem
dalam tulisan ini.
5.1.Kesimpulan
Berdasarkan hasil analisis dari implementasi dan percobaan menggunakan
data artikel Berbahasa Jawa berjumlah 75 dan k(cluster)=3, dan dengan total kata
unik sebelum dilakukan pemotongan (2358 kata), diperoleh kesimpulan sebagai
berikut:
1. Percobaan dengan c=2(dilakukan dua kali K Means pertama secara random)
dan range term frekuensi 70-90 (11 kata unik) merupakan pengelompokan
yang terbaik dimana memiliki akurasi tertinggi (uji eksternal), yaitu 80% dan
dengan SSE (uji internal) 19,85.
2. Pada penelitian ini juga dilakukan percobaan lain dengan berbagai macam
range pemotongan term frekuensi (tf), sehingga didapatkan hasil sebagai
berikut:
a. Pada percobaan yang menggunakan seluruh kata unik (2358 kata)
ternyata didapati akurasi yang sangat rendah (rata-rata 19,17%).
Hal ini terjadi karena terlalu banyak kata yang digunakan sehingga
terjadi bias dan ciri dari suatu dokumen pun juga membias. Dapat
80
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
20-130
81
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
5.2 Saran
Berikut adalah saran yang bisa membantu penelitian ini agar lebih baik dan
berkembang nantinya, antara lain:
1. Sebaiknya sistem dapat mengelompokkan topik selain ekonomi,
kesehatan, dan pendidikan, dengan asumsi jumlah data juga ditambahkan.
2. Sebaiknya sistem yang dibuat tidak hanya sebatas pengelompokan atikel
saja. Sebaiknya sampai pada pembentukan sistem pembantu pengambilan
keputusan, dengan demikian sistem yang dibuat kemungkinan akan dapat
lebih berdaya guna bagi penelitian yang lainnya.
3. Pengelompokan artikel berdasarkan topik sebaiknya dilakukan oleh pakar
di bidang Bahasa Jawa.
82
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
DAFTAR PUSTAKA
Alifina, Tahta., Santosa, Budi., Barakbah, Ridho A.(2012). Analisa Perbandingan
Metode Hierarchical Clustering, K-means dan Gabungan Keduanya dalam
Cluster Data (Studi kasus : Problem Kerja Praktek Jurusan Teknik Industri ITS).
Arai, K., & Barakbah, Ridho.(2007). Hierarchical K-means: an algorithm for centroids
initialization for K-means. Reports of the Faculty of Science and Engineering,
Saga Univ. Saga University, Vol. 36, No.1.
Baswede, Anand., Nalwade, Prakash.(2013). Selection of Initial Centroid for k-Means
Algorithm. International Journal of Computer Science and Mobile Computing.
Christopher, D. Manning, dkk. (2008). An Introduction to Information Retrieval.
Cambridge University Press. Cambrindge. England.
Gupta, Ledy.,(2009). Algoritma Stemming untuk Dokumen Teks Bahasa Jawa. Thesis
UGM Yogyakarta:UGM Yogyakarta.
Han, J., Kamber, M. (2006). Data Mining Concept and Technique, 2nd Ed, Elsevier.
Han, Jiawei., Micheline Kamber, Jian Pei. (2012). Data Mining Concepts and
Techniques,USA : Morgan Kaufmann.
Jiawei Han, M. K. (2011). Data mining Concepts and Techniques. USA: Morgan
Kaufmann.
Prasetyo, E. (2012). Data Mining: Konsep Dan Aplikasi Menggunakan Matlab.
Yogyakarta: Andi.
Prasetyo, E. (2014). Data Mining: Pengolahan Data Menjadi Informasi Menggunakan
Matlab. Yogyakarta: Andi.
Raharjo, Suwanto., & Winarko, Edi.(2014). Klasterisasi, Klasifikasi dan Peringkasan
Teks Berbahasa Indonesia. Prosiding Seminar Ilmiah Nasional Komputer dan
Sistem Intelijen (KOMMIT 2014).
Rani, HA., Supriyati, Endang., Khotimah, Tutik. (2014). Detekso Iris Mata untuk
Menentukan Kelebihan Kolesterol Menggunakan Ekstraksi Ciri Moment Invariant
dengan K-Means Clustering. Prosiding SNATIF ke-1.
Turban, E., dkk. 2005. Decision Support Systems and Intelligent Systems. Yogyakarta:
Andi Offset
Widjono,S.H.,Darmawan,J.B.,& Adji,S.E. (2011-2012). Pengaruh Stemming untuk
Perolehan Informasi dalam Bahasa Jawa. Penelitian Hibah Pekerti DIKTI.
83
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
LAMPIRAN
Source Code
1. GUI.fig
2. GUI.m
function varargout = GUI(varargin)
% GUI MATLAB code for GUI.fig
%
GUI, by itself, creates a new GUI or raises the
existing
%
singleton*.
%
%
H = GUI returns the handle to a new GUI or the handle
to
%
the existing singleton*.
%
%
GUI('CALLBACK',hObject,eventData,handles,...) calls
the local
%
function named CALLBACK in GUI.M with the given input
arguments.
%
%
GUI('Property','Value',...) creates a new GUI or
raises the
%
existing singleton*.
Starting from the left,
property value pairs are
84
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
%
applied to the GUI before GUI_OpeningFcn gets called.
An
%
unrecognized property name or invalid value makes
property application
%
stop. All inputs are passed to GUI_OpeningFcn via
varargin.
%
%
*See GUI Options on GUIDE's Tools menu. Choose "GUI
allows only one
%
instance to run (singleton)".
%
% See also: GUIDE, GUIDATA, GUIHANDLES
% Edit the above text to modify the response to help GUI
% Last Modified by GUIDE v2.5 22-Jun-2015 22:06:08
% Begin initialization code - DO NOT EDIT
gui_Singleton = 1;
gui_State = struct('gui_Name',
mfilename, ...
'gui_Singleton', gui_Singleton, ...
'gui_OpeningFcn', @GUI_OpeningFcn, ...
'gui_OutputFcn', @GUI_OutputFcn, ...
'gui_LayoutFcn', [] , ...
'gui_Callback',
[]);
if nargin && ischar(varargin{1})
gui_State.gui_Callback = str2func(varargin{1});
end
if nargout
[varargout{1:nargout}]
=
gui_mainfcn(gui_State,
varargin{:});
else
gui_mainfcn(gui_State, varargin{:});
end
% End initialization code - DO NOT EDIT
85
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
86
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
87
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
uiwait(msgbox('Preprocessing
selesai.','Peringatan','modal'));
sudah
guidata(hObject, handles);
load('hasilPreprocessing.mat','jmlPerKataUnik');
load('hasilPreprocessing.mat','matrixFIle');
load('hasilPreprocessing.mat','kataUnik');
load('hasilPreprocessing.mat','calonData');
load('hasilPreprocessing.mat','batasAwal');
load('hasilPreprocessing.mat','batasAkhir');
N=75;
jmlCluster=3;
dataTemp=[];
data=[];
% nDist=[];
calonData1=calonData;
[mC,nC]=size(c);
% [m,n]=size(batasAwal);
88
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
[~,nCd]=size(calonData1);
iterasi=0;
for i=1:mC
for j=1:nCd
iterasi=iterasi+1;
set(handles.txtIterasi,'String',num2str(iterasi));
[calonData,dist,SSE,jmlObyekCls,pembagianCls,cPusat,clusterS
ingle]
=
pembentukanCls(calonData1{1,j},N,jmlCluster,c(i,1));
dataTemp=[c(i),batasAwal(j,1),batasAkhir(j,1),SSE,jmlObyekCl
s(1,1),jmlObyekCls(2,1),jmlObyekCls(3,1)];
data=[data;dataTemp];
dataTemp=[];
nDist{iterasi,1}=dist;
nPembagianCls{iterasi,1}=pembagianCls;
nCPusat{iterasi,1}=cPusat;
nClusterSingle{iterasi,1}=clusterSingle;
nCalonData{iterasi,1}=calonData;
pause(3)
end
end
[data,idxMin]=warnaMin(hObject, eventdata, handles, data);
set(handles.tblHasil,'ColumnWidth',{45,55,55,60,35,35,35,35}
);
set(handles.tblHasil,'Data',data);
nCls=N;
class=1;
class_test=zeros(nCls,1);
for i=1:nCls
if mod(i,25) == 0
class_test(i,1)=class;
class=class+1;
if i < nCls
class_test(i+1,1)=class;
end
else
class_test(i,1)=class;
end
end
89
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
confMat=hitungConfusionmat(class_test,nPembagianCls{idxMin})
;
[M,~]=max(confMat);
[dataConfMat]=warnaConfusion(hObject,
eventdata,
handles,confMat);
set(handles.tblConfMat,'ColumnWidth',{50});
set(handles.tblConfMat,'Data',dataConfMat);
acc=(sum(M)/sum(confMat(:)))*100;
set(handles.txtAkurasi,'String',num2str(acc));
set(handles.axCluster,'Visible','on');
axes(handles.axCluster);
warna = nClusterSingle{idxMin}(end-jmlCluster+2,3)-eps;
dendrogram(nClusterSingle{idxMin},
0,'colorthreshold',warna);
set(handles.tblPembagianCls,'RowName',{});
set(handles.tblPembagianCls,'ColumnName',{});
set(handles.tblPembagianCls,'Data',nPembagianCls{idxMin});
assignin('base','tblPembagianCls',nPembagianCls{idxMin});
set(handles.tblCentroid,'Data',nCPusat{idxMin});
set(handles.tblInfoTeks,'Data',[num2cell(jmlPerKataUnik),kat
aUnik]);
set(handles.tblInfoTeks,'ColumnWidth',{40,75});
set(handles.txtJmlKataUnik,'String',num2str(numel(kataUnik))
);
uiwait(msgbox('Proses
selesai.','Peringatan','modal'));
guidata(hObject, handles);
function
ConMatrix=hitungConfusionmat(class_test,class_predict)
yu=unique(class_test);
confMat=zeros(length(yu));
for i=1:length(yu)
for j=1:length(yu)
confMat(i,j)=sum(class_test==yu(i)
class_predict==yu(j));
end
end
sudah
&
90
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
ConMatrix=confMat;
returns
toggle
state
of
X=dataConfMat;
91
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
#429808;
font-weight:
3. Preprocessing.m
function
[semuaJmlPerKataUnik,matrixFIle,semuaKataUnik,calonDataCell
] =
preprocessing(batasAwal,batasAkhir,N,kamusHubung,dataKamus)
%UNTITLED2 Summary of this function goes here
%
Detailed explanation goes here
[matrixFIle{1:N,1}]=deal(zeros(0));
for i=1:N
%baca dokumen
alamatFile=strcat('doc\',int2str(i),'.txt');
fileID = fopen(alamatFile); % Membuka file
data = textscan(fileID,'%s'); % Membaca file
fclose(fileID); % Menutup file
data=data{1}; % Memasukkan data ke dalam matriks
data=regexprep(data,'[<>.,?!"-+=\/:[];_12345678910
]',' '); % Menghilangkan tanda baca
92
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
data=strtrim(data);
data(strcmp('',data)) = []; % Menghilangkan cell yang
kosong
data=lower(data); % Mengubah huruf besar menjadi kecil
fid = fopen('Data\dataAwal.txt','w');
for row = 1:size(data,1)
fprintf(fid, repmat('%s\t',1,size(data,2)-1),
data{row,1:end-1});
fprintf(fid, '%s\n', data{row,end});
end
fclose(fid);
%
stemming( data,kamus );
perl('stemcoba.pl');
fileID = fopen('Data\dataHasil.txt'); % Membuka file
data = textscan(fileID,'%s'); % Membaca file
fclose(fileID); % Menutup file
hasilStem=data{1}; % Memasukkan data ke dalam matriks
hasilStem=regexprep(hasilStem,'-',''); % Menghilangkan
tanda baca
hasilStem=strtrim(hasilStem);
hasilStem(strcmp('',hasilStem)) = []; % Menghilangkan
cell yang kosong
matrixFIle{i} = hasilStem;
end
matrixGabungan=[];
for i=1:N
matrixGabungan=[matrixGabungan;matrixFIle{i}];
%#ok<AGROW>
end
%cek dengan kamus dan hapus kata hubung
yaTdk=ismember(matrixGabungan,kamusHubung);
% assignin('base','yaTdk',yaTdk);
[m,n]=size(matrixGabungan);
dataTemp=[];
z=1;
for j=1:m
if yaTdk(j,1)==0
dataTemp{z}=matrixGabungan{j};
z=z+1;
93
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
end
end
hasilStem=dataTemp';
idexHasilKamus=ismember(hasilStem,dataKamus);
[m,~]=size(idexHasilKamus);
n=1;
for i=1:m
%
for j=1:n
if idexHasilKamus(i,1)==1
hasilKamus{n,1}=hasilStem{i,1};
n=n+1;
end
%
end
end
hasilKamus=hasilKamus(~cellfun('isempty',hasilKamus));
[kataUnik,~,indeksKata]=unique(hasilKamus); % Menentukan
kata unik beserta indeksnya
jmlReduksiKataUnik = length(kataUnik); % Jumlah total kata
unik
jmlPerKataUnik = hist(indeksKata,1:jmlReduksiKataUnik); %
Jumlah per kata unik
jmlPerKataUnik=jmlPerKataUnik';
semuaKataUnik=kataUnik;
semuaJmlPerKataUnik=jmlPerKataUnik;
[m,n]=size(batasAwal);
for k=1:m
[m,n]=size(jmlPerKataUnik);
dataTemp2=[];
dataTemp3=[];
dataTemp4=[];
dataTemp5=[];
x=1;
y=1;
for i=1:m
if jmlPerKataUnik(i,1)>batasAwal(k,1) &&
jmlPerKataUnik(i,1)<batasAkhir(k,1)
%if jmlPerKataUnik(i,1)>2 && jmlPerKataUnik(i,1)<200
%
if jmlPerKataUnik(i,1)>2 &&
jmlPerKataUnik(i,1)<100
%
if jmlPerKataUnik(i,1)>80 &&
jmlPerKataUnik(i,1)<100
94
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
dataTemp2(x,1)=jmlPerKataUnik(i,1);
dataTemp3{x,1}=kataUnik{i,1};
x=x+1;
else
dataTemp4(y,1)=jmlPerKataUnik(i,1);
dataTemp5{y,1}=kataUnik{i,1};
y=y+1;
end
end
jmlPerKataUnik= dataTemp2;
kataUnik= dataTemp3;
jmlSelainKataUnik{k}=dataTemp4;
selainKataUnik{k}=dataTemp5;
countKataUnik = sum(jmlPerKataUnik);
[m,n]=size(jmlPerKataUnik);
matrixBobot=zeros(m,n);
for i=1:m
matrixBobot(i)=log10(countKataUnik/jmlPerKataUnik(i));
end
calonData=zeros(size(matrixBobot,1),N);
for i=1:N
tempMatrixFile=matrixFIle{i};
[m,n]=size(tempMatrixFile);
for j=1:m
[row,~] =
find(ismember(kataUnik,tempMatrixFile(j,1)));
calonData(row, i)=matrixBobot(row,1);
end
end
calonDataCell{k}=calonData';
end
assignin('base','jmlSelainKataUnik',jmlSelainKataUnik);
assignin('base','selainKataUnik',selainKataUnik);
assignin('base','jmlSelainKataUnik',jmlSelainKataUnik);
assignin('base','selainKataUnik',selainKataUnik);
end
4. Kmeans1.m
function
[cluster,centroid,counter,dist]=Kmeans1(N,data,k,option,
inisial_centroid )
%1- Random pilih centroid
95
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
%2- 4pertama
%else 1&2 maka centroid=inisal centroid
centroid=[];
cluster=[];
[n,m]=size(data);
selected=[];
%inisal centroid awal berdasarkan option
if (option==1)
index=12;
for i=1:k
index=uint16((rand()*n));
while(Exists(selected,index)==1)
index=uint16((rand()*n));
end
selected=[selected index];
centroid(i,:)=data(index,:);
end
elseif (option==2)
centroid(1:3,:)=data(1:3,:);
elseif (option==3)
centroid=data(N+1:end,:);
data=data(1:N,:);
else
centroid=inisial_centroid;
end
flag=0;
count=0;
counter=[];
%pelompokkan data
while(flag==0)
[dist,cluster,dist]=Distance(centroid,data); %dist punya
matlab kelesss
if(count~=0)
temp=(cluster==prevclass);
if( max(max(temp))==1 && min(min(temp))==1)
flag=1;
counter;
break;
end
end
prevclass=cluster;
96
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
[centroid,counter]=CalculateCentroid(centroid,cluster,data);
count=count+1;
end
%hitung & CARI Centroid baru
function
[centroidBaru,counter]=CalculateCentroid(centroid,class,data
)
[n,m]=size(data);
[k,l]=size(centroid);
centroidBaru=zeros(k,l);
counter=zeros(k,1);
for j=1:k
for i=1:n
if(class(i,1)==j)
for p=1:m
centroidBaru(j,p)=centroidBaru(j,p)+data(i,p);
end
counter(j,1)=counter(j,1)+1;
end
end
end
for j=1:k
for p=1:m
centroidBaru(j,p)= centroidBaru(j,p)/counter(j,1);
end
end
%Function untuk cek apakah item data sudah dipilih sebagai
initial centroid
function [flag] = Exists(Arr, item)
flag=0;
[n,m]=size(Arr);
for i=1:m
if(Arr(1,i)==item)
flag=1;
break;
end
end
%hitung distance dan menandai cluster
function [dist,classify,d]=Distance(centroid,data)
[n,m]=size(data);
[k,l]=size(centroid);
dist=[];
97
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
classify=[];
for i=1:k
for j=1:n
%hitung distance setiap centroid dengan tiap data
sum=0;
for p=1:m
sum=sum+(data(j,p)-centroid(i,p))^2;
end
dist(i,j)=sum^0.5;
end
end
d=dist;
for j=1:n
[~,mindex]=min(dist(:,j));
classify(j,1)=mindex;
end
5. pembentukanCls.m
function
[calonData,dist,SSE,jmlObyekCls,pembagianCls,cPusat,clusterS
ingle] = pembentukanCls(calonData,N,jmlCluster,jmlObyekCls)
%UNTITLED Summary of this function goes here
%
Detailed explanation goes here
hasilKmeans=[];
for i=1:jmlObyekCls
[~,centroid,~,~]=Kmeans1(N,calonData,3,1,1);
hasilKmeans=[hasilKmeans;centroid]; %#ok<AGROW>
end
assignin('base','hasilKmeans',hasilKmeans);
% Clustering Single
clusterSingle=linkage(hasilKmeans,'single','euclidean');
[~,n]=size(hasilKmeans);
T=cluster(clusterSingle,'maxclust',jmlCluster);
%centroid awal set manual
centro=[];
for i=1:jmlCluster
cls=find(T==i);
centroTemp=zeros(size(cls,2),n);
for j=1:size(cls,2)
98
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
centroTemp(j,:)=hasilKmeans(cls(j),:);
end
centroTemp=mean(centroTemp,1);
centro=[centro;centroTemp];
end
calonData=[calonData;centro];
[pembagianCls,cPusat,jmlObyekCls,dist]=Kmeans1(N,calonData,3
,3,1);
assignin('base','dist',dist);
[ nilaiSSE ] = hitungSSE( dist );
SSE=nilaiSSE;
End
6. hitungSSE.m
function [ nilaiSSE ] = hitungSSE( data )
%UNTITLED4 Summary of this function goes here
%
Detailed explanation goes here
rerata=mean(data,2);
[m,n]=size(data);
nilaiSSETemp=zeros(m,n);
for i=1:m
for j=1:n
nilaiSSETemp1(i,j)=power(((data(i,j)rerata(i,1))),2);
end
end
nilaiSSETemp2=sum(nilaiSSETemp1,2);
nilaiSSE=double(sum(nilaiSSETemp2));
end
7. stemcoba.pl
#1.
#2.
#3.
#4.
#5.
#6.
make a rule
open text file
get one word
stem
compare with the real root word
count the true word stem
99
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
local
local
local
local
local
%suffix_1;
%suffix_2;
%suffix_3;
%suffix_4;
%suffix_5;
local
local
local
local
local
local
local
local
local
local
%prefix_1;
%prefix_2;
%prefix_3;
%prefix_4;
%prefix_5;
%prefix_6;
%prefix_7;
%prefix_8;
%prefix_9;
%prefix_10;
local %infix_1;
local %infix_2;
local %dict;
#my $word = $ARGV[0];
#my $word="nakoni";
my $fileOp;
#D:\SKRIPSWEET\Program\doc\ekonomi
$fileOp="D:\\SKRIPSWEET\\Program\\Data\\dataAwal.txt";
open FILE, "<", $fileOp or die "Can't open";
# my $fileOut="D:\\SKRIPSWEET\\Program\\Data\\hasilStem.txt";
# open FILEOUT, ">",$fileOut or die $!;
#
my $fileTest="D:\\SKRIPSWEET\\Program\\Data\\dataHasil.txt";
open FILETESTH, ">",$fileTest or die $!;
initial();
# $right=0;
while($line=<FILE>){
@splLine=split(/\s+/,$line);
#print $splLine[0]." ".$splLine[1]."\n";;
$word=lc $splLine[0];
#print $word;
#
#my $stemWord=stem($word);
my $stemWord=stem(lc $word);
#print $word."\n";
print $stemWord."\n";
print FILETESTH $stemWord."\n";
# #print $stemWord."\n";#." ".$splLine[1]."\n";
# if ($stemWord eq lc $splLine[1])
# {
# #print FILEOUT $stemWord." ".$word."\n";
# $right++;
# }
# else
100
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
# {
# print FILEOUT " 1 ".$stemWord." 2 ".$splLine[1]." 3
".$word."\n";
# }
#
}
# print $right;
sub initial{
#dictionary
#hash pasangan substitusi
#list prefix, suffix, infix
$fileOp="D:\\SKRIPSWEET\\Program\\kamus\\kamus.txt";
open FILEDIC, "<", $fileOp or die "Can't open";
while (<FILEDIC>)
{
chomp;
$dict{$_}=$_;
}
#daftar tingkat dan substitusinya
%suffix_1=(ekaken=>"i",okaken=>"u",ekake=>"i",okake=>"u",oni=>"u",
eni=>"i",wa=>"", ya=>"",
ning=>"",nipun=>"",okna=>"u",ekna=>"i",onana=>"u",enana=>"i",onen=
>"u",enen=>"i",
enan=>"i",on=>"u", onan=>"u", ku=>"",mu=>"");
%suffix_2=(kake=>"",kaken=>"",ni=>"",ing=>"",nana=>"",
nane=>"",nan=>"", nen=>"",ipun=>"",kna=>"");
%suffix_3=(kaken=>"n",kake=>"n",kna=>"n", ana=>"", an=>"",
en=>"");
%suffix_4=(ake=>"", aken=>"",en=>"i", na=>"",ne=>"");
%suffix_5=(ke=>"",ken=>"", n=>"",a=>"",i=>"");
%suffix_6=(e=>"");
# %suffix_1=(ekake=>"i",okake=>"u",oni=>"u",eni=>"i",wa=>"",
ya=>"",ning=>"",okna=>"u",onana=>"u",onane=>"u",
# enan=>"i",ean=>"i",on=>"u", onan=>"u",
onen=>"u",ku=>"",mu=>"",nipun=>"");
# %suffix_2=(kake=>"",ni=>"",ing=>"",ana=>"", nan=>"",
nen=>"",ipun=>"", nane=>"", nana=>"");
# %suffix_3=(kake=>"n",i=>"", en=>"i", an=>"", ane=>"");
# %suffix_4=(ake=>"", en=>"", na=>"",ne=>"");
# %suffix_5=(e=>"", n=>"",a=>"");
#
%prefix_1=(m=>"",nge=>"a",ny=>"s",di=>"",dak=>"",tak=>"",kok=>"",t
ok=>"",ka=>"",
# ke=>"",ku=>"",ang=>"", sa=>"", se=>"", pa=>"", peng=>"",
pang=>, ing=>"",u=>"");
# %prefix_2=(m=>"p",ng=>"",ny=>"c", ke=>"i",pe=>"",an=>"",
pen=>"t", pan=>"t");
# %prefix_3=(m=>"w",ng=>"k", k=>"", pe=>"", pa=>"");
101
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
102
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
if($w=~ /^(n|pan|pen|man|men)/)
{
$stem=$prefix_4{$1}.$';
#print FILETESTH $stem."\n";
if (exists $dict{$stem})
{ return $stem;}
}
if($w=~ /^(pan|pen|man|men|n)/)
{
$stem=$prefix_5{$1}.$';
#print FILETESTH $stem."\n";
if (exists $dict{$stem})
{ return $stem;}
}
if($w=~ /^(pa|pe|man|men)/)
{
$stem=$prefix_6{$1}.$';
#print FILETESTH $stem."\n";
if (exists $dict{$stem})
{ return $stem;}
}
if($w=~ /^(p|ma|me)/)
{
$stem=$prefix_7{$1}.$';
#print FILETESTH $stem."\n";
if (exists $dict{$stem})
{ return $stem;}
}
if($w=~ /^(m)/)
{
$stem=$prefix_8{$1}.$';
#print FILETESTH $stem."\n";
if (exists $dict{$stem})
{ return $stem;}
$stem=$prefix_9{$1}.$';
#print FILETESTH $stem."\n";
if (exists $dict{$stem})
{ return $stem;}
$stem=$prefix_10{$1}.$';
#print FILETESTH $stem."\n";
if (exists $dict{$stem})
{ return $stem;}
}
return $w;
}
sub hilangSuf{
my $word = @_[0];
my $w=$word;
if ($w =~
/(ekaken|okaken|ekake|okake|oni|eni|wa|ya|ning|nipun|okna|ekna|ona
na|enana|onen|enen|enan|on|onan|ku|mu)$/)
{
$stem=$`.$suffix_1{$1};
#print FILETESTH $stem."\n";
} #hilang akhiran 2
elsif ($w =~
/(kake|kaken|ni|ing|nana|nane|nan|nen|ipun|kna)$/)
{
103
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
$stem=$`.$suffix_2{$1};
#print FILETESTH $stem."\n";
} #hilang akhiran 3
elsif ($w =~ /(kaken|kake|kna|ana|an|en)$/)
{
$stem=$`.$suffix_3{$1};
#print FILETESTH $stem."\n";
} #hilang akhiran 4
elsif ($w =~ /(ake|aken|en|na|ne)$/)
{
$stem=$`.$suffix_4{$1};
#print FILETESTH $stem."\n";
} #hilang ak hiran 5
elsif ($w =~ /(ke|ken|n|a|i)$/)
{
$stem=$`.$suffix_5{$1};
#print FILETESTH $stem."\n";
}
#hilang akhiran 6
elsif ($w =~ /(e)$/)
{
$stem=$`.$suffix_6{$1};
#print FILETESTH $stem."\n";
}
if (exists $dict{$stem})
{
return $stem;
}
else
{
#hilang prefix
my $stemPref=hilangPref($stem);
if (exists $dict{$stemPref}){ return $stemPref;}
}
}
sub stem{
my $word = @_[0];
#jika panjang kata < 3 keluar
if (length($word)<3){return $word;}
#print $word."\n";
#loop
#
hilangkan akhiran tingkat 1 , cek kamus, jika ada break
#
hilangkan awalan tingkat 1, cek kamus, jika ada break
#
kembalikan akhiran tingkat 1, cek kamus, jika ada break
#
my $w=$word;
if (exists $dict{$w}){ return $w;}
#hilang infix
if (index($w,"in") == 1 ||index($w,"um") == 1||index($w,"em")
== 1||index($w,"el") == 1||index($w,"er") == 1)
{
$_=$w;
s/(in|um|em|el|er)//;
#print FILETESTH $_."\n";
if (exists $dict{$_}){ return $_;}
elsif($w=~ /^(gum|kum|gem)/)
{
104
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
$stem=$infix_1{$1}.$';
#print FILETESTH $stem."\n";
if (exists $dict{$stem})
{ return $stem;}
}
else
{
my $stemPref=hilangPref($_);
if (exists $dict{$stemPref}){ return $stemPref;}
#hilang suffix
my $hs=hilangSuf($_);
if (exists $dict{$hs}){return $hs;}
}
# if ($_ =~ /(an|ne)$/)
# {
# $stem=$`;
# if (exists $dict{$stem}){ return $stem;}
# }
}
#kata reduplikasi
if ($w =~ m/[-]/)
{
$_=$w; split/-/;
if (exists $dict{$'}){ return $';}
else
{
#hilang suffix
#if (exists $dict{hilangSuf($')}){return $';}
$w=$';
}
}
#hilang awalan saja
my $stemPref=hilangPref($w);
if (exists $dict{$stemPref}){ return $stemPref;}
#hilang suffix
my $hs=hilangSuf($w);
if (exists $dict{$hs}){return $hs;}
#hilang reduplikasi tanpa if (index($w,"e") == 1 ||index($w,substr($w,0,1),2)==2)
{
$dua=substr($w,0,2);
$_=$w; s/$dua//;
if (exists $dict{$_}){ return $_;}
#else {$w=$_;}
}
return $w;
}
105
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
Frek
151
148
130
103
97
95
89
80
77
77
76
74
73
73
71
71
70
68
68
66
65
64
63
63
62
60
59
59
59
58
57
57
57
54
54
52
Term
cilik
siji
dhidhik
laku
teka
usaha
atur
budidaya
jeneng
jroning
kasil
tuwuh
asil
dhuwur
kandhut
klebu
turut
ngerti
tani
wanita
daya
jepang
pamulang
taman
umur
lair
ligi
sri
suwe
wulang
basa
cukup
jare
kutha
warna
anyar
Frek
45
45
44
44
44
44
43
43
43
43
43
43
42
42
42
42
42
41
41
41
40
40
40
40
40
39
39
39
39
39
38
38
38
38
38
37
Term
sawiji
thithik
desa
golek
kewan
lebu
seni
suda
donya
gelem
ibu
loro
pengin
sasi
tau
bantul
kira
nyata
omah
pulo
bali
mendhong
mundhak
pak
pasar
pos
udud
undhak
undhang
bangsa
bangun
buh
dol
jakarta
tinggi
tuku
Frek
34
34
33
33
33
33
33
33
32
32
32
32
32
32
32
31
31
31
31
31
30
30
30
30
30
30
30
30
30
29
29
29
29
29
29
29
106
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
Term
murid
tampa
papan
dhuwit
sleman
teges
gampang
lenga
tetep
seneng
tambah
nane
sinau
siswa
dagang
jaga
jupuk
katon
maca
mahasiswa
mari
mati
reiki
sumber
tela
wigati
kecamatan
kkn
nate
prestasi
tamba
telu
tingkat
warga
asal
gunung
isi
kono
Frek
52
52
51
50
50
49
48
48
48
47
47
46
46
46
26
26
26
26
26
26
26
26
26
26
26
26
25
25
25
25
25
25
25
25
24
24
24
24
Term
perintah
sambung
unjuk
yogyakarta
gula
kasarasan
anak
ati
angel
anggep
bahan
dhudhuk
kulit
pangan
mangsa
manut
nandhang
salah
zat
aneh
bukti
dhahar
entuk
ingkang
kaum
kayata
lakon
paring
resik
tenaga
weneh
antuk
bantu
buku
dhasar
ganggu
jam
jaman
Frek
37
37
37
37
36
36
35
35
34
34
34
34
34
34
22
22
22
22
22
21
21
21
21
21
21
21
21
21
21
21
21
20
20
20
20
20
20
20
Term
kahanan
murih
rana
tenan
tengah
urus
ara
kaji
kandha
kartu
rata
umum
woh
ahli
kirim
kiwa
pira
prodhuksi
rumah
sari
sebar
wedi
ada
bebaya
garap
joged
lemah
minggu
mulang
neng
ngandika
owah
priksa
tatar
tindak
winih
agung
calon
Frek
28
28
28
28
28
28
27
27
27
27
27
27
27
26
19
19
19
19
19
19
19
19
18
18
18
18
18
18
18
18
18
18
18
18
18
18
17
17
107
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
Term
mono
paling
pisan
program
rumangsa
sapa
serikat
tanggal
baku
biyantu
dhaerah
ketaman
kualitas
lumrah
merga
nadyan
sok
amrih
bayi
budi
campur
dhokter
enggal
jero
karya
lulus
milyar
oleh
puluh
putih
rembug
rusak
sanak
sedulur
terbit
wit
adhep
agama
Frek
24
24
24
24
24
24
24
24
23
23
23
23
23
23
23
23
23
22
22
22
22
22
22
22
22
22
16
16
16
16
16
16
16
16
16
16
15
15
Term
kantor
kaping
karep
kelas
kerja
koperasi
krasa
maju
melu
modhel
pratela
sarana
tang
tuli
adoh
aji
aksara
angka
bener
cegah
cocog
dalah
gambar
godhong
jamu
kara
tugas
alus
anggota
awu
crita
dan
garing
gawa
gumantung
kanan
katut
kraton
Frek
20
20
20
20
20
20
20
20
20
20
20
20
20
20
19
19
19
19
19
19
19
19
19
19
19
19
14
13
13
13
13
13
13
13
13
13
13
13
Term
cetha
golong
ilang
jiwa
kat
laras
najan
nasional
nomer
pindhah
rakyat
rong
tembung
wates
arang
asile
awak
bayar
biasa
biyen
daerah
engga
kulina
kuwat
manungsa
mapan
panunggala
pasang
pindho
pinter
rejeki
rupa
sastra
suwara
tanah
toko
tulung
usada
Frek
17
17
17
17
17
17
17
17
17
17
17
17
17
17
16
16
16
16
16
16
16
16
16
16
16
16
12
12
12
12
12
12
12
12
12
12
12
12
108
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
Term
getih
ir
kerti
krungu
langan
lut
no
perang
prayoga
proses
putri
sak
udan
wuse
abot
ajeg
apik
cacah
gatel
jati
jawab
kelompok
kembang
kuwasa
maneka
ni
pasien
penting
prayitno
sambut
sangan
sosial
surat
tandha
tata
terang
trap
tua
Frek
15
15
15
15
15
15
15
15
15
15
15
15
15
15
14
14
14
14
14
14
14
14
14
14
14
14
14
14
14
14
14
14
14
14
14
14
14
14
Term
lingkungan
mutu
naliti
pers
pi
piranti
prasaja
priye
rampung
regan
reja
sipat
telung
untung
watu
yogya
ajab
anggur
budaya
buwang
cepet
coba
dalem
emoh
jantung
jebul
kadang
kana
khusus
kulawarga
kulon
larang
lawas
liwat
marem
murah
normal
omong
Frek
13
13
13
13
13
13
13
13
13
13
13
13
13
13
13
13
12
12
12
12
12
12
12
12
12
12
12
12
12
12
12
12
12
12
12
12
12
12
Term
adat
ala
bebas
bukak
buri
cipta
dalan
dhiri
endhog
entheng
jar
jro
kalah
kebak
lanang
malaysia
menika
ngendika
nyawa
organisasi
pati
penget
pimpinan
prof
rada
ragad
rokok
semangat
tandhing
tanggap
tarik
temtu
tengen
ton
turu
tutup
ukuran
wadon
Frek
11
11
11
11
11
11
11
11
11
11
11
11
11
11
11
11
11
11
11
11
11
11
11
11
11
11
11
11
11
11
11
11
11
11
11
11
11
11
109
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
Term
wajib
walijo
wani
wayah
werna
wruh
april
asring
badan
batik
bengi
conto
dang
embuh
eropa
goreng
ijo
ilmu
isor
istimewa
jabat
jaran
kanca
keluwarga
klasa
kru
la
lahan
lima
mangan
manggon
mas
motif
mudha
mudhun
negeri
ombe
panas
Frek
11
11
11
11
11
11
10
10
10
10
10
10
10
10
10
10
10
10
10
10
10
10
10
10
10
10
10
10
10
10
10
10
10
10
10
10
10
10
Term
tanggung
temah
temen
tokoh
tuju
tumuli
tuntut
tut
utama
wusana
aran
aweh
beras
cathet
desain
dinas
donga
enggo
ganti
gayuh
genti
hak
januari
kabar
kepala
kuli
lorot
lumaku
lumantar
manca
metu
milih
ngarep
operasi
papa
papat
percaya
ping
Frek
10
10
10
10
10
10
10
10
10
10
9
9
9
9
9
9
9
9
9
9
9
9
9
9
9
9
9
9
9
9
9
9
9
9
9
9
9
9
Term
simpen
tari
tentrem
tuduh
uwuh
wawas
wilayah
aju
amar
ambu
ancas
awan
babar
dana
etung
ewu
gandheng
generasi
gunungkidul
ilmiah
iwak
jaluk
kari
kawit
kleru
kunir
laboratorium
lali
lapang
latih
layan
lembut
ling
lis
mandhiri
mata
mei
mentas
Frek
9
9
9
9
9
9
9
8
8
8
8
8
8
8
8
8
8
8
8
8
8
8
8
8
8
8
8
8
8
8
8
8
8
8
8
8
8
8
110
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
Term
pasir
pesen
pitik
pokok
prene
racik
sang
sehat
sikap
sus
tahu
tangan
propinsi
rambut
rancang
sambat
sangga
sasat
semarang
sendang
srana
studi
subur
tangi
tilas
titik
tradhisional
tulak
tumpang
universitas
upaya
uyah
adeg
agustus
ajaran
alon
awas
bakul
Frek
10
10
10
10
10
10
10
10
10
10
10
10
8
8
8
8
8
8
8
8
8
8
8
8
8
8
8
8
8
8
8
8
7
7
7
7
7
7
Term
pinggir
rame
resmi
rupiah
sakit
sampun
sandhang
saran
sarwa
sedhot
serang
siap
kandel
kanker
karang
kendel
kepriye
konsultasi
kreasi
kurikulum
kurmat
kuwatir
lah
lancar
langgar
langsung
lapur
latin
lembar
lestari
lodhang
madeg
malang
mangkat
masalah
mesin
minyak
mokal
Frek
9
9
9
9
9
9
9
9
9
9
9
9
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
Term
modern
mripat
nedya
nek
nggawa
pathok
peksa
penak
pepak
pikir
po
presidhen
tali
tamu
tandang
tantang
tas
tlatah
trep
unggah
uwis
uwong
wakil
warih
weruh
wigaten
wonten
wuri
adil
ajak
aman
artikel
asli
asma
asta
ayu
bandhing
banding
Frek
8
8
8
8
8
8
8
8
8
8
8
8
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
6
6
6
6
6
6
6
6
6
6
111
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
Term
bapak
baru
bensin
bingung
bis
brayat
bun
cacad
cakot
cedhak
dewan
edeg
endro
enom
ganep
genah
godhog
gunggung
hawa
hukum
jalan
jembar
kagem
kala
gugah
informasi
jagad
jajah
jetis
juta
kaget
kalis
kangge
kesehatan
kidul
klapa
kliwat
kolah
Frek
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
6
6
6
6
6
6
6
6
6
6
6
6
6
6
Term
nama
nilai
pakan
pantes
pas
pawong
perkara
piguna
piye
politik
praktek
pribadi
pungkas
ra
rah
ring
rt
rugi
san
semu
sigit
sistem
swara
takon
sawang
seda
sedhiya
seje
semana
sembuh
sikep
sisih
soal
srawung
sujana
sumatra
thukul
tilpun
Frek
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
6
6
6
6
6
6
6
6
6
6
6
6
6
6
Term
barat
bat
bosen
bubuk
bungah
bupati
cina
daftar
dalam
dasar
dawa
depok
dhukun
ding
diri
djaka
dokter
dul
elek
ewadene
gaya
gedhong
gosok
grengseng
eran
esuk
gagas
gamping
gerak
ginjal
gusti
guyu
islam
jarwa
jejer
jember
jurus
karyawan
Frek
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
5
5
5
5
5
5
5
5
5
5
5
5
5
5
112
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
Term
koleksi
konsumsi
korban
kreatif
kulak
kumbah
kuning
kuwawa
lembaga
limang
lokakarya
lungguh
lurah
magelang
manten
men
mundhut
olah
panen
pecah
petung
pirang
pisah
pitu
playu
rekasa
remaja
republik
resep
ri
rik
rut
sabar
saged
samubarang
sara
panjurung
pc
Frek
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
5
5
Term
timur
tundho
tunggal
ugi
uji
ungkur
uni
untu
urat
waton
wedhak
weteng
wetu
wingi
wose
ajar
alas
ama
ambruk
andhar
angkat
arupa
ayom
badhe
bahasa
bako
bel
blaka
borong
brastha
brayan
cemplung
dhusun
emu
energi
entek
weka
wesi
Frek
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
Term
kasar
keluarga
kenthel
keras
kilometer
kitab
klasik
kurban
lajar
legi
lelet
lodang
luhur
lumayan
mabur
macapat
maido
makarya
mal
mana
mbak
meksa
mengku
mikir
mlarat
muga
muslim
nalar
nasib
nem
ning
obong
organ
ota
pada
padesan
ireng
jasa
Frek
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
4
4
113
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
Term
pener
pengaruh
pihak
pimpin
prihatin
priyayi
progo
pt
putus
ramu
repa
residen
ribut
ru
ruwet
sangu
sare
sayur
sedhih
selatan
setuju
sih
sithik
sunyata
susah
susu
tahap
tampar
tangeh
tangga
tembe
teng
teori
terbang
tiba
tikel
tinggal
trima
Frek
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
Term
wiji
wulan
yekti
adol
adu
adus
ageng
alis
ambyur
ampung
anget
angin
anti
arah
are
aso
awal
ayat
ayem
baka
bang
banjir
bathi
batin
bongkokan
bot
cakup
cekak
cithak
dadak
darah
dhalang
dodol
dongeng
dukung
eling
emot
emper
Frek
5
5
5
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
Term
jenis
jepara
jodho
jumlah
jur
juru
kadar
karier
kayu
kedah
keri
king
km
komplit
komunis
kongres
kosok
kukuh
kumpul
larik
laris
lawang
leksana
lemak
linthing
lokasi
lunga
luput
madya
malik
maling
man
mangke
mara
matematika
matur
media
meter
Frek
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
114
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
Term
ubeng
ukara
unggul
usul
wadhah
wali
wane
waras
warta
wayang
otak
pajang
palembang
pamrih
panga
pating
pendhak
pingin
pokal
priya
protein
prungu
pusat
rakit
rawuh
re
reh
repot
rewang
rit
ruang
salit
sami
sangarepe
sangkut
sarujuk
sawah
sedayu
Frek
5
5
5
5
5
5
5
5
5
5
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
Term
endah
ewuh
gagal
giras
gogok
grobog
hal
hari
hubung
inggris
tehnologi
teliti
tim
tingkah
tiru
tiyang
total
tresna
udi
ukir
ukur
undang
uninga
upakara
urang
urut
utara
utus
wajak
wangsul
wangsulan
wengi
wentar
wetan
wisnu
yakin
yang
ziarah
Frek
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
Term
militer
mitra
mobil
mod
mongkog
nabi
niru
nus
nusantara
nyandhet
bubrah
buka
bumbu
cak
cawis
cendhek
cilaka
colong
cukupan
darbe
deleng
delok
dhapuk
dhukung
dilalah
dinggo
dora
dukuh
dumeh
dunung
duta
elu
eman
enak
endhek
enem
entas
fitri
Frek
4
4
4
4
4
4
4
4
4
4
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
115
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
Term
sejahtera
sekretaris
seksi
sengkuyung
sepuh
sifat
sisik
slamet
sopir
stambul
stroke
sugih
sunarso
suntik
suwun
suwur
swasta
syaraf
tan
tangis
tasikmalaya
tawi
juni
kadhar
kal
kan
kantos
karuwan
kathah
kelola
kenal
kencur
kersa
kesel
ketemu
krama
krenteg
kuciwa
Frek
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
Term
adhem
akrab
amal
amba
ambegan
amping
ancik
angkah
asam
asih
bacut
bakar
balita
banyumas
bathik
beber
bela
bening
biyasa
blanja
bogor
bubar
moyudan
mudheng
muhammad
mules
mulih
muluk
mumet
mumpung
muneg
mungguh
museum
muter
mutiara
nagara
nengsem
ngaglik
Frek
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
Term
gantung
gejala
gelar
gene
giat
gratis
gugur
ibarat
idul
jabang
jajar
jangan
jaring
jatirahayu
jawi
jendral
jer
jibah
jlentreh
jlimet
jujur
juluk
salin
sampah
sampurna
sana
satus
sawat
sedaya
sedheng
seger
sejarah
selak
semanak
sember
seminar
sengaja
sepi
Frek
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
116
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
Term
kuliah
kuping
kwalitas
lak
lambang
lami
lamun
landhes
langkah
lanjut
lantar
lapis
layat
lebet
lever
lha
lipur
liyan
loka
lor
maha
mahanani
majalah
mak
makmur
malih
manuk
master
maton
meja
menang
meneng
mewah
momong
tukang
udarasa
udhar
uger
Frek
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
Term
ningsih
niyat
nuwun
nyanyi
oktober
ornamen
pakem
pang
panggah
panggih
paro
pedhot
pentas
polusi
prabot
pranggul
prentah
pri
pring
protes
pucuk
pura
puton
raga
rahim
rai
rancag
raya
refleksi
reged
relatif
remeh
rendhah
renteng
bojo
bolong
buat
budhal
Frek
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
2
2
2
2
Term
sewa
sewu
singkir
sirah
siun
solo
sopan
sugeng
sugiyanto
suket
sumangga
sumpono
sungapan
surakarta
suruh
surup
susul
suwak
taksih
tapak
target
tatu
tawa
tebet
tehnik
tekad
teles
telpun
teni
teratur
titi
trampil
triadi
tujuan
gan
gana
gedheg
ginjel
Frek
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
2
2
2
2
117
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
Term
ulem
waca
warung
wasana
watuk
wicaksana
wid
wolu
wolung
wur
abang
abdi
adreng
ahmad
alamat
alesan
amargi
amben
ambung
anggon
anteng
apal
arsa
asem
asin
asor
atan
aten
ayam
bage
bagi
bandha
banter
bau
bawa
bawah
bayang
bebek
Frek
3
3
3
3
3
3
3
3
3
3
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
Term
bujang
bunder
buru
cabang
caket
cancut
cekel
cengkah
cerdhas
dadar
darma
dedel
desainer
deteksi
dewi
dharah
dhelik
dhompet
dhong
diabetes
diagnosa
disiplin
dos
drama
drawas
dudut
duga
dum
dumunung
eget
eksklusif
embah
endang
ene
enejer
eni
enut
erosi
Frek
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
Term
giris
global
gondhol
grafika
gurit
guwa
guyub
idin
ijol
iling
iman
imbang
indah
india
inep
ingu
inti
isin
jahe
jak
jan
jen
judheg
kaca
kacang
kaleng
kandhung
kapal
kapok
kapsul
kasep
kasiyat
kec
kecong
kek
kemis
kendhang
khasiyat
Frek
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
118
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
Term
begjane
bekti
berkah
bersih
beya
biaya
bibit
biru
kritik
kronis
kulonprogo
kuna
kunci
kura
kursi
lagu
laladan
lam
lampung
langit
langkung
lawat
layak
lekas
lemari
lemu
lengkap
lire
listrik
logam
luar
lucu
luku
lunyu
luwar
madiun
madura
makan
Frek
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
Term
estu
ewasemono
fakultas
gabung
gadhah
gajih
galih
gamel
monjo
motivasi
mulya
muncul
mundur
mungsuh
muni
muruk
musik
muspra
nata
ne
negatip
ngajeng
niat
nikah
nikelke
non
nun
onjo
opor
optimal
optimis
orang
padu
pah
paham
pait
paku
pala
Frek
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
Term
kiprah
kirang
kisruh
klaten
ko
komoditas
kondhang
kringet
praktis
predikat
prekara
prelu
problem
prodhuk
profesi
provinsi
pundhut
punjer
pustaka
puter
rabuk
racak
rahayu
raja
rajawali
rak
ranggeh
rap
rapat
rebut
rekreasi
rembak
renggan
ribet
ringkih
royong
ruwang
saba
Frek
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
119
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
Term
maklum
mandhegani
mangun
mantu
manusia
maos
masuk
mate
mawi
mbah
megar
melas
menapa
menep
menggok
merk
mesjid
mili
milik
miring
sepele
sering
serot
shaleh
sigar
simbol
siram
sisip
spiritual
stadium
statistik
stress
suci
sugito
suharto
sultan
sum
sumatera
Frek
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
Term
palang
palsu
panembah
pangeran
panggung
parem
pari
paribasa
pasrah
patang
patut
peda
pencok
peran
pesthi
pha
pijat
pikiran
piro
pitung
tuding
tulisa
tundo
tunjang
turun
ubung
ugal
ugung
ujud
ukum
ulah
uman
umbar
uring
utang
vietnam
wah
wanareja
Frek
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
Term
saguh
saja
sajak
salur
samodra
sangisore
sangka
sangsara
santosa
sapu
saras
saraseh
satu
sebat
sekti
selaras
sembada
sengsem
senin
sepedha
aras
aribawa
asah
asat
asing
ata
atos
atus
awet
awon
ayah
babat
bagus
bakda
bapa
bar
barep
bares
Frek
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
120
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
Term
sumbang
sunar
super
surabaya
susun
sutresna
swargi
tahan
tama
tampil
tanam
tandhang
tandhes
tandhu
tanem
tebih
tedheng
teguh
tehnis
temanggung
tembayatan
temulawak
ten
tepat
tepung
teratai
test
tiga
tirakat
tiwas
toh
topi
condong
conggah
cubriya
cuplik
curhat
dalasan
Frek
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
1
1
1
1
1
1
Term
wanci
wangi
warah
wareg
warsa
wasis
waspada
watak
wedana
wekas
welas
wilang
wuh
wulu
wutuh
aba
adhi
agan
age
air
akal
akasa
alang
aliran
amat
amerta
ampet
angkuh
angslup
anjlog
aos
apus
fatarul
fitrah
foto
gagah
gaji
gaman
Frek
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
Term
baya
begja
benah
bendu
benggala
bengok
berat
bersama
bilahi
biyung
bludag
bobok
bogem
brantas
brasta
bregas
bungkus
buntas
busana
buwana
cagak
cakrabawa
cakrik
candhak
catur
cendhak
cene
ceneng
cengkleng
cingak
ciprat
ciut
impun
inang
induk
inggih
inggil
ingsun
Frek
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
121
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
Term
dangu
daniswari
dara
data
datan
demokrasi
dengan
dhadha
dhapur
dharat
dhateng
dhaup
dhawuh
dhele
dhemen
dhen
dheplok
dherek
dhewek
dhudhut
dhukuh
dialog
din
djayeng
djohar
dolan
dunia
dusun
edan
elus
embrah
emha
emosional
endha
enek
eneng
ening
epek
Frek
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
Term
gamblang
gandhang
ganjel
gaplek
gapura
gapyak
garba
garbini
garu
garwa
gatag
gathuk
gayom
gek
gempur
gepeng
gesang
getar
geter
gih
gilangharjo
gilar
giyat
gondowijoyo
gotong
gremet
greneng
gres
grojog
grundel
gulawentah
gulu
gumedhe
gumun
gunting
guyon
hajat
hargya
Frek
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
Term
ini
ira
iring
iris
ismaji
istilah
itung
jagong
jamin
jamur
jasmani
jatim
jebles
jejeg
jeleh
jeli
jim
jiret
jlomprong
jogjakarta
judhul
jumbuh
kalayan
kalimantan
kami
kancan
kandhang
kandung
kangggo
kangmas
kanthong
kaprah
karcis
karsa
karti
kata
katak
katan
Frek
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
122
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
Term
era
ering
estri
etika
ewon
fajar
kenya
kep
kesed
ketok
ketuk
khajat
khattab
kiai
kilo
klawan
kojur
koke
komedi
kompetensi
konang
koncatan
kondhisi
konsekuen
kosokbali
kothong
kotor
krana
kridha
kudus
kukub
kunjara
kuri
kursus
kutub
kuwalahan
lampu
laretna
Frek
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
Term
hati
ibadah
idhe
ikip
ili
imogiri
mah
maharesi
mahir
majusi
makam
mala
maluku
mancar
mandheg
mang
mangga
manis
manteb
marak
masak
masara
massal
matapelajaran
mataram
materi
mawas
me
medari
mekak
mekaten
mencungul
mendha
mepet
merdeka
merdi
mesem
met
Frek
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
Term
kebon
kecut
kelah
kemas
kemul
kenang
najib
nakal
namung
nan
nara
nasai
nashrani
naskah
negatif
neraka
nesu
ngantuk
ngethuprus
niki
nikmat
noleh
nomor
nung
nyang
obah
obyek
oen
ok
okhtiyar
pacak
padal
padmo
paidi
pamer
pan
pandeng
panggang
Frek
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
123
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
Term
lasem
lawuh
leg
leng
lenggah
lenggana
leren
let
lho
libur
lil
lilah
lir
lit
luhung
lumampah
madhahi
maelu
pengku
peres
pergok
persepsi
petruk
piagam
pilara
pilek
pilih
pingi
pintal
pintu
piyayi
plesed
plintir
porsi
positip
potret
praja
prajurit
Frek
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
Term
methik
ming
mireng
mirunggan
miyara
momok
monoton
mrosot
muchtar
muh
muka
mukmim
mungkar
murwat
musibah
musim
mutawatiri
nadhiri
redaksi
regeneratif
regeng
rekadaya
remen
remuk
resi
rig
rila
rinonce
risnantari
rombongan
rosa
rosyad
rubeda
rubuh
rumaos
rumit
sabaran
sabtu
Frek
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
Term
Frek
panggon
1
pangkat
1
panji
1
pantha
1
panti
1
paramasastra
1
paru
1
pasa
1
patal
1
patih
1
paweh
1
payon
1
pecut
1
pedes
1
pedoman
1
peka
1
pelem
1
pen
1
selamat
1
selasa
1
seleh
1
semah
1
semak
1
sembarang
1
semesta
1
semester
1
semin
1
semut
1
senen
1
seng
1
senggol
1
senopati
1
sentosa
1
senyuwun
1
september
1
serius
1
serta
1
setyaningsih
1
124
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
Term
prakosa
prapat
prayitna
prigel
pringgo
prinsip
priyan
profesional
pundi
puput
purba
purih
purwanto
purwodadi
purwokerto
pusing
puspa
putu
quran
radita
rajin
rakaditu
ral
rama
ramal
ran
rangke
rantas
ratih
rebo
sumarni
sumelang
surya
suwargi
suwarno
suwung
suyamsih
syarat
Frek
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
Term
sadhar
sadulur
sae
saget
sahabat
salep
sanes
sanga
sanget
sanggan
saning
sanja
santhet
santun
sarampung
sareh
sareng
sareyan
saring
saru
sarung
satria
satriya
saur
segala
segara
segoro
seka
sekar
sekretariat
tuhu
tukar
tukul
tumor
tunggang
tunggu
tuntas
tuntun
Frek
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
Term
shalat
sila
sileg
silep
silih
simplikasi
simulasi
sipil
sira
sirep
sisan
sisir
siti
sokur
sore
spirit
sponsor
srakat
stir
stres
study
suara
sudarinto
sudi
sudiyatmono
sugata
sukisno
suliantoro
suluh
sumadiyasa
wisata
wisatawan
wisik
wulet
wuruk
yahudi
yayasan
yuga
Frek
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
125
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
Term
syukur
tahrim
tala
tamtu
tanduk
tanggel
tanggenah
tanggungjawab
Frek
1
1
1
1
1
1
1
1
tanggungjawabe
tar
tatakrama
tawang
tawar
tega
tegas
tekat
tekun
teladan
telah
templek
tenger
tentang
tera
teraphy
terima
thailand
thil
tindhak
titah
titip
tleram
tlusur
tombak
topik
toyota
trane
trapan
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
Term
tutug
tutur
tuwas
tuwo
ubal
ujung
ulet
ulung
ulur
umar
umat
umiyati
underan
undher
ungguh
untuk
unyik
upus
urmat
uteg
uthuk
uyuh
virginia
vital
wadah
wadi
wairagya
walik
wanda
warsito
wasita
wawan
wekdal
weke
welut
wenang
wening
Frek
1
1
1
1
1
1
1
1
Term
ziarah
Frek
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
126
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
Term
trauma
triharjo
triharjun
trirenggo
tubruk
Frek
1
1
1
1
1
Term
wibawa
widagda
wigih
wijik
wingking
Frek
1
1
1
1
1
Term
Frek
dhidhik
44
laku
44
teka
44
usaha
44
atur
43
budidaya
43
jeneng
43
jroning
43
kasil
43
tuwuh
43
asil
42
dhuwur
42
kandhut
42
klebu
42
turut
42
ngerti
41
tani
41
wanita
41
daya
40
jepang
40
dina
tandur
gedhe
temu
perlu
sri
suwe
wulang
basa
cukup
pamulang
taman
umur
lair
ligi
undhak
undhang
bangsa
bangun
buh
63
63
62
60
59
39
39
39
38
38
nane
sinau
siswa
cilik
siji
desa
golek
kewan
lebu
seni
46
46
46
45
45
33
33
33
33
33
40
40
40
39
39
30
30
29
29
29
127
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
Term
jare
kutha
warna
anyar
perintah
sambung
unjuk
Frek
38
38
38
37
37
37
37
Term
suda
donya
gelem
ibu
loro
pengin
sasi
yogyakarta
gula
kasarasan
anak
ati
angel
anggep
37
36
36
35
35
34
34
bahan
dhudhuk
kulit
pangan
sawiji
thithik
jupuk
katon
maca
Frek
33
32
32
32
32
32
32
Term
dol
jakarta
tinggi
tuku
kahanan
murih
rana
Frek
tau
bantul
kira
nyata
omah
pulo
bali
32
31
31
31
31
31
30
tenan
tengah
urus
ara
kaji
kandha
kartu
28
28
28
27
27
27
27
34
34
34
34
34
34
26
26
26
mendhong
mundhak
pak
pasar
pos
udud
nandhang
salah
zat
30
30
30
30
30
30
22
22
22
rata
umum
woh
ahli
dagang
jaga
kelas
kerja
koperasi
27
27
27
26
26
26
20
20
20
mahasiswa
mari
mati
reiki
sumber
tela
wigati
26
26
26
26
26
26
26
aneh
bukti
dhahar
entuk
ingkang
kaum
kayata
21
21
21
21
21
21
21
krasa
maju
melu
modhel
pratela
sarana
tang
20
20
20
20
20
20
20
kecamatan
kkn
25
25
lakon
paring
21
21
tuli
program
20
24
nate
prestasi
25
25
resik
tenaga
21
21
rumangsa
sapa
24
24
29
29
29
29
28
28
28
128
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
Term
tamba
telu
tingkat
warga
asal
gunung
isi
kono
mono
paling
pisan
amrih
bayi
budi
campur
dhokter
enggal
jero
karya
lulus
mangsa
manut
Frek
25
25
25
25
24
24
24
24
24
24
24
22
22
22
22
22
22
22
22
22
22
22
Term
weneh
antuk
bantu
buku
dhasar
ganggu
jam
jaman
kantor
kaping
karep
Frek
21
20
20
20
20
20
20
20
20
20
20
Term
serikat
tanggal
baku
biyantu
dhaerah
ketaman
kualitas
lumrah
merga
nadyan
sok
Frek
24
24
23
23
23
23
23
23
23
23
23
129
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
Frek
Term
Frek
Term
Frek
bocah
Lara
Obat
148
130
103
perlu
rasa
urip
59
59
59
indonesia
jaba
putra
70
68
68
Rega
negara
Rp
sekolah
butuh
dening
kurang
masarakat
ekonomi
Guru
banyu
Becik
97
95
89
80
77
77
76
74
73
73
71
71
manawa
alam
pabrik
wujud
babag
tulis
jinis
murid
tampa
papan
dhuwit
sleman
58
57
57
57
54
54
52
52
52
51
50
50
menyang
barang
tuwa
dina
tandur
gedhe
temu
66
65
64
63
63
62
60
Frek
80
77
77
76
130