SKRIPSI
Oleh :
145314063
TEKNIK INFORMATIKA
YOGYAKARTA
2018
i
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
FINAL PROJECT
By :
145314063
YOGYAKARTA
2018
ii
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
iii
HALAMAN
PLAGIAT PENGESAHAN
MERUPAKAN TINDAKAN TIDAK TERPUJI
iv
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
MOTO
v
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Saya menyatakan sesungguhnya bahwa di dalam skripsi yang saya tulis ini
tidak memuat karya atau bagian karya orang lain, kecuali telah disebutkan dalam
kutipan dan daftar pustaka, sebagaimana layaknya karya ilmiah.
vi
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Yang bertanda tangan dibawah ini, saya mahasiswa Universitas Sanata Dharma:
Dibuat di Yogyakarta
Pada Tanggal 6 September 2018
Yang Menyatakan
vii
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
ABSTRAK
viii
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
ABSTRACT
On library commonly wrong for clustering book cause the tittle of the book
different with the content of the book. Analysis can do it on multimedia data, from
multimedia data will be processed, on image data will doing image processing for
identification that image.
This research processed image book cover using image processing and
MSER (Maximally Stable Extermal Regions). Find word on tittle using Tesseract
OCR (Optical Character Recognition). Word result processed by information
retrieval. Word compares for creating matrix numeric, that matrix using for
classification on the backpropagation artificial neural network.
Classification experiment using the backpropagation artificial neural
network, with optimization network architecture, produce best accuracy 61.2069%
for one hidden layer on 15 neurons and 63.3053% for two hidden layers 15 neurons
and 35 neurons.
ix
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
KATA PENGANTAR
Puji syukur penulis panjatkan kepada Ida Sang Hyang Widhi Wasa atau
Tuhan Yang Maha Esa, yang telah memberikan karunia berlimpah sehingga penulis
dapat menyelesaikan tugas akhir dengan sangat baik.
Penulis menyadari bahwa pada saat pengerjaan tugas akhir ini penulis
mendapatkan banyak bantuan dari berbagai pihak, baik berupa perhatian, kritik, dan
saran serta da yang sangat penulis butuhkan untuk kelancaran dan mendapatkan
hasil yang baik. Pada kesempatan ini penulis akan menyapaikan ucapan terima
kasih kepada:
1. Sudi Mungkasi, S.Si., M.Math.Sc., Ph.D. selaku Dekan Fakultas Sains dan
Teknologi Universitas Sanata Dharma Yogyakarta.
2. Dr. Cyprianus Kuntoro Adi, S.J., M.A., M.Sc., selaku dosen pembimbing
tugas akhir yang telah sabar dan penuh perhatian membimbing saya dalam
penyusunan tugas akhir.
3. Dr. Anastasia Rita Widiarti, M.Kom., selaku Ketua Program Studi Teknik
Informatika yang selalu memberikan dukungan dan perhatian serta saran
kepada mahasiswa tugas akhir dan pengerjaan tugas akhir.
4. Kedua orang tua tercinta Bapak I Made Sudiana dan Ibu Ni Nyoman
Sutrisnawati yang selalu mendoakan dan memberikan dukungan berupa
moral maupun materi kepada penulis, sehingga penulis dapat
menyelesaikan tugas akhir ini.
5. Seluruh dosen Teknik Informatika atas ilmu yang telah diberikan selama
perkuliahan dan pengalaman yang sangat berarti bagi penulis.
6. JackRakkan, DonatKeju, Sekamir, Jones, serta seluruh teman – teman
sesama peminatan komputasi yang berjuang bersama dan saling
mendukung dalam penyusunan tugas akhir ini.
7. Jarkom Oye ’14 yang selalu mestimulus dopamin penulis ketika
mengerjakan tugas akhir ini.
x
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xi
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
DAFTAR ISI
SAMPUL ..................................................................................................... i
COVER ....................................................................................................... ii
HALAMAN PERSETUJUAN PEMBIMBING ........................................ iii
HALAMAN PENGESAHAN ................................................................... iv
MOTO ......................................................................................................... v
PERNYATAAN KEASLIAN KARYA .................................................... vi
LEMBAR PERNYATAAN PERSETUJUAN PUBLIKASI ILMIAH
UNTUK KEPENTINGAN AKADEMIS ................................................. vii
ABSTRAK ............................................................................................... viii
ABSTRACT ............................................................................................... ix
KATA PENGANTAR ................................................................................ x
DAFTAR ISI ............................................................................................. xii
DAFTAR TABEL .................................................................................... xiv
DAFTAR GAMBAR ............................................................................... xiv
BAB I .......................................................................................................... 1
1.1. Latar Belakang ........................................................................... 1
1.2. Rumusan Masalah...................................................................... 3
1.3. Tujuan ........................................................................................ 3
1.4. Luaran ........................................................................................ 3
1.5. Batasan Masalah ........................................................................ 4
BAB II ......................................................................................................... 5
2.1. Buku ........................................................................................... 5
2.2. Bahasa ........................................................................................ 7
2.2.1. Kata Dasar .............................................................................. 7
2.2.2. Kata Bentukan ........................................................................ 8
2.3. RGB ......................................................................................... 14
2.4. Grayscale ................................................................................. 14
2.5. Binerisasi Otsu ......................................................................... 14
2.6. Deteksi Maximally Stable Extremal Regions (MSER) ............ 18
2.7. Tesseract OCR ......................................................................... 19
2.8. Pemerolehan Informasi ............................................................ 20
2.8.1. Case-folding ......................................................................... 20
2.8.2. Tokenization ......................................................................... 21
2.8.1. Stop Word Removing ............................................................ 21
2.8.2. Stemming .............................................................................. 21
2.9. Jaringan Syaraf Tiruan............................................................. 22
2.9.1. Arsitektur Jaringan ............................................................... 22
xii
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xiii
DAFTAR TABEL
DAFTAR GAMBAR
xiv
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xv
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
BAB I
PENDAHULUAN
Buku merupakan jenis literatur tua yang masih digunakan hingga kini,
terdapat banyak perpustakaan dan percetakan di dunia, setiap buku mungkin
membahas hal yang sama tetapi tidak akan memiliki informasi yang sama persis.
Selain informasi yang menarik, buku juga memiliki bagian unik yakni sampul.
Buku memiliki sampul yang berbagai macam, sampul tersebut berisikan informasi
tentang buku tersebut, terkadang judul pada sampul tersebut tidak mirip dengan isi
dari sebuah buku.
Pada perpustakaan sering terjadi kesalahan untuk mengelompokkan buku,
tidak dimungkinkan untuk mengetahui secara detail buku – buku yang dimiliki oleh
perpustakaan, hal tersebut membuat pengelompokan hanya dilakukan berdasarkan
judul pada sampul bukunya saja, karena judul sampul tidak sama dengan isi dari
buku tersebut, sering terjadi kesalahan penempatan buku.
Banyak perusahaan besar bernaung pada penjualan buku seperti Amazon
yang memiliki refrensi penjualan buku yang sangat banyak, tujuan untuk
memudahkan pembeli dalam memilih buku yang dibantu oleh sistem rekomendasi
dari Amazon, dilakukan pemetaan karakteristik pembeli atau pembaca, dengan
menambang informasi yang ada pada akun pembeli, masyarakat mengunggah data
multimedia misalnya sampul buku, dari sampul tersebut bisa dicari hubungan
antara pembeli dengan data yang mereka unggah.
Upaya untuk melakukan analisa pembeli dapat dilakukan pada data – data
multimedia pengguna, dari data multimedia tersebut akan diproses, pada data
gambar akan dilakukan pemrosesan citra untuk mengidentifikasi gambar tersebut,
pada kasus sampul buku, gambar akan diproses untuk mendapatkan judulnya, judul
diprosesan untuk mengetahui judul buku, dari judul tersebut dilakukan analisa
1
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
untuk mengetahui buku yang dicari dan kekerabatannya, dari data tersebut maka
akan ditemukan buku yang sesuai dengan data pengguna.
(Iwana et al., 2016) telah melakukan penelitian serupa untuk sampul buku.
Pada penelitian tersebut dilakukan deep learning menggunakan Jaringan Syaraf
Tiruan dan dilakukan pada seluruh sampul buku dengan hasil akurasi yang hanya
dibawah 70%, pada penelitian tersebut umumnya menggunakan tiga jenis ciri yakni
ciri warna, ciri gambar, dan ciri tulisan. Pada ciri warna pada umumnya semakin
muda warna sampul mengindikasikan semakin muda juga calon pembaca buku
tersebut. Pada ciri gambar di penelitian tersebut dikatakan gambar akan
mempengaruhi topik yang cenderung sama dengan gambar sampul. Pada ciri
tulisan sebuah buku yang berisikan tentang ilmu filsafat, sosial, hukum dan misteri
akan cenderung memiliki tulisan yang banyak pada sampulnya.
Penulis melihat perbedaan yang sudah dijelaskan sebelumnya sebagai
sebuah masalah yang ingin diteliti penulis, dengan mencari tahu hubungan antara
judul pada sampul buku dengan informasi yang akan dipaparkan dalam buku
tersebut dengan mengelompokan buku – buku berdasarkan judul pada sampulnya
dan membandingkannya dengan informasi yang didapat melalui metode penulis
gunakan dan membandingkannya dengan informasi isi dari buku tersebut, sehingga
dapat menjawab pertanyaan apakah sampul tersebut dapat digunakan untuk
mengelompokkan buku dan mengetahui genre buku tersebut.
Ada beberapa metode untuk melakukan klasifikasi yakni Naïve Bayes,
Dessicion Tree, Support Vector Machine, dan Jaringan Syaraf Tiruan. Terdapat
beberapa metode klasifikasi dengan Jaringan Syaraf Tiruan. Metode CNN untuk
klasifikasi buku (Iwana et al., 2016) dan Backpropagation untuk klasifikasi burung
(Putera, 2016)
Penulis ingin membuat model klasifikasi buku, model ini akan melakukan
identifikasi secara otomatis judul pada sampul buku. Preprocessing sebelum
dilakukan klasifikasi menggunakan pemrosesan citra dan pemerolehan informasi.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Rumusan masalah yang ingin dijawab penulis dalam penelitian ini adalah
sebagai berikut:
1.3. Tujuan
Tujuan yang ingin dicapai dari penelitian ini adalah sebagai berikut:
1.4. Luaran
Batasan masalah yang penulis akan pakai dalam penelitian ini sebagai
berikut:
BAB II
TINJAUAN PUSTAKA
2.1. Buku
Buku modern disusun menurut format tertentu yang disebut tata letak buku.
Meskipun ada variasi tata letak yang banyak, buku modern cenderung mematuhi
seperangkat peraturan berkaitan dengan bagian tata letak dan isi konten mereka
biasanya. Tata letak dasar akan mencakup sampul depan, penutup belakang, dan isi
buku yang disebut halaman salinan atau konten tubuhnya. Sampul depan sering
memakai judul buku (dan sub judul, jika ada) dan nama pengarang atau editornya.
Bagian depan sampul depan biasanya kosong pada buku hardcover dan paperback
(Shelly, Gary B.; Starks, 2011).
Buku memiliki tiga bagian yakni sampul depan, belakang, dan isi, pada
sampul depan terdapat grafis dan tulisan judul dari buku tersebut, pada umumnya
tulisan pada cover menggunakan font Times New Roman, Arial, dan Trebuchet MS,
pada judul sampul buku memiliki karakteristik yang berbeda - beda tidak sama satu
sama lain, pada posisi judul buku tidaklah menentu, pada umumnya posisi judul
pada sampul buku terletak pada seperempat bagian atas sampul menggunakan rata
tengah, dan pengarang terletak pada seperempat bagian pojok bawah sampul.
5
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Sebagai prasyarat penting untuk pencarian gambar berbasis teks, teks dalam
gambar harus ditempatkan dengan baik. Namun, menjadi menantang karena
beragamnya tampilan teks, seperti variasi font dan gaya, distorsi geometrik dan
fotometrik, oklusi parsial, dan kondisi pencahayaan yang berbeda. Deteksi teks
telah dipertimbangkan dalam banyak penelitian terkini dan berbagai metode
dilaporkan dalam literatur (Chen et al., 2011).
Buku memiliki variasi dalam tampilan teks, seperti variasi font dan gaya,
distorsi geometrik dan fotometrik, oklusi parsial, dan kondisi pencahayaan yang
berbeda hal ini tak lepas dari keinginan penerbit untuk meningkatkan daya tarik
pembeli sehingga sampul buku disisipkan berbagai macam unsur seni dan
keindahan, kreasi tersebut bisa membuat perbedaan antara satu buku dengan buku
yang lain atau setiap buku memiliki ciri khas tertentu.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
2.2. Bahasa
Bahasa mempunyai dua aspek, yaitu aspek bentuk dan aspek makna
(Mustakim, 2014). Aspek bentuk berupa wujud suara atau wujud visual suatu
bahasa. Wujud suara dapat diketahui dari bunyi-bunyi bahasa yang didengar, wujud
visual berupa lambang-lambang bunyi bersistem yang tampak jika bahasa itu
dituliskan. Aspek makna merujuk pada pengertian yang ditimbulkan oleh wujud
audio atau wujud visual bahasa itu. Dengan contoh sebagai berikut:
Kata-kata yang membentuk kalimat (1) terdiri atas tujuh kata, ketujuh kata
yang dimaksud adalah sebagai berikut.
Kata dasar selain dapat digunakan sebagai dasar bagi bentukan kata lain
yang lebih luas, dapat pula digunakan tanpa ditambah dengan imbuhan apa pun.
Beberapa kata yang tergolong sebagai kata dasar sudah diketahui dan sudah
tersimpan di dalam memori para pengguna bahasa. Jika akan digunakan, kata-kata
tinggal dikeluarkan dari memori atau ingatan. Demikian dalam berbahasa tidak ada
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
masalah jika informasi yang disampaikan seluruhnya dinyatakan dalam bentuk kata
dasar.
2.2.2.1. Pengimbuhan
a. Awalan
b. Akhiran
c. Sisipan
d. Gabungan Imbuhan
1) Awalan meng- dan peng- berubah menjadi me- dan pe- jika
dirangkaikan dengan kata dasar yang berawal fonem /r, l, m, n, w, y,
ng, ny/. Misalnya:
10
3) Awalan meng- dan peng- berubah menjadi men- dan pen- jika
dirangkaikan dengan kata dasar yang berawal dengan fonem /t, d, c,
j, z, sy/. Misalnya:
11
Awalan ber- dapat berubah menjadi be- dan bel- atau tetap menjadi ber-.
Awalan ber- berubah menjadi be- jika digabungkan dengan kata dasar yang berawal
dengan fonem /r/ atau kata dasar yang suku kata pertamanya mengandung bunyi
[er].
Be- Beroda
Ber- Bertanya
Awalan per- dapat berubah menjadi pe- dan pel- atau tetap menjadi per-.
Dalam hal ini, awalan per- berubah menjadi pe- jika digabungkan dengan kata yang
mempunyai pertalian bentuk dengan kata lain yang berawalan ber- atau jika
digabungkan dengan kata yang berawal dengan fonem /r/.
Pe- Petani
Per- Pertanda
Awalan ter- hanya dapat berubah menjadi te- jika digabungkan dengan kata
dasar yang berawal dengan fonem /r/ atau suku kata pertamanya mengandung bunyi
[er]. Awalan ter- tetap menjadi ter- jika digabungkan dengan kata dasar yang lain.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
12
Te- Terasa
Ter-
Ter- Terbaik
V. Pertalian Bentuk
Dalam pembentukan kata terdapat pertalian bentuk antara awalan peng- dan
meng- serta awalan per- dan ber-. Contohnya pada bentukan kata pengembangan
dan perkembangan.
Sisipan dalam bahasa Indonesia jumlahnya sangat terbatas yakni –em-, -el-
, –er-,dan –in-.
Imbuhan peng- jika diikuti akhiran, akhiran yang mengikutinya adalah –an,
bukan –kan, sehingga gabungan imbuhan itu menjadi peng-...-an, sama seperti
imbuhan ke-...an.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
13
dengan menggabungkan kata dasar dan kata dasar. Misalnya, dari kata dasar
tanda dan kata dasar tangan dapat digabungkan sehingga menjadi tanda tangan.
Beberapa kata lain yang dibentuk dengan penggabungan kata dasar dan kata dasar
dapat dilihat pada contoh berikut.
kerja sama
tanggung jawab
terima kasih
serah terima
sumber daya
terima kasih
serah terima
sebar luas
Unsur terikat yang dimaksud adalah unsur yang keberadaannya tidak dapat
berdiri sendiri sebagai kata. Dengan demikian, unsur itu selalu terikat pada unsur
yang lain, antara lain swa-, pra-, pasca-, sub-, non-, multi-, tuna-, maha-, multi-,
antar-, nara-, semi- purna-, ultra-, dan adi-.
14
2.3. RGB
RGB merupakan singkatan dari merah (red), hijau (green), dan biru (blue),
setiap perpaduan warna dasar tersebut akan menghasilkan warna baru dengan
memperhatikan terang gelapnya juga, suatu tulisan pada umumnya memiliki warna
hitam, untuk kasus sampul buku ini, warna tulisan pada judul buku memiliki warna
yang bervariasi, ragam warnanya pun bisa warna tegas dan gradasi.
2.4. Grayscale
15
Gray level histogram dari Otsu, dimana L merupakan level keabu-abuan dan
N merupakan total dari jumlah piksel citra
𝑝𝑖 = 𝑛𝑖 ⁄𝑁 , 𝑝𝑖 ≥ 0, ∑ 𝑝𝑖 = 1 (2.2)
𝑖=1
dan
𝑘
𝜇 𝑇 − 𝜇 (𝑘 )
𝜇1 = Pr(𝑖|𝐶1 ) = ∑ 𝑝𝑖 ⁄𝜔1 = (2.6)
1 − 𝜔 (𝑘 )
𝑖=1+1
dimana
𝜔(𝑘 ) = ∑ 𝑝𝑖 (2.7)
𝑖=1
𝑘
16
adalah saat kumulatif orde pertama dan histogram orde pertama sampai ke-
k, masing-masing, dan
adalah tingkat rata-rata total dari gambar aslinya. Dapat dengan mudah
memverifikasi relasi berikut untuk pilihan k:
𝜔0 𝜇0 + 𝜔1 𝜇1 = 𝜇 𝑇 , 𝜔0 + 𝜔1 = 1 (2.10)
Variasi kelas diberikan oleh:
𝑘 𝑘
𝐿 𝑘
𝜆 = 𝜎𝐵2 ⁄𝜎𝑊
2
, Κ = 𝜎𝑇2 ⁄𝜎𝑊
2
, 𝜂 = 𝜎𝐵2 ⁄𝜎𝑇2 , (2.13)
dimana
2
𝜎𝑊 = 𝜔0 𝜎02 + 𝜔1 𝜎12
(2.14)
17
Sudut pandang ini dimotivasi oleh dugaan bahwa kelas ambang yang baik
akan dipisahkan dalam tingkat abu-abu, dan sebaliknya, ambang batas yang
memberikan pemisahan terbaik kelas dengan tingkat abu-abu akan menjadi ambang
terbaik.
2
𝜎𝑊 + 𝜎𝐵2 = 𝜎𝑇2
(2.17)
2
Hal ini memperhatikan bahwa 𝜎𝑊 dan 𝜎𝐵2 adalah fungsi dari tingkat ambang
k, namun 𝜎𝑇2 tidak bergantung pada k. Juga dicatat bahwa 𝜎𝑇2 didasarkan pada
statistik orde kedua (varians kelas), sedangkan (𝜎𝐵2 didasarkan pada statistik orde
pertama (mean kelas). Oleh karena itu, 𝜂 adalah ukuran paling sederhana
sehubungan dengan k. Jadi, diadopsi 𝜂 sebagai ukuran kriteria untuk mengevaluasi
"kebaikan" (atau keterpisahan) ambang batas pada tingkat k.
18
Dari masalah ini, kisaran k di mana maksimum yang dicari bisa dibatasi
19
Objek MSER akan memiliki nilai maksimum pada titik pinggirnya dan nilai
minimum pada titik tengahnya, kumpulan bagian tersebut bisa memiliki berbagai
bentuk tapi saling berkaitan satu sama lainnya membentuk suatu area (Matas et al.,
2002).
20
2.8.1. Case-folding
Setiap karakter pada kata diubah menjadi kapital dan tidak kapital, fungsi
dari case-folding untuk menghindari case-sensitve dari sebuah kata. Contoh kata
Automobile akan berbeda dengan automobile, untuk menyamakannya dilakukan
case-folding menjadi capital atau tidak capital. Teknik ini memiliki kelemahan pada
penggunaan akronim dan merk, contohnya seperti C.A.T menjadi CAT memiliki arti
sama dengan cat.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
21
2.8.2. Tokenization
Terkadang, beberapa kata sering muncul tetapi kata tersebut memiliki nilai
yang kecil untuk mengidentifikasi dokumen, pengguna perlu mengcualikan kata -
kata tersebut dengan membuat sebuah daftar vocabulary. Kumpulan kata tersebut
biasa disebut stop word. Pada umumnya strateginya untuk menentukan sebuah
daftar berhenti sementara menggunakan koleksi frekuensi.
2.8.2. Stemming
Beberapa kata memiliki makna yang sama satu sama lainnya hanya
dibedakan oleh penggunaan imbuhan, seperti demokrasi, demokratik, dan
demokratisasi.
22
kata dasar yakni kerja. Bahasa Indonesia juga memiliki kata hubung yang
digunakan untuk membantu penyusunan kata atau disebut kata konjugasi.
Pada jaringan syaraf tiruan terdapat 2 jenis yakni lapis tunggal dan lapis
majemuk.
23
Gambar 2.6 Ilustrasi Jaringan Lapis Tunggal (Hagan & Demuth, 2014)
Gambar 2.7 Ilustrasi Jaringan Lapis Majemuk (Hagan and Beale, 2014)
24
2.9.2. Backpropagation
R-S1-S2-S3 (2.22)
0 0 1 1
{𝑃1 = [ ] , 𝑡1 = 0} {𝑃2 = [ ] , 𝑡2 = 1} {𝑃3 = [ ] , 𝑡1 = 1} {𝑃4 = [ ] , 𝑡1 = 0}
0 1 0 1
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
25
1. Fungsi Aktivasi
Gambar 2.9 Contoh Jaringan Fungsi Aprokmasi (Hagan and Beale, 2014)
1
𝑓 1 (𝑛) = 𝑑𝑎𝑛 𝑓 2 = 𝑛 (2.23)
1 + 𝑒 −𝑛
Fungsi purelin merupakan fungsi aktivasi dengan hasil output sesuai dengan
perhitungan pada neuronnya
26
dimana M adalah jumlah layer pada jaringan tersebut. Pada neuron pertama
diberikan nilai input
a0 = p, (2.25)
dan input neuron terakhir diberikan
a = a𝑚 , (2.26)
Gambar 2.10 Jaringan 3 Lapis, dengan notasi ringkas(Hagan and Beale, 2014)
(2.28)
(2.29)
dengan algoritma LMS, dengan iterasi sebanyak k, maka menggunakan
rumus
(2.30)
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
27
𝑛
𝑧_𝑛𝑒𝑡𝑗 = 𝑣𝑗0 + ∑ 𝑥𝑖 𝑣𝑗𝑖 (2.31)
𝑖=1
1
𝑧𝑗 = 𝑓 (𝑧𝑛𝑒𝑡 𝑗 ) = (2.32)
1 + 𝑒 −𝑧_𝑛𝑒𝑡𝑗
6. Hitung semua luaran jaringan di neuron 𝑦𝑘 (k = 1, 2, 3, … , m)
𝑛
𝑦_𝑛𝑒𝑡𝑘 = 𝑤𝑘0 + ∑ 𝑥𝑗 𝑤𝑘𝑖 (2.33)
𝑗=1
1
𝑦𝑘 = 𝑓(𝑦𝑛𝑒𝑡 𝑘 ) = (2.34)
1 + 𝑒 −𝑦_𝑛𝑒𝑡𝑘
7. Hitung faktor 𝛿 neuron luaran berdasarakan error disetiap neuron
luaran 𝑦𝑘 (k = 1, 2, 3, … , m)
𝛿𝑘 = (𝑡𝑘 − 𝑦𝑘 )𝑓 ′
(𝑦𝑛𝑒𝑡𝑘 )
= (𝑡𝑘 − 𝑦𝑘 )𝑦𝑘 (1 − 𝑦𝑘 ) (2.35)
𝑚
𝛿_𝑛𝑒𝑡𝑗 = ∑ 𝛿𝑘 𝑤𝑘𝑗 (2.37)
𝑘=1
28
−0.27 1 ( ) −.048
𝑊 1 (0) = [ ],𝑏 0 = [ ] , 𝑊 2 (0) = [0.09 −0.17], 𝑏 2 (0) = [0.48]
−0.41 −.013
𝑎0 = 𝑝 = 1
1
0.75 −0.321
= [1 + 𝑒 ] = [ ]
1 −0.368
1 + 𝑒 0.54
−0.321
𝑎2 = 𝑓 2 (𝑊 2 𝑎1 + 𝑏2 ) = 𝑝𝑢𝑟𝑒𝑙𝑖𝑛 ([0.09 −0.17] [ ] + [0.48])
−0.368
= [0.446]
Perbaikan error
𝜋 𝜋
𝑒 = 𝑡 − 𝑎 = {1 + sin ( 𝑝)} − 𝑎2 = {1 + sin ( 1)} − 0.446 = 1.261
4 4
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
29
1(
𝑑 1 𝑒 −𝑛 1 1
𝑓 𝑛) = ( ) = = (1 − ) ( )
𝑑𝑛 1 + 𝑒 𝑛 (1 + 𝑒 −𝑛 )2 1 + 𝑒 −𝑛 1 + 𝑒 −𝑛
= (1 − 𝑎1 )(𝑎1 )
𝑑
𝑓 2 (𝑛 ) = (𝑛 ) = 1
𝑑𝑛
1 − 𝑎11 0 0.09 [
𝑠 1 = 𝐹1 (𝑛1 )(𝑊 2 )𝑇 𝑠 2 = [ 1 1 ] [−0.17] −2.522
]
0 (1 − 𝑎2 )(𝑎2 )
(1 − 0.321)(0.321) 0 0.09 [
=[ ][ ] −2.522]
0 (1 − 0.368)(0.368) −0.17
= [0.171 −0.0772],
30
Hasil dari iterasi pertama, untuk mencari nilai optimal diperlukan beberapa
kali iterasi lagi sehingga didapatkan nilai yang mencapai target atau mendekati
target.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
BAB III
METODOLOGI
3.1.1. Data
Data yang digunakan adalah data sampul buku dari percetakaan buku
Kansius Yogyakarta yang diambil pada bulan Agustus 2017, dengan rincian
penggunaan data yakni sampul buku filsafat sebanyak 53 gambar, buku kerohanian
31
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
32
sebanyak 101 gambar, dan buku pelajaran sekolah sebanyak 200 gambar, serta
masing – masing 2 gambar untuk setiap jenis sampul yang akan digunakan data uji.
Gambar tersebut memiliki ukuran tinggi 300 cm dan lebar 130 cm dengan resolusi
gambar sebesar 96 dpi, setiap gambar memiliki label masing – masing untuk
pengenalan jenis buku tersebut.
Gambar 3.2.
Gambar 3.2 Contoh Cover Buku
Data kedua yakni data judul buku tersebut dalam bentuk xlsx, setiap judul
dibuatkan teks secara manual dengan melihat pada setiap gambar sampul, jumlah
data yang dibuat sama dengan jumlah data yang digunakan dalam pemrosesan citra,
untuk pelabelan data juga menggunakan label data sebagaimana seperti data yang
digunakan pada permrosesan citra.
3.1.2. Preprocessing
33
Gambar 3.4 Hasil Deteksi Objek Gambar 3.5 Gambar setelah koordinat selain
Menggunakan MSER MSER diubah menjadi 0
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
34
Basisdata kata – kata judul unik akan dibuat berdasarkan informasi yang
didapatkan pada judul buku, ketika judul tersebut mengandung kata – kata tersebut
maka akan diberikan nilai 1 jika tidak mengandung kata – kata tersebut akan
diberikan nilai 0 pada kata tersebut dan jika terdapat kata yang sama akan
ditambahkan nilainya sebanyak 1.
Basisdata
“Satu” “Dua” “Lima”
Data
“Satu Dua Satu” 2 1 0
“Dua Tiga” 0 1 0
2 1 0
Dari ilustrasi diatas maka dihasilkan matriks [ ] yang akan
0 1 0
dimasukan ke dalam JST.
Pada bagian ini akan dilakukan penyimpanan data sebanyak 10, 15, dan 20
kata untuk disimpan pada database dengan memperhitungkan kata kata yang akan
sering keluar pada ekstraksi ciri tetapi tidak dapat di stemming secara baik, sehingga
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
35
jika kata tersebut muncul maka akan dicocokan dengan basis data, jika ditemukan
data tersebut maka proses stemming tidak akan diproses untuk kata tersebut atau
dikenal dengan stop word.
36
Basisdata
No 'PAHNARGYAN' 'BOJANA' 'KURBAN' 'RAKA' … 'MANUSIA'
Data
1 'PAHNARGYAN BOJANA KURBAN' 1 1 1 0 … 0
'RAKA AGUNG SEBUAH
2 0 0 0 1 … 0
RENUNGAN'
2 'KURBAN UNTUK ALLAH' 0 0 1 0 … 0
4 'MENCINTAI EKARISTI' 0 0 0 0 … 0
…
354 'FILSAFAT MANUSIA' 0 0 0 0 … 1
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
37
Ada 16 jenis arsitektur jaringan syaraf tiruan yang akan digunakan pada
proses pelatihan dan pengujian arsitektur, yaitu dengan 5, 10, 20, 15, 25, 30, 35,
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
38
dan 40 neuron, untuk jumlah neuron pada sistem mengikuti feature dari sistem,
pada sistem ini menggunakan 3 kelas jadi akan ada 2 neuron output untuk
1 0 1
mendapatkan luaran yakni [ ], [ ] ,[ ]
1 1 0
Hidden layer pertama menggunakan kombinasi dengan 5, 10, 20, 15, 25,
30, 35, dan 40 neuron, dengan jumlah input atau ciri sebanyak 489 data, pada luaran
percobaan satu hidden layer akan diteruskan ke neuron luaran, neuron pada hidden
layer pertama dengan hasil akurasi tertinggi akan digunakan kembali pada
percobaan 2 hidden layer.
Contoh perhitungan,
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
39
1 1
𝑊 0) = [0] , 𝑏 (0) = [0] , 𝑊 2 (0) = [0 1 0], 𝑏2 (0) = [0],
1( 1
0 0
1 1
𝑊 3 (0) = [0] , 𝑏3 (0) = [0],
0 0
𝑎0 = 𝑝 = 1
1 1 2
𝑎1 = 𝑓 1 (𝑊 1 𝑎0 + 𝑏1 ) = 𝑙𝑜𝑔𝑠𝑖𝑔 ([0] [1] + [0]) = 𝑙𝑜𝑔𝑠𝑖𝑔 ([0])
0 0 0
1
1 + 𝑒 −2
1 0,88
= = [ 2 ]
1 + 𝑒0 2
1
[ 1 + 𝑒0 ]
0,88
𝑎2 = 𝑓 2 (𝑊 2 𝑎1 + 𝑏2 ) = 𝑙𝑜𝑔𝑠𝑖𝑔 ([0 1 0] [ 2 ] + [0]) = 𝑙𝑜𝑔𝑠𝑖𝑔([2])
2
1
=[ ] = [0,88]
1 + 𝑒 −2
1 1
𝑎3 = 𝑓 3 (𝑓 2 (𝑊 3 𝑎0 + 𝑏3 ) + 𝑏2 )+𝑏3 = 𝑝𝑢𝑟𝑒𝑙𝑖𝑛 ([0] [0,88] + [0])
0 0
0.88
= 0 ]
[
0
Perbaikan error
𝜋 𝜋
𝑒 = 𝑡 − 𝑎 = {1 + sin ( 𝑝)} − 𝑎3 = {1 + sin ( 1)} − 0,88 = 1,88
4 4
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
40
1(
𝑑 1 𝑒 −𝑛 1 1
𝑓 𝑛) = ( ) = = (1 − ) ( )
𝑑𝑛 1 + 𝑒 𝑛 (1 + 𝑒 −𝑛 )2 1 + 𝑒 −𝑛 1 + 𝑒 −𝑛
= (1 − 𝑎1 )(𝑎1 )
3
2(
𝑑2 1 (𝑒 𝑛 − 1)𝑒 𝑛 1 1 1
𝑓 𝑛) = 2 ( )= = (1 − ) (2 )( )
𝑑𝑛 1 + 𝑒 𝑛 (1 + 𝑒 𝑛 )3 1 + 𝑒 −𝑛 1 + 𝑒 −𝑛 1 + 𝑒 −𝑛
= (1 − 𝑎2 )(2𝑎2 )(𝑎2 )3
𝑑
𝑓 3 (𝑛 ) = (𝑛 ) = 1
𝑑𝑛
𝑠 2 = 𝐹 2 (𝑛2 )(𝑊 3 )𝑇 𝑠 3
(1 − 𝑎11 ) 0 0 0,88
=[ 0 (1 − 𝑎12 )(𝑎12 ) 0 ] [1 0 0 ] [ 0 ]
0 0 1 1 1
(1 − 𝑎3 )(2𝑎3 )(𝑎3 ) 0
(1 − 0,88) 0 0 0,1936
=[ 0 (1 − 0)(0) 0 ] [1 0 0] [ 0 ]
0 0 (1 − 0)(2(0))(0) 0
0,88
= [0,22 0 0] [ 0 ] = [1,76]
0
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
41
𝑠 1 = 𝐹1 (𝑛1 )(𝑊 2 )𝑇 𝑠 2
(1 − 𝑎11 ) 0 0 1
=[ 0 (1 − 𝑎12 )(𝑎12 ) 0 ] [0] [0,1936]
0 0 (1 − 𝑎13 )(2𝑎13 )(𝑎13 ) 0
(1 − 0,88) 0 0 1
=[ 0 (1 − 2)(2) 0 ] [0] [0.1936]
0 0 (1 − 2)(2(2))(2) 0
0,22 0 0 1
=[ 0 −2 0 ] [0] [0.1936]
0 0 −8 0
0,22 0,0496
= [ 0 ] [0.1936] = [ 0 ]
0 0
= [0.728 0 0],
1 0.0496 0.9504
1( 1( 1 ( 0 )𝑇
𝑊 1) = 𝑊 0) − αs a = [1] − 1 [ 0 ] [1] = [ 0 ],
2 0 0
1 0.0496 0.9504
𝑏1 (1) = 𝑏1 (0) − αs1 = [0] − 1 [ 0 ] = [ 0 ],
0 0 0
Hasil dari iterasi pertama, untuk mencari nilai optimal diperlukan beberapa
kali iterasi lagi sehingga didapatkan nilai yang mencapai target atau mendekati
target.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
42
BACKPROPAGATION
INPUT DATA
DATA DATA
TRAINING TESTING
Information
Retrieval LUARAN
LABEL TRAINING LABEL TESTING
MODEL
AKURASI
43
Data yang dihasilkan merupakan data input asli atau sama dengan judul
pada gambar sampul, sehingga model ini hanya menghilangkan pemrosesan citra
dari model sebelumnya. Adapun model ini akan digunakan sebagai pembanding
kinerja adalah sistem dengan adanya pemrosesan citra dan tanpa adanya
pemrosesan citra.
3.2. Algoritma
44
3.2.3. Klasifikasi
45
3) Tesseract
Perangkat lunak Optical Character Recognition untuk melakukan
ekstraksi ciri.
Gambar 3.5 merupakan tampilan antar muka utama sistem, terbagi menjadi
2 panel yakni panel pembentukan model dan panel uji data. Terdapat 1 jendela
untuk menampilkan hasil preprocessing.
Terdapat 2 drop down panel yakni Hidden Layer 1 dan Hidden Layer 2 yang
berfungsi untuk mengatur jumlah neuron yang akan dipakai pada JST dengan nilai
rentang nilai pada Hidden Layer 1 5, 10, 15, 20, 25, 30. Pada Hidden Layer 2
memiliki rentang nilai 0, 5, 10, 15, 20, 25.
46
Panel Uji Data memiliki 5 tombol dan dan 4 kotak tulisan, panel ini
diperuntukkan pengujian data tunggal.
Tombol Browse digunakan untuk memilih file, ketika ditekan akan muncul
jendela baru untuk memilih gambar yang akan diproses, setelah memilih maka akan
muncul alamat file beserta nama file pada kotak tulisan disebelah kanan tombol.
47
48
BAB IV
4.1. Preprocessing
4.1.1.1. MSER
48
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
49
Gambar 4.1 Menggunakan region area 20- Gambar 4.2 Menggunakan region area 20-800
1200 dan thershold delta 12 dan thershold delta 5
Gambar 4.3 Contoh gambar setelah diproses grayscale yang tidak bisa
dideteksi MSER
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
50
Gambar dengan 96px diatas sulit untuk mendeteksi tulisannya hal tersebut
disebabkan oleh warna tulisan pada gambar tersebut mirip dengan warna latar
tulisannya.
Gambar 4.4 Contoh hasil MSER grayscale Gambar 4.5 Contoh hasil setelah piksel
gambar yang baik koordinat selain nilai MSER diubah menjadi 0
Gambar diatas merupakan salah satu contoh gambar yang baik digunakan
untuk proses OCR, karena hasil deteksi tulisannya yang sangat baik dan hanya
menangkap sedikit noise.
51
Dilihat dari tabel diatas, untuk ukuran tulisan dengan tinggi kurang dari 11
px dan tebal garis kurang dari 2 px tidak dapat diidentifikasi secara baik.
Dari data label A (Kerohanian) didapatkan 65 hasil kata dari 101 data
gambar, dari data label B (Pendidikan) didapatkan 122 hasil dari 200 data gambar,
dari data label C (Filsafat) didapatkan 34 hasil dari 53 data gambar.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
52
Data Hasil
Proses ini dilakukan untuk mendapatkan judul yang sudah diekstrak dari
gambar sehingga, hanya menghasilkan kata – kata yang memiliki makna pada
gambar tersebut. Pertama yakni case-folding seluruh kata diubah menjadi huruf
capital untuk mengatasi case sensitive dan menghilangkan tanda baca yang tidak
perlu, diproses tokenizing untuk memproses kalimat pada hasil OCR menjadi kata
– perkata, stop word untuk menemukan kata dasar tanpa imbuhan sehingga tidak
diproses lebih lanjut. Setelah stop word masih ditemukan kata – kata yang
berbentuk kata berimbuhan dilakukan proses stemming untuk menghilangkan
imbuhan kata sehingga menjadi kata dasar.
Untuk nama dalam penelitian ini digunakan akhiran –us dan –es sebagai
indikator dalam pengenalan nama, namun dikecualikan untuk kata ‘khusus’ yang
tidak berarti nama tetapi mengandung akhiran -us, hasil dari nama ini diberi tanda
dengan kata ‘nama’ , untuk bentuk data yang akan diproses JST bisa dilihat pada
Tabel 3.3.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
53
4.2.Klasifikasi
54
70
65 61.2069
60
55
50
45
40
5 10 15 20 25 30 35 40 Neuron
non OCR 62.069 73.4195 68.2471 67.6724 73.9943 70.546 64.81481 65.74074
OCR 54.023 58.1897 61.2069 59.7701 57.7586 57.3276 61.0632 60.4943
55
Gambar 4.7 Arsitektur JST dua hidden layer dengan layer pertama 15 neuron
Dilakukan kombinasi neuron pada hidden layer kedua dengan neuron 5, 10,
15, 20, 25, 30, 35 dan 40 serta menggunakan neuron 15 pada hidden layer pertama
60
Akurasi
55
50
45
40
5 10 15 20 25 30 35 40 Neuron
OCR 57.0402 61.6379 60.7759 58.908 56.0345 63.0747 63.3053 57.7586 Hidden
Layer 2
Grafik 4.3 Hasil menggunakan data OCR dengan Hiden Layer 1 adalah 15 Neuron
56
Gambar 4.8 Arsitektur JST dua hidden layer dengan layer pertama 25 neuron
Dilakukan kombinasi neuron pada hidden layer kedua dengan neuron 5, 10,
15, 20, 25, 30, 35 dan 40 serta menggunakan neuron 25 pada hidden layer pertama
65
60
55
50
45
40
5 10 15 20 25 30 35 40 Neuron
non OCR 67.8161 77.4425 79.8851 78.592 74.2816 77.2989 76.0185 69.0278 Hidden
Layer 2
Grafik 4.4 Hasil menggunakan data OCR dengan Hiden Layer 1 adalah 15 Neuron
57
Label\
[1 1] [1 0] [0 1]
Luaran
[1 1] 12 16 1
[1 0] 1 55 0
[0 1] 3 2 13
Label\
[1 1] [1 0] [0 1]
Luaran
[1 1] 9 18 0
[1 0] 1 50 1
[0 1] 1 7 10
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
58
Label\
[1 1] [1 0] [0 1]
Luaran
[1 1] 11 12 0
[1 0] 0 52 1
[0 1] 0 4 14
Uji data tunggal ini menggunakan 6 data, masing – masing kelas diwakili
oleh 2 data untuk pengujian, berikut hasil dari uji data tunggal.
• Data 1
59
Pada uji Data 1 ini dapatkan diklasifikasi dengan benar, dimana pada
hasil pemerolehan informasi terdapat kata “BOJANA KURBAN”, kata tersebut
umum ditemukan pada buku kerohanian.
• Data 2
60
Pada uji Data 2 ini dapatkan diklasifikasi dengan tidak benar, dimana
pada hasil pemerolehan informasi terdapat kata “KATOLIK”, kata tersebut umum
ditemukan pada buku kerohanian dan buku pendidikan, pada data penelitian ini
proporsi buku pendidikan lebih banyak dari kerohanian sehingga terdapat banyak
kata “KATOLIK” yang masuk ke kelas pendidikan. Dilihat pada Tabel 4.3, Tabel
4.4, dan Tabel 4.5 banyak data kerohanian diidentifikasi menjadi data pendidikan.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
61
• Data 3
Pada uji Data 3 ini dapatkan diklasifikasi dengan benar, dimana pada
hasil pemerolehan informasi terdapat kata “KAMUS INDONESIA INGGRIS”,
kata tersebut umum ditemukan pada buku pendidikan.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
62
• Data 4
Pada uji Data 4 ini dapatkan diklasifikasi dengan benar, dimana pada
hasil pemerolehan informasi terdapat kata “BAHASA INDONESIA”, kata tersebut
umum ditemukan pada buku pendidikan.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
63
• Data 5
Pada uji Data 5 ini dapatkan diklasifikasi dengan benar, dimana pada
hasil pemerolehan informasi terdapat kata “FILSAFAT”, kata tersebut umum
ditemukan pada buku filsafat.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
64
• Data 6
Pada uji Data 6 ini dapatkan diklasifikasi dengan benar, dimana pada
hasil pemerolehan informasi terdapat kata “FILSAFAT”, kata tersebut umum
ditemukan pada buku filsafat.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
BAB V
PENUTUP
Hasil nilai koordinat piksel deteksi MSER pada gambar, diubah nilainya
menjadi 1 dan selain hasil deteksi diubah nilainya menjadi 0, secara tidak langsung
dilakukan proses binerisasi, hasil tersebut disimpan dalam bentuk citra.
Citra setelah proses MSER menjalani proses OCR, hasil berupa teks
tersebut kemudian diproses dengan pemeroleh informasi untuk mendapatkan judul
buku, untuk bisa masuk ke jaringan syaraf tiruan data berupa teks tersebut diubah
menjadi data numerik dengan membandingkan kata yang ada pada seluruh data.
Data berupa angka kemudian diproses kedalam jaringan syaraf tiruan untuk
mendapatkan model terbaik sehingga model tersebut dapat digunakan untuk
meklasifikasi data baru.
65
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
66
5.2. Kesimpulan
5.3. Saran
DAFTAR PUSTAKA
Chen, H. et al. (2011) ‘Robust Text Detection in Natural Images With Edge-
Enhanced Maximally Stable Extremal Regions’, pp. 3–6. Available at:
https://pdfs.semanticscholar.org/6cb3/153e5773053916a27bf3ab4530705a
6bcf80.pdf. diakses 25 Oktober 2017.
Hagan, M. T. and Beale, M. H. (2014) Neural Network Design. 2nd edn. Oklahoma:
Martin Hagan, Avaliable from: hagan.okstate.edu/NNDesign.pdf, diakses
31 Agustus 2017.
Hunt, R. W. G. (2004) The Reproduction of Colour (6th ed.). Chichester UK:
Wiley–IS&T Series in Imaging Science and Technology, Avaliable from:
https://leseprobe.buch.de/images-adb/fb/59/fb59254e-4270-4160-b68d-
6196cf6236ac.pdf, diakses 4 November 2017. diakses 4 November 2017.
Islam, M. R., Mondal, C., Azam, M. K. & Islam, A. S. M. J., 2016. Text Detection
and Recognition Using Enhanced MSER Detection and a Novel OCR
Technique. s.l., Available from: http://ijoscience.com/wp-
content/uploads/2017/04/8-1-19-1-10-20170412.pdf diakses tanggal 26
Oktober 2017., pp. 15 - 20.
Iwana, B. K. et al. (2016) ‘Judging a Book By its Cover’. doi:
10.1177/1533317513488915. diakses tanggal 21 Agustus 2017.
Johnson, S. (2006) Stephen Johnson on Digital Photography. O’Reilly Media,
Avaliable from: http://www.artistsforchange.com/online-
content/SJODP_c13-web.pdf, diakses 4 November 2017.
Manning, C. D., Raghavan, P. and Schutze, H. (2009) An Introduction to
Information Retrieval, Online. doi: 10.1109/LPT.2009.2020494. Avaliable
from: https://nlp.stanford.edu/IR-book/pdf/irbookonlinereading.pdf diakses
12 Januari 2018.
Matas, J. et al. (2002) ‘Robust Wide Baseline Stereo from Maximally Stable
Extremal Regions’, pp. 384–393. diakses 16 November 2018.
Mustakim, M. D., 2015. Seri Penyuluhan Bahasa Indonesia BENTUK DAN
PILIHAN KATA. Jakarta: Pusat Pembinaan dan Pemasyarakatan Badan
Pengembangan dan Pembinaan Bahasa Kementerian Pendidikan dan
Kebudayaan.
Otsu, N., 1979. A Threshold Selection Method. IEEE TRANSACTIONS ON
SYSTEMS, MAN, AND CYBERNETICS, VOL. SMC-9, NO. 1, JANUARY
1979, pp. 62 - 66, Avaliable from: https://web-ext.u-
aizu.ac.jp/course/bmclass/documents/otsu1979.pdf, diakses 4 November
2017.
Putera, L. E. S., 2016. Klasifikasi Burung Berdasarkan Suara Kicau Burung
Menggunakan Jaringan Syaraf Tiruan Propagasi Balik, Yogyakarta:
67
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
68
LAMPIRAN
69
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
70
A. Lampiran Program
if nargout
[varargout{1:nargout}] = gui_mainfcn(gui_State,
varargin{:});
else
gui_mainfcn(gui_State, varargin{:});
end
% End initialization code - DO NOT EDIT
71
72
[filename, pathname] =
uigetfile({'*.jpg;*.JPG;*.jpeg;*.JPEG;*.png;*.PNG';'*.jpg';'*.JP
G';'*.jpeg';'*.JPEG';'*.png';'*.PNG'},'File Selector');
set(handles.url,'String',strcat('Selected Image :
',strcat(pathname,filename)));
73
'gui_Callback', []);
if nargin && ischar(varargin{1})
gui_State.gui_Callback = str2func(varargin{1});
end
if nargout
[varargout{1:nargout}] = gui_mainfcn(gui_State,
varargin{:});
else
gui_mainfcn(gui_State, varargin{:});
end
% End initialization code - DO NOT EDIT
74
Berikut merupakan source code Cek induk fungsi untuk melakukan proses
seluruh preprocessing, pada source code ini dilakukan pemanggilan gambar,
pemrosesan citra, dan pemerolehan informasi.
Clear
folderA='E:\Instaler\MatlabR2014b\bin\ocr\A\';
fileA=dir(strcat(folderA,'*.jpg'));
folderB='E:\Instaler\MatlabR2014b\bin\ocr\B\';
fileB=dir(strcat(folderB,'*.jpg'));
folderC='E:\Instaler\MatlabR2014b\bin\ocr\C\';
fileC=dir(strcat(folderC,'*.jpg'));
file=length(fileA)+length(fileB)+length(fileC);
data=cell(file,3);
b=1;
for i=1:length(fileA)
[data{b,1}, data{b,2}]=getTextJudul(folderA,fileA(i).name);
[data{b,3}]=addDB;
b=b+1;
end
for i=1:length(fileB)
[data{b,1}, data{b,2}]=getTextJudul(folderB,fileB(i).name);
[data{b,3}]=addDB;
b=b+1;
end
for i=1:length(fileC)
[data{b,1}, data{b,2}]=getTextJudul(folderC,fileC(i).name);
[data{b,3}]=addDB;
b=b+1;
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
75
end
%simpan setiap data
dataA=data(1:length(fileA),:);
save('DATA A.mat','dataA');
dataB=data(length(fileA)+1:length(fileA)+length(fileB),:);
save('DATA B.mat','dataB');
dataC=data(length(fileA)+length(fileB)+1:end,:);
save('DATA C.mat','dataC');
%simpan semua data
save('DATA.mat','data');
76
exestart('E:\Instaler\MatlabR2014b\bin\Skripsi\hasil.jpg');
dOcr1=fileread('E:\Instaler\MatlabR2014b\bin\Skripsi\ocrdata.txt
');
%ambil label
label=getLabel(name);
% show
else
label=getLabel(name);
dOcr='';
end
end
77
Digunakan untuk proses stop word mencari 2 kata yang memiliki 1 arti dan
dilakukan proses tokenizing, case-folding dan stemming pada setiap kata.
78
79
kata = strrep(kata,'AN','') ;
end
%me-i
if ~isempty(strcmp(isi(p_isi),'I'))
kata = strrep(kata,'I','') ;
end
%me
kata = strrep(kata,'ME','') ;
end
%ke-an
if ~isempty(strfind(prefix3,'KE')) &&
~isempty(strfind(sufix2,'AN'))
kata = strrep(kata,'KE','') ;
kata = strrep(kata,'AN','') ;
end
%per-an
if ~isempty(strfind(prefix3,'PER')) &&
~isempty(strfind(sufix2,'AN'))
kata = strrep(kata,'PER','') ;
kata = strrep(kata,'AN','') ;
if kata=='AYA'
kata='RAYA';
end
end
%pen-an
if ~isempty(strfind(prefix3,'PEN')) &&
~isempty(strfind(sufix2,'AN'))
kata = strrep(kata,'PEN','') ;
kata = strrep(kata,'AN','') ;
end
%ber-an
if ~isempty(strfind(prefix3,'BER')) &&
~isempty(strfind(sufix2,'AN'))
kata = strrep(kata,'BER','') ;
kata = strrep(kata,'AN','') ;
end
%se-nya
if ~isempty(strfind(prefix3,'SE')) &&
~isempty(strfind(sufix3,'NYA'))
kata = strrep(kata,'SE','') ;
kata = strrep(kata,'NYA','') ;
end
kata=char(strcat('S',isi(5):isi(end)));
end
elseif strcmp(isi(4),'G')
kata = strrep(kata,'MENG','') ;
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
80
else
kata = strrep(kata,'MEN','') ;
end
end
end
%mem
if ~isempty(strfind(prefix3,'MEM'))
if ~isempty(strfind(prefix5,'MEMPE'))
kata = strrep(kata,'MEMPER','') ;
kata = strrep(kata,'KAN','') ;
else
kata = strrep(kata,'MEM','') ;
end
end
%di
if ~isempty(strfind(prefix3,'DI'))
kata = strrep(kata,'DI','') ;
end
%ter
if ~isempty(strfind(prefix3,'TER'))
kata = strrep(kata,'TER','') ;
end
%pen
if ~isempty(strfind(prefix3,'PEN'))
if p_isi>4
if ~isempty(strfind(prefix4,'PENY'))
kata='S';
for k=5:p_isi
kata=char(strcat(kata,isi(k)));
end
else
kata = strrep(kata,'PEN','') ;
end
end
end
%pe
if ~isempty(strfind(prefix3,'PE'))
if p_isi>4
if ~isempty(strfind(isi(4),'L'))
kata = strrep(kata,'PEL','') ;
else
kata = strrep(kata,'PE','') ;
end
end
end
%ber
if ~isempty(strfind(prefix3,'BE'))
if ~isempty(strfind(prefix3,'BER'))
if p_isi>length(kata)
tempKata=num2cell(kata);
tempKata(length(tempKata))='';
kata=cell2mat(tempKata);
else
kata = strrep(kata,'BER','');
end
else ~isempty(strfind(prefix3,'BEL'))
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
81
kata = strrep(kata,'BEL','') ;
end
end
%se
if ~isempty(strfind(prefix3,'SE'))
kata = strrep(kata,'SE','') ;
end
%pe
if ~isempty(strfind(prefix3,'PE'))
% kata = strrep(kata,'PE','') ;
end
%per
if ~isempty(strfind(prefix3,'PER'))
kata = strrep(kata,'PER','') ;
end
%ke
if ~isempty(strfind(prefix3,'KE'))
kata = strrep(kata,'KE','') ;
end
82
%%temu
if ~isempty(strfind(kata,'EMU'))
kata='TEMU';
end
end
end
db=[db,kata];
end
end
Digunakan untuk proses stop word mencari kata yang tidak memiliki
makna, dengan berpatokan pada daftar konjugasi.
83
for i=1:y
%gabung kata pertama dan kedua
if count<y && ~isempty(hasil(x,count))
%membuat delimit untuk menggabung kata
delimit = ', ';
%kata pertama
hasilX = char(hasil(x,count));
%kata kedua
hasilY = char(hasil(x,count+1));
%menggabungkan kata 1st dan 2nd
cekKata = char(strcat(hasilX,delimit,hasilY));
%menghapus delimit
cekKata = strrep(cekKata,',',' ') ;
%menyimapan hasil kedalam array
arrayGabungKata=[arrayGabungKata,cekKata];
else
%jika kata sudah habis
cekKata='';
end
%counter
count=count+1;
end
end
84
function [ ] = addKonjugasi( )
%baca data .txt
filetext=fileread('konjugasi.txt');
%menuju direktori
cd('E:\Instaler\MatlabR2014b\bin\Skripsi');
%cek file
cekFile=exist('konjugasi.mat', 'file');
%memisahkan setiap tulisan
hasil=strsplit(filetext,'\n');
%menghapus data yang kosong
hasil=hasil(~cellfun('isempty',hasil));
% jika data berisi akhiran -> trim
[x,y]=size(hasil);
%jika konjugasi kosong
if cekFile==2
%load dbData
load 'konjugasi';
[x1,y1]=size(konjugasi);
else
konjugasi=cell(1,0);
save ('konjugasi.mat','konjugasi');
y1=1;
end
%cek kata pada kamus
for i=1:y
txt=hasil(1,i);
cmpHasil=0;
for j=1:y1
if ~isempty(konjugasi)
w=konjugasi(1,j);
if ~strcmp(w,txt)
cmpHasil=1;
i=i+1;
else
cmpHasil=0;
j+1;
end
else
cmpHasil=1;
end
end
if cmpHasil==1
konjugasi=[konjugasi,txt];
y1+1;
end
end
%simpan ke konjugasi.mat
if ~isempty(konjugasi);
save('konjugasi.mat','konjugasi');
end
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
85
Source code ini berfungsi mengubah data non numerik menjadi numerik
dengan membandingkan data telah dikumpulkan.
for i=1:length(input)
for j=1:length(input{i})
f=strcmp(input{i}{1,j},dbKata);
if dataInput(i,f)~=0
sum=dataInput(i,f)+1;
dataInput(i,f)=sum;
else
dataInput(i,f)=1;
end
end
end
save ('nonDelete.mat','dataInput');
end
%% Ubah Label
lb = label;
for i = 1 : length(lb)
if lb{i} == 1
label2(i,1) = 1;
label2(i,2) = 0;
elseif lb{i} == 2
label2(i,1) = 0;
label2(i,2) = 1;
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
86
elseif lb{i} == 3
label2(i,1) = 1;
label2(i,2) = 1;
else
label2(i,1) = 0;
label2(i,2) = 0;
end
end
%% mulai three-fold
dtrain = floor(l*(1/3));
akurasi={};
if n2~=0
n=[n1 n2];
else
n=[n1];
end
for i = 1 : 3
%%clear variable
dtr=[];
dtrl=[];
if i==1
%ambil data training
dtr = physchars(1:dtrain,:);
dtrl = label2(1:dtrain,:);
%ambil data testing
dte = physchars(dtrain+1:end,:);
dtel = label2(dtrain+1:end,:);
elseif i==2
%ambil data training
dtr = physchars(dtrain+1:dtrain*2,:);
dtrl = label2(dtrain+1:dtrain*2,:);
%ambil data testing
dte = physchars(dtrain+1:dtrain*2,:);
dtel = label2(dtrain+1:dtrain*2,:);
else
%ambil data training
dtr = physchars(dtrain*2+1:end,:);
dtrl = label2(dtrain*2+1:end,:);
%ambil data testing
dte = physchars(1:dtrain*2,:);
dtel = label2(1:dtrain*2,:);
end
[akurasi{i},jumlahneuron,confmat{i}]=JST(dtr',dtrl',dte',dtel',n
);
end
meanneuron=(akurasi{1}+ akurasi{2}+akurasi{3})/length(akurasi);
% end
time = toc;
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
87
jumlahneuron=n;
net = feedforwardnet(jumlahneuron);
%% model JST
%% uji model
% view(net);
out=sim(net,ktest);
luaran =round(out);
88
n=[n1];
end
jumlahneuron=n;
net = feedforwardnet(jumlahneuron);
%% model JST
%% save model
save('Model.mat','net','tr');
end
Digunakan untuk merubah tampilan data sehingga bisa masuk ke GUI boks
tulisan.
for i=1:length(input)
for j=1:length(input{i})
f=strncmp(input{i}{1,j},dbKata,5);
if dataTest(i,f)~=0
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
89
sum=dataTest(i,f)+1;
dataTest(i,f)=sum;
else
dataTest(i,f)=1;
end
end
end
save ('dataTest.mat','dataTest');
end
%% model JST
load 'Model.mat';
%% uji model
out=sim(net,data');
luaran =round(out);
%% New Label
if luaran(1)==1 && luaran(2)==0
hasil='Kerohanian';
elseif luaran(1)==0 && luaran(2)==1
hasil='Pendidikan';
elseif luaran(1)==1 && luaran(2)==1
hasil='Filsafat';
else
hasil='Tidak Teridentifikasi';
end
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
90
1. kamusKata
'BIOLOGI'
'MESIN'
'KURBAN'
'PAHAGYAN'
'BOJANA'
'TUHAN'
'ALQURAN'
'PEPUDYAN'
'MANUSIA'
'HUMAN'
'ILMUWAN'
'BANGSA'
'SEDERHANA'
'EKARISTI'
'KORUPSI'
'LITURGI'
'IMAN'
'PAROKI'
'SEJARAH'
2. kamusMakna
Digunakan untuk menjadi patokan kata – kata yang memiliki 2 kata dasar.
'BUDI PEKERTI'
'BERTANGGUNG JAWAB'
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
91
3. konjugasi
'DAN'
'DENGAN'
'SERTA'
'ATAU'
'TETAPI'
'NAMUN'
'SEDANGKAN'
'SEBALIKNYA'
'MELAINKAN'
'HANYA'
'BAHKAN'
'MALAH'
'MALAHAN'
'LAGIPULA'
'APALAGI'
'JANGANKAN'
'KECUALI'
'HANYA'
'LALU'
'KEMUDIAN'
'SELANJUTNYA'
'YAITU'
'YAKNI'
'BAHWA'
'ADALAH'
'IALAH'
'JADI'
'KARENA ITU'
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
92