Proposal Penelitian Spelling Checker

PROPOSAL PENELITIAN
DETEKSI KESALAHAN EJAAN & KOREKSI TEKS

MENJADI EYD MENGGUNAKAN ALGORITMA
BACKPROPAGATION PADA TEKS BAHASA
INDONESIA
Oleh
Nama Maretha Velamorin Vizhinsco
NIM 2011081010
Kelas 3A
Dosen Pengampu
Ir. Rahmat Hidayat, S.T., M.Sc.IT
Harfebi Fryonanda, S.Kom., M.Kom
TEKNOLOGI REKAYASA PERANGKAT LUNAK

JURUSAN TEKNOLOGI INFORMASI
POLITEKNIK NEGERI PADANG
PADANG
2023
KATA PENGANTAR
Puji syukur kehadirat Tuhan Yang Maha Esa atas segala rahmat dan karunia-Nya,
sehingga penulis dapat menyusun proposal ini. Proposal ini bertujuan untuk mengajukan
penelitian tentang “Deteksi Kesalahan Ejaan dan Koreksi Menjadi EYD pada Teks Bahasa
Indonesia dengan Menggunakan Metode Deep Learning”.
Penulis menyadari bahwa proposal ini masih memerlukan berbagai perbaikan dan
pengembangan, dan penulis bersedia menerima kritik dan saran dari berbagai pihak untuk
menyempurnakan proposal ini. Penulis juga mengucapkan terima kasih kepada berbagai
pihak yang telah memberikan arahan dan bantuan dalam penyusunan proposal ini.
Semoga proposal ini dapat diterima dan dapat memberikan kontribusi positif bagi
pengembangan ilmu pengetahuan dan teknologi di Indonesia.
Padang, 18 April 2023
Penulis
2
ABSTRAK
Judul: Deteksi Kesalahan Ejaan dan Koreksi Menjadi EYD pada Teks Bahasa
Indonesia dengan Menggunakan Metode Deep Learning
Di dunia sekarang ini, penggunaan teknologi komputasi semakin meluas di berbagai
bidang, termasuk natural language processing (NLP). Salah satu aspek penting NLP adalah
deteksi dan koreksi kesalahan ejaan dalam teks. Penelitian ini bertujuan untuk
mengembangkan metode yang efektif untuk mendeteksi dan mengoreksi kesalahan ejaan
dalam teks bahasa Indonesia menggunakan Metode Deep Learning.
Pendekatan yang digunakan dalam penelitian ini melibatkan pemanfaatan metode
deep learning. Dimana jaringan saraf dalam metode deep learning digunakan sebagai
kerangka kerja komputasional yang dapat mempelajari dan memahami pola yang kompleks
dalam data. Pertama, model pembelajaran mendalam dilatih pada dataset besar yang terdiri
dari teks bahasa Indonesia yang dianotasi dengan label kesalahan ejaan dan koreksi yang
benar berdasarkan aturan EYD (Ejaan yang Disempurnakan). Model belajar mengenali pola
kesalahan ejaan dan melakukan koreksi yang sesuai.
Mengikuti fase pelatihan, model yang dilatih dievaluasi menggunakan kumpulan data
terpisah yang berisi berbagai jenis kesalahan ejaan. Hasil percobaan menunjukkan bahwa
metode yang diusulkan mampu mendeteksi dan mengoreksi kesalahan ejaan dengan akurasi
tinggi dan keselarasan yang baik dengan pedoman EYD.
Kata kunci: koreksi ejaan, EYD, Bahasa Indonesia, Deep Learning, NLP.
3
DAFTAR ISI
Kata Pengantar..................................................................................................................2
Abstrak...............................................................................................................................3
Daftar Isi.............................................................................................................................4
Bab I Pendahuluan
1.1. Latar Belakang....................................................................................................5
1.2. Rumusan Masalah...............................................................................................5
1.3. Tujuan Penelitian................................................................................................5
1.4. Batasan Masalah..................................................................................................6
Bab II Tinjauan Pustaka
2.1. Tinjauan Pustaka.................................................................................................7
2.2. Landasan Teori....................................................................................................11
2.3. Hipotesis...............................................................................................................11
Bab III Metode Penelitian
3.1. Cara Penelitian....................................................................................................12
3.2. Jadwal Penelitian.................................................................................................12
Referensi.............................................................................................................................14
4
BAB I
PENDAHULUAN
1.1. Latar Belakang
Teks merupakan media komunikasi dan sumber informasi dalam kehidupan
manusia. Kesalahan penulisan kata, yang disebut kesalahan ketik, sangat penting saat
menulis kalimat. Sumber kesalahan ketik lainnya adalah pilihan kata. Agar pembaca
mengerti, kata-kata yang digunakan harus akurat dan baku. Selain itu, mengutip
bacaan dan menghubungkannya dengan gagasan siswa sendiri bukanlah tugas yang
mudah [1].
Teks bahasa Indonesia yang baik dan benar harus dapat dipahami oleh orang
lain serta sesuai dengan KBBI dan PUEBI. Sebab, keduanya merupakan sumber
kaidah bahasa Indonesia yang baik dan benar. Salah satu persyaratan EYD adalah
penggunaan bahasa baku menurut Kamus Besar Bahasa Indonesia (KBBI) [2].
Dari beberapa alasan yang telah disebutkan di atas, terlihat jelas bahwa deteksi
kesalahan ejaan dan koreksi teks menjadi EYD pada teks Bahasa Indonesia
diharapkan dapat meningkatkan kualitas teks dalam Bahasa Indonesia. Namun, untuk
mencapai tujuan tersebut, diperlukan pendekatan yang efektif dan akurat.
Maka dari alasan diatas pada penelitian ini pendekatan yang dapat digunakan
untuk mendeteksi kesalahan ejaan dan koreksi teks menjadi EYD pada teks Bahasa
Indonesia akan menggunakan algoritma backpropagation dalam konteks deep
learning. Dengan adanya penelitian menggunakan algoritma backpropagation,
diharapkan dapat melatihan model yang mampu mempelajari pola-pola bahasa yang
kompleks dan meningkatkan akurasi deteksi serta koreksi kesalahan ejaan. Dengan
demikian, kualitas teks dalam Bahasa Indonesia dapat ditingkatkan secara signifikan.
1.2. Rumusan Masalah
Berdasarkan latar belakang yang telah diuraikan, dapat dirumuskan berbagai
masalah yang menjadi topik penelitian ini, yaitu:
1. Bagaimana menerapkan algoritma backpropagation yang dapat mendeteksi
masalah ejaan dalam teks bahasa Indonesia?
2. Bagaimana cara memperbaiki kata-kata yang salah secara otomatis menjadi
bentuk sesuai aturan EYD?
Dengan merumuskan masalah-masalah diatas, penelitian ini mencoba
mengonstruksi algoritma backpropagation yang otomatis dapat mendeteksi kesalahan
ejaan dan memperbaikinya menjadi bentuk yang sesuai dengan kriteria EYD.
1.3. Tujuan Penelitian

Berdasarkan latar belakang dan rumusan kesulitan yang telah dikemukakan
sebelumnya, maka tujuan dari penelitian ini adalah sebagai berikut:
1. Membuat algoritma backpropagation yang dapat secara otomatis mendeteksi
masalah ejaan dalam teks bahasa Indonesia.
2. Memperbaiki kata yang salah menjadi versi yang memenuhi kriteria EYD
menggunakan Metode Deep Learning bahasa Indonesia.
5
1.4. Batasan masalah
1. Fokus pada Deteksi dan Koreksi Kesalahan Ejaan: Penelitian ini akan difokuskan
pada deteksi dan koreksi kesalahan ejaan dalam teks Bahasa Indonesia. Masalah
yang diatasi adalah kesalahan penulisan kata yang melanggar kaidah EYD (Ejaan
Yang Disempurnakan).
2. Membangun Algoritma Backpropagation: Penelitian ini akan membangun
algoritma backpropagation sebagai metode utama dalam mendeteksi dan
memperbaiki kesalahan ejaan dalam teks Bahasa Indonesia.
3. Pembatasan pada Penggunaan Dataset dalam Bahasa Indonesia: Data yang
digunakan dalam penelitian ini akan bersumber dari dataset yang berisi kalimat-
kalimat dalam Bahasa Indonesia. Dataset ini akan mencakup berbagai jenis teks,
seperti artikel, cerita, atau kalimat-kalimat sehari-hari.
4. Identifikasi Kesalahan Ejaan yang Tidak Sesuai EYD: Sistem yang dikembangkan
akan difokuskan pada identifikasi kesalahan ejaan yang tidak sesuai dengan
kaidah EYD pada kata-kata dalam teks Bahasa Indonesia. Hal ini termasuk
kesalahan dalam pemilihan huruf atau penggunaan kata yang tidak baku menurut
KBBI (Kamus Besar Bahasa Indonesia).
5. Tidak Membahas Kesalahan Gramatikal atau Sintaksis: Meskipun kesalahan
gramatikal dan sintaksis juga relevan dalam penulisan Bahasa Indonesia yang baik
dan benar, dalam penelitian ini tidak akan dibahas. Fokus utama hanya pada
deteksi dan koreksi kesalahan ejaan.
6
BAB II
TINJAUAN PUSTAKA
2.1. Tinjauan Pustaka
Bahasa secara umum dapat dijelaskan sebagai suatu sistem komunikasi yang
melibatkan bunyi, makna, dan lambang bunyi yang digunakan oleh manusia dalam
konteks komunikasi sehari-hari. Untuk memastikan konsistensi dan keseragaman dalam
penulisan bahasa Indonesia, terdapat Pedoman Umum Ejaan Bahasa Indonesia (PUEBI)
[3]
. PUEBI adalah suatu set aturan penulisan yang mulai berlaku sejak tahun 2015
berdasarkan Peraturan Kementerian Pendidikan dan Kebudayaan Republik Indonesia [3].
PUEBI menggantikan aturan sebelumnya yang dikenal sebagai Ejaan yang
Disempurnakan (EYD). Hal ini diatur oleh Badan Pengembangan dan Pembinaan Bahasa
pada tahun yang sama.
Dengan adanya aturan PUEBI ini diharapkan para peneliti atau pencipta suatu karya
tulisa ilmiah diharapkan dapat mengurangi kesalahan penulisan dengan mengikuti aturan
yang ditetapkan oleh PUEBI. Kesalahan penulisan dalam Bahasa Indonesia sering terjadi,
seperti kesalahan dalam penggunaan huruf kapital dan tanda baca. Kesalahan semacam
ini dapat menciptakan ambiguitas makna bagi pembaca dan mengubah arti kalimat secara
keseluruhan. Oleh karena itu, banyak peneliti terdorong untuk melakukan penelitian guna
mencari solusi dalam mengatasi permasalahan ini [4].
Penelitian yang menggunakan algoritma seperti Boyer-Moore dilakukan oleh Agus
Pratama dan Rohmat Indra Borman pada tahun 2016 dengan judul “Penerapan String
Matching dengan algoritma Boyer-Moore pada Aplikasi Font Italic untuk Deteksi Kata
Asing”. Hasil dari penelitian ini adalah pembuktian bahwa algoritma Boyer-Moore dapat
digunakan untuk pencocokan string pada pencarian kata berbahasa Inggris. Hasil uji
proses deteksi kata berbahasa Inggris sudah sesuai dengan kata yang berada di database,
namun penelitian ini memiliki kekurangan yakni apabila kata yang ada pada teks semakin
banyak, maka waktu yang dibutuhkan dalam pencarian juga semakin bertambah [5].
Penelitian yang menggunakan algoritma Viterbi dilakukan oleh Reza Juanda dan
Ilman Zuhri Yadi pada tahun 2020 dengan judul "Penerapan Rule Based Dengan
Algoritma Viterbi Untuk Deteksi Kesalahan Huruf Kapital Pada Karya Ilmiah". Hasil dari
penelitian ini adalah untuk membuktikan bahwa algoritma Viterbi pada mulanya
digunakan untuk menyelesaikan masalah pengkodean yang rumit, juga dapat
diaplikasikan secara efektif dalam deteksi kesalahan penulisan pada karya ilmiah [3].
Pembuatan aplikasi pendeteksi kesalahan kata nonbaku ini menggunakan metode N-
Gram, dimana metode tersebut memiliki fungsi untuk mengambil potonganpotongan
karakter huruf yang dimaksud dalam sebuah kata yang secara kontinu akan dibaca dari
kata sumbernya hingga akhir dan menemukan kata yang tidak sesuai dengan Ejaan Yang
Disempurnakan (EYD) [6]. Dilakukan oleh Titi Hartina dan Agustina pada tahun 2020.
7
Berikut tabel perbandingan beberapa penelitian yang sudah ada dan menjadi referensi
dari penelitian penulis saat ini:
Tabel 2.1
No Nama Judul Metode / Penjelasan Metode / Hasil
Penulis Algorit Algritma
dan ma
Tahun
1 Sri Kesalahan Metode Pendekatan kualitatif Ditemukan masih terdapat
Murniat Penerapan analisis merupakan prosedur penelitian banyak kesalahan
i (2020) Ejaan kualitatif yang menghasilkan data penerapan kaidah EBI
Bahasa dan deskriptif berupa kata-kata pada penulisan TA
Indonesia kuantitatif tertulis atau lisan dari orang- mahasiswa. Data unsur-
pada Tugas orang dan perilaku yang dapat unsur EBI yang
Akhir diamati. Metode kuantitatif dikaji mencakup:
Mahasiswa yang digunakan ialah analisis penulisan kata, pemakaian
regresi linier dan uji anova. huruf kapital, huruf
Analisis regresi linier miring/kursif, penulisan
digunakan untuk mengetahui lambang bilangan, dan
hubungan antara variabel- tanda baca.
variabel kesalahan ejaan yang
terdiri atas penulisan kata,
huruf kapital, huruf kursif,
angka, titik, koma, titik koma,
titik dua dengan variabel
jumlah kesalahan [7].
2 Titi Pendeteksi N-Gram Penelitian ini menggunakan Metode n-gram berfungsi
Hartina, Kesalahan metode N-Gram, dimana untuk mencari persentasi
Agustin Pengetikan metode tersebut memiliki bobot perbandingan,
(2020) Kata Non- fungsi untuk mengambil sehingga dapat
Baku pada potongan-potongan karakter disimpulkan apakah kata
Karya Tulis huruf yang dimaksud dalam kata tersebut akan
Menggunak sebuah kata yang secara dideteksi atau tidak. Dari
an Metode kontinu akan dibaca dari kata perhitungan di atas dapat
N-Gram sumbernya hingga akhir dan disimpulkan bahwa
menemukan kata yang tidak semakin kecil nilai
sesuai dengan Ejaan Yang desimal yang didapat
Disempurnakan (EYD) [6]. maka semakin besar
kemiripan kata dengan
data kamus sehingga akan
terdeteksi oleh sistem
sebagai kata yang harus di
ubah [6].
3 Reza Penerapan Algoritma Algoritma viterbi merupakan Metode pendekteksian
Juanda, Rule Based Viterbi algoritma dynamic dengan menggunakan
Ilman Dengan programming untuk Algoritma Viterbi
Zuhri Algoritma menemukan barisan hidden diterapkan dalam
Yadi Viterbi state yang paling maksimal membangun Perangkat
(2020) Untuk dari suatu barisan observasi. lunak deteksi dan dapat
Deteksi mengatasi kesalahan
Kesalahan penggunaan huruf kapital
Huruf pada kalimat di dokumen.
Kapital Hasil dari perangkat lunak
Pada Karya ini akan digunakan untuk
8
Ilmiah mendeteksi sebuah kata
pada kalimat di dokumen.
4 Mazidh Sistem Algoritma Algoritma ini digunakan untuk Dari 5 data dokumen uji
atul Deteksi Boyer- mencari kecocokan pola dalam coba mendapatkan hasil
Ilmiyah, Kesalahan Moore sebuah teks dengan efisien, nilai rata-rata presisi
Anita Tanda Baca terutama pada kasus di mana sebesar 0.6806, nilai rata-
Qoiriah dan Huruf pola yang dicari lebih panjang rata recall sebesar 0,969
(2021) Kapital daripada teks yang dianalisis. dan untuk nilai rata-rata
Pada Karya Algoritma Boyer-Moore akurasinya sebesar
Tulis menggunakan dua aturan 0,9636. Penelitian
Ilmiah heuristik, yaitu aturan karakter tersebut membuktikan
Berbahasa yang buruk (bad character bahwa algoritma Boyer-
Indonesia rule) dan aturan penyelarasan Moore dapat digunakan
Menggunak baik (good suffix rule), untuk untuk pencarian tanda
an mempercepat proses baca, hanya saja pada
Algoritma pencarian [4]. penelitian ini belum
Boyer- dilengkapi dengan deteksi
Moore kesalahan huruf kapital
pada karya tulis ilmiah [4].
5 Irma Typo Algoritma Penelitian ini Algoritma Dataset yang digunakan
Surya Checking Rabin- Rabin-Karp digunakan di diperoleh dari kamus
Kumala Menggunak Karp bagian “cari kata”, berfungsi besar Bahasa Indonesia
Idris, an untuk menelusuri hasil yang berjumlah 30879
Yasin Algoritma terjemahan dari bahasa daftar kata yang akan
Aril Rabin-Karp Indones digunakan dalam proses
Mustofa ia ke Bahasa lain maupun pengecekan kata atau
(2022) sebaliknya. kalimat yang diinput di
sistem. Hasil akhir
pengujian akan
menampilkan Jumlah
Hash Kalimat, serta
menampilkan nilai
Similarity.
6 Tusty Deteksi Dictionar Metode dictionary lookup Pada skenario pengujian
Nadia Kesalahan y Lookup merupakan metode yang sering jumlah kesalahan ejaan
Maghfir Ejaan dan dan digunakan dalam menentukan kata didapatkan nilai
a, Imam Penentuan Damerau- non-word error. Proses yang presisi dan recall terbaik
Cholliss Rekomenda Levenshte dilakukan pada metode ini sebesar 0.76 dan 0.99.
odim, si Koreksi in yaitu melakukan pengecekan sedangkan nilai presisi
Agus Kata yang Distance apakah kata yang dimaksud dan recall terbaik sebesar
Wahyu Tepat Pada terdaftar dalam kamus atau 0.78 dan 1. Berdasarkan
Widodo Dokumen tidak, jika tidak ada maka kata hasil pada kedua skenario
(2017) Jurnal ini dianggap sebagai non- menunjukkan bahwa nilai
JTIIK word. Damerau Levenshtein recall lebih tinggi
Menggunak Distance menentukan jumlah daripada nilai presisi.
an minimum operasi yang Hasil tersebut
Dictionary dibutuhkan untuk mengubah menunjukkan bahwa
Lookup dan satu string menjadi string lain, semua koreksi kata yang
Damerau- di mana operasi yang diharapkan berhasil
Levenshtei digunakan sama dengan diambil oleh sistem
n Distance Levenshtein Distance yaitu sebagai hasil koreksi
insertion, deletion, substitution kata [8].
namun dengan penambahan
operasi transposition diantara
9
dua karakter [8].
7 Yusup Penerapan Algoritma Algoritma lemmatization Terdapat 6 langkah dalam
Miftahu Algoritma Lemmatiz adalah algoritma yang melakukan perbaikan
ddin, Lemmatizat ation memanfaatkan analisis kesalahan ejaan maupun
Jasman ion morfologi dan aturan penulisan penulisan (typographical
Pardede, pada pemisahan dan penggabungan error) dengan
Renita Dokumen kata yang berguna sebagai menggunakan algoritma
Dewi Bahasa pemeriksaan kebenaran ejaan lemmatization. Dengan
(2018) Indonesia berdasarkan aturan PUEBI menerapkan algoritma
dengan menerapkan algoritma lemmatization, suatu kata
lemmatization, suatu kata dapat diketahui kata
dapat diketahui kata dasarnya dasarnya serta ketepatan
serta ketepatan penggunaan penggunaan imbuhannya.
imbuhannya Apabila kata yang
diperiksa tidak ditemukan
kata dasarnya, maka kata
tersebut akan masuk
kedalam kategori
typographical/morpholog
y error. Oleh karena itu,
penerapan algoritma
lemmatization dapat
membantu meningkatkan
kualitas dokumen bahasa
Indonesia.
Cara penyuntingan (editing) aksara bahasa Indonesia dapat dilakukan dengan

berbagai pola, antara lain penyuntingan manual dan penyuntingan di layar. Pada
prakteknya, pola pada screen editing dilakukan melalui aplikasi editing yang telah
dikembangkan, baik oleh akademisi maupun pengembang aplikasi [5].
Dalam mencari referensi tentang penggunaan Metode Deep Learning untuk
mendeteksi kesalahan penulisan yang tidak sesuai dengan PUEBI atau EYD pada karya
ilmiah berbahasa Indonesia, penulis telah melakukan pencarian melalui sumber Google
Scholar. Namun, penulis tidak menemukan publikasi sebelumnya yang secara tegas
merinci penggunaan algoritma pembelajaran mendalam dalam pengaturan ini. Meskipun
telah banyak karya sebelumnya tentang mengidentifikasi kesalahan penulisan dalam
bahasa Indonesia menggunakan pendekatan berbasis aturan, pendekatan berbasis statistik,
atau campuran dari dua cara, penggunaan Metode Deep Learning belum sepenuhnya
dipelajari dalam konteks ini. Oleh karena itu, penelitian yang disarankan ini bersifat unik
dalam menggali kemampuan Metode Deep Learning untuk mendeteksi dan memperbaiki
kesalahan pengetikan pada karya ilmiah berbahasa Indonesia.
10
2.2. Landasan Teori
NLP (Natural Language Processing) adalah cabang dari ilmu komputer dan
kecerdasan buatan yang berfokus pada interaksi antara manusia dan komputer
menggunakan bahasa alami manusia. NLP bertujuan untuk memahami, menganalisis, dan
menghasilkan bahasa manusia dengan cara yang dapat diproses oleh komputer. [9]
Deteksi kesalahan ejaan adalah proses mengidentifikasi kata-kata dalam teks yang
tidak ditulis dengan benar atau tidak sesuai dengan aturan ejaan yang berlaku. Hal ini
dapat dilakukan secara otomatis menggunakan algoritma deteksi kesalahan ejaan yang
membandingkan kata-kata dalam teks dengan kamus kata yang benar atau aturan ejaan
yang telah ditentukan. Tujuan dari deteksi kesalahan ejaan adalah untuk meningkatkan
kualitas tulisan dan memastikan bahwa pesan yang disampaikan dapat dipahami dengan
jelas oleh pembaca. [9]
Koreksi kesalahan ejaan adalah proses memperbaiki kata-kata dalam teks yang tidak
ditulis dengan benar atau tidak sesuai dengan aturan ejaan yang berlaku. Hal ini dapat
dilakukan secara otomatis menggunakan algoritma koreksi kesalahan ejaan yang
membandingkan kata-kata dalam teks dengan kamus kata yang benar atau aturan ejaan
yang telah ditentukan, dan kemudian mengusulkan perbaikan untuk kata-kata yang salah
dieja. Tujuan dari koreksi kesalahan ejaan adalah untuk meningkatkan kualitas tulisan dan
memastikan bahwa pesan yang disampaikan dapat dipahami dengan jelas oleh
pembaca [9].
2.3. Hipotesis
1. Hipotesis Utama: Penggunaan algoritma backpropagation pada deteksi kesalahan
ejaan dan koreksi teks dalam Bahasa Indonesia akan menghasilkan model yang
mampu mendeteksi kesalahan ejaan dalam teks dan memperbaiki kata-kata yang
salah menjadi bentuk yang memenuhi kriteria EYD.
2. Hipotesis Pendukung: Pengembangan algoritma backpropagation dengan
menggunakan metode deep learning pada Bahasa Indonesia akan memungkinkan
sistem untuk mempelajari pola-pola bahasa yang kompleks dan meningkatkan
akurasi deteksi kesalahan ejaan. Serta, dengan menggunakan dataset berisi kalimat-
kalimat dalam Bahasa Indonesia, algoritma backpropagation diharapkan dapat
dilatih dengan baik untuk mengenali dan memahami kesalahan ejaan yang sering
terjadi dalam teks Bahasa Indonesia.
11
BAB III
METODE PENELITIAN
3.1. Cara Penelitian
Berikut alur pengerjaan penelitian untuk mendeteksi kesalahan ejaan dan koreksi teks
Bahasa Indonesia:
Gambar 3.1
3.2. Jadwal Penelitian

1. Pengumpulan dan pemrosesan data:
1) Megumpulkan teks Bahasa Indonesia yang mencakup variasi kesalahan ejaan
yang umum terjadi.
2) Melakukan pemrosesan data seperti pembersihan teks, pemisahan menjadi
kalimat atau kata-kata, dan penghapusan tanda baca atau karakter khusus.
2. Pembuatan / pencarian dataset sesuai kriteria yang dibutuhkan:
1) Membagi data menjadi dua bagian: data latih (training data) dan data uji (test
data).
2) Memastikan data latih mencakup teks dengan kesalahan ejaan dan versi yang
benar sesuai dengan EYD atau PUEBI.
3. Representasi teks:
1) Mengubah teks menjadi representasi vektor yang dapat dipahami oleh model
deep learning.
2) Menggunakan teknik yang dapat menghasilkan representasi vektor kata.
4. Desain model:
12
1) Merancang arsitektur model metode deep learning yang sesuai untuk
mendeteksi kesalahan ejaan dan koreksi
5. Pelatihan model:
1) Melatih model dengan data latih
2) Mengatur parameter yang sesuai untuk pelatihan seperti epoch dan ukuran batch
yang relevan
3) Menggunakan algoritma backpropagation untuk mengoptimalkan model.
6. Evaluasi model:
1) Menggunakan data uji untuk menguji kinerja model yang telah dilatih.
2) Mengevaluasi model menggunakan metrik yang relevan seperti akurasi, presisi,
recall.
3) Menganalisis hasil evaluasi untuk memahami kinerja model dalam deteksi
kesalahan ejaan dan koreksi menjadi EYD atau PUEBI.
Dari tahapan penelitian yang telah disebutkan untuk deteksi kesalahan ejaan
dan koreksi menjadi EYD atau PUEBI menggunakan metode deep learning pada teks
Bahasa Indonesia adalah sebagai berikut:
Tahapan penelitian dimulai dengan pengumpulan dan pemrosesan data, di
mana teks Bahasa Indonesia yang mencakup variasi kesalahan ejaan yang umum
terjadi dikumpulkan dan diproses dengan melakukan pembersihan teks serta
pemisahan menjadi kalimat atau kata-kata. Kemudian dilakukan pembuatan atau
pencarian dataset yang sesuai dengan kriteria yang dibutuhkan, yang melibatkan
pembagian data menjadi data latih dan data uji, dengan memastikan bahwa data latih
mencakup teks dengan kesalahan ejaan dan versi yang benar sesuai dengan EYD atau
PUEBI.
Selanjutnya, tahapan representasi teks dilakukan dengan mengubah teks
menjadi representasi vektor yang dapat dipahami oleh model deep learning. Teknik
seperti word embeddings digunakan untuk menghasilkan representasi vektor kata.
Setelah itu, desain model dilakukan dengan merancang arsitektur model metode deep
learning yang sesuai untuk mendeteksi kesalahan ejaan dan koreksi.
Tahapan selanjutnya adalah pelatihan model, di mana model dilatih
menggunakan data latih dengan mengatur parameter yang sesuai seperti epoch dan
ukuran batch. Algoritma backpropagation digunakan untuk mengoptimalkan model.
Setelah model dilatih, tahapan evaluasi model dilakukan dengan menggunakan data
uji untuk menguji kinerja model yang telah dilatih. Metrik evaluasi seperti akurasi,
presisi, dan recall digunakan untuk mengevaluasi model. Hasil evaluasi dianalisis
untuk memahami kinerja model dalam deteksi kesalahan ejaan dan koreksi menjadi
EYD atau PUEBI.
Dengan mengikuti tahapan-tahapan ini, penelitian deteksi kesalahan ejaan dan
koreksi menjadi EYD atau PUEBI menggunakan metode deep learning pada teks
Bahasa Indonesia dapat dilakukan secara sistematis dan memberikan pemahaman
yang lebih baik tentang kinerja model yang dikembangkan.
13
REFERENSI
[1] A. I. Fahma, I. Cholissodin, dan R. S. Perdana, “Identifikasi Kesalahan Penulisan Kata (Typographical
Error) pada Dokumen Berbahasa Indonesia Menggunakan Metode N-gram dan Levenshtein
Distance,” 2018. [Daring]. Tersedia pada: http://j-ptiik.ub.ac.id
[2] A. I. Fahma, I. Cholissodin, dan R. S. Perdana, “Identifikasi Kesalahan Penulisan Kata (Typographical
Error) pada Dokumen Berbahasa Indonesia Menggunakan Metode N-gram dan Levenshtein
Distance,” 2018. [Daring]. Tersedia pada: http://j-ptiik.ub.ac.id
[3] R. Juanda dan I. Z. Yadi, “Penerapan Rule Based Dengan Algoritma Viterbi Untuk Deteksi Kesalahan
Huruf Kapital Pada Karya Ilmiah,” 2020. [Daring]. Tersedia pada:
https://journal-computing.org/index.php/journal-cisa/index
[4] M. Ilmiyah dan A. Qoiriah, “Sistem Deteksi Kesalahan Tanda Baca dan Huruf Kapital Pada Karya Tulis
Ilmiah Berbahasa Indonesia Menggunakan Algoritma Boyer-Moore,” Journal of Informatics and
Computer Science, vol. 02, 2021.
[5] S. Komparasi, P. A. Sipebi, S. Pratiwi, dan T. Utami, “Teknologi dalam Penyuntingan Naskah Bahasa
Indonesia.”
[6] T. Hartina, “Pendeteksi Kesalahan Pengetikan Kata Non Baku pada Karya Tulis Menggunakan Metode
N-Gram,” JURNAL INFORMATIKA, vol. 7, no. 1, 2020, [Daring]. Tersedia pada:
http://ejournal.bsi.ac.id/ejurnal/index.php/ji
[7] S. Murniati, “KESALAHAN PENERAPAN EJAAN BAHASA INDONESIA PADA TUGAS AKHIR
MAHASISWA,” Semantik, vol. 11, no. 1, hlm. 33, Feb 2022, doi: 10.22460/semantik.v11i1.p33-46.
[8] T. N. Maghfira, I. Cholissodin, dan A. W. Widodo, “Deteksi Kesalahan Ejaan dan Penentuan
Rekomendasi Koreksi Kata yang Tepat Pada Dokumen Jurnal JTIIK Menggunakan Dictionary Lookup
dan Damerau-Levenshtein Distance,” 2017. [Daring]. Tersedia pada: http://j-ptiik.ub.ac.id
[9] Y. Miftahuddin, J. Pardede, dan R. Dewi, “Penerapan Algoritma Lemmatization pada Dokumen
Bahasa Indonesia,” MIND Journal | ISSN, vol. 3, no. 2, hlm. 47–56, 2018, doi: 10.26760/mindjournal.
14

Proposal Penelitian Spelling Checker

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Proposal Penelitian Spelling Checker

Diunggah oleh

Hak Cipta:

Format Tersedia

PROPOSAL PENELITIAN

DETEKSI KESALAHAN EJAAN & KOREKSI TEKS

TEKNOLOGI REKAYASA PERANGKAT LUNAK

Padang, 18 April 2023

1.3. Tujuan Penelitian

Cara penyuntingan (editing) aksara bahasa Indonesia dapat dilakukan dengan

3.2. Jadwal Penelitian

Anda mungkin juga menyukai