202072449
Vol. 7, No. 6, Desember 2020, hlm. 1121-1128 p-ISSN: 2355-7699
Akreditasi KEMENRISTEKDIKTI, No. 36/E/KPT/2019 e-ISSN: 2528-6579
*Penulis Korespondensi
Abstrak
Bahasa Madura adalah bahasa daerah yang selain digunakan di Pulau Madura juga digunakan di daerah lainnya
seperti di kota Jember, Pasuruan, dan Probolinggo. Sebagai bahasa daerah, Bahasa Madura mulai banyak
ditinggalkan khususnya di kalangan anak muda. Beberapa penyebabnya adalah adanya rasa gengsi dan tingkat
kesulitan untuk mempelajari Bahasa Madura yang memiliki ragam dialek dan tingkat bahasa. Berkurangnya
penggunaan Bahasa Madura dapat mengakibatkan punahnya Bahasa Madura sebagai salah satu bahasa daerah
yang ada di Indonesia. Oleh karena itu, perlu adanya usaha untuk mempertahankan dan memelihara Bahasa
Madura. Salah satunya adalah dengan melakukan penelitian tentang Bahasa Madura dalam bidang Natural
Language Processing sehingga kedepannya pembelajaran tentang Bahasa Madura dapat dilakukan melalui media
digital. Part Of Speech (POS) Tagging adalah dasar penelitian text processing, sehingga perlu untuk dibuat aplikasi
POS Tagging Bahasa Madura untuk digunakan pada penelitian Natural Languange Processing lainnya. Dalam
penelitian ini, POS Tagging dibuat dengan menggunakan Algoritma Brill Tagger dengan menggunakan corpus
yang berisi 10.535 kata Bahasa Madura. POS Tagging dengan Brill Tagger dapat memberikan kelas kata yang
sesuai pada kata dengan menggunakan aturan leksikal dan kontekstual. Brill Tagger merupakan algoritma dengan
tingkat akurasi yang paling baik saat diterapkan dalam Bahasa Inggris, Bahasa Indonesia dan beberapa bahasa
lainnya. Dari serangkaian percobaan dengan beberapa perubahan nilai threshold tanpa memperhatikan OOV (Out
Of Vocabulary), menunjukkan rata-rata akurasi mencapai lebih dari 80% dengan akurasi tertinggi mencapai
86.67% dan untuk pengujian dengan memperhatikan OOV mencapai rata-rata akurasi 67.74%. Jadi dapat
disimpulkan bahwa Brill Tagger dapat digunakan untuk Bahasa Madura dengan tingkat akurasi yang baik.
Kata kunci: part of speech, pos tagging, bahasa madura, brill tagger, tagset.
Abstract
Bahasa Madura is regional language which is not only used on Madura Island but is also used in other areas such
as in several regions in Jember, Pasuruan, and Probolinggo. Today, Bahasa Madura began to be abandoned,
especially among young people. One reason is sense of pride and also quite difficult to learn Bahasa Madura
because it has a variety of dialects and language levels. The reduced use of Bahasa Madura can lead to the
extinction of Bahasa Madura as one of the regional languages in Indonesia. Therefore, there needs to be an effort
to maintain Madurese Language. One of them is by conducting research on Madurese Language in the field of
Natural Language Processing so that in the future learning about Madurese can be done through digital media.
Part of Speech (POS) Tagging is the basis of text processing research, so the Madura Language POS Tagging
application needs to be made for use in other Natural Language Processing research. This study uses Brill Tagger
by using a corpus containing 10,535 words. POS Tagging with Brill Tagger Algorithm can provide the appropriate
word class to word using lexical and contextual rule. The reason for using Brill Tagger is because it is the
algorithm that has the best accuracy when implemented in English, Indonesian and several other languages. The
experimental results with Brill Tagger show that the average accuracy without OOV (Out Of Vocabulary) obtained
is 86.6% with the highest accuracy of 86.94% and the average accuracy for OOV words reached 67.22%. So it
can be concluded that the Brill Tagger Algorithm can also be used for Bahasa Madura with a good degree of
accuracy.
Keywords: part of speech, pos tagging, bahasa madura, brill tagger, tagset.
1121
1122 Jurnal Teknologi Informasi dan Ilmu Komputer (JTIIK), Vol. 7, No. 6, Desember 2020, hlm. 1121-1128
pada proses learner. Proses learner pada penelitian Gambar 2. menjelaskan tentang proses training
ini meliputi lexical learner dan contextual learner. pada lexical learner (Setyaningsih, 2017). Pada
Hasil dari proses learner ini yang akan digunakan proses training dibutuhkan manually tag corpus yang
untuk proses tagging. merupakan corpus yang diberi tag secara manual.
Manually tag corpus selanjutnya dihilangkan tagnya
2.1. Pengumpulan Data dan disebut untagged corpus. Untagged corpus
kemudian dibandingakan dengan manual tag corpus
Proses POS tagging dalam penelitian ini, sesuai dengan template lexical rule untuk
dimulai dari penyusunan data set. Gambar 1 menghasilkan lexical rule.
merupakan blok diagram penyusunan tagset bahasa
madura dan proses pengambilan data training yang
2.3. Contextual Learner
akan dijadikan goal corpus.
Contextual learner merupakan proses untuk
menghasilkan contextual rule. Contextual rule adalah
rule yang memperhatikan keberadaan tag disekitar
kata yang sedang dicek atau dicari labelnya.
Pada dasarnya contextual learner digunakan
untuk membandingkan goal corpus (tagged corpus
II) dengan tag hasil initial tagging berdasarkan
leksikon (Chaer, 2007) dan lexical rule (dummy
corpus). Berikut blog diagram contextual leaner
(Setyaningsih, 2017) dapat dilihat pada Gambar 3.
Pembagian
Gambar 1. Blog Diagram Penyusunan Data Set Corpus
akan dicari dalam leksikon. Leksikon berisi daftar penyusunan corpus dilakukan dengan melibatkan
kata dan tagnya yang merupakan sebagian dari data sejumlah ahli dalam Bahasa Madura sehingga
corpus yang digunakan. Jika kata ditemukan dalam struktur dan susunan kata pada kalimat yang
leksikon, kelas kata akan diubah sesuai kelas kata digunakan sesuai dengan Tata Bahasa Madura.
dalam leksikon. Kata yang tidak ditemukan dalam Corpus dibuat dengan menggunakan kumpulan
leksikon kemudian akan dicek dengan contextual kalimat yang kemudian diberi kelas kata secara
rule. Proses pelabelan teks dapat dilihat pada Gambar manual dengan menggunakan Tagset Bahasa Madura
4. (Dewi & Ubaidi, 2018) yang ditunjukkan pada Tabel
1.
Tabel 1. Contoh Lexical Rule
No Tagset Simbol
1 Verba Transitif VBT
2 Verba Intrasitif VBI
3 Adjective JJ
4 Adverb RB
5 Common Noun NN
6 Proper Common Noun NNP
7 Genetive Common Noun NNG
8 Personal Pronoun PRP
9 Locative Pronoun PRL
10 Primary Numeral CDP
11 Collective Numeral CDC
12 Distributive Numeral CDD
13 Irregular Numeral CDI
14 Kata bantu bilangan CDB
15 WH Pronoun WPRP
16 WH Adverb WRB
17 Determiner DT
18 Article AR
19 Preposition IN
20 Coordinate Conjunction CC
21 Subordinate Conjunction SC
22 Particle RP
23 Interjection UH
24 Positive Modal MD
25 Negative Modal NEG
26 Symbol Sym
27 Sentence Terminator ST
28 Comma ,
29 Ellipsis ...
30 Colon :
Gambar 4. Blog Diagram Pelabelan Kata 31 Semi Colon ;
32 Open Paranthesis OP
33 Close Paranthesis CP
3. HASIL DAN PEMBAHASAN 34 Quotation QT
35 Dash DASH
36 Slash GM
3.1. Penelitian Terdahulu
Pada penelitian sebelumnya (Dewi & Ubaidi, 2018), Pada dasarnya struktur Bahasa dalam Bahasa
corpus yang digunakan berjumlah 10.443 kata yang Madura sama dengan Bahasa Indonesia, sehingga
merupakan kumpulan artikel dan cerita berbahasa penentuan kelas katanya juga tidak jauh berbeda.
Madura. Proses training pada penelitian ini hanya Hanya saja ada beberapa kelas kata yang dipecah
dilakukan sampai pada tahap leksikal untuk seperti jika dalam Bahasa Indonesia (Arawinda et al,
menghasilkan lexical rule yang kemudian digunakan 2014) kata kerja cukup diberi kelas kata verb (VB),
untuk proses tagging. Adapun lexical rule yang maka dalam penelitian ini dibagi menjadi verb
dihasilkan yaitu untuk threshold 10 menghasilkan 48 transitif (VBT) dan verb intrasitif (VBI).
rule, threshold 20 hingga 40 menghasilkan 32 rule,
sedangkan untuk threshold 50 menghasilkan 13 rule. 3.3. Lexical Learner
Data uji yang digunakan pada proses tagging adalah Threshold pada lexical learner digunakan
data yang sama dengan data corpus. Rata-rata akurasi sebagai syarat berhentinya proses learner. Proses
yang dicapai pada penelitian ini yaitu mencapai lebih pembelajaran akan berhenti jika sudah diperoleh nilai
dari 80% dengan akurasi tertinggi mencapai 87,43%. terbaik (bestscore) yang diperoleh lebih kecil dari
threshold. Tabel 2 merupakan contoh hasil uji coba
3.2. Pengumpulan Data dengan menggunakan variasi nilai threshold.
Corpus Bahasa Madura yang digunakan
berjumlah 10.535 kata yang merupakan kumpulan Hasil uji coba untuk threshold 10 menghasilkan
artikel dan cerita berbahasa Madura. Proses 54 rule, threshold 20 hingga 40 menghasilkan 33 rule,
sedangkan untuk threshold 50 menghasilkan 13 rule.
Puspa Dewi & Ubaidi, Pos Tagging Bahasa Madura… 1125
Hal ini menunjukkan bahwa nilai threshold T Jumlah Rule Contoh Contextual Rule
berbanding terbalik dengan jumlah rule yang NNP NEG CURWD Ta’
dihasilkan. NN VBT PREVTAG CP
NN VBT PREVWD carana
Tabel 2. Contoh Lexical Rule NN NNG SURROUNDTAG NN
NEG
Threshold Jumlah Contoh Lexical Rule NN NNG CURWD bhádhánna
10 54 an redeletesuf NN NN NNG CURWD asalla
an rehassuf NN NN JJ PREVWD sè
pa haspref NN NN SC CURWD Saamponna
ng deletepref VBT NNP NN NEXTTAG DT
è haspref VBT NNP NN PREV1OR2TAG OP
a haspref VBT NNP NN CURWD Taon
na redeletesuf NN NN CDP PREVWD taon
0 char CDP NN DT CURWD sadhájána
VBT a fhassuf NN NN DT CURWD Ka’dinto
ma addpref JJ NN WP RBIGRAM pasèra sè
JJ deletereant NN NNP RB NEXTTAG JJ
JJ ma fhaspref NN NN NNP NEXT1OR2WD tolèsanna
m addpref NN 3 33 NN PRP CURWD kita
JJ a fchar NN NN VBT PREV1OR2WD ta’
20 33 an redeletesuf NN NN VBT SURROUNDTAG SC NN
an rehassuf NN NN IN CURWD È
pa haspref NN NN NNP NEXTWD Madhurá
ng deletepref VBT NN SC CURWD jhá’
è haspref VBT NN VBT PREVTAG MD
na redeletesuf NN NN JJ PREVTAG RB
0 char CDP NN IN CURWD dhá’ka
50 13 an redeletesuf NN NN IN CURWD akadhi
an rehassuf NN NN CC CURWD nangèng
pa haspref NN NN CDI CURWD sabágián
ng deletepref VBT VBT NNG CURWD èssèna
è haspref VBT NN NNP SURROUNDTAG , ,
na redeletesuf NN NN VBT PREVWD kaangghuy
NN VBT CURWD nombuwághi
NN SC CURWD saèngghána
Setelah dilakukan penambahan dan perbaikan
4 24 NN PRP CURWD kita
data corpus, terdapat perbedaan jumlah dan aturan NN VBT PREV1OR2WD ta’
leksikal yang dihasilkan. Pada penelitian sebelumnya NN VBT SURROUNDTAG SC NN
untuk threshold 10 menghasilkan 48 rule, threshold NN IN CURWD È
20 hingga 40 menghasilkan 32 rule, sedangkan untuk NN NNP NEXTWD Madhurá
NN SC CURWD jhá’
threshold 50 juga menghasilkan 13 rule. NN VBT PREVTAG MD
NN JJ PREVTAG RB
3.4. Contextual Learner NN IN CURWD dhá’ka
Threshold pada contextual learner dengan Brill Setelah dilakukan beberapa kali perubahan
Tagger berfungsi syarat berhentinya proses learning. threshold didapatkan jumlah contextual rule dengan
Berikut hasil uji coba dengan menggunakan variasi cukup bervariasi tergantung threshold yang
threshold, dimana masing-masing percobaan pada diberikan. Semakin kecil nilai threshold maka
nilai threshold. semakin banyak contextual rule yang didapatkan dan
juga sebaliknya.
Tabel 3. Contoh Contextual Rule
T Jumlah Rule Contoh Contextual Rule
3.5. Pelabelan Kata (Tagging)
2 48 NN PRP CURWD kita
NN VBT PREV1OR2WD ta’ Dalam proses tagging dilakukan perhitungan
NN VBT SURROUNDTAG SC NN
NN IN CURWD È
untuk mengetahui nilai akurasi dari Brill Tagger
NN NNP NEXTWD Madhurá untuk POS Tagging Bahasa Madura. Proses pelabelan
NN SC CURWD jhá’ kata dilakukan dengan menggunakan dua data yang
NN VBT PREVTAG MD berbeda yaitu data yang sama dengan data training
NN JJ PREVTAG RB
NN IN CURWD dhá’ka
dan data baru yaitu data yang tidak digunakan dalam
NN IN CURWD akadhi proses training. Pada bagian berikut akan dibahas
NN CC CURWD nangèng akurasi pada tahap leksikal dan kontekstual dengan
NN CDI CURWD sabágián beberapa perubahan nilai threshold.
VBT NNG CURWD èssèna
NN NNP SURROUNDTAG , ,
Uji coba pertama menggunakan data yang sama
NN SC CURWD saèngghána dengan data yang digunakan dalam proses learner
NN SC CURWD amarghá (data corpus). Tabel 4 berikut menunjukkan contoh
NN IN CURWD Kalabán hasil pelabelan dengan menggunakan data yang sama.
NNP SC CURWD Sè
NNP VBI CURWD Bádá
1126 Jurnal Teknologi Informasi dan Ilmu Komputer (JTIIK), Vol. 7, No. 6, Desember 2020, hlm. 1121-1128
Adapun potongan inputan yang dijadikan Penambahan jumlah corpus dapat meningkatkan
kalimat uji coba yaitu ”Maskè la dháddhi sèttong jumlah data dalam file leksikon, sedangkan perbaikan
kabunga’an jhá’ sampè ageppa’ dhádhá, tapè kata dalam corpus memperngaruhi ketepatan rule
dháddhiá conto toladán sè saè mongghu dhá’ka sana’ yang dihasilkan.
barajana”. Selanjutnya untuk uji coba kedua menggunakan
data baru yang tidak digunakan dalam proses learner
Tabel 4. Contoh Hasil Tagging Menggunakan Data Corpus
(data corpus). Tabel 6 berikut menunjukkan contoh
Manually Tag Hasil Tahap Hasil Tahap
Corpus Lexical Contextual hasil tagging dengan menggunakan data yang baru.
Maskè/SC Maskè/SC Maskè/SC Adapun potongan inputan yang dijadikan
la/RB la/RB la/RB kalimat uji coba yaitu ”Maskè la dháddhi sèttong
dháddhi/VBT dháddhi/VBT dháddhi/VBT kabunga’an jhá’ sampè ageppa’ dhádhá, tapè
sèttong/CDP sèttong/CDP sèttong/CDP
kabunga’an/NN kabunga’an/NN kabunga’an/NN dháddhiá conto toladán sè saè mongghu dhá’ka sana’
jhá’/NEG jhá’/SC jhá’/SC barajana”.
sampè/IN sampè/VBT sampè’/VBI
ageppa’/VBT ageppa’/VBT ageppa’/VBT Tabel 6. Contoh Hasil Tagging Menggunakan Data Baru
dhádhá/NN dhádhá/NN dhádhá/NN
,/, ,/, ,/, Manually Tag Hasil Tahap Hasil Tahap
tapè/CC tapè/CC tapè/CC Corpus Lexical Contextual
dháddhiá/VBT dháddhiá/VBT dháddhiyá/VBT
Mèlè/VBT Mèlè/NNP Mèlè/NNP
conto/NN conto/NN conto/NN
sapè/NN sapè/NN sapè/NNP
toladán/JJ toladán/NN toladán/NN
kaangghuy/IN kaangghuy/IN kaangghuy/IN
sè/SC sè/SC sè/SC
ghápanèka/DT ghápanèka/DT ghápanèka/DT
saè/JJ saè/JJ saè/JJ
tanto/MD tanto/MD tanto/MD
mongghu/IN mongghu/IN mongghu/IN
bisaos/RB bisaos/RB bisaos/RB
dhá’ka/IN dhá’ka/NN dhá’ka/IN
dhá’/IN dhá’/IN dhá’/IN
sana’/NN sana’/NN sana’/NN
sè/SC sè/SC sè/SC
barajana/NNG barajana/NNG barajana/NNG
ampon/RB ampon/RB ampon/RB
pèlak/MD pèlak/NN pèlak/JJ
Contoh proses tagging karena lexical rule yaitu mèlè/VBT mèlè/NN mèlè/VBT
rule “a haspref VBT” yang artinya jika tag awal NN sapè/NN sapè/NN sapè/NN
sè/SC sè/SC sè/SC
maka ubah tag menjadi VBT jika kata yang akan bhághus/JJ bhághus/JJ bhághus/JJ
dilabeli berawalan “a”. Rule ini berhasil dikenai pada ./ST ./ST ./ST
kata ageppa’ (memukul) sehingga mendapatkan tag Bágiyán/NN Bágiyán/NN Bágiyán/NN
yang benar yaitu VBT. Rule ini diperoleh dari hasil sè/SC sè/SC sè/SC
mennang/JJ mennang/NN mennang/JJ
learner dengan threshold 10 sampai 40. Untuk èkèrèm/VBT èkèrèm/VBT èkèrèm/VBT
threshold 50, rule yang dihasilkan tidak diperoleh ka/IN ka/IN ka/IN
rule ini sehingga kata ageppa’ masih memiliki tagset Kerrap/NNP Kerrap/NNP Kerrap/NNP
yang salah. Contextual rule dapat mengubah tag Gubeng/NNP Gubeng/NNP Gubeng/NNP
./ST ./ST ./ST
sebuah kata menjadi benar. Seperti kata dhá’ka (ke) È/IN È/IN È/IN
yang awalnya mendapatkan tag yang salah yaitu NN mosèm/NN mosèm/NN mosèm/NN
(salah) berubah tagnya menjadi IN (benar) karena nèmor/NN nèmor/VBT nèmor/VBT
adanya rule hasil Brill Tagger “NN IN CURWD ,/, ,/, ,/,
biyasana/JJ biyasana/RB biyasana/RB
dhá’ka” yang memiliki arti “ubah tag menjadi IN jika teppa’/JJ teppa’/NN teppa’/JJ
katanya dhá’ka dan memiliki tag awal NN”. ka/IN ka/IN ka/IN
Sedangkan untuk nilai rata-rata akurasi yang Bulán/NNP Bulán/NN Bulán/NN
dicapai dapat dilihat pada tabel 5. Threshold yang Oktober/NNP Oktober/NNP Oktober/NNP
./ST ./ST ./ST
digunakan dalam tahap leksikal adalah yang memiliki
nilai akurasi tertinggi (T=10).
Kata yang berhasil diberi tag yang benar pada
Tabel 5. Rata-rata Akurasi Menggunakan Data Corpus tahap lexical yaitu kata èkèrèm (dikirim). Adanya rule
Hasil Benar Rata- “è haspref VBT” yang artinya, ubah tag menjadi VBT
T Jumlah Hasil Benar
Contextual rata
Kata Lexical Rule jika kata yang akan dilabeli berawalan “è”. Untuk
Rule Akurasi tahap kontekstual, kata mennang memperoleh rule
2 541 506 93.53%
504 Kata yang benar karena rule “NN JJ PREVWD sè” yang
3 541 506 93.53% artinya, jika tag awal adalah NN dan terletak setelah
(93,16%)
4 541 506 93.53% kata sè maka ubah tag menjadi JJ. Namun terkadang
menyebabkan kesalahan tag karena tag lain yang
Akurasi pada tahap leksikal mengalami salah seperti pada kata sapè yang karena NN “NN
kenaikan dibandingkan hasil penelitian sebelumnya NNP PREVTAG NNP” yang artinya, jika tag awal
yang hanya mencapai akurasi tertinggi sebesar adalah NN dan tag sebelumnya adalah NNP maka
87,43% menjadi 93,16%. Hal ini menunjukkan ubag tag menjadi NNP, menyebabkan kata sapè yang
bahwa penambahan dan perbaikan corpus dapat sebenarnya sudah memiliki tag yang benar (NN)
meningkatkan nilai akurasi pada tahapan leksikal. diubah tagnya menjadi NNP.
Puspa Dewi & Ubaidi, Pos Tagging Bahasa Madura… 1127
Tabel 7. Rata-rata Akurasi Menggunakan Data Baru pada POS Tagging Bahasa Madura mencapai akurasi
Hasil Benar Rata- di atas 80% dengan akurasi tertinggi mencapai
T Jumlah Hasil Benar
Contextual rata
Kata Lexical Rule
Rule Akurasi 86.67% jika tidak memperhatikan keberadaan OOV
2 585 504 507 86.67% dan mencapai rata-rata akurasi 67.74% jika
3 585
(85.81%)
505 86.32% memperhatikan keberadaan OOV.
Kesimpulan ini menunjukan bahwa perbaikan
4 585 505 86.32%
corpus dengan memperhatikan ketepatan urutan kata
dalam Bahasa Madura ternyata meningkatkan akurasi
Dari tabel 7 di atas dapat dilihat bahwa pelabelan kata, sehingga dapat digunakan dalam
pelabelan pada tahap kontekstual menghasilkan pengelompokan kelas kata untuk mendukung
akurasi yang meningkat dari 85.81% menjadi 86.67% pembelajaran Bahasa Madura dalam rangka
dengan menggunakan data yang baru. Semakin kecil melestarikan Bahasa Madura.
nilai threshold, akurasi yang diperoleh cenderung
semakin tinggi. Hal ini karena semakin banyaknya UCAPAN TERIMA KASIH
rule yang diperoleh dan diterapkan. Namun terkadang
rule yang ada bisa mengakibatkan tag menjadi salah Kami mengucapkan terima kasih pada
sehingga dapat menurunkan nilai akurasi. Direktorat Riset dan Pengabdian kepada Masyarakat
Selanjutnya dilakukan pengujian dengan khususnya Direktorat Jenderal Penguatan Riset dan
memperhatikan OOV (Out of Vocabulari). Dalam uji Pengembangan karena telah memberikan kontribusi
coba diketahui dari 585 kata uji, jumlah kata yang berupa dana penelitian sehingga kami dapat
digunakan dalam data latih (Knownword) adalah 342 melaksanakan penelitian ini dengan baik. Terima
kata dan jumlah kata yang belum pernah muncul atau kasih juga kami sampaikan kepada semua pihak yang
ada dalam latih (unKnownword) adalah 243 kata. secara tidak langsung membantu pelaksanaan
Setelah dilakukan uji coba didapat bahwa ada 507 penelitian ini.
kata yang berhasil diberi tag dengan benar yang
terdiri dari 333 kata adalah knownword dan 174 kata DAFTAR PUSTAKA
adalah unknownword. Hasil uji coba dengan AYANA, A.G. 2015. Improving Brill’s Tagger
memperhatikan OOV dapat dilihat pada tabel 8 Lexical and Transformation Rule for Afaan
berikut. Oromo Language. PeerJ PrePrints, pp.1-11.
BRILL, E., 1992. A simple rule-based part of speech
Tabel 8. Rata-rata Akurasi dengan memperhatikan OOV
tagger. Proc. third Conf. Appl. Nat. Lang.
Known
Overall Unknown Akurasi dengan Process, pp. 152.
Word
Acc Word Acc OOV CHAER, A. 2007. Linguistik Umum. Jakarta: Rineka
Acc
507 333 174 86,67% Cipta.
= = = CHRISTANTI, V., J. PRAGANTHA, E.
585 342 243 (97,36%/71,60%)
= 86,67% = 97,36% = 71,60% = 67.74%
PURNAMASARI. 2012. Implementasi Brill
Tagger untuk memberikan POS-Tagging pada
Dokumen Bahasa Indonesia. Jurnal Teknik dan
4. KESIMPULAN Ilmu Komputer, 1(3), pp. 301–315.
Tagset (Kelas Kata) Bahasa Madura yang dapat DEWI, N.P., UBAIDI, 2018. Lexical Rule dan
dibentuk dari penelitian ini adalah 36 tagset. Tagset Pengaruh Penggunaan Lexicon Pada Pos
digunakan untuk membuat manual tag yang Tagging Bahasa Madura. Jurnal Matrik, 18(1)
selanjutnya diolah untuk menghasilkan lexical rule pp.69-70.
melalui lexical learner dan contextual rule melalui DINAKARAMANI, A., RASHEL, F., LUTHFI,A.,
contetual learner. MANURUNG, R. 2014. Designing an
Nilai threshold pada lexical learner dan Indonesian Part of speech Tagset and Manually
contextual learner mempengaruhi jumlah rule yang Tagged Indonesian Corpus. International
diperoleh dalam proses learner. Semakin rendah nilai Conference on Asian Language Processing
threshold maka semakin banyak rule yang diperoleh (IALP), 20-22 Oktober 2014,pp. 66-69.
dan begitu juga sebaliknya semakin tinggi nilai HALIM, A. 1976. Politik Bahasa Nasional 1 dan 2.
threshold maka semakin sedikit jumlah rule yang Jakarta: Aneka Ilmu.
diperoleh. Hasil percobaan menunjukkan bahwa HASAN, F.M., UZZAMAN, N., KHAN, M. 2007.
semakin banyak rule yang diperoleh maka nilai Comparison of different POS Tagging
akurasi semakin tinggi. Techniques (N-Gram, HMM and Brill’s tagger)
Setelah dilakukan penambahan dan perbaikan for Bangla. Advances and Innovations in
data corpus yang digunakan pada penelitian Systems, Computing Sciences and Software
sebelumnya, akurasi pada tahap leksikal meningkat Engineering, pp.121-126.
yaitu dari 87,43% menjadi 93,16% dengan KRIDALAKSANA, H. 2001. Kamus Linguistik,
menggunakan data yang sama dengan data corpus. Jakarta: Gramedia.
Untuk Penerapan Brill Tagger secara keseluruhan
1128 Jurnal Teknologi Informasi dan Ilmu Komputer (JTIIK), Vol. 7, No. 6, Desember 2020, hlm. 1121-1128
MANNING, C. D., HINRICH S. 1999. Foundation of Bahasa Indonesia. Dinamika Teknologi, 9(1),
Statistical Natural Language Processing. pp.37-42.
Cambridge: MIT Press Textbook on statistical SOFYAN, A. 2017. Tata Bahasa Bahasa Madura.
and probabilistic methods in NLP. Sidoarjo: Bahasa Surabaya.
MEGYESI, B. 1998. Brill’s Rule-Based PoS Tagger SRIYATI, N.P.M. 2016. Part-Of-Speech Tagging
for Hungarian. Master's Degree Thesis in Untuk Dokumen Bahasa Bali Menggunakan
Computational Linguistics. Department of Algoritma Brill Tagger: Fakultas Matematika
Linguistics, Stockholm University, Sweden. dan Ilmu Pengetahuan Alam. Tugas Akhir.
MULYADI. 2014. Pemakaian Bahasa Madura Di Universitas Udayana.
Kalangan Remaja. Okara, Vol.2, pp.45-68. WIDHIYANTI, K., HARJOKO, A. 2012. POS
PISCELDO, F., ADRIANI, M., MANURUNG, R. Tagging Bahasa Indonesia Dengan HMM dan
2009. Probabilistic Part Of Speech Tagging for Rule Based. Jurnal Informatika, 8(2), pp.151-
Bahasa Indonesia. Third International 167.
MALINDO Workshop. YUWANA, R.S., YULIANI, A.R., PARDEDE,H.F.
PURWO, B.K. 2000. Bangkitnya Kebhinekaan 2017. On Part of Speech Tagger for Indonesian
Dunia Linguistik dan Pendidikan. Jakarta: Mega Language. International conferences on
Media Abadi. Information Technology, Information Systems
SETYANINGSIH, E.R. 2017. Penetapan Tagset dan and Electrical Engineering (ICITISEE), 1-2
Modifikasi Brill Tagger untuk Part-of Speech Nopember 2017, pp. 369-372.