Anda di halaman 1dari 8

Jurnal Teknologi Informasi dan Ilmu Komputer (JTIIK) DOI: 10.25126/jtiik.

202072449
Vol. 7, No. 6, Desember 2020, hlm. 1121-1128 p-ISSN: 2355-7699
Akreditasi KEMENRISTEKDIKTI, No. 36/E/KPT/2019 e-ISSN: 2528-6579

POS TAGGING BAHASA MADURA DENGAN MENGGUNAKAN ALGORITMA


BRILL TAGGER
Nindian Puspa Dewi*1, Ubaidi2
1,2
Informatika, Universitas Madura
Email: nindianpd@unira.ac.id, 2ubed@unira.ac.id
1

*Penulis Korespondensi

(Naskah masuk: 09 September 2019, diterima untuk diterbitkan: 25 November 2020)

Abstrak

Bahasa Madura adalah bahasa daerah yang selain digunakan di Pulau Madura juga digunakan di daerah lainnya
seperti di kota Jember, Pasuruan, dan Probolinggo. Sebagai bahasa daerah, Bahasa Madura mulai banyak
ditinggalkan khususnya di kalangan anak muda. Beberapa penyebabnya adalah adanya rasa gengsi dan tingkat
kesulitan untuk mempelajari Bahasa Madura yang memiliki ragam dialek dan tingkat bahasa. Berkurangnya
penggunaan Bahasa Madura dapat mengakibatkan punahnya Bahasa Madura sebagai salah satu bahasa daerah
yang ada di Indonesia. Oleh karena itu, perlu adanya usaha untuk mempertahankan dan memelihara Bahasa
Madura. Salah satunya adalah dengan melakukan penelitian tentang Bahasa Madura dalam bidang Natural
Language Processing sehingga kedepannya pembelajaran tentang Bahasa Madura dapat dilakukan melalui media
digital. Part Of Speech (POS) Tagging adalah dasar penelitian text processing, sehingga perlu untuk dibuat aplikasi
POS Tagging Bahasa Madura untuk digunakan pada penelitian Natural Languange Processing lainnya. Dalam
penelitian ini, POS Tagging dibuat dengan menggunakan Algoritma Brill Tagger dengan menggunakan corpus
yang berisi 10.535 kata Bahasa Madura. POS Tagging dengan Brill Tagger dapat memberikan kelas kata yang
sesuai pada kata dengan menggunakan aturan leksikal dan kontekstual. Brill Tagger merupakan algoritma dengan
tingkat akurasi yang paling baik saat diterapkan dalam Bahasa Inggris, Bahasa Indonesia dan beberapa bahasa
lainnya. Dari serangkaian percobaan dengan beberapa perubahan nilai threshold tanpa memperhatikan OOV (Out
Of Vocabulary), menunjukkan rata-rata akurasi mencapai lebih dari 80% dengan akurasi tertinggi mencapai
86.67% dan untuk pengujian dengan memperhatikan OOV mencapai rata-rata akurasi 67.74%. Jadi dapat
disimpulkan bahwa Brill Tagger dapat digunakan untuk Bahasa Madura dengan tingkat akurasi yang baik.

Kata kunci: part of speech, pos tagging, bahasa madura, brill tagger, tagset.

POS TAGGING BAHASA MADURA WITH BRIL TAGGER ALGORITHM

Abstract

Bahasa Madura is regional language which is not only used on Madura Island but is also used in other areas such
as in several regions in Jember, Pasuruan, and Probolinggo. Today, Bahasa Madura began to be abandoned,
especially among young people. One reason is sense of pride and also quite difficult to learn Bahasa Madura
because it has a variety of dialects and language levels. The reduced use of Bahasa Madura can lead to the
extinction of Bahasa Madura as one of the regional languages in Indonesia. Therefore, there needs to be an effort
to maintain Madurese Language. One of them is by conducting research on Madurese Language in the field of
Natural Language Processing so that in the future learning about Madurese can be done through digital media.
Part of Speech (POS) Tagging is the basis of text processing research, so the Madura Language POS Tagging
application needs to be made for use in other Natural Language Processing research. This study uses Brill Tagger
by using a corpus containing 10,535 words. POS Tagging with Brill Tagger Algorithm can provide the appropriate
word class to word using lexical and contextual rule. The reason for using Brill Tagger is because it is the
algorithm that has the best accuracy when implemented in English, Indonesian and several other languages. The
experimental results with Brill Tagger show that the average accuracy without OOV (Out Of Vocabulary) obtained
is 86.6% with the highest accuracy of 86.94% and the average accuracy for OOV words reached 67.22%. So it
can be concluded that the Brill Tagger Algorithm can also be used for Bahasa Madura with a good degree of
accuracy.

Keywords: part of speech, pos tagging, bahasa madura, brill tagger, tagset.

1121
1122 Jurnal Teknologi Informasi dan Ilmu Komputer (JTIIK), Vol. 7, No. 6, Desember 2020, hlm. 1121-1128

1. PENDAHULUAN Tagging Bahasa Indonesia dengan HMM dan Rule


Based (Kathryn & Agus, 2012), Probabilistic Part Of
Bahasa Madura adalah bahasa daerah yang
Speech Tagging for Bahasa Indonesia (Femphy,
digunakan di Pulau Madura dan beberapa daerah
Mirna & Ruli, 2009) dengan menggunakan 37 tagset,
lainnya seperti Jember, Pasuruan dan Probolinggo.
Implementasi Brill Tagger untuk memberikan POS
Sebagai bahasa daerah, Bahasa Madura perlu dibina
Tagging pada Dokumen Bahasa Indonesia
dan dikembangkan, terutama dalam hal peranannya
(Christanti, Pragantha & Purnamasari, 2012) dan On
sebagai sarana pengembangan kebudayaan daerah
Part of Speech Tagger for Indonesian Language
untuk mendukung kebudayaan nasional
(Yuwana, Yuliani & Pardede, 2017). Dari beberapa
(halim,1976). Menurut Purwo (2000), Bahasa
penelitian yang telah dilakukan, nilai akurasi tertinggi
Madura menduduki peringkat keempat penutur
adalah dengan menggunakan Brill Tagger (Fahim,
terbanyak yang digunakan setelah Bahasa Jawa.
Naushad & Mumit, 2007). Brill Tagger
Namun saat ini Bahasa Madura semakin banyak
diperkenalkan pertama kali oleh Eric Brill pada tahun
ditinggalkan oleh Masyarakat Madura khususnya di
1992 (Brill, 1992). Proses Tagger merupakan
kalangan anak muda (Mulyadi, 2014). Ada banyak
transformation atau rules hasil belajar dari
faktor yang menyebabkan semakin berkurangnya
mendeteksi nilai error (Sriyati, 2016). Brill Tagger
penggunaan dan pemahaman terhadap Bahasa
sendiri sudah diterapkan pada banyak bahasa, seperti
Madura, antara lain karena (1) penggunaan Bahasa
: bahasa Inggris, Kadazan, dan Indonesia.
Indonesia sebagai bahasa utama pengantar
Part of speech merupakan dasar dalam
pendidikan, (2) rasa malu saat menggunakan bahasa
pengembangan text processing. Karena itulah penulis
daerah, (3) sedikitnya penggunaan Bahasa Madura
melakukan penelitian part-of speech tagging pada
dalam media massa baik dalam bentuk tulisan
Bahasa Madura dengan menggunakan Brill Tagger,
maupun siaran berbahasa Madura, dan (4) sulitnya
sehingga dapat digunakan untuk pengembangan
mempelajari Bahasa Madura yang memang memiliki
pengolahan teks dalam Bahasa Madura. Berdasarkan
ragam tutur/dialek dan cara penulisan yang unik
uraian tersebut maka ada beberapa tujuan yang ingin
(Sofyan, 2017).
dicapai dalam penelitian ini yaitu :
Berkurangnya penggunaan Bahasa Madura
dapat mengakibatkan punahnya Bahasa Madura
1. Menetapkan daftar tagset standar untuk Bahasa
sebagai salah satu bahasa daerah yang ada di
Madura yang dapat digunakan sebagai dasar
Indonesia. Oleh karena itu, perlu adanya usaha untuk
penelitian text processing.
mempertahankan dan memelihara Bahasa Madura.
2. Mengimplementasikan Brill Tagger untuk POS
Menurut Harimurti (2001), pemeliharaan Bahasa
Tagging Bahasa Madura sehingga mempermudah
adalah usaha agar suatu bahasa tetap dipakai dan
proses pemberian label atau tag yang tepat pada
dihargai, terutama sebagai identitas kelompok dalam
kata.
masyarakat bahasa yang bersangkutan melalui
pengajaran, kesusasteraan, media massa dan lain-lain.
2. METODE PENELITIAN
Hal inilah yang melatarbelakangi penelitian tentang
Bahasa Madura dengan menerapkan kemajuan Penelitian ini merupakan lanjutan dari
teknologi informasi sehingga dapat meningkatkan penelitian (Dewi & Ubaidi, 2018) yang lebih
eksistensi Bahasa Madura di kalangan masyarakat berfokus pada salah satu bagian dari Algoritma Brill
khususya masyarakat Madura. Tagger yaitu pada tahap leksikal dengan akurasi
Penelitian dalam bidang bahasa alami dan tertinggi mencapai 87,43%. Selanjutnya pada
komputer biasa dikenal dengan sebutan natural penelitian ini dilakukan penambahan dan perbaikan
language processing (NLP). Salah satu penelitian corpus. Jika pada (Dewi & Ubaidi, 2018) tidak terlalu
dalam bidang ini adalah part of speech tagging yang memperhatikan ketepatan urutan kata dalam kalimat
merupakan dasar untuk penelitian natural languange maka pada penelitian ini susunan kalimat pada corpus
processing lainnya (Setyaningsih, 2017), seperti diperbaiki sesuai dengan kaidah penulisan yang benar
dalam word sense disambiguation, stemming karena POS tagging yang akan dibuat tidak hanya
(pencarian kata dasar), text summarization pada tahap leksikal tapi juga pada tahap kontekstual.
(peringkasan teks) dan question and answering. Part Penambahan jumlah corpus dapat meningkatkan
of speech (POS) biasa dikenal sebagai jenis kata jumlah kamus kata atau lexicon pada tahap leksikal,
dalam sebuah kalimat seperti kata kerja (verb), kata sedangkan ketepatan urutan kata penting karena
sifat (adjective), kata benda (noun) dan sebagainya sangat mempengaruhi pada contextual rule yang akan
(Manning & Schutze,1999.). POS tagging adalah dihasilkan pada tahap kontekstual sehingga dapat
proses memberi label pada setiap kata dalam kalimat meningkatkan nilai akurasi (Ayana, 2015).
dengan tag yang sesuai untuk kata tersebut Untuk membuat POS Tagging Bahasa Madura,
(Christanti, Pragantha & Purnamasari, 2012) diperlukan beberapa langkah yang harus dilakukan.
Penelitian mengenai part of speech tagging di Langkah pertama yaitu menambah daan memperbaiki
Indonesia sudah banyak dilakukan dengan corpus Bahasa Madura yang telah dibuat pada
menggunakan berbagai metode antara lain POS penelitian sebelumnya. Corpus kemudian digunakan
Puspa Dewi & Ubaidi, Pos Tagging Bahasa Madura… 1123

pada proses learner. Proses learner pada penelitian Gambar 2. menjelaskan tentang proses training
ini meliputi lexical learner dan contextual learner. pada lexical learner (Setyaningsih, 2017). Pada
Hasil dari proses learner ini yang akan digunakan proses training dibutuhkan manually tag corpus yang
untuk proses tagging. merupakan corpus yang diberi tag secara manual.
Manually tag corpus selanjutnya dihilangkan tagnya
2.1. Pengumpulan Data dan disebut untagged corpus. Untagged corpus
kemudian dibandingakan dengan manual tag corpus
Proses POS tagging dalam penelitian ini, sesuai dengan template lexical rule untuk
dimulai dari penyusunan data set. Gambar 1 menghasilkan lexical rule.
merupakan blok diagram penyusunan tagset bahasa
madura dan proses pengambilan data training yang
2.3. Contextual Learner
akan dijadikan goal corpus.
Contextual learner merupakan proses untuk
menghasilkan contextual rule. Contextual rule adalah
rule yang memperhatikan keberadaan tag disekitar
kata yang sedang dicek atau dicari labelnya.
Pada dasarnya contextual learner digunakan
untuk membandingkan goal corpus (tagged corpus
II) dengan tag hasil initial tagging berdasarkan
leksikon (Chaer, 2007) dan lexical rule (dummy
corpus). Berikut blog diagram contextual leaner
(Setyaningsih, 2017) dapat dilihat pada Gambar 3.

Pembagian
Gambar 1. Blog Diagram Penyusunan Data Set Corpus

Proses penyusunan data set diawali dengan


menentukan tagset (kelas kata) standar untuk Bahasa Tagged Tagged
Madura. Kemudian mengambil artikel berbahasa Corpus II Corpus I
madura yang setelah dilakukan ekstraksi data disebut
Pembuatan
sebagai unannotated text. Berdasarkan tagset yang
Penghilangan Tag Lexicon
telah ditentukan, unannotated text ini kemudian
diberi tag secara manual sehingga menjadi annotated
text (goal corpus). Pada penelitian ini untuk bagian Untagged
Corpus II Lexicon
penyusunan data corpus hanya dilakukan dengan
perbaikan dan sedikit penambahan data corpus yang
telah dibuat sebelumnya (Dewi & Ubaidi, 2018). Pemberian
Tag

2.2. Lexical Learner


Contextual
Setelah corpus terbentuk, proses dilanjutkan Learner Dummy Tagged
dengan lexical learner. Lexical learner merupakan Corpus
proses pembelajaran untuk menghasilkan lexical rule.
Dalam lexical learner, rule yang dihasilkan Contextual
Rule
digunakan untuk melabeli kata dengan
memperhatikan perubahan bentuk kata karena adanya Gambar 3. Blog Diagram Contextual Learner
imbuhan baik itu awalan, akhiran maupun awalan dan
akhiran. Selain itu akan dilakukan juga pengecekan 2.4. Pelabelan Kata (Tagging)
kata yang bersebelahan dan berapa frekuensi
pasangan kata tersebut muncul. Pada penelitian ini, tagging dilakukan selain
memperhatikan aturan leksikal juga aturan
kontekstual (contextual rule). Proses pelabelan
Manually Tag dimulai dengan menginputkan teks atau kalimat yang
Corpus
Penghilangan Tag Untagged Corpus nantinya akan diberi label. Input teks awalnya diberi
label awal berupa NN (Common Noun) dan NNP
(Proper Common Noun) melalui proses inisialisasi
teks. Hasil proses inisialisasi ini kemudian disebut
Lexical Rule Lexical Learner sebagai temporary corpus.
Selanjutnya melalui proses pretagged, masing-
Gambar 2. Blog Diagram Lexical Learner masing rule dalam lexical rule dikenakan pada setiap
kata dalam temporary corpus. Setelah itu setiap kata
1124 Jurnal Teknologi Informasi dan Ilmu Komputer (JTIIK), Vol. 7, No. 6, Desember 2020, hlm. 1121-1128

akan dicari dalam leksikon. Leksikon berisi daftar penyusunan corpus dilakukan dengan melibatkan
kata dan tagnya yang merupakan sebagian dari data sejumlah ahli dalam Bahasa Madura sehingga
corpus yang digunakan. Jika kata ditemukan dalam struktur dan susunan kata pada kalimat yang
leksikon, kelas kata akan diubah sesuai kelas kata digunakan sesuai dengan Tata Bahasa Madura.
dalam leksikon. Kata yang tidak ditemukan dalam Corpus dibuat dengan menggunakan kumpulan
leksikon kemudian akan dicek dengan contextual kalimat yang kemudian diberi kelas kata secara
rule. Proses pelabelan teks dapat dilihat pada Gambar manual dengan menggunakan Tagset Bahasa Madura
4. (Dewi & Ubaidi, 2018) yang ditunjukkan pada Tabel
1.
Tabel 1. Contoh Lexical Rule
No Tagset Simbol
1 Verba Transitif VBT
2 Verba Intrasitif VBI
3 Adjective JJ
4 Adverb RB
5 Common Noun NN
6 Proper Common Noun NNP
7 Genetive Common Noun NNG
8 Personal Pronoun PRP
9 Locative Pronoun PRL
10 Primary Numeral CDP
11 Collective Numeral CDC
12 Distributive Numeral CDD
13 Irregular Numeral CDI
14 Kata bantu bilangan CDB
15 WH Pronoun WPRP
16 WH Adverb WRB
17 Determiner DT
18 Article AR
19 Preposition IN
20 Coordinate Conjunction CC
21 Subordinate Conjunction SC
22 Particle RP
23 Interjection UH
24 Positive Modal MD
25 Negative Modal NEG
26 Symbol Sym
27 Sentence Terminator ST
28 Comma ,
29 Ellipsis ...
30 Colon :
Gambar 4. Blog Diagram Pelabelan Kata 31 Semi Colon ;
32 Open Paranthesis OP
33 Close Paranthesis CP
3. HASIL DAN PEMBAHASAN 34 Quotation QT
35 Dash DASH
36 Slash GM
3.1. Penelitian Terdahulu
Pada penelitian sebelumnya (Dewi & Ubaidi, 2018), Pada dasarnya struktur Bahasa dalam Bahasa
corpus yang digunakan berjumlah 10.443 kata yang Madura sama dengan Bahasa Indonesia, sehingga
merupakan kumpulan artikel dan cerita berbahasa penentuan kelas katanya juga tidak jauh berbeda.
Madura. Proses training pada penelitian ini hanya Hanya saja ada beberapa kelas kata yang dipecah
dilakukan sampai pada tahap leksikal untuk seperti jika dalam Bahasa Indonesia (Arawinda et al,
menghasilkan lexical rule yang kemudian digunakan 2014) kata kerja cukup diberi kelas kata verb (VB),
untuk proses tagging. Adapun lexical rule yang maka dalam penelitian ini dibagi menjadi verb
dihasilkan yaitu untuk threshold 10 menghasilkan 48 transitif (VBT) dan verb intrasitif (VBI).
rule, threshold 20 hingga 40 menghasilkan 32 rule,
sedangkan untuk threshold 50 menghasilkan 13 rule. 3.3. Lexical Learner
Data uji yang digunakan pada proses tagging adalah Threshold pada lexical learner digunakan
data yang sama dengan data corpus. Rata-rata akurasi sebagai syarat berhentinya proses learner. Proses
yang dicapai pada penelitian ini yaitu mencapai lebih pembelajaran akan berhenti jika sudah diperoleh nilai
dari 80% dengan akurasi tertinggi mencapai 87,43%. terbaik (bestscore) yang diperoleh lebih kecil dari
threshold. Tabel 2 merupakan contoh hasil uji coba
3.2. Pengumpulan Data dengan menggunakan variasi nilai threshold.
Corpus Bahasa Madura yang digunakan
berjumlah 10.535 kata yang merupakan kumpulan Hasil uji coba untuk threshold 10 menghasilkan
artikel dan cerita berbahasa Madura. Proses 54 rule, threshold 20 hingga 40 menghasilkan 33 rule,
sedangkan untuk threshold 50 menghasilkan 13 rule.
Puspa Dewi & Ubaidi, Pos Tagging Bahasa Madura… 1125

Hal ini menunjukkan bahwa nilai threshold T Jumlah Rule Contoh Contextual Rule
berbanding terbalik dengan jumlah rule yang NNP NEG CURWD Ta’
dihasilkan. NN VBT PREVTAG CP
NN VBT PREVWD carana
Tabel 2. Contoh Lexical Rule NN NNG SURROUNDTAG NN
NEG
Threshold Jumlah Contoh Lexical Rule NN NNG CURWD bhádhánna
10 54 an redeletesuf NN NN NNG CURWD asalla
an rehassuf NN NN JJ PREVWD sè
pa haspref NN NN SC CURWD Saamponna
ng deletepref VBT NNP NN NEXTTAG DT
è haspref VBT NNP NN PREV1OR2TAG OP
a haspref VBT NNP NN CURWD Taon
na redeletesuf NN NN CDP PREVWD taon
0 char CDP NN DT CURWD sadhájána
VBT a fhassuf NN NN DT CURWD Ka’dinto
ma addpref JJ NN WP RBIGRAM pasèra sè
JJ deletereant NN NNP RB NEXTTAG JJ
JJ ma fhaspref NN NN NNP NEXT1OR2WD tolèsanna
m addpref NN 3 33 NN PRP CURWD kita
JJ a fchar NN NN VBT PREV1OR2WD ta’
20 33 an redeletesuf NN NN VBT SURROUNDTAG SC NN
an rehassuf NN NN IN CURWD È
pa haspref NN NN NNP NEXTWD Madhurá
ng deletepref VBT NN SC CURWD jhá’
è haspref VBT NN VBT PREVTAG MD
na redeletesuf NN NN JJ PREVTAG RB
0 char CDP NN IN CURWD dhá’ka
50 13 an redeletesuf NN NN IN CURWD akadhi
an rehassuf NN NN CC CURWD nangèng
pa haspref NN NN CDI CURWD sabágián
ng deletepref VBT VBT NNG CURWD èssèna
è haspref VBT NN NNP SURROUNDTAG , ,
na redeletesuf NN NN VBT PREVWD kaangghuy
NN VBT CURWD nombuwághi
NN SC CURWD saèngghána
Setelah dilakukan penambahan dan perbaikan
4 24 NN PRP CURWD kita
data corpus, terdapat perbedaan jumlah dan aturan NN VBT PREV1OR2WD ta’
leksikal yang dihasilkan. Pada penelitian sebelumnya NN VBT SURROUNDTAG SC NN
untuk threshold 10 menghasilkan 48 rule, threshold NN IN CURWD È
20 hingga 40 menghasilkan 32 rule, sedangkan untuk NN NNP NEXTWD Madhurá
NN SC CURWD jhá’
threshold 50 juga menghasilkan 13 rule. NN VBT PREVTAG MD
NN JJ PREVTAG RB
3.4. Contextual Learner NN IN CURWD dhá’ka

Threshold pada contextual learner dengan Brill Setelah dilakukan beberapa kali perubahan
Tagger berfungsi syarat berhentinya proses learning. threshold didapatkan jumlah contextual rule dengan
Berikut hasil uji coba dengan menggunakan variasi cukup bervariasi tergantung threshold yang
threshold, dimana masing-masing percobaan pada diberikan. Semakin kecil nilai threshold maka
nilai threshold. semakin banyak contextual rule yang didapatkan dan
juga sebaliknya.
Tabel 3. Contoh Contextual Rule
T Jumlah Rule Contoh Contextual Rule
3.5. Pelabelan Kata (Tagging)
2 48 NN PRP CURWD kita
NN VBT PREV1OR2WD ta’ Dalam proses tagging dilakukan perhitungan
NN VBT SURROUNDTAG SC NN
NN IN CURWD È
untuk mengetahui nilai akurasi dari Brill Tagger
NN NNP NEXTWD Madhurá untuk POS Tagging Bahasa Madura. Proses pelabelan
NN SC CURWD jhá’ kata dilakukan dengan menggunakan dua data yang
NN VBT PREVTAG MD berbeda yaitu data yang sama dengan data training
NN JJ PREVTAG RB
NN IN CURWD dhá’ka
dan data baru yaitu data yang tidak digunakan dalam
NN IN CURWD akadhi proses training. Pada bagian berikut akan dibahas
NN CC CURWD nangèng akurasi pada tahap leksikal dan kontekstual dengan
NN CDI CURWD sabágián beberapa perubahan nilai threshold.
VBT NNG CURWD èssèna
NN NNP SURROUNDTAG , ,
Uji coba pertama menggunakan data yang sama
NN SC CURWD saèngghána dengan data yang digunakan dalam proses learner
NN SC CURWD amarghá (data corpus). Tabel 4 berikut menunjukkan contoh
NN IN CURWD Kalabán hasil pelabelan dengan menggunakan data yang sama.
NNP SC CURWD Sè
NNP VBI CURWD Bádá
1126 Jurnal Teknologi Informasi dan Ilmu Komputer (JTIIK), Vol. 7, No. 6, Desember 2020, hlm. 1121-1128

Adapun potongan inputan yang dijadikan Penambahan jumlah corpus dapat meningkatkan
kalimat uji coba yaitu ”Maskè la dháddhi sèttong jumlah data dalam file leksikon, sedangkan perbaikan
kabunga’an jhá’ sampè ageppa’ dhádhá, tapè kata dalam corpus memperngaruhi ketepatan rule
dháddhiá conto toladán sè saè mongghu dhá’ka sana’ yang dihasilkan.
barajana”. Selanjutnya untuk uji coba kedua menggunakan
data baru yang tidak digunakan dalam proses learner
Tabel 4. Contoh Hasil Tagging Menggunakan Data Corpus
(data corpus). Tabel 6 berikut menunjukkan contoh
Manually Tag Hasil Tahap Hasil Tahap
Corpus Lexical Contextual hasil tagging dengan menggunakan data yang baru.
Maskè/SC Maskè/SC Maskè/SC Adapun potongan inputan yang dijadikan
la/RB la/RB la/RB kalimat uji coba yaitu ”Maskè la dháddhi sèttong
dháddhi/VBT dháddhi/VBT dháddhi/VBT kabunga’an jhá’ sampè ageppa’ dhádhá, tapè
sèttong/CDP sèttong/CDP sèttong/CDP
kabunga’an/NN kabunga’an/NN kabunga’an/NN dháddhiá conto toladán sè saè mongghu dhá’ka sana’
jhá’/NEG jhá’/SC jhá’/SC barajana”.
sampè/IN sampè/VBT sampè’/VBI
ageppa’/VBT ageppa’/VBT ageppa’/VBT Tabel 6. Contoh Hasil Tagging Menggunakan Data Baru
dhádhá/NN dhádhá/NN dhádhá/NN
,/, ,/, ,/, Manually Tag Hasil Tahap Hasil Tahap
tapè/CC tapè/CC tapè/CC Corpus Lexical Contextual
dháddhiá/VBT dháddhiá/VBT dháddhiyá/VBT
Mèlè/VBT Mèlè/NNP Mèlè/NNP
conto/NN conto/NN conto/NN
sapè/NN sapè/NN sapè/NNP
toladán/JJ toladán/NN toladán/NN
kaangghuy/IN kaangghuy/IN kaangghuy/IN
sè/SC sè/SC sè/SC
ghápanèka/DT ghápanèka/DT ghápanèka/DT
saè/JJ saè/JJ saè/JJ
tanto/MD tanto/MD tanto/MD
mongghu/IN mongghu/IN mongghu/IN
bisaos/RB bisaos/RB bisaos/RB
dhá’ka/IN dhá’ka/NN dhá’ka/IN
dhá’/IN dhá’/IN dhá’/IN
sana’/NN sana’/NN sana’/NN
sè/SC sè/SC sè/SC
barajana/NNG barajana/NNG barajana/NNG
ampon/RB ampon/RB ampon/RB
pèlak/MD pèlak/NN pèlak/JJ
Contoh proses tagging karena lexical rule yaitu mèlè/VBT mèlè/NN mèlè/VBT
rule “a haspref VBT” yang artinya jika tag awal NN sapè/NN sapè/NN sapè/NN
sè/SC sè/SC sè/SC
maka ubah tag menjadi VBT jika kata yang akan bhághus/JJ bhághus/JJ bhághus/JJ
dilabeli berawalan “a”. Rule ini berhasil dikenai pada ./ST ./ST ./ST
kata ageppa’ (memukul) sehingga mendapatkan tag Bágiyán/NN Bágiyán/NN Bágiyán/NN
yang benar yaitu VBT. Rule ini diperoleh dari hasil sè/SC sè/SC sè/SC
mennang/JJ mennang/NN mennang/JJ
learner dengan threshold 10 sampai 40. Untuk èkèrèm/VBT èkèrèm/VBT èkèrèm/VBT
threshold 50, rule yang dihasilkan tidak diperoleh ka/IN ka/IN ka/IN
rule ini sehingga kata ageppa’ masih memiliki tagset Kerrap/NNP Kerrap/NNP Kerrap/NNP
yang salah. Contextual rule dapat mengubah tag Gubeng/NNP Gubeng/NNP Gubeng/NNP
./ST ./ST ./ST
sebuah kata menjadi benar. Seperti kata dhá’ka (ke) È/IN È/IN È/IN
yang awalnya mendapatkan tag yang salah yaitu NN mosèm/NN mosèm/NN mosèm/NN
(salah) berubah tagnya menjadi IN (benar) karena nèmor/NN nèmor/VBT nèmor/VBT
adanya rule hasil Brill Tagger “NN IN CURWD ,/, ,/, ,/,
biyasana/JJ biyasana/RB biyasana/RB
dhá’ka” yang memiliki arti “ubah tag menjadi IN jika teppa’/JJ teppa’/NN teppa’/JJ
katanya dhá’ka dan memiliki tag awal NN”. ka/IN ka/IN ka/IN
Sedangkan untuk nilai rata-rata akurasi yang Bulán/NNP Bulán/NN Bulán/NN
dicapai dapat dilihat pada tabel 5. Threshold yang Oktober/NNP Oktober/NNP Oktober/NNP
./ST ./ST ./ST
digunakan dalam tahap leksikal adalah yang memiliki
nilai akurasi tertinggi (T=10).
Kata yang berhasil diberi tag yang benar pada
Tabel 5. Rata-rata Akurasi Menggunakan Data Corpus tahap lexical yaitu kata èkèrèm (dikirim). Adanya rule
Hasil Benar Rata- “è haspref VBT” yang artinya, ubah tag menjadi VBT
T Jumlah Hasil Benar
Contextual rata
Kata Lexical Rule jika kata yang akan dilabeli berawalan “è”. Untuk
Rule Akurasi tahap kontekstual, kata mennang memperoleh rule
2 541 506 93.53%
504 Kata yang benar karena rule “NN JJ PREVWD sè” yang
3 541 506 93.53% artinya, jika tag awal adalah NN dan terletak setelah
(93,16%)
4 541 506 93.53% kata sè maka ubah tag menjadi JJ. Namun terkadang
menyebabkan kesalahan tag karena tag lain yang
Akurasi pada tahap leksikal mengalami salah seperti pada kata sapè yang karena NN “NN
kenaikan dibandingkan hasil penelitian sebelumnya NNP PREVTAG NNP” yang artinya, jika tag awal
yang hanya mencapai akurasi tertinggi sebesar adalah NN dan tag sebelumnya adalah NNP maka
87,43% menjadi 93,16%. Hal ini menunjukkan ubag tag menjadi NNP, menyebabkan kata sapè yang
bahwa penambahan dan perbaikan corpus dapat sebenarnya sudah memiliki tag yang benar (NN)
meningkatkan nilai akurasi pada tahapan leksikal. diubah tagnya menjadi NNP.
Puspa Dewi & Ubaidi, Pos Tagging Bahasa Madura… 1127

Tabel 7. Rata-rata Akurasi Menggunakan Data Baru pada POS Tagging Bahasa Madura mencapai akurasi
Hasil Benar Rata- di atas 80% dengan akurasi tertinggi mencapai
T Jumlah Hasil Benar
Contextual rata
Kata Lexical Rule
Rule Akurasi 86.67% jika tidak memperhatikan keberadaan OOV
2 585 504 507 86.67% dan mencapai rata-rata akurasi 67.74% jika
3 585
(85.81%)
505 86.32% memperhatikan keberadaan OOV.
Kesimpulan ini menunjukan bahwa perbaikan
4 585 505 86.32%
corpus dengan memperhatikan ketepatan urutan kata
dalam Bahasa Madura ternyata meningkatkan akurasi
Dari tabel 7 di atas dapat dilihat bahwa pelabelan kata, sehingga dapat digunakan dalam
pelabelan pada tahap kontekstual menghasilkan pengelompokan kelas kata untuk mendukung
akurasi yang meningkat dari 85.81% menjadi 86.67% pembelajaran Bahasa Madura dalam rangka
dengan menggunakan data yang baru. Semakin kecil melestarikan Bahasa Madura.
nilai threshold, akurasi yang diperoleh cenderung
semakin tinggi. Hal ini karena semakin banyaknya UCAPAN TERIMA KASIH
rule yang diperoleh dan diterapkan. Namun terkadang
rule yang ada bisa mengakibatkan tag menjadi salah Kami mengucapkan terima kasih pada
sehingga dapat menurunkan nilai akurasi. Direktorat Riset dan Pengabdian kepada Masyarakat
Selanjutnya dilakukan pengujian dengan khususnya Direktorat Jenderal Penguatan Riset dan
memperhatikan OOV (Out of Vocabulari). Dalam uji Pengembangan karena telah memberikan kontribusi
coba diketahui dari 585 kata uji, jumlah kata yang berupa dana penelitian sehingga kami dapat
digunakan dalam data latih (Knownword) adalah 342 melaksanakan penelitian ini dengan baik. Terima
kata dan jumlah kata yang belum pernah muncul atau kasih juga kami sampaikan kepada semua pihak yang
ada dalam latih (unKnownword) adalah 243 kata. secara tidak langsung membantu pelaksanaan
Setelah dilakukan uji coba didapat bahwa ada 507 penelitian ini.
kata yang berhasil diberi tag dengan benar yang
terdiri dari 333 kata adalah knownword dan 174 kata DAFTAR PUSTAKA
adalah unknownword. Hasil uji coba dengan AYANA, A.G. 2015. Improving Brill’s Tagger
memperhatikan OOV dapat dilihat pada tabel 8 Lexical and Transformation Rule for Afaan
berikut. Oromo Language. PeerJ PrePrints, pp.1-11.
BRILL, E., 1992. A simple rule-based part of speech
Tabel 8. Rata-rata Akurasi dengan memperhatikan OOV
tagger. Proc. third Conf. Appl. Nat. Lang.
Known
Overall Unknown Akurasi dengan Process, pp. 152.
Word
Acc Word Acc OOV CHAER, A. 2007. Linguistik Umum. Jakarta: Rineka
Acc
507 333 174 86,67% Cipta.
= = = CHRISTANTI, V., J. PRAGANTHA, E.
585 342 243 (97,36%/71,60%)
= 86,67% = 97,36% = 71,60% = 67.74%
PURNAMASARI. 2012. Implementasi Brill
Tagger untuk memberikan POS-Tagging pada
Dokumen Bahasa Indonesia. Jurnal Teknik dan
4. KESIMPULAN Ilmu Komputer, 1(3), pp. 301–315.
Tagset (Kelas Kata) Bahasa Madura yang dapat DEWI, N.P., UBAIDI, 2018. Lexical Rule dan
dibentuk dari penelitian ini adalah 36 tagset. Tagset Pengaruh Penggunaan Lexicon Pada Pos
digunakan untuk membuat manual tag yang Tagging Bahasa Madura. Jurnal Matrik, 18(1)
selanjutnya diolah untuk menghasilkan lexical rule pp.69-70.
melalui lexical learner dan contextual rule melalui DINAKARAMANI, A., RASHEL, F., LUTHFI,A.,
contetual learner. MANURUNG, R. 2014. Designing an
Nilai threshold pada lexical learner dan Indonesian Part of speech Tagset and Manually
contextual learner mempengaruhi jumlah rule yang Tagged Indonesian Corpus. International
diperoleh dalam proses learner. Semakin rendah nilai Conference on Asian Language Processing
threshold maka semakin banyak rule yang diperoleh (IALP), 20-22 Oktober 2014,pp. 66-69.
dan begitu juga sebaliknya semakin tinggi nilai HALIM, A. 1976. Politik Bahasa Nasional 1 dan 2.
threshold maka semakin sedikit jumlah rule yang Jakarta: Aneka Ilmu.
diperoleh. Hasil percobaan menunjukkan bahwa HASAN, F.M., UZZAMAN, N., KHAN, M. 2007.
semakin banyak rule yang diperoleh maka nilai Comparison of different POS Tagging
akurasi semakin tinggi. Techniques (N-Gram, HMM and Brill’s tagger)
Setelah dilakukan penambahan dan perbaikan for Bangla. Advances and Innovations in
data corpus yang digunakan pada penelitian Systems, Computing Sciences and Software
sebelumnya, akurasi pada tahap leksikal meningkat Engineering, pp.121-126.
yaitu dari 87,43% menjadi 93,16% dengan KRIDALAKSANA, H. 2001. Kamus Linguistik,
menggunakan data yang sama dengan data corpus. Jakarta: Gramedia.
Untuk Penerapan Brill Tagger secara keseluruhan
1128 Jurnal Teknologi Informasi dan Ilmu Komputer (JTIIK), Vol. 7, No. 6, Desember 2020, hlm. 1121-1128

MANNING, C. D., HINRICH S. 1999. Foundation of Bahasa Indonesia. Dinamika Teknologi, 9(1),
Statistical Natural Language Processing. pp.37-42.
Cambridge: MIT Press Textbook on statistical SOFYAN, A. 2017. Tata Bahasa Bahasa Madura.
and probabilistic methods in NLP. Sidoarjo: Bahasa Surabaya.
MEGYESI, B. 1998. Brill’s Rule-Based PoS Tagger SRIYATI, N.P.M. 2016. Part-Of-Speech Tagging
for Hungarian. Master's Degree Thesis in Untuk Dokumen Bahasa Bali Menggunakan
Computational Linguistics. Department of Algoritma Brill Tagger: Fakultas Matematika
Linguistics, Stockholm University, Sweden. dan Ilmu Pengetahuan Alam. Tugas Akhir.
MULYADI. 2014. Pemakaian Bahasa Madura Di Universitas Udayana.
Kalangan Remaja. Okara, Vol.2, pp.45-68. WIDHIYANTI, K., HARJOKO, A. 2012. POS
PISCELDO, F., ADRIANI, M., MANURUNG, R. Tagging Bahasa Indonesia Dengan HMM dan
2009. Probabilistic Part Of Speech Tagging for Rule Based. Jurnal Informatika, 8(2), pp.151-
Bahasa Indonesia. Third International 167.
MALINDO Workshop. YUWANA, R.S., YULIANI, A.R., PARDEDE,H.F.
PURWO, B.K. 2000. Bangkitnya Kebhinekaan 2017. On Part of Speech Tagger for Indonesian
Dunia Linguistik dan Pendidikan. Jakarta: Mega Language. International conferences on
Media Abadi. Information Technology, Information Systems
SETYANINGSIH, E.R. 2017. Penetapan Tagset dan and Electrical Engineering (ICITISEE), 1-2
Modifikasi Brill Tagger untuk Part-of Speech Nopember 2017, pp. 369-372.

Anda mungkin juga menyukai