Anita Guterres
215210470
PROGRAM PASCASARJANA
MAGISTER TEKNOLOGI INFORMASI
SEKOLAH TINGGI TEKNIK SURABAYA
2018
STEMMING BAHASA TETUN
Judul : Stemming Bahasa Tetun
Nama : Anita Guterres
NRP : 215210470
Jurusan/Prodi : Magister Teknologi Informasi
Dosen Pembimbing : Dr. Ir. Gunawan, M.Kom
Jenis Tesis : Kontribusi Pemanfaatan
Latar Belakang
Stemming berperan dinamis dalam sistem pencarian informasi dan efeknya
sangat besar, berkaitan dengan analisis bahwa pada berbagai algoritma berasal. Bahasa
Tetun merupakan anak cabang dari bahasa Austronesia, dengan penutur utama di
wilayah Timor. Di Timor Leste, bahasa ini merupakan bahasa resmi, selain bahasa
Portugis. Di bawah Konstitusi negara, bahasa Indonesia dan Inggris merupakan bahasa-
bahasa kerja. Bagi mereka, bahasa Tetun berfungsi sebagai bahasa pemersatu dan
antarsuku, seperti layaknya bahasa Indonesia.
Bahasa Tetun yang berkembang di Timor Leste mengalami proses percampuran
dengan bahasa Portugis, sehingga banyak sekali ditemukan kata pinjaman dalam bahasa
tersebut. Bahasa ini kerap disebut “Tetun Dili” karena bermula dari kota Dili.
Bahasa Tetun di wilayah Indonesia cukup berbeda karena hanya sedikit
terpengaruh Portugis dan justru banyak menyerap kata Indonesia dan Belanda. Bahasa
inilah yang dianggap sebagai bentuk asli bahasa Tetun, yang sering disebut "Tetun
Terik". Dituturkan di Kabupaten Belu, Nusa Tenggara Timur, bahasa ini hanya
digunakan sebagai bahasa sehari-hari, sedangkan untuk urusan-urusan lainnya utamanya
resmi digunakan bahasa Indonesia.
Algoritma-algoritma stemming memiliki kelebihan dan kekurangannya masing-
masing. Efektifitas algoritma stemming dapat diukur berdasarkan beberapa parameter,
seperti kecepatan proses, keakuratan, dan kesalahan [1]. Secara umum, stemming dapat
dilakukan dengan dua cara, yakni manual dan otomatis. Cara otomatis dapat dilakukan
dengan berbagai pendekatan, di antaranya metode affix removal yang digunakan dalam
Porter stemmer [3].
Porter stemmer merupakan algoritma stemming dikembangkan oleh Martin
Porter di Universitas Cambridge pada tahun 1980 yang diterapkan pada bahasa Inggris.
Metode yang digunakan dalam melakukan stemming dengan memanfaatkan morfologi
kata pada bahasa Inggris. Dalam hal ini imbuhan berupa akhiran (sufiks). Cara ini cukup
efektif karena tidak tergantung terhadap kamus kata dasar, dan proses stemming dapat
dilakukan lebih cepat [4].
Agar bahasa tetun yang berasal dari Timor Leste mudah dipelajari dan dipahami
seseorang maka diperlukan kajian algoritma stemming. Berdasarkan latar belakang di
atas, peneliti ingin melakukan penelitian dengan judul “Stemming Bahasa Tetun”.
1
Tujuan Penilitian
Untuk menyediakan fasilitas stemming bahasa tetun yan berasal dari Timor
Leste.
Tinjauan Pustaka
a. Tinjauan Teoritis
1) Stemming
Stemming merupakan suatu proses untuk menemukan kata dasar dari sebuah
kata dengan menghilangkan semua imbuhan (affixes) baik yang terdiri dari awalan
(prefixes), sisipan (infixes), akhiran (suffixes) dan confixes (kombinasi dari awalan
dan akhiran) pada kata turunan. Stemming adalah tools dasar pemprosesan teks
yang digunakan untuk efisien dan efektif teks retrieval (Frakes, 1992), mesin
penterjemah (Bakar dan Rahman, 2003), meringkas dokuman (Orasan et al., 2004)
dan klasifikasi teks (Gaustad ang Bouma, 2002). Berdasarkan asumsi bahwa term
yang memiliki akar kata yang sama akan selalu memiliki makna yang sama,
stemming digunakan pada information retrieval untuk meningkatkan keakuratan
retrieval (perolehan informasi). Selain untuk meningkatkan keakuratan retrieval,
stemming yang dilakukan pada proses indexing juga akan mengurangi ukuran dari
index file.
Stemming merupakan suatu proses yang terdapat dalam sistem yang
mentransformasikan kata-kata yang terdapat dalam suatu dokumen ke kata-kata
akarnya (root word) dengan menggunakan aturan-aturan tertentu. Sebagai contoh,
kata bersama, kebersamaan, menyamai, akan distem ke root wordnya yaitu “sama”
(Septiawan, 2010).
Terdapat 5 aturan tahapan pada proses stemming menggunakan Porter
Stemmer (Tala, 2003), yaitu sebagai berikut:
a) Penanganan terhadap partikel infleksional, yaitu : lah, tah, kah. Contoh:
pergilah, berlarilah.
b) Penanganan terhadap kata ganti infleksional, yaitu : ku, mu, dan nya.
Contoh: punyaku, miliknya.
c) Penanganan terhadap prefiks derivasional pertama, yaitu meng dan semua
variasinya, peng, dan semua variasinya, di, ter, dan ke. Contoh: mengubur,
pengukur, terlambat.
d) Penanganan terhadap prefiks derivasional kedua, yaitu: ber dan semua
variasinya, per dan semua variasinya. Contoh: berlatih, belajar, perkata
e) Penanganan terhadap surfiks derivasional yaitu kan, an, dan i. Contoh:
ambilkan, janjian, dan dekati.
2
2) Bahasa Tetun
Bahasa Tetun merupakan anak cabang dari bahasa Austronesia, dengan
penutur utama di wilayah Timor. Di Timor Leste, bahasa ini merupakan bahasa
resmi, selain bahasa Portugis. Di bawah Konstitusi negara, bahasa Indonesia dan
Inggris merupakan bahasa-bahasa kerja. Bagi mereka, bahasa Tetun berfungsi
sebagai bahasa pemersatu dan antarsuku, seperti layaknya bahasa Indonesia.
Bahasa Tetun yang berkembang di Timor Leste mengalami proses
percampuran dengan bahasa Portugis, sehingga banyak sekali ditemukan kata
pinjaman dalam bahasa tersebut. Bahasa ini kerap disebut "Tetun Dili" karena
bermula dari kota Dili.
Bahasa Tetun di wilayah Indonesia cukup berbeda karena hanya sedikit
terpengaruh Portugis dan justru banyak menyerap kata Indonesia dan Belanda.
Bahasa inilah yang dianggap sebagai bentuk asli bahasa Tetun, yang sering disebut
"Tetun Terik". Dituturkan di Kabupaten Belu, Nusa Tenggara Timur, bahasa ini
hanya digunakan sebagai bahasa sehari-hari, sedangkan untuk urusan-urusan
lainnya utamanya resmi digunakan bahasa Indonesia.
b. Tinjauan Empiris
Dalam penelitian ini ada 4 jurnal dan tinjauan pustaka yang dipakai sebagai referensi.
1. Judul Jurnal : A Literature Review: Stemming Algorithms for Indian
Languages
Penulis : M. Thangarasu dan Dr. R. Manavalan
Tempat penelitian : Jurusan Ilmu Komputer dan Aplikasi Universitas Seni
Rupa dan Sains KSRangasamy
Tujuan dari penelitian : Algoritma stemming dalam data mining dan juga
menyajikan beberapa solusi untuk berbagai algoritma
stemming bahasa India.
Tahun : 2013
Partisipan : Natural Language Processing (NLP) India.
a) Stemming
Stemming merupakan suatu proses untuk menemukan kata dasar dari sebuah
kata dengan menghilangkan semua imbuhan (affixes) baik yang terdiri dari awalan
(prefixes), sisipan (infixes), akhiran (suffixes) dan confixes (kombinasi dari awalan
dan akhiran) pada kata turunan. Stemming adalah tools dasar pemprosesan teks yang
digunakan untuk efisien dan efektif teks retrieval (Frakes, 1992). Alkula, R.
mengajukan karakter polos ke kata-kata bermakna [1] pada tahun 2001. Penelitian ini
memproyeksikan proses inferensi yang digunakan pada IRS. Pada tahun 2002
Nilsson memperkenalkan pengelompokan hierarkis dengan menggunakan non-
serakah arah utama partisi yang memecah belah untuk algoritma partisi diterapkan
pada jumlah cluster dan didasarkan pada prinsipal yang tidak serakah. Popovic M
dan Willet.P mempresentasikan keefektifan stemming untuk akses bahasa alami ke
data tekstual Slovenia pada tahun 1992.
Pada tahun 1995 Kalamboukis.T.Z mengembangkan akhiran stripping dengan
bahasa Yunani Modern. Dalam penelitian ini kata-kata bahasa Yunani ditumbuhkan
dengan algoritma. Pada tahun 1999, Abu-Salem, H., Al-Omari, M., dan Evens, M.W.
menerapkan metodologi Stemming atas kata-kata kueri individual untuk sistem
3
pencarian informasi bahasa Arab. Pada tahun 2003 Rosell.M mengembangkan
peningkatan pengelompokan artikel surat kabar Swedia dengan menggunakan
stemming dan compound splitting.
b) Stemmer Untuk Bahasa India
Pada tahun 2010, Dinesh Kumar dan Pangeran Rana mengembangkan desain
dan pengembangan stemmer untuk Punjabi, menggunakan algoritma Brute Force
untuk membendung kata Punjabi. Pada tahun 2001, Shambhavi dkk.
Memperkenalkan penganalisis morfologi Kannada dan generator dan menggunakan
ban. Batangmer ringan untuk bahasa Hindi dikembangkan oleh Ramanathan dkk.
Pada tahun 2004. Dalam penelitian ini, kata-kata menguraikan istilah dengan akhiran
penghapusan untuk pencarian informasi. Willet. P mengusulkan algoritma stemming
stemer untuk perpustakaan elektronik dan sistem informasi pada tahun 2006.
Zahurul. MD dan lainnya. Mengembangkan stemmer ringan untuk bahasa Bengali
pada tahun 2009 untuk pemeriksa ejaan bahasa Bengali. Assas-band, daftar affix-
exception berbasis Urdu stemmer dikembangkan oleh Qurat-Ul-Ain Akram dan
lainnya.
Table 1. Discovering Suffix a Study For Marathi language
4
Pada tahun 2009. Ini berasal dari kata-kata bahasa Urdu yang menggunakan
metode pencarian leksikal (Assas-band). Pada tahun 2010, Dinesh Kumar dan Prince
Rana mengembangkan desain dan pengembangan stemmer untuk Punjabi,
menggunakan algoritma Brute Force untuk membendung kata-kata Punjabi.
Tipologi morfologi bahasa untuk pencarian informasi ditemukan oleh
Pirkola.A. Dalam penelitian ini, IRS mengambil informasi berdasarkan tipologi
morfologi. Pada tahun 1996, Hull.D mengembangkan studi kasus algoritma
stemming untuk evaluasi terperinci untuk mengevaluasi kinerjanya.
Diusulkan oleh Mudassar et al. Untuk menemukan kata Marathi tersembunyi
di Knowledge Discovery Database (KDD). Entitas yang diberi nama dalam bahasa
Telugu menggunakan fitur yang bergantung pada bahasa dan pendekatan berbasis
aturan dikembangkan oleh Sridhar.B et al. Di tahun 2011. Model yang diusulkan
menggunakan Named Entity Recognition (NER) untuk membendung kata-kata
Telugu. Juhi Ameta dkk. Memperkenalkan stemmer ringan untuk Gujarati di tahun
2012. Dalam model yang diusulkan ini, algoritma stemmer ringan untuk batang kata-
kata Gujarati. MAULIK: Batangmer yang efisien untuk orang Hindi.
Bahasa dikembangkan oleh Upendra Mishra dan lainnya. Algoritma
MAULIK digunakan untuk membendung kata-kata Hindi. Pada tahun 2012 sebuah
stemmer iteratif untuk Bahasa Tamil diusulkan oleh Vivekanandan Ramachandran
dkk. Dalam model yang diusulkan ini, algoritma penanda akhiran akhiran digunakan
untuk membendung kata-kata Tamil ke akar kata-katanya.
a) Stemming
Stemming merupakan suatu proses yang terdapat dalam sistem IR yang
mentransformasi kata-kata yang terdapat dalam suatu dokumen ke kata-kata akarnya
(root word) dengan menggunakan aturan-aturan tertentu. Sebagai contoh, kata
bersama, kebersamaan, menyamai, akan distem ke root wordnya yaitu “sama”.
5
Proses stemming pada teks berBahasa Indonesia berbeda dengan stemming pada teks
berbahasa Inggris. Pada teks berbahasa Inggris, proses yang diperlukan hanya proses
menghilangkan sufiks. Sedangkan pada teks berbahasa Indonesia, selain sufiks,
prefiks, dan konfiks juga dihilangkan.
Algoritma yang dibuat oleh Bobby Nazief dan Mirna Adriani ini memiliki
tahap-tahap sebagai berikut:
1. Cari kata yang akan distem dalam kamus. Jika ditemukan maka diasumsikan
bahwa kata tesebut adalah root word. Maka algoritma berhenti.
2. Inflection Suffixes (“-lah”, “-kah”, “-ku”, “-mu”, atau “-nya”) dibuang. Jika
berupa particles (“-lah”, “-kah”, “-tah” atau “-pun”) maka langkah ini
diulangi lagi untuk menghapus Possesive Pronouns (“-ku”, “-mu”, atau “-
nya”), jika ada.
3. Hapus Derivation Suffixes (“-i”, “-an” atau “-kan”). Jika kata ditemukan di
kamus, maka algoritma berhenti. Jika tidak maka ke langkah 3a
a. Jika “-an” telah dihapus dan huruf terakhir dari kata tersebut adalah “-k”,
maka “-k” juga ikut dihapus. Jika kata tersebut ditemukan dalam kamus
maka algoritma berhenti. Jika tidak ditemukan maka lakukan langkah 3b.
b. Akhiran yang dihapus (“-i”, “-an” atau “-kan”) dikembalikan, lanjut ke
langkah 4.
4. Hapus Derivation Prefix. Jika pada langkah 3 ada sufiks yang dihapus maka
pergi ke langkah 4a, jika tidak pergi ke langkah 4b.
a. Periksa tabel kombinasi awalan-akhiran yang tidak diijinkan. Jika
ditemukan maka algoritma berhenti, jika tidak pergi ke langkah 4b.
b. For i = 1 to 3, tentukan tipe awalan kemudian hapus awalan. Jika root
word belum juga ditemukan lakukan langkah 5, jika sudah maka
algoritma berhenti. Catatan: jika awalan kedua sama dengan awalan
pertama algoritma berhenti.
5. Melakukan Recoding.
6. Jika semua langkah telah selesai tetapi tidak juga berhasil maka kata awal
diasumsikan sebagai root word. Proses selesai.
Tipe awalan ditentukan melalui langkah-langkah berikut:
1. Jika awalannya adalah: “di-”, “ke-”, atau “se-” maka tipe awalannya secara
berturut-turut adalah “di-”, “ke-”, atau “se-”.
2. Jika awalannya adalah “te-”, “me-”, “be-”, atau “pe-” maka dibutuhkan
sebuah proses tambahan untuk menentukan tipe awalannya.
3. Jika dua karakter pertama bukan “di-”, “ke-”, “se-”, “te-”, “be-”, “me-”, atau
“pe-” maka berhenti.
4. Jika tipe awalan adalah “none” maka berhenti. Jika tipe awalan adalah bukan
“none” maka awalan dapat dilihat pada Tabel 2. Hapus awalan jika
ditemukan.
6
Tabel 1. Kombinasi Awalan Akhiran Yang Tidak Diijinkan
Awalan Akhiran yang tidak diijinkan
be- -i
di- -an
ke- -i, -kan
me- -an
se- -i, -kan
Agar hasil lebih akurat pada proses stemming maka kombinasi awalan
akhiran yang tidak iijinkan sebaiknya dihindari, karena dalam bahasa Tetun tidak
mengenal kombinasi awalan dan akhiran seperti yang terlihat pada tabel 1.
Tabel 2. Cara Menentukan Tipe Awalan Untuk Kata Yang Diawali Dengan “te-”
Awalan Akhiran yang tidak diijinkan
be- -i
di- -an
ke- -i, -kan
me- -an
se- -i, -kan
Untuk menentukan kata awalan dan akhiran yang tepat pada proses stemming
dapat menggunakan kata yang diawali dengan “te-“. Hal ini digunakan untuk
memperoleh hasil akurasi yang tepat pada proses stemming.
7
2. Tambahan bentuk awalan dan akhiran serta aturannya.
Untuk tipe awalan “mem-“, kata yang diawali dengan awalan “memp-”
memiliki tipe awalan “mem-”.
Tipe awalan “meng-“, kata yang diawali dengan awalan “mengk-”
memiliki tipe awalan “meng-”.
Terdapat 5 kelompok aturan pada Algoritma Porter untuk Bahasa Indonesia
ini. Aturan tersebut dapat dilihat pada Tabel 4 sampai Tabel 8.
Tabel 4. Aturan Untuk Inflectional Particle
Akhiran Replacement Measure Additional Condition Contoh
Condition
-kah NULL 2 NULL Bukukah
-lah NULL 2 NULL Pergilah
-pun NULL 2 NULL Bukupun
8
b) Hasil
Uji Coba algoritma dilakukan pada 30 dokumen teks Bahasa Indonesia dengan
ukuran dokumen yang bervariasi. Hasil uji coba dokumen teks yang dilakukan pada
30 dokumen teks pada algoritma porter dengan presisi sebesar 89,7% dan algoritma
Nazief & Adriani sebesar 95,9%.
Tabel 5. Tabel Waktu Proses dan Presisi Pada 30 Dokumen Teks
9
c) Point Utama Paper ini
Berdasarkan perancangan dan implementasi program diketahui bahwa proses
stemming dokumen teks berbahasa Indonesia menggunakan Algoritma Porter
membutuhkan waktu yang lebih singkat dibandingkan dengan stemming
menggunakan Algoritma Nazief & Adriani. Kamus yang digunakan mempengaruhi
perhitungan presisi. Semakin lengkap kamus yang digunakan maka semakin akurat
pula nilai presisinya.
d) Stemming
Stemming pada dasarnya adalah proses pemetaan dari penguraian berbagai
bentuk kata baik itu prefix, sufix, maupun gabungan antara prefix dan sufix (confix),
menjadi bentuk kata dasarnya (stem) (Baeza-Yates dan Ribeiro-Neto, 1999), (Gupta,
2014). Secara umum, stemming dapat dilakukan dengan 2 cara, yakni manual dan
otomatis. Cara otomatis dapat dilakukan dengan berbagai pendekatan, yakni affix
removal, successor, table dan N-gram. Sedangkan metode affix removal terbagi
menjadi 2, yakni longest match dan simple removal. Diagram pembagian dari teknik
stemming ditunjukkan pada Gambar 1 (Husni dan Zaman, 2005). Proses stemming
dilakukan dengan menghilangkan semua imbuhan (affixes) baik yang terdiri dari
awalan (prefixes), sisipan (infixes), akhiran (suffixes) dan confixes (kombinasi dari
awalan dan akhiran) untuk mendapatkan kata dasar.
Infleksional
Infleksional adalah struktur sederhana yang diikuti oleh imbuhan yang tidak
mempengaruhi kata dasar. Struktur ini dibagi menjadi 2, yaitu sufiks partikel dan
kata ganti. Partikel berfungsi untuk memberikan penekanan pada kata. Macam-
macam dari partikel adalah –lah, -kah, -tah, -pun. Partikel ditulis serangkai dengan
10
kata yang mendahuluinya, kecuali partikel –pun yang ditulis terpisah. Kata ganti
terdiri dari –ku. –mu, dan –nya. Akhiran –ku sebagai kata ganti ia, -mu sebagai kata
kanti kamu, dan –nya sebagai kata ganti ia.
Tiap sufiks pada kelompok partikel dan kata ganti mungkin saja terjadi pada
kata yang sama. Bila hal ini terjadi, maka harus mengikuti aturan sufiks pada kata
ganti mendahului partikel. Sehingga struktur penulisan infleksional dapat
disimpulkan seperti pada Gambar 2.
Derivasional
Prefix yang sering muncul antara lain ber-, di-, ke-, meng-, per-, dan ter-.
Beberapa prefiks seperti ber-, meng-, peng-, per-, ter- dapat terjadi pada beberapa
bentuk. Bentuk tersebut tergantung dari huruf pertama dari kata dasar. Pada struktur
kata derivasional terdapat proses peluluhan yaitu mengalami perubahan pengucapan,
seperti kata sapu menjadi menyapu yang terdiri dari prefiks meng-dan kata dasar
sapu.
Sufiks derivasional antara lain -i, -kan, dan –an. Penambahan pada sufiks
berbeda dengan prefiks, karena tidak pernah mengubah pengucapan pada kata
turunannya. Konfiks merupakan gabungan dari prefix dan sufiks, di mana prefiks dan
sufiks disisipkan bersama kata turunan yang baru. Namun, tidak semua kombinasi
dari prefiks dan sufiks dapat digabungkan menjadi konfiks. Ada beberapa kombinasi
dari prefiks dan sufiks yang tidak dibolehkan seperti yang ditunjukkan pada Tabel 6.
Prefiks atau konfiks dapat ditambahkan pada kata yang sudah ditambahkan
prekfiks atau konfiks sebelumnya, sehingga akan menghasilkan struktur prefiks yang
ganda. Namun, tidak semua prefix atau konfiks dapat ditambahkan pada prefiks atau
11
konfiks tertentu untuk membentuk prefik ganda. Aturan untuk menentukan prefiks
ganda ditunjukkan pada Tabel 7.
Tabel 7. Aturan urutan untuk prefix ganda
f) Porter Stemmer
Algoritma porter berdasarkan kenyataan bahwa kebanyakan sufiks pada
bahasa Inggris merupakan kombinasi dari sufiks yang kecil dan sederhana. Tiap
langkah proses pemenggalan kata dilakukan secara serial yang mensimulasikan
proses kata infleksional dan derivasional. Pada tiap langkah, sufiks tertentu
dihilangkan dengan aturan substitusi. Aturan substitusi diterapkan ketika sejumlah
kondisi atau batasan tertentu terpenuhi. Sebagai contoh kondisi yang sederhana
antara lain panjang minimum hasil stem (jumlah urutan huruf vokal dan konsonan).
Panjang minimum ini disebut dengan hasil (measure). Kondisi sederhana lainnya
adalah stem dilakukan bila stem berakhir dengan huruf konsonan atau bila stem
terdapat huruf vocal.Bila semua kondisi pada suatu aturan sesuai, maka aturan
tersebut diterapkan. Hal ini akan berakibat pada pengurangan sufiks, kemudian
dilanjutkan pada langkah berikutnya. Jika kondisi pada suatu aturan tidak sesuai
maka dicoba kondisi untuk aturan lainnya, sehingga aturan tersebut cocok atau
aturan pada langkah tersebut tidak bisa dipakai.
12
Sistem menerima masukan dokumen berupa teks, kemudian dengan event
klik tombol proses akan dilakukan proses stemming terhadap dokumen tersebut.
Halaman UI untuk masukan dokumen pada sistem ditunjukkan pada Gambar 4.
a) Jaringan Kerja
Dalam model bahasa, pengguna membuat query untuk menggambarkan
informasi yang mereka butuhkan dan sistem akan memilih kata kunci dari
permintaan yang dianggap relevan. Kata kunci ini akan dicocokkan againstthe
dokumen dalam koleksi. Ketika kesamaan yang ditemukan antara query yang
diberikan dan dokumen dalam koleksi, dokumen yang diambil dan kemudian
dicocokkan dengan sisa dokumen diambil untuk tujuan peringkat. Ada dua prosedur
yang biasanya membantu untuk meningkatkan model bahasa dengan mempercepat
proses pencarian, dan ini berasal dan lemmatization.
Stemming adalah salah satu teknik yang digunakan dalam sistem pencarian
informasi untuk memastikan bahwa varian dari kata-kata tidak ditinggalkan ketika
teks yang akan diambil. Proses ini digunakan dalam menghilangkan akhiran derivatif
13
serta infleksi (yaitu akhiran yang mengubah bentuk kata-kata dan fungsi gramatikal
mereka) sehingga varian kata dapat digabungkan ke dalam akar yang sama atau
mekanisme stems.Stemming telah digunakan dalam banyak bahasa daerah penelitian
seperti Arab, lintas-bahasa pencarian dan manipulasi multi-bahasa.
Ada berbagai berasal algoritma yang telah dikembangkan untuk memastikan
bahwa kata-kata dikurangi untuk bentuk akar mereka, sehingga mengurangi ukuran
kamus dokumen. Hal ini karena salah satu akar atau batang dapat digunakan untuk
mewakili banyak varian istilah yang digunakan dalam bahasa tertentu. Meskipun
pendekatan ini membantu dalam mengambil dokumen yang lebih relevan, ada
kemungkinan baik di bawah-berasal (di mana dua kata yang termasuk dalam
kelompok konseptual yang sama dikonversi ke dua yang berbeda batang atau akar,
misalnya pencarian untuk kata “menjalankan” dokumen tidak mengandung yang
telah “berjalan” dan “berlari” di dalamnya), atau over-berasal (di mana dua kata yang
termasuk kelompok konseptual yang berbeda dikonversi ke sama batang atau akar,
misalnya ketika pencarian untuk kata “baru” termasuk hasil pencarian yang berisi
kata “berita”). Stemming teknik banyak, termasuk stemmer Paice / Husk, Porter
stemmer dan stemmer Lovin ini.
Dalam stemmer Paice / Husk, file dibuat yang memegang seperangkat aturan,
dan aturan ini dibaca oleh sebuah array yang mengimplementasikan aturan sampai
batang akhir yang dicapai. Ia menerima dan memproses aturan jika kata menentukan
sebuah ending yang cocok dengan huruf terakhir dari kata. Stemmer The Lovin ini
dikembangkan untuk menangani kedua pencarian informasi dan masalah komputasi
linguistik. The Lovins stemmer adalah single pass, konteks-sensitif algoritma yang
hanya menghilangkan satu akhiran dari kata dengan memanfaatkan daftar 250
akhiran dan menghapus akhiran terpanjang yang ia menemukan melekat pada kata
yang diberikan. Stemmer memastikan bahwa ketika sebuah kata telah berasal, itu
setidaknya tiga karakter. Stemmer The Porter digunakan dalam penelitian ini, dan
dibahas di bagian berikutnya.
b) Lemmatizer
Lemmatization di sisi lain menggunakan kosa kata dan analisis morfologi kata
dan mencoba untuk menghapus akhiran infleksional, sehingga kembali kata-kata ke
bentuk kamus mereka. Ia memeriksa untuk memastikan bahwa hal-hal yang
dilakukan dengan benar dengan menganalisis jika kata-kata permintaan digunakan
sebagai kata kerja atau kata benda. Lemmatization juga membantu untuk
mencocokkan sinonim dengan menggunakan tesaurus sehingga ketika salah satu
mencari “hot” kata “hangat” cocok juga. Dalam cahaya yang sama pencarian untuk
“mobil” akan menghasilkan “mobil” serta “mobil” Teknik lemmatization .suatu telah
digunakan dalam beberapa bahasa untuk informasi retrieval. misalnya,
Ozturkmenoglu dan Alpkocak dibandingkan tiga lemmatizers yang berbeda untuk
mengambil informasi tentang hasil collection.Their Turki menunjukkan bahwa
lemmatization memang meningkatkan kinerja pengambilan memanfaatkan hanya
sejumlah minimum istilah dalam sistem. Selain itu, mereka juga menemukan bahwa
kinerja pencarian informasi lebih baik ketika panjang maksimum lemmas digunakan.
14
Pada tahun 2012, Gupta et al. gabungan yang berasal dan lemmatization parsial dan
diuji model mereka pada bahasa Hindi. Model mereka menghasilkan perbaikan yang
signifikan dibandingkan dengan pendekatan tradisional
Ruang Lingkup
Ruang lingkup yang dibahas pada penelitian ini terdiri dari arsitektur sistem,
identifikasi masalah, batasan masalah, partisipan dan analisis sistem.
a. Arsitektur Sistem
Arsitektur sistem dalam penelitian ini dimulai dari input kata dalam bentuk
bahasa tetun. Input kata bahasa tetun akan di masukkan dalam proses filtering dengan
memberikan imbuhan Ha-, Ma-, Mak-, Na-, Nak-, dan Se-,. untuk kemudian
dilakukan pengecekan kata agar menghasilkan output stemming. Adapun untuk lebih
detailnya arsitektur sistem dapat dilihat pada gambar berikut dibawah ini.
15
Input Kata
Proses filtering
Tidak
Proses
filtering
Ya
Hapus akhiran
Pengecekan kata
Output Stemming
b. Identifikasi Masalah
Berdasarkan latar belakang masalah yang telah diuraikan diatas, dapat
diidentifikasi beberapa masalah sebagai berikut :
1) Bagaimana proses stemming untuk kata pada bahasa tetun dengan
menggunakan algoritma porter stemmer?
2) Bagaimana akurasi porter stemmer untuk stemming pada kata bahasa tetun?
c. Batasan Masalah
1) Model pemrograman yang digunakan dengan menggunakan stemming.
2) Bahasa yang digunakan adalah bahasa tetun dari Timor Leste.
d. Partisipan
Partisipan dari penelitian ini adalah pengguna bahasa tetun yang berasal
dari Timor Leste.
e. Analisis Sistem
Analisis sistem dalam penelitian ini dimulai dari proses stemming yang
terdiri dari proses tokenizing, filtering dan stemming. Setelah proses stemming
selesai kemudian input dan output bahasa tetun.
a) Proses Tokenizing
Proses tokenizing merupakan tahap pemotongan string input berdasarkan
tiap kata yang menyusunnya. Proses ini menghasilkan kata –kata yang
berdiri sendiri.
.
16
b) Proses Filtering
Proses filtering merupakan proses mengambil kata-kata penting
yang terdapat dari hasil tokenizing. Untuk melakukan filtering bisa
menggunakan stoplist atau word list. Data hasil tokenizing akan
dibandingkan dengan kamus. Jika tidak terdapat terdapat dalam kamus
maka kata tersebut akan dihapus. Kata-kata yang tersisa merupakan kata
yang dianggap penting. Untuk lebih jelasnya tahapan proses filtering
adalah sebagai berikut:
Kata hasil proses tokenizing dibandingkan dengan tabel stopword.
Jika data hasil tokenizing sama dengan kata di tabel stopword maka akan
dihapus.
Jika tidak sama dengan tabel stopword maka kata tersebut akan
disimpan.
17
Na
Se
5. Aturan Reduplikasi
Aturan Reduplikasi ada dua yaitu Reduplikasi sama arti dan Reduplikasi
beda arti sebagai berikut:
A. Reduplikasi sama arti
Bo’ot-bo’ot
Bo’ot = besar
Bo’ot-bo’ot = besar-besar
Funan-funan
Funan = bunga
Funan-funan = bunga-bunga
Barak-barak
Barak = banyak
Barak-barak = banyak-banyak
Idak-idak
Idak = satu
Idak-idak = satu-satu
Livru-livru
Livru = buku
Livru-livru = buku-buku
A. Reduplikasi beda arti
Hotu-hotu
Hotu = habis
Hotu-hotu = semuanya
18
Fila-fila
Fila = balik
Fila-fila = berkali kali
Oin-oin
Oin = muka
Oin-oin = macam-macam
Ikus-ikus
Ikus = berikut
Ikus-ikus = akhir-akhir
Liu-liu
Liu = lewat
Liu-liu = diutamakan.
19
g. Input dan Output Bahasa Tetun
Input dan output pada bahasa tetun dapat dilihat pada pembentuk kata sebagai
berikut ini.
Tabel 8. Pembentukan Kata
No Input Output
1 Didiak diak
2 Foufoun foun
3 Hamanas manas
4 Hamaluk maluk
5 Mahalok halok
6 Mahein hein
7 Maksalak salak
8 Maksoin soin
9 Nakurut kurut
10 Naroman roman
11 Naklees lees
12 Naksobu sobu
13 Pesca-dor pesca
14 Hamnasador hamnasa
15 Bosokten bosok
16 Lohiten Lohi
17 Mahusuk husuk
18 Bo’ot-bo’ot bo’ot
19 Funan-funan funan
20 Hotu-hotu hotu
21 Fila-fila fila
Tabel diatas menunjukkan masing-masing kata yaitu kata awalan, kata awalan
dan akhiran, kata akhiran, kata sisipan, reduplikasi yang arti sama dan reduplikasi yang
beda artinya.
Metode Penelitian
Dalam Penyusunan Tesis ini didasarkan pada masalah yang bersifat aplikatif,
yaitu perencanaan dan perealisasian system agar dapat menampilkan urutan kerja sesuai
dengan yang direncanakan dengan mengacu pada perumusan masalah.
Analisis metode menjelaskan tentang bagaimana stemming itu terjadi dan
menjelaskan tentang tahap-tahap yang dilakukan untuk melakukan proses stemming.
Secara umum sistem ini terdiri dari beberapa proses, proses-proses tersebut adalah
sebagai berikut:
a. Proses Tokenizing
b. Proses Filtering
c. Proses Stemming
20
Pengujian dimulai dari input kata yang akan diproses dalam bentuk prefiks,
komfiks, sufiks. Ada beberapa kata awalan yang menjadi input dengan memberikan
awalan tambahan seperti Ha-+, Ma-+, Mak-+, Na-+, Nak-+, Se-+,.
Contoh:
Ha + manas = hamanas
Ma + halo = mahalo
Mak + soin = maksoin
Na + kurut = nakurut
Nak + lees = naklees
Se + karik = sekarik
Kata-kata yang di input ditambahkan dengan imbuhan dan akhiran kemudian
diproses filtering. Hasil filtering akan diproses menjadi output stemming.
Uji Coba
File yang akan di uji adalah file Prefiks text, file Komfiks text, file Sufik text, dan
file campuran text conto seperti berikut:
1) File Awalan (Prefiks text) yaitu Ha-, Ma-, Mak-, Na-, Nak-, Se-, dan jumlah
kustanya = 221
2) File Awalan dan akhira (komfiks text) contoh seperti berikut:
A, Da, Ma mak, Na, Nak, dan jumlah kustanya = 10
3) File Akhiran (Sufiks text) ada 2 seperti berikut
Dor, -Ten dan jumlah kustanya = 22
4) File Duplikasi ada dua bagian yaitu Reduplikasi arti beda dan Reduplikasi arti yang
sama dan jumlahjumlah kustanya = 22
5) File Sisipan (Infiks text) seperti berikut:
Da, Ka, Hak, Na, Jur, dan jumlah kustanya = 22
6) File Text campuran jumlah kustanya = 214
Jadwal Penelitian
Tabel 8. Jadwal Penelitian
Bulan
No. Kegiatan
Oktober Nop Des Jan Peb Maret
1. Studi Literatur
2. Analisa
3. Implementasi
4. Pengujian
5. Dokumentasi
Daftar Pustaka
[1]. Ali, N. H., & Ibrahim, N. S. (2012). Porter Stemming Algorithm for Semantic
Checking. Proceedings of International Conference on Computer and Information
Technology (ICCIT) 2012, (hal. 253-258).
[2]. Baeza-Yates, R., & Ribeiro-Neto, B. (1999). Modern Information Retrieval. New
York: ACM Press.
[3]. Fachrurrozi, M., Yusliani, N., & Yoanita, R. U. (2013). Frequent Term Based
Text Summarization for Bahasa Indonesia. International Conference on
21
Innovation in Engineering and Technology (ICIET 2013) Dec. 25-26, (hal. 30-
32). Bangkok (Thailand).
[4]. Gupta, V. (2014) . Suffix Stripping Based Verb Stemming for Hindi. International
Journal of Advanced Research in Computer Science and Software Engineering
Volume 4, Issue 1, January , 179.
[5]. Husni, M., & Zaman, B. (2005). Perangkat lunak Peringkas Dokumen Berbahasa
Indonesia dengan Hybrid Stemming. Surabaya: Teknik Informatika Fakultas
Teknologi Informasi, Institut Teknologi Sepuluh Nopember.
[6]. Alkula, R. Dari string karakter polos sampai kata-kata bermakna: Memproduksi
database teks lengkap yang lebih baik untuk bahasa infleksi dan peracikan dengan
perangkat lunak analisis morfologi. Retrieval Informasi, 4, (2001), 195-208.
[7]. Krovetz, R. Melihat morfologi sebagai proses inferensi. Dalam Prosiding
Konferensi InternasionalACM / SIGIR Internasional keenam belas tentang
Penelitian dan Pengembangan dalam Retrieval Informasi (SIGIR'03) (Pittsburg,
PA, 27 Juni - 1 Juli 1993). ACM Press, New York, NY, 1993, 191-202.
[8]. Nilsson, M. Pengelompokan hirarkis dengan menggunakan perintah pemisahan
yang tidak serakah. Retrieval Informasi, 5, 4 (2002), 311-321.
[9]. Popovic, M., dan Willett, P. Efektivitas stemming untuk aksebahasa alami ke data
teks Slovenia. Jurnal American Society for Information Science, 43, 1 (1992),
384-390.
[10]. Savoy, J. Sebuah prosedur stemming dan daftar stopword untuk corpora Prancis
umum. Jurnal Masyarakat Amerika untuk Ilmu Informasi, 50, 10 (1999), 944-952.
[11]. Kalamboukis, T. Z. Akhiran melucuti dengan bahasa Yunanimodern. Program,
29, 3 (1995), 313-321.
[12]. Abu-Salem, H., Al-Omari, M., dan Evens, M. W. Menyusun metodologi
mengenai kata-kata kueri individual untuk sistem pencarian informasi bahasa
Arab. Jurnal Masyarakat Amerika untuk Ilmu Informasi, 50, 6 (1999), 524-529.
[13]. Rosell, M., Meningkatkan pengelompokan artikel surat kabar Swedia dengan
menggunakan stemming dan compound splitting. Konferensi Nordik ke 14 di
Indonesia.
22