Proposal Tesis

PROPOSAL TESIS
STEMMING BAHASA TETUN
Anita Guterres
215210470
PROGRAM PASCASARJANA
MAGISTER TEKNOLOGI INFORMASI
SEKOLAH TINGGI TEKNIK SURABAYA
2018
STEMMING BAHASA TETUN
Judul : Stemming Bahasa Tetun
Nama : Anita Guterres
NRP : 215210470
Jurusan/Prodi : Magister Teknologi Informasi
Dosen Pembimbing : Dr. Ir. Gunawan, M.Kom
Jenis Tesis : Kontribusi Pemanfaatan
Latar Belakang
Stemming berperan dinamis dalam sistem pencarian informasi dan efeknya
sangat besar, berkaitan dengan analisis bahwa pada berbagai algoritma berasal. Bahasa
Tetun merupakan anak cabang dari bahasa Austronesia, dengan penutur utama di
wilayah Timor. Di Timor Leste, bahasa ini merupakan bahasa resmi, selain bahasa
Portugis. Di bawah Konstitusi negara, bahasa Indonesia dan Inggris merupakan bahasa-
bahasa kerja. Bagi mereka, bahasa Tetun berfungsi sebagai bahasa pemersatu dan
antarsuku, seperti layaknya bahasa Indonesia.
Bahasa Tetun yang berkembang di Timor Leste mengalami proses percampuran
dengan bahasa Portugis, sehingga banyak sekali ditemukan kata pinjaman dalam bahasa
tersebut. Bahasa ini kerap disebut “Tetun Dili” karena bermula dari kota Dili.
Bahasa Tetun di wilayah Indonesia cukup berbeda karena hanya sedikit
terpengaruh Portugis dan justru banyak menyerap kata Indonesia dan Belanda. Bahasa
inilah yang dianggap sebagai bentuk asli bahasa Tetun, yang sering disebut "Tetun
Terik". Dituturkan di Kabupaten Belu, Nusa Tenggara Timur, bahasa ini hanya
digunakan sebagai bahasa sehari-hari, sedangkan untuk urusan-urusan lainnya utamanya
resmi digunakan bahasa Indonesia.
Algoritma-algoritma stemming memiliki kelebihan dan kekurangannya masing-
masing. Efektifitas algoritma stemming dapat diukur berdasarkan beberapa parameter,
seperti kecepatan proses, keakuratan, dan kesalahan [1]. Secara umum, stemming dapat
dilakukan dengan dua cara, yakni manual dan otomatis. Cara otomatis dapat dilakukan
dengan berbagai pendekatan, di antaranya metode affix removal yang digunakan dalam
Porter stemmer [3].
Porter stemmer merupakan algoritma stemming dikembangkan oleh Martin
Porter di Universitas Cambridge pada tahun 1980 yang diterapkan pada bahasa Inggris.
Metode yang digunakan dalam melakukan stemming dengan memanfaatkan morfologi
kata pada bahasa Inggris. Dalam hal ini imbuhan berupa akhiran (sufiks). Cara ini cukup
efektif karena tidak tergantung terhadap kamus kata dasar, dan proses stemming dapat
dilakukan lebih cepat [4].
Agar bahasa tetun yang berasal dari Timor Leste mudah dipelajari dan dipahami
seseorang maka diperlukan kajian algoritma stemming. Berdasarkan latar belakang di
atas, peneliti ingin melakukan penelitian dengan judul “Stemming Bahasa Tetun”.
1
Tujuan Penilitian
Untuk menyediakan fasilitas stemming bahasa tetun yan berasal dari Timor
Leste.
Hipotesis dan Target Keberhasilan.

Algoritma Stemming Porter Bahasa Tetun akan memudahkan seseorang untuk
belajar menggunakan bahasa tetun yang berasal dari Timor Leste dalam bentuk prefiks,
komfiks, sufiks dengan kata awalan tambahan seperti Ha+, Ma+, Mak+, Na+, Nak+,
Se+ dengan tingkat akurasi sebesar 80%.
Tinjauan Pustaka
a. Tinjauan Teoritis
1) Stemming
Stemming merupakan suatu proses untuk menemukan kata dasar dari sebuah
kata dengan menghilangkan semua imbuhan (affixes) baik yang terdiri dari awalan
(prefixes), sisipan (infixes), akhiran (suffixes) dan confixes (kombinasi dari awalan
dan akhiran) pada kata turunan. Stemming adalah tools dasar pemprosesan teks
yang digunakan untuk efisien dan efektif teks retrieval (Frakes, 1992), mesin
penterjemah (Bakar dan Rahman, 2003), meringkas dokuman (Orasan et al., 2004)
dan klasifikasi teks (Gaustad ang Bouma, 2002). Berdasarkan asumsi bahwa term
yang memiliki akar kata yang sama akan selalu memiliki makna yang sama,
stemming digunakan pada information retrieval untuk meningkatkan keakuratan
retrieval (perolehan informasi). Selain untuk meningkatkan keakuratan retrieval,
stemming yang dilakukan pada proses indexing juga akan mengurangi ukuran dari
index file.
Stemming merupakan suatu proses yang terdapat dalam sistem yang
mentransformasikan kata-kata yang terdapat dalam suatu dokumen ke kata-kata
akarnya (root word) dengan menggunakan aturan-aturan tertentu. Sebagai contoh,
kata bersama, kebersamaan, menyamai, akan distem ke root wordnya yaitu “sama”
(Septiawan, 2010).
Terdapat 5 aturan tahapan pada proses stemming menggunakan Porter
Stemmer (Tala, 2003), yaitu sebagai berikut:
a) Penanganan terhadap partikel infleksional, yaitu : lah, tah, kah. Contoh:
pergilah, berlarilah.
b) Penanganan terhadap kata ganti infleksional, yaitu : ku, mu, dan nya.
Contoh: punyaku, miliknya.
c) Penanganan terhadap prefiks derivasional pertama, yaitu meng dan semua
variasinya, peng, dan semua variasinya, di, ter, dan ke. Contoh: mengubur,
pengukur, terlambat.
d) Penanganan terhadap prefiks derivasional kedua, yaitu: ber dan semua
variasinya, per dan semua variasinya. Contoh: berlatih, belajar, perkata
e) Penanganan terhadap surfiks derivasional yaitu kan, an, dan i. Contoh:
ambilkan, janjian, dan dekati.
2
2) Bahasa Tetun
Bahasa Tetun merupakan anak cabang dari bahasa Austronesia, dengan
penutur utama di wilayah Timor. Di Timor Leste, bahasa ini merupakan bahasa
resmi, selain bahasa Portugis. Di bawah Konstitusi negara, bahasa Indonesia dan
Inggris merupakan bahasa-bahasa kerja. Bagi mereka, bahasa Tetun berfungsi
sebagai bahasa pemersatu dan antarsuku, seperti layaknya bahasa Indonesia.
Bahasa Tetun yang berkembang di Timor Leste mengalami proses
percampuran dengan bahasa Portugis, sehingga banyak sekali ditemukan kata
pinjaman dalam bahasa tersebut. Bahasa ini kerap disebut "Tetun Dili" karena
bermula dari kota Dili.
Bahasa Tetun di wilayah Indonesia cukup berbeda karena hanya sedikit
terpengaruh Portugis dan justru banyak menyerap kata Indonesia dan Belanda.
Bahasa inilah yang dianggap sebagai bentuk asli bahasa Tetun, yang sering disebut
"Tetun Terik". Dituturkan di Kabupaten Belu, Nusa Tenggara Timur, bahasa ini
hanya digunakan sebagai bahasa sehari-hari, sedangkan untuk urusan-urusan
lainnya utamanya resmi digunakan bahasa Indonesia.
b. Tinjauan Empiris
Dalam penelitian ini ada 4 jurnal dan tinjauan pustaka yang dipakai sebagai referensi.
1. Judul Jurnal : A Literature Review: Stemming Algorithms for Indian
Languages
Penulis : M. Thangarasu dan Dr. R. Manavalan
Tempat penelitian : Jurusan Ilmu Komputer dan Aplikasi Universitas Seni
Rupa dan Sains KSRangasamy
Tujuan dari penelitian : Algoritma stemming dalam data mining dan juga
menyajikan beberapa solusi untuk berbagai algoritma
stemming bahasa India.
Tahun : 2013
Partisipan : Natural Language Processing (NLP) India.
a) Stemming
Stemming merupakan suatu proses untuk menemukan kata dasar dari sebuah
kata dengan menghilangkan semua imbuhan (affixes) baik yang terdiri dari awalan
(prefixes), sisipan (infixes), akhiran (suffixes) dan confixes (kombinasi dari awalan
dan akhiran) pada kata turunan. Stemming adalah tools dasar pemprosesan teks yang
digunakan untuk efisien dan efektif teks retrieval (Frakes, 1992). Alkula, R.
mengajukan karakter polos ke kata-kata bermakna [1] pada tahun 2001. Penelitian ini
memproyeksikan proses inferensi yang digunakan pada IRS. Pada tahun 2002
Nilsson memperkenalkan pengelompokan hierarkis dengan menggunakan non-
serakah arah utama partisi yang memecah belah untuk algoritma partisi diterapkan
pada jumlah cluster dan didasarkan pada prinsipal yang tidak serakah. Popovic M
dan Willet.P mempresentasikan keefektifan stemming untuk akses bahasa alami ke
data tekstual Slovenia pada tahun 1992.
Pada tahun 1995 Kalamboukis.T.Z mengembangkan akhiran stripping dengan
bahasa Yunani Modern. Dalam penelitian ini kata-kata bahasa Yunani ditumbuhkan
dengan algoritma. Pada tahun 1999, Abu-Salem, H., Al-Omari, M., dan Evens, M.W.
menerapkan metodologi Stemming atas kata-kata kueri individual untuk sistem
3
pencarian informasi bahasa Arab. Pada tahun 2003 Rosell.M mengembangkan
peningkatan pengelompokan artikel surat kabar Swedia dengan menggunakan
stemming dan compound splitting.
b) Stemmer Untuk Bahasa India
Pada tahun 2010, Dinesh Kumar dan Pangeran Rana mengembangkan desain
dan pengembangan stemmer untuk Punjabi, menggunakan algoritma Brute Force
untuk membendung kata Punjabi. Pada tahun 2001, Shambhavi dkk.
Memperkenalkan penganalisis morfologi Kannada dan generator dan menggunakan
ban. Batangmer ringan untuk bahasa Hindi dikembangkan oleh Ramanathan dkk.
Pada tahun 2004. Dalam penelitian ini, kata-kata menguraikan istilah dengan akhiran
penghapusan untuk pencarian informasi. Willet. P mengusulkan algoritma stemming
stemer untuk perpustakaan elektronik dan sistem informasi pada tahun 2006.
Zahurul. MD dan lainnya. Mengembangkan stemmer ringan untuk bahasa Bengali
pada tahun 2009 untuk pemeriksa ejaan bahasa Bengali. Assas-band, daftar affix-
exception berbasis Urdu stemmer dikembangkan oleh Qurat-Ul-Ain Akram dan
lainnya.
Table 1. Discovering Suffix a Study For Marathi language
4
Pada tahun 2009. Ini berasal dari kata-kata bahasa Urdu yang menggunakan
metode pencarian leksikal (Assas-band). Pada tahun 2010, Dinesh Kumar dan Prince
Rana mengembangkan desain dan pengembangan stemmer untuk Punjabi,
menggunakan algoritma Brute Force untuk membendung kata-kata Punjabi.
Tipologi morfologi bahasa untuk pencarian informasi ditemukan oleh
Pirkola.A. Dalam penelitian ini, IRS mengambil informasi berdasarkan tipologi
morfologi. Pada tahun 1996, Hull.D mengembangkan studi kasus algoritma
stemming untuk evaluasi terperinci untuk mengevaluasi kinerjanya.
Diusulkan oleh Mudassar et al. Untuk menemukan kata Marathi tersembunyi
di Knowledge Discovery Database (KDD). Entitas yang diberi nama dalam bahasa
Telugu menggunakan fitur yang bergantung pada bahasa dan pendekatan berbasis
aturan dikembangkan oleh Sridhar.B et al. Di tahun 2011. Model yang diusulkan
menggunakan Named Entity Recognition (NER) untuk membendung kata-kata
Telugu. Juhi Ameta dkk. Memperkenalkan stemmer ringan untuk Gujarati di tahun
2012. Dalam model yang diusulkan ini, algoritma stemmer ringan untuk batang kata-
kata Gujarati. MAULIK: Batangmer yang efisien untuk orang Hindi.
Bahasa dikembangkan oleh Upendra Mishra dan lainnya. Algoritma
MAULIK digunakan untuk membendung kata-kata Hindi. Pada tahun 2012 sebuah
stemmer iteratif untuk Bahasa Tamil diusulkan oleh Vivekanandan Ramachandran
dkk. Dalam model yang diusulkan ini, algoritma penanda akhiran akhiran digunakan
untuk membendung kata-kata Tamil ke akar kata-katanya.
c) Point Utama Paper ini

Stemming berpengaruh terhadap sistem pencarian informasi dibandingkan dengan
hasil review berbagai macam algoritma stemming. Dalam penelitian ini algoritma
stemming sangat efektif dalam penggunaan bahasa India. Dalam model yang
diusulkan ini, algoritma menghasilkan akhiran yang digunakan untuk membentuk
kata baru.
2. Judul : Perbandingan Algoritma Stemming Porter Dengan
Algoritma Nazief & Adriani Untuk Stemming
Dokumen Teks Bahasa Indonesia
Penulis : Ledy Agusta
Tempat penelitian : Fakultas Teknologi Informasi Universitas Kristen Satya
Wacana
Tujuan dari penelitian : Evaluasi efektivitas dan efisiensi algoritma dilakukan
dengan cara menghitung Waktu proses pembuatan dan
presisi.
Tahun : 2009
Partisipan : Porter dan Nazief & Adriani 30 teks bahasa Indonesia.
a) Stemming
Stemming merupakan suatu proses yang terdapat dalam sistem IR yang
mentransformasi kata-kata yang terdapat dalam suatu dokumen ke kata-kata akarnya
(root word) dengan menggunakan aturan-aturan tertentu. Sebagai contoh, kata
bersama, kebersamaan, menyamai, akan distem ke root wordnya yaitu “sama”.
5
Proses stemming pada teks berBahasa Indonesia berbeda dengan stemming pada teks
berbahasa Inggris. Pada teks berbahasa Inggris, proses yang diperlukan hanya proses
menghilangkan sufiks. Sedangkan pada teks berbahasa Indonesia, selain sufiks,
prefiks, dan konfiks juga dihilangkan.
Algoritma yang dibuat oleh Bobby Nazief dan Mirna Adriani ini memiliki
tahap-tahap sebagai berikut:
1. Cari kata yang akan distem dalam kamus. Jika ditemukan maka diasumsikan
bahwa kata tesebut adalah root word. Maka algoritma berhenti.
2. Inflection Suffixes (“-lah”, “-kah”, “-ku”, “-mu”, atau “-nya”) dibuang. Jika
berupa particles (“-lah”, “-kah”, “-tah” atau “-pun”) maka langkah ini
diulangi lagi untuk menghapus Possesive Pronouns (“-ku”, “-mu”, atau “-
nya”), jika ada.
3. Hapus Derivation Suffixes (“-i”, “-an” atau “-kan”). Jika kata ditemukan di
kamus, maka algoritma berhenti. Jika tidak maka ke langkah 3a
a. Jika “-an” telah dihapus dan huruf terakhir dari kata tersebut adalah “-k”,
maka “-k” juga ikut dihapus. Jika kata tersebut ditemukan dalam kamus
maka algoritma berhenti. Jika tidak ditemukan maka lakukan langkah 3b.
b. Akhiran yang dihapus (“-i”, “-an” atau “-kan”) dikembalikan, lanjut ke
langkah 4.
4. Hapus Derivation Prefix. Jika pada langkah 3 ada sufiks yang dihapus maka
pergi ke langkah 4a, jika tidak pergi ke langkah 4b.
a. Periksa tabel kombinasi awalan-akhiran yang tidak diijinkan. Jika
ditemukan maka algoritma berhenti, jika tidak pergi ke langkah 4b.
b. For i = 1 to 3, tentukan tipe awalan kemudian hapus awalan. Jika root
word belum juga ditemukan lakukan langkah 5, jika sudah maka
algoritma berhenti. Catatan: jika awalan kedua sama dengan awalan
pertama algoritma berhenti.
5. Melakukan Recoding.
6. Jika semua langkah telah selesai tetapi tidak juga berhasil maka kata awal
diasumsikan sebagai root word. Proses selesai.
Tipe awalan ditentukan melalui langkah-langkah berikut:
1. Jika awalannya adalah: “di-”, “ke-”, atau “se-” maka tipe awalannya secara
berturut-turut adalah “di-”, “ke-”, atau “se-”.
2. Jika awalannya adalah “te-”, “me-”, “be-”, atau “pe-” maka dibutuhkan
sebuah proses tambahan untuk menentukan tipe awalannya.
3. Jika dua karakter pertama bukan “di-”, “ke-”, “se-”, “te-”, “be-”, “me-”, atau
“pe-” maka berhenti.
4. Jika tipe awalan adalah “none” maka berhenti. Jika tipe awalan adalah bukan
“none” maka awalan dapat dilihat pada Tabel 2. Hapus awalan jika
ditemukan.
6
Tabel 1. Kombinasi Awalan Akhiran Yang Tidak Diijinkan
Awalan Akhiran yang tidak diijinkan
be- -i
di- -an
ke- -i, -kan
me- -an
se- -i, -kan
Agar hasil lebih akurat pada proses stemming maka kombinasi awalan
akhiran yang tidak iijinkan sebaiknya dihindari, karena dalam bahasa Tetun tidak
mengenal kombinasi awalan dan akhiran seperti yang terlihat pada tabel 1.
Tabel 2. Cara Menentukan Tipe Awalan Untuk Kata Yang Diawali Dengan “te-”
Awalan Akhiran yang tidak diijinkan
be- -i
di- -an
ke- -i, -kan
me- -an
se- -i, -kan
Untuk menentukan kata awalan dan akhiran yang tepat pada proses stemming
dapat menggunakan kata yang diawali dengan “te-“. Hal ini digunakan untuk
memperoleh hasil akurasi yang tepat pada proses stemming.
Tabel 3. Jenis Awalan Berdasarkan Tipe Awalannya

Tipe Awalan Awalan yang harus dihapus
di- di-
ke- ke-
se- se-
te- te-
ter- ter-
ter-luluh ter
Untuk mengatasi keterbatasan pada algoritma di atas, maka ditambahkan

aturan-aturan dibawah ini:
1. Aturan untuk reduplikasi.
- Jika kedua kata yang dihubungkan oleh kata penghubung adalah kata yang
sama maka root word adalah bentuk tunggalnya, contoh : “buku-buku” root
word-nya adalah “buku”.
- Kata lain, misalnya “bolak-balik”, “berbalas-balasan, dan ”seolah-olah”.
Untuk mendapatkan root word-nya, kedua kata diartikan secara terpisah.
Jika keduanya memiliki root word yang sama maka diubah menjadi bentuk
tunggal, contoh: kata “berbalas-balasan”, “berbalas” dan “balasan” memiliki
root word yang sama yaitu “balas”, maka root word “berbalas-balasan”
adalah “balas”. Sebaliknya, pada kata “bolak-balik”, “bolak” dan “balik”
memiliki root word yang berbeda, maka root word-nya adalah “bolak-balik”
7
2. Tambahan bentuk awalan dan akhiran serta aturannya.
 Untuk tipe awalan “mem-“, kata yang diawali dengan awalan “memp-”
memiliki tipe awalan “mem-”.
 Tipe awalan “meng-“, kata yang diawali dengan awalan “mengk-”
memiliki tipe awalan “meng-”.
Terdapat 5 kelompok aturan pada Algoritma Porter untuk Bahasa Indonesia
ini. Aturan tersebut dapat dilihat pada Tabel 4 sampai Tabel 8.
Tabel 4. Aturan Untuk Inflectional Particle
Akhiran Replacement Measure Additional Condition Contoh
Condition
-kah NULL 2 NULL Bukukah
-lah NULL 2 NULL Pergilah
-pun NULL 2 NULL Bukupun
Tabel 5. Aturan Untuk Inflectional Possesive Pronoun

Akhiran Replacement Measure Additional Condition Contoh
Condition
-ku NULL 2 NULL Bukuku
-mu NULL 2 NULL Bukumu
-nya NULL 2 NULL Bukunya
Proses stemming menggunakan Algoritma Porter dapat dilihat pada Gambar

berikut.
Gambar 1. Algoritma Porter
8
b) Hasil
Uji Coba algoritma dilakukan pada 30 dokumen teks Bahasa Indonesia dengan
ukuran dokumen yang bervariasi. Hasil uji coba dokumen teks yang dilakukan pada
30 dokumen teks pada algoritma porter dengan presisi sebesar 89,7% dan algoritma
Nazief & Adriani sebesar 95,9%.
Tabel 5. Tabel Waktu Proses dan Presisi Pada 30 Dokumen Teks
Jumlah Algoritma Porter Algoritma Nazief & Adriani

No. Dokumen Teks
kata Waktu Proses (det) Presisi (%) Waktu Proses (det) Presisi (%)
1. Paper Fungsi.txt 1854 1,518 89,7 86,264 95,9

2. Keyboard.txt 43 0,048 83,7 1,953 93
3. Makan.txt 9 0 88,9 0,352 100
4. Coba.txt 20 0,041 89,5 1,267 98
5. Abstrak.txt 104 0,05 80,8 4,246 87,5
6. Bab2.t xt 1161 0,74 85,7 44,776 91,2
7. Bab1.txt 780 0,502 83,5 27,558 93,7
8. Kesimpulan & Saran.txt 352 0,23 81,8 12,848 91,8
9. Kuesioner.txt 193 0,129 89,6 8,891 93,3
10. Daftar Isi.txt 470 0,209 30,2 22,002 30,4
11. Etika di Milis1.txt 1428 0,602 82,2 62,418 89,8
12. Guidelines Perancangan.txt 2548 1,752 18 89,58 19
13. Penelitian.txt 205 1,141 57,1 8,133 59,5
14. PR.txt 319 0,209 35,1 13,797 97,8
15. Mbah Soyo.txt 651 0,507 88,6 25,492 98,2
16. Proses.txt 86 0,101 81,4 2,961 96,5
17. Reduplikasi.txt 47 0,039 78,7 2,203 95,7
18. Tata Tertib Sidang.txt 172 0,125 12,2 5,008 98,3
19. Hacker.txt 69 0,132 8,7 2,203 10,1
20. Kuesioner2.txt 147 0,132 27,2 6,914 27,9
21. Algoritma.txt 684 0,13 92,6 1,391 96,3
22. Etika Di Milis2.txt 677 0,275 85,4 29,406 95,7
23. Etika di Milis3.txt 784 0,515 38,4 29,156 93,3
24. Feedback.txt 73 0,471 90,4 2,443 98,6
25. Mamas.txt 161 0,16 81,4 6,592 97,5
26. Mailing List.txt 27 0,13 92,6 1,391 96,3
27. Masih Ada.txt 1439 0,945 87,1 54,093 94,8
28. Surat Peminjaman.txt 53 0,039 86,8 1,781 90,6
29. Tata Tertib Milis.txt 118 0,169 83,9 4,957 97,5
30. Optical Storage.txt 28 0,059 85,7 1,553 100
9
c) Point Utama Paper ini
Berdasarkan perancangan dan implementasi program diketahui bahwa proses
stemming dokumen teks berbahasa Indonesia menggunakan Algoritma Porter
membutuhkan waktu yang lebih singkat dibandingkan dengan stemming
menggunakan Algoritma Nazief & Adriani. Kamus yang digunakan mempengaruhi
perhitungan presisi. Semakin lengkap kamus yang digunakan maka semakin akurat
pula nilai presisinya.
3. Judul : Modifikasi Algoritma Porter Untuk Stemming Pada

Kata Bahasa Indonesia
Penulis : Badrus Zaman
Tempat penelitian : Program Studi Sistem Informasi, Fakultas Sains dan
Teknologi, Universitas Airlangga
Tujuan dari penelitian : Mengembangkan Porter stemmer yang dimodifikasi untuk
stemming kata pada bahasa Indonesia
Tahun : 2014
Partisipan : 50 dokumen berita online berbahasa Indonesia yang
didapatkan dari web portal berita online
d) Stemming
Stemming pada dasarnya adalah proses pemetaan dari penguraian berbagai
bentuk kata baik itu prefix, sufix, maupun gabungan antara prefix dan sufix (confix),
menjadi bentuk kata dasarnya (stem) (Baeza-Yates dan Ribeiro-Neto, 1999), (Gupta,
2014). Secara umum, stemming dapat dilakukan dengan 2 cara, yakni manual dan
otomatis. Cara otomatis dapat dilakukan dengan berbagai pendekatan, yakni affix
removal, successor, table dan N-gram. Sedangkan metode affix removal terbagi
menjadi 2, yakni longest match dan simple removal. Diagram pembagian dari teknik
stemming ditunjukkan pada Gambar 1 (Husni dan Zaman, 2005). Proses stemming
dilakukan dengan menghilangkan semua imbuhan (affixes) baik yang terdiri dari
awalan (prefixes), sisipan (infixes), akhiran (suffixes) dan confixes (kombinasi dari
awalan dan akhiran) untuk mendapatkan kata dasar.
e) Morfologi Bahasa Indonesia

Ramlan (1997) mendefinisikan morfologi adalah bagian dari ilmu bahasa
yang membicarakan atau yang mempelajari tentang seluk-beluk bentuk kata serta
pengaruh perubahan-perubahan bentuk kata terhadap golongan dan arti kata.
Morfologi dalam bahasa Indonesia terdiri dari dari struktur infleksional dan
derivasional (Tala, 2003). Berikut ini adalah penjelasan mengenai morfologi pada
bahasa Indonesia (Tala, 2003).
Infleksional
Infleksional adalah struktur sederhana yang diikuti oleh imbuhan yang tidak
mempengaruhi kata dasar. Struktur ini dibagi menjadi 2, yaitu sufiks partikel dan
kata ganti. Partikel berfungsi untuk memberikan penekanan pada kata. Macam-
macam dari partikel adalah –lah, -kah, -tah, -pun. Partikel ditulis serangkai dengan
10
kata yang mendahuluinya, kecuali partikel –pun yang ditulis terpisah. Kata ganti
terdiri dari –ku. –mu, dan –nya. Akhiran –ku sebagai kata ganti ia, -mu sebagai kata
kanti kamu, dan –nya sebagai kata ganti ia.
Tiap sufiks pada kelompok partikel dan kata ganti mungkin saja terjadi pada
kata yang sama. Bila hal ini terjadi, maka harus mengikuti aturan sufiks pada kata
ganti mendahului partikel. Sehingga struktur penulisan infleksional dapat
disimpulkan seperti pada Gambar 2.
Infleksional = (kata dasar + kata ganti) |

(kata dasar + partikel) |
(kata dasar + kata ganti + partikel)
Gambar 2. Struktur morfologi kata infleksional pada Bahasa Indonesia
Derivasional
Derivasional adalah struktur sederhana yang diikuti imbuhan yang dapat

mempengaruhi kata dasar. Derivasional pada struktur bahasa Indonesia terdiri prefix,
suffix, dan konfix.
Prefix yang sering muncul antara lain ber-, di-, ke-, meng-, per-, dan ter-.
Beberapa prefiks seperti ber-, meng-, peng-, per-, terdapat terjadi pada beberapa
bentuk. Bentuk tersebut tergantung dari huruf pertama dari kata dasar. Pada struktur
kata derivasional terdapat proses peluluhan yaitu mengalami perubahan pengucapan,
seperti kata sapu menjadi menyapu yang terdiri dari prefiks meng-dan kata dasar
sapu.
Sufiks derivasional antara lain -i, -kan, dan –an. Penambahan pada sufiks
berbeda dengan prefiks, karena tidak pernah mengubah pengucapan pada kata
turunannya. Konfiks merupakan gabungan dari prefix dan sufiks, di mana prefiks dan
sufiks disisipkan bersama kata turunan yang baru. Namun, tidak semua kombinasi
dari prefiks dan sufiks dapat digabungkan menjadi konfiks. Ada beberapa kombinasi
dari prefiks dan sufiks yang tidak dibolehkan seperti yang ditunjukkan pada Tabel 6.
Tabel 6. Pasangan konfiks yang tidak diperbolehkan
Prefiks atau konfiks dapat ditambahkan pada kata yang sudah ditambahkan
prekfiks atau konfiks sebelumnya, sehingga akan menghasilkan struktur prefiks yang
ganda. Namun, tidak semua prefix atau konfiks dapat ditambahkan pada prefiks atau
11
konfiks tertentu untuk membentuk prefik ganda. Aturan untuk menentukan prefiks
ganda ditunjukkan pada Tabel 7.
Tabel 7. Aturan urutan untuk prefix ganda
f) Porter Stemmer
Algoritma porter berdasarkan kenyataan bahwa kebanyakan sufiks pada
bahasa Inggris merupakan kombinasi dari sufiks yang kecil dan sederhana. Tiap
langkah proses pemenggalan kata dilakukan secara serial yang mensimulasikan
proses kata infleksional dan derivasional. Pada tiap langkah, sufiks tertentu
dihilangkan dengan aturan substitusi. Aturan substitusi diterapkan ketika sejumlah
kondisi atau batasan tertentu terpenuhi. Sebagai contoh kondisi yang sederhana
antara lain panjang minimum hasil stem (jumlah urutan huruf vokal dan konsonan).
Panjang minimum ini disebut dengan hasil (measure). Kondisi sederhana lainnya
adalah stem dilakukan bila stem berakhir dengan huruf konsonan atau bila stem
terdapat huruf vocal.Bila semua kondisi pada suatu aturan sesuai, maka aturan
tersebut diterapkan. Hal ini akan berakibat pada pengurangan sufiks, kemudian
dilanjutkan pada langkah berikutnya. Jika kondisi pada suatu aturan tidak sesuai
maka dicoba kondisi untuk aturan lainnya, sehingga aturan tersebut cocok atau
aturan pada langkah tersebut tidak bisa dipakai.
g) Hasil dan Pembahasan

Berdasarkan rancangan pada pembahasan sebelumnya, maka secara umum
untuk melakukan stemming diperlukan 5 sub proses, yaitu pemenggalan partikel,
kata ganti, prefiks1, prefiks2, dan sufiks. Salah satu implementasi sistem untuk
menghapus imbuhan partikel yang ditunjukkan pada Gambar 3.
Gambar 3. Algoritma menghapus partikel
12
Sistem menerima masukan dokumen berupa teks, kemudian dengan event
klik tombol proses akan dilakukan proses stemming terhadap dokumen tersebut.
Halaman UI untuk masukan dokumen pada sistem ditunjukkan pada Gambar 4.
h) Point Utama Paper ini

Berdasarkan hasil uji coba dan evaluasi, maka diketahui bahwa proses
stemming untuk kata pada bahasa Indonesia dapat mengadopsi algoritma porter
stemmer dengan akurasi pada kata bahasa Indonesia adalah 0.66 dengan rata-rata
waktu proses tiap kata selama 0.000000160 detik. Semakin lengkap koleksi, maka
akurasi dari hasil stemming akan semakin baik.
4. Judul : Stemming and Lemmatization: A Comparison of

Retrieval Performances
Penulis : Vimala Balakrishnan and Ethel Lloyd-Yemoh
Tempat penelitian : Lecture Notes on Software Engineering
Tujuan dari penelitian : Mengembangkan Porter stemmer yang dimodifikasi untuk
stemming kata pada bahasa Indonesia
Tahun : 2014
Partisipan : Lemmatization diproduksi 104 dokumen untuk query yang
sama
a) Jaringan Kerja
Dalam model bahasa, pengguna membuat query untuk menggambarkan
informasi yang mereka butuhkan dan sistem akan memilih kata kunci dari
permintaan yang dianggap relevan. Kata kunci ini akan dicocokkan againstthe
dokumen dalam koleksi. Ketika kesamaan yang ditemukan antara query yang
diberikan dan dokumen dalam koleksi, dokumen yang diambil dan kemudian
dicocokkan dengan sisa dokumen diambil untuk tujuan peringkat. Ada dua prosedur
yang biasanya membantu untuk meningkatkan model bahasa dengan mempercepat
proses pencarian, dan ini berasal dan lemmatization.
Stemming adalah salah satu teknik yang digunakan dalam sistem pencarian
informasi untuk memastikan bahwa varian dari kata-kata tidak ditinggalkan ketika
teks yang akan diambil. Proses ini digunakan dalam menghilangkan akhiran derivatif
13
serta infleksi (yaitu akhiran yang mengubah bentuk kata-kata dan fungsi gramatikal
mereka) sehingga varian kata dapat digabungkan ke dalam akar yang sama atau
mekanisme stems.Stemming telah digunakan dalam banyak bahasa daerah penelitian
seperti Arab, lintas-bahasa pencarian dan manipulasi multi-bahasa.
Ada berbagai berasal algoritma yang telah dikembangkan untuk memastikan
bahwa kata-kata dikurangi untuk bentuk akar mereka, sehingga mengurangi ukuran
kamus dokumen. Hal ini karena salah satu akar atau batang dapat digunakan untuk
mewakili banyak varian istilah yang digunakan dalam bahasa tertentu. Meskipun
pendekatan ini membantu dalam mengambil dokumen yang lebih relevan, ada
kemungkinan baik di bawah-berasal (di mana dua kata yang termasuk dalam
kelompok konseptual yang sama dikonversi ke dua yang berbeda batang atau akar,
misalnya pencarian untuk kata “menjalankan” dokumen tidak mengandung yang
telah “berjalan” dan “berlari” di dalamnya), atau over-berasal (di mana dua kata yang
termasuk kelompok konseptual yang berbeda dikonversi ke sama batang atau akar,
misalnya ketika pencarian untuk kata “baru” termasuk hasil pencarian yang berisi
kata “berita”). Stemming teknik banyak, termasuk stemmer Paice / Husk, Porter
stemmer dan stemmer Lovin ini.
Dalam stemmer Paice / Husk, file dibuat yang memegang seperangkat aturan,
dan aturan ini dibaca oleh sebuah array yang mengimplementasikan aturan sampai
batang akhir yang dicapai. Ia menerima dan memproses aturan jika kata menentukan
sebuah ending yang cocok dengan huruf terakhir dari kata. Stemmer The Lovin ini
dikembangkan untuk menangani kedua pencarian informasi dan masalah komputasi
linguistik. The Lovins stemmer adalah single pass, konteks-sensitif algoritma yang
hanya menghilangkan satu akhiran dari kata dengan memanfaatkan daftar 250
akhiran dan menghapus akhiran terpanjang yang ia menemukan melekat pada kata
yang diberikan. Stemmer memastikan bahwa ketika sebuah kata telah berasal, itu
setidaknya tiga karakter. Stemmer The Porter digunakan dalam penelitian ini, dan
dibahas di bagian berikutnya.
b) Lemmatizer
Lemmatization di sisi lain menggunakan kosa kata dan analisis morfologi kata
dan mencoba untuk menghapus akhiran infleksional, sehingga kembali kata-kata ke
bentuk kamus mereka. Ia memeriksa untuk memastikan bahwa hal-hal yang
dilakukan dengan benar dengan menganalisis jika kata-kata permintaan digunakan
sebagai kata kerja atau kata benda. Lemmatization juga membantu untuk
mencocokkan sinonim dengan menggunakan tesaurus sehingga ketika salah satu
mencari “hot” kata “hangat” cocok juga. Dalam cahaya yang sama pencarian untuk
“mobil” akan menghasilkan “mobil” serta “mobil” Teknik lemmatization .suatu telah
digunakan dalam beberapa bahasa untuk informasi retrieval. misalnya,
Ozturkmenoglu dan Alpkocak dibandingkan tiga lemmatizers yang berbeda untuk
mengambil informasi tentang hasil collection.Their Turki menunjukkan bahwa
lemmatization memang meningkatkan kinerja pengambilan memanfaatkan hanya
sejumlah minimum istilah dalam sistem. Selain itu, mereka juga menemukan bahwa
kinerja pencarian informasi lebih baik ketika panjang maksimum lemmas digunakan.
14
Pada tahun 2012, Gupta et al. gabungan yang berasal dan lemmatization parsial dan
diuji model mereka pada bahasa Hindi. Model mereka menghasilkan perbaikan yang
signifikan dibandingkan dengan pendekatan tradisional
c) Hasil dan Pembahasan

Kedua berasal dan lemmatization dilakukan lebih baik daripada teknik dasar
baik di tingkat dokumen . Hal ini menunjukkan bahwa ketika query diproses
menggunakan teknik pemodelan bahasa, mereka menghasilkan dokumen yang lebih
relevan dibandingkan dengan permintaan yang tidak diproses. Hal ini mirip dengan
penelitian yang telah melaporkan model bahasa untuk meningkatkan retrievals
dokumen.
Perbandingan antara berasal dan lemmatization menunjukkan bahwa
lemmatization mengungguli berasal. Perbandingan berpasangan namun
mengungkapkan bahwa perbedaan presisi antara teknik ini tidak signifikan. Hal ini
mungkin karena lemmatization lebih maju dalam arti bahwa itu mengurus analisis
tambahan yang tidak didukung oleh berasal. Misalnya, lemmatization terlihat pada
sinonim dari kata tidak seperti berasal. Hal ini dapat mengakibatkan dokumen yang
lebih relevan.
Untuk perbandingan terhadap algoritma dasar, histogram untuk top 20
dokumen yang akan ditampilkan. Gambar. 4 menunjukkan histogram untuk
membendung dan dasar. Hal ini dapat dicatat bahwa stemming dilakukan lebih baik
daripada baseline untuk 60% (yaitu 9/15) dari query. Sisanya 40% berada di tingkat
yang sama
d) Point Utama Paper ini

Secara keseluruhan, penelitian ini menemukan teknik pengolahan bahasa
meningkatkan relevansi retrievals dokumen dibandingkan dengan algoritma dasar.
Lemmatization di sisi lain.
Ruang Lingkup
Ruang lingkup yang dibahas pada penelitian ini terdiri dari arsitektur sistem,
identifikasi masalah, batasan masalah, partisipan dan analisis sistem.
a. Arsitektur Sistem
Arsitektur sistem dalam penelitian ini dimulai dari input kata dalam bentuk
bahasa tetun. Input kata bahasa tetun akan di masukkan dalam proses filtering dengan
memberikan imbuhan Ha-, Ma-, Mak-, Na-, Nak-, dan Se-,. untuk kemudian
dilakukan pengecekan kata agar menghasilkan output stemming. Adapun untuk lebih
detailnya arsitektur sistem dapat dilihat pada gambar berikut dibawah ini.
15
Input Kata
Proses filtering
Tambah Imbuhan Se-, Ha-, La-
Tidak
Proses
filtering
Ya
Hapus akhiran
Pengecekan kata
Output Stemming
Gambar 5. Arsitektur Sistem
b. Identifikasi Masalah
Berdasarkan latar belakang masalah yang telah diuraikan diatas, dapat
diidentifikasi beberapa masalah sebagai berikut :
1) Bagaimana proses stemming untuk kata pada bahasa tetun dengan
menggunakan algoritma porter stemmer?
2) Bagaimana akurasi porter stemmer untuk stemming pada kata bahasa tetun?
c. Batasan Masalah
1) Model pemrograman yang digunakan dengan menggunakan stemming.
2) Bahasa yang digunakan adalah bahasa tetun dari Timor Leste.
d. Partisipan
Partisipan dari penelitian ini adalah pengguna bahasa tetun yang berasal
dari Timor Leste.
e. Analisis Sistem
Analisis sistem dalam penelitian ini dimulai dari proses stemming yang
terdiri dari proses tokenizing, filtering dan stemming. Setelah proses stemming
selesai kemudian input dan output bahasa tetun.
a) Proses Tokenizing
Proses tokenizing merupakan tahap pemotongan string input berdasarkan
tiap kata yang menyusunnya. Proses ini menghasilkan kata –kata yang
berdiri sendiri.
.
16
b) Proses Filtering
Proses filtering merupakan proses mengambil kata-kata penting
yang terdapat dari hasil tokenizing. Untuk melakukan filtering bisa
menggunakan stoplist atau word list. Data hasil tokenizing akan
dibandingkan dengan kamus. Jika tidak terdapat terdapat dalam kamus
maka kata tersebut akan dihapus. Kata-kata yang tersisa merupakan kata
yang dianggap penting. Untuk lebih jelasnya tahapan proses filtering
adalah sebagai berikut:
 Kata hasil proses tokenizing dibandingkan dengan tabel stopword.
 Jika data hasil tokenizing sama dengan kata di tabel stopword maka akan
dihapus.
 Jika tidak sama dengan tabel stopword maka kata tersebut akan
disimpan.
f. Pembentukan Kata dalam Bahasa Tetun

1. Awalan yang diperbolehkan dalam pembentukan bahasa tetun adalah sebagai
berikut:
1. Aturan Awalan (Prefiks)
Aturan awalan yang diperbolehkan sebagai berikut:
Ha + manas = hamanas
Ma + halo = mahalo
Mak + soin = maksoin
Na + kurut = nakurut
Nak + lees = naklees
Se + dok = sedok
Aturan khusus untuk awalan Ma, Mak, Na, Nak digunakan contoh sebagai
berikut:
Ma- digunakan untuk sesuatu yang akan dilakukan nanti
Mak- digunakan sesuatu yang sedang dibuat atau dijalani
Na- digunakan untuk sesuatu yang akan dilakukan
Nak- digunakan untuk sesuatu yang sudah terjadi
 Aturan awalan yang tidak diperbolehkan
An
Dor
Ten
2. Aturan Akhiran (Sufiks) yang diijinkan

Bosok + ten = bosokten
Lohi + dor = lohidor
 Akhiran kata yang tidak diijinkan
Ha
La
Ma
Mak
17
Na
Se
3. Aturan Awalan dan akhiran (Komfiks)

Gabungan kata awalan, tengah dan akhiran untuk membentuk kata baru
yang berhubungan dengan kata yang pertama
Da + lima-k = dalimak
Mak + sala-k = maksalak
Mak + husu-k = mahusuk
Da + tolu-k = datoluk
A + prova-saun = aprovasaun
4. Aturan kalimat sisipan (Infiks)

Gabungan kata awal, tengah dan akhir untuk membentuk kata baru yang
beda arti dengan kata yang pertama contoh sebagai berikut:
Da + lima + nuluk = dalimanuluk
Ka + tane + k = katanek
Hak + mate + k = hakmatek
hak + dasa + k = hakdasak
Na + his + in = nahisin
5. Aturan Reduplikasi
Aturan Reduplikasi ada dua yaitu Reduplikasi sama arti dan Reduplikasi
beda arti sebagai berikut:
A. Reduplikasi sama arti
 Bo’ot-bo’ot
Bo’ot = besar
Bo’ot-bo’ot = besar-besar
 Funan-funan
Funan = bunga
Funan-funan = bunga-bunga
 Barak-barak
Barak = banyak
Barak-barak = banyak-banyak
 Idak-idak
Idak = satu
Idak-idak = satu-satu
 Livru-livru
Livru = buku
Livru-livru = buku-buku
A. Reduplikasi beda arti
 Hotu-hotu
Hotu = habis
Hotu-hotu = semuanya
18
 Fila-fila
Fila = balik
Fila-fila = berkali kali
 Oin-oin
Oin = muka
Oin-oin = macam-macam
 Ikus-ikus
Ikus = berikut
Ikus-ikus = akhir-akhir
 Liu-liu
Liu = lewat
Liu-liu = diutamakan.
6. Aturaan kalimat ketiga pihak

Kalimat ini untuk digunakan kata ke ketiga pihak atau juga bisa
menunjukkan banyaknya barang
 Tauk
Tauk = Takut
Hatauk = Menakutkan Saya
Natauk = Menakutkan Kita
Ratauk = Menakutkan Mereka
 Dok
Dok = Jauh
Hadok = Jauhkan Saya
Nadok = Jauhkan dari Dia
Radok = Jauhkan dari Mereka
 Han
Han = Makan
Hahan = Saya Makan
Nahan = Dia makan
Rahan = Mereka makan
 Falun
Falun = Bungkus
Hafalun = Saya bungkus
Nafalun = Dia bungkus
Rafalun = Mereka bungkus
 Toba
Toba = Tidur
Hatoba = Saya tidur
Natoba = Dia tidur
Ratoba = Mereka tidur
Aturan-aturan diatas sudah tercantum di lampiran A1-9 dan Lampiran B1-B6.
19
g. Input dan Output Bahasa Tetun
Input dan output pada bahasa tetun dapat dilihat pada pembentuk kata sebagai
berikut ini.
Tabel 8. Pembentukan Kata
No Input Output
1 Didiak diak
2 Foufoun foun
3 Hamanas manas
4 Hamaluk maluk
5 Mahalok halok
6 Mahein hein
7 Maksalak salak
8 Maksoin soin
9 Nakurut kurut
10 Naroman roman
11 Naklees lees
12 Naksobu sobu
13 Pesca-dor pesca
14 Hamnasador hamnasa
15 Bosokten bosok
16 Lohiten Lohi
17 Mahusuk husuk
18 Bo’ot-bo’ot bo’ot
19 Funan-funan funan
20 Hotu-hotu hotu
21 Fila-fila fila
Tabel diatas menunjukkan masing-masing kata yaitu kata awalan, kata awalan
dan akhiran, kata akhiran, kata sisipan, reduplikasi yang arti sama dan reduplikasi yang
beda artinya.
Metode Penelitian
Dalam Penyusunan Tesis ini didasarkan pada masalah yang bersifat aplikatif,
yaitu perencanaan dan perealisasian system agar dapat menampilkan urutan kerja sesuai
dengan yang direncanakan dengan mengacu pada perumusan masalah.
Analisis metode menjelaskan tentang bagaimana stemming itu terjadi dan
menjelaskan tentang tahap-tahap yang dilakukan untuk melakukan proses stemming.
Secara umum sistem ini terdiri dari beberapa proses, proses-proses tersebut adalah
sebagai berikut:
a. Proses Tokenizing
b. Proses Filtering
c. Proses Stemming
20
Pengujian dimulai dari input kata yang akan diproses dalam bentuk prefiks,
komfiks, sufiks. Ada beberapa kata awalan yang menjadi input dengan memberikan
awalan tambahan seperti Ha-+, Ma-+, Mak-+, Na-+, Nak-+, Se-+,.
Contoh:
Ha + manas = hamanas
Ma + halo = mahalo
Mak + soin = maksoin
Na + kurut = nakurut
Nak + lees = naklees
Se + karik = sekarik
Kata-kata yang di input ditambahkan dengan imbuhan dan akhiran kemudian
diproses filtering. Hasil filtering akan diproses menjadi output stemming.
Uji Coba
File yang akan di uji adalah file Prefiks text, file Komfiks text, file Sufik text, dan
file campuran text conto seperti berikut:
1) File Awalan (Prefiks text) yaitu Ha-, Ma-, Mak-, Na-, Nak-, Se-, dan jumlah
kustanya = 221
2) File Awalan dan akhira (komfiks text) contoh seperti berikut:
A, Da, Ma mak, Na, Nak, dan jumlah kustanya = 10
3) File Akhiran (Sufiks text) ada 2 seperti berikut
Dor, -Ten dan jumlah kustanya = 22
4) File Duplikasi ada dua bagian yaitu Reduplikasi arti beda dan Reduplikasi arti yang
sama dan jumlahjumlah kustanya = 22
5) File Sisipan (Infiks text) seperti berikut:
Da, Ka, Hak, Na, Jur, dan jumlah kustanya = 22
6) File Text campuran jumlah kustanya = 214
Jadwal Penelitian
Tabel 8. Jadwal Penelitian
Bulan
No. Kegiatan
Oktober Nop Des Jan Peb Maret
1. Studi Literatur   
2. Analisa  
3. Implementasi   
4. Pengujian    
5. Dokumentasi     
Daftar Pustaka
[1]. Ali, N. H., & Ibrahim, N. S. (2012). Porter Stemming Algorithm for Semantic
Checking. Proceedings of International Conference on Computer and Information
Technology (ICCIT) 2012, (hal. 253-258).
[2]. Baeza-Yates, R., & Ribeiro-Neto, B. (1999). Modern Information Retrieval. New
York: ACM Press.
[3]. Fachrurrozi, M., Yusliani, N., & Yoanita, R. U. (2013). Frequent Term Based
Text Summarization for Bahasa Indonesia. International Conference on
21
Innovation in Engineering and Technology (ICIET 2013) Dec. 25-26, (hal. 30-
32). Bangkok (Thailand).
[4]. Gupta, V. (2014) . Suffix Stripping Based Verb Stemming for Hindi. International
Journal of Advanced Research in Computer Science and Software Engineering
Volume 4, Issue 1, January , 179.
[5]. Husni, M., & Zaman, B. (2005). Perangkat lunak Peringkas Dokumen Berbahasa
Indonesia dengan Hybrid Stemming. Surabaya: Teknik Informatika Fakultas
Teknologi Informasi, Institut Teknologi Sepuluh Nopember.
[6]. Alkula, R. Dari string karakter polos sampai kata-kata bermakna: Memproduksi
database teks lengkap yang lebih baik untuk bahasa infleksi dan peracikan dengan
perangkat lunak analisis morfologi. Retrieval Informasi, 4, (2001), 195-208.
[7]. Krovetz, R. Melihat morfologi sebagai proses inferensi. Dalam Prosiding
Konferensi InternasionalACM / SIGIR Internasional keenam belas tentang
Penelitian dan Pengembangan dalam Retrieval Informasi (SIGIR'03) (Pittsburg,
PA, 27 Juni - 1 Juli 1993). ACM Press, New York, NY, 1993, 191-202.
[8]. Nilsson, M. Pengelompokan hirarkis dengan menggunakan perintah pemisahan
yang tidak serakah. Retrieval Informasi, 5, 4 (2002), 311-321.
[9]. Popovic, M., dan Willett, P. Efektivitas stemming untuk aksebahasa alami ke data
teks Slovenia. Jurnal American Society for Information Science, 43, 1 (1992),
384-390.
[10]. Savoy, J. Sebuah prosedur stemming dan daftar stopword untuk corpora Prancis
umum. Jurnal Masyarakat Amerika untuk Ilmu Informasi, 50, 10 (1999), 944-952.
[11]. Kalamboukis, T. Z. Akhiran melucuti dengan bahasa Yunanimodern. Program,
29, 3 (1995), 313-321.
[12]. Abu-Salem, H., Al-Omari, M., dan Evens, M. W. Menyusun metodologi
mengenai kata-kata kueri individual untuk sistem pencarian informasi bahasa
Arab. Jurnal Masyarakat Amerika untuk Ilmu Informasi, 50, 6 (1999), 524-529.
[13]. Rosell, M., Meningkatkan pengelompokan artikel surat kabar Swedia dengan
menggunakan stemming dan compound splitting. Konferensi Nordik ke 14 di
Indonesia.
22

Proposal Tesis

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Proposal Tesis

Diunggah oleh

Hak Cipta:

Format Tersedia

PROPOSAL TESIS

STEMMING BAHASA TETUN

Hipotesis dan Target Keberhasilan.

c) Point Utama Paper ini

Tabel 3. Jenis Awalan Berdasarkan Tipe Awalannya

Untuk mengatasi keterbatasan pada algoritma di atas, maka ditambahkan

Tabel 5. Aturan Untuk Inflectional Possesive Pronoun

Proses stemming menggunakan Algoritma Porter dapat dilihat pada Gambar

Gambar 1. Algoritma Porter

Jumlah Algoritma Porter Algoritma Nazief & Adriani

1. Paper Fungsi.txt 1854 1,518 89,7 86,264 95,9

3. Judul : Modifikasi Algoritma Porter Untuk Stemming Pada

e) Morfologi Bahasa Indonesia

Infleksional = (kata dasar + kata ganti) |

Gambar 2. Struktur morfologi kata infleksional pada Bahasa Indonesia

Derivasional adalah struktur sederhana yang diikuti imbuhan yang dapat

Tabel 6. Pasangan konfiks yang tidak diperbolehkan

g) Hasil dan Pembahasan

Gambar 3. Algoritma menghapus partikel

h) Point Utama Paper ini

4. Judul : Stemming and Lemmatization: A Comparison of

c) Hasil dan Pembahasan

d) Point Utama Paper ini

Tambah Imbuhan Se-, Ha-, La-

Gambar 5. Arsitektur Sistem

f. Pembentukan Kata dalam Bahasa Tetun

2. Aturan Akhiran (Sufiks) yang diijinkan

3. Aturan Awalan dan akhiran (Komfiks)

4. Aturan kalimat sisipan (Infiks)

6. Aturaan kalimat ketiga pihak

Anda mungkin juga menyukai