Anda di halaman 1dari 5

PERBANDINGAN ALGORITMA STEMMING NAZIEF & ADRIANI, PORTER DAN ARIFIN SETIONO

UNTUK DOKUMEN TEKS BAHASA INDONESIA

Oppie Rezalina

Program Studi Teknik Informatika


Fakultas Teknik
Universitas Muhammadiyah Jember

Email : oppierezalina@gmail.com

ABSTRAK

Pencarian informasi berupa dokumen teks atau yang dikenal dengan istilah Information Retrieval (IR)
merupakan proses pemisahan dokumen-dokumen yang dianggap relevan dari sekumpulan dokumen yang
tersedia. Salah satu bagian penting dari Information Retrieval adalah proses stemming. Stemming adalah proses
mereduksi kata berimbuhan menjadi kata dasar. Dengan proses stemming, kata yang dimasukkan ke dalam
index adalah dalam bentuk umum, sehingga dapat menghasilkan dokumen yang lebih relevan. Terdapat
beberapa algoritma stemming yang memiliki kelebihan dan kekurangan masing-masing. Pada penelitian ini
penulis ingin mengetahui performansi dari algoritma stemming Nazief & Adriani, Porter dan Arifin Setiono
pada pencarian kata dasar yang terdapat dalam abstrak sebuah jurnal dengan implementasi yang dilakukan yaitu
memberikan suatu kemudahan dalam hal stemming dokumen teks berbahasa Indonesia serta analisis algoritma
yang tingkat akurasinya besar dan membutuhkan waktu yang cepat. Parameter yang diuji berupa kecepatan dan
ketepatan dari masing-masing algoritma. Dari hasil pengujian sistem dapat disimpulkan bahwa algoritma Nazief
& Adriani memiliki tingkat keakurasian paling tinggi dengan prosentase 0,1% lebih akurat dibandingkan
algoritma Arifin Setiono dan 0,9% lebih akurat dibandingkan dengan algoritma Porter. Begitu juga dalam hal
kecepatan, algoritma Nazief & Adriani masih lebih cepat menyelesaikan proses stemming dibandingkan dengan
dua algoritma lainnya. Sebagai saran untuk pengembang berikutnya kamus kata dasar diharapkan lebih lengkap
dan melakukan pengembangan terhadap morfologi pada algoirtma porter stemmer untuk memperoleh akurasi
yang lebih besar.

Kata Kunci: Stemming, Nazief & Adriani, Porter, Arifin Setiono.

I. Latar Belakang Algoritma-algoritma stemming memiliki


kelebihan dan kekurangannya masing-masing.
Pencarian informasi berupa dokumen teks atau
Terdapat penelitian sebelumnya mengenai
yang dikenal dengan istilah Information Retrieval
Perbandingan Algoritma Stemming Porter dan
(IR) merupakan proses pemisahan dokumen- Algoritma Stemming Adriani Nazief Untuk
dokumen yang dianggap relevan dari sekumpulan Stemming Dokumen Teks Bahasa Indonesia yang
dokumen yang tersedia. Salah satu bagian penting menganalisis perbandingan pada dokumen
dari Information Retrieval adalah proses stemming. berbahasa Indonesia. Berdasarkan hasil penelitian
Stemming adalah proses mereduksi kata
tersebut, disimpulkan bahwa algoritma porter lebih
berimbuhan menjadi kata dasar. Stemming sangat baik dalam hal kecepatan waktu namun memiliki
berguna untuk proses indexing maupun kelemahan dalam hal keakuratan. Penelitian
searching di dalam Information Retrieval. Dengan lainnya menyebutkan bahwa algoritma Arifin
proses stemming, kata yang dimasukkan ke dalam Setiono digunakan karena memiliki kelebihan
index adalah dalam bentuk umum, sehingga dapat
dalam hal mengatasi Overstemming yaitu jika kata
menghasilkan dokumen yang lebih relevan. Metode tidak ditemukan setelah penghapusan maka
stemming adalah salah satu cara yang digunakan algoritma ini kemudian mencoba untuk
untuk mengubah kata untuk menemukan akar kata mengembalikan semua kombinasi yang dihapus
dengan menerapkan aturan morfologi bahasa yang untuk mendapatkan kata yang valid.
baik dan benar. Proses stemming dilakukan dengan
menghilangkan semua imbuhan (affiks) baik yang Dalam penelitian ini akan dilakukan analisis
terdiri dari awalan (prefiks) sisipan (infiks) maupun performansi pada dokumen teks dengan
akhiran (suffiks) dan kombinasi awalan dan akhiran menggunakan metode stemming dengan
(konfiks). membandingkan dari tiga algoritma stemming
Nazief & Adriani, Porter dan Arifin setiono yang

1
nantinya akan diterapkan pada dokumen berbahasa Tahap pengujian merupakan tahap yang ingin
Indonesia. Parameter yang akan diuji yaitu mengetahui kesesuaian sistem yang telah dibangun.
kecepatan dan ketepatan dari ketiga algoritma yang Yang dilakukan dalam tahap pengujian ini adalah
mengevaluasi system menggunakan black box
berpengaruh pada presentasi algoritma yang di
testing dan mengevaluasi pengguna berdasarkan
implementasikan. user experience.
Berdasarkan uraian latar belakang masalah yang II. Landasan Teori
dikemukakan, maka dapat dirumuskan beberapa Information Retrieval
masalah sebagai berikut: Information Retrieval (IR) adalah ilmu pencarian
1. Bagaimana performansi algoritma Nazief & informasi dari sejumlah data yang sudah hilang
Adriani dalam stemming teks berbahasa karena terlalu banyaknya data yang ada. Ilmu ini
Indonesia. dipopulerkan oleh Vannevar Bush pada tahun 1945
2. Bagaimana performansi algoritma Porter dan implementasinya mulai dikenalkan pada tahun
dalam stemming teks berbahasa Indonesia. 1950-an. Pada tahun 1990-an, sudah banyak teknik
3. Bagaimana performansi algoritma Arifin dan metode dari informatioan retrieval yang
Setiono dalam stemming teks berbahasa dikembangkan dan dipakai. Tujuan dari sistem IR
Indonesia. adalah untuk memenuhi kebutuhan informasi
4. Bagaimana hasil perbandingan algoritma pengguna dengan me-retrieve semua dokumen
Nazief & Adriani, Porter dan algoritma yang mungkin relevan, pada waktu yang sama me-
Arifin Setiono untuk proses stemming teks retrieve sesedikit mungkin dokumen yang tidak
berbahasa Indonesia. relevan.
Tujuan dari penelitian ini adalah untuk mengetahui Sistem IR yang baik memungkinkan pengguna
performansi berupa kecepatan dan ketepatan dari menentukan secara cepat dan akurat apakah isi dari
algoritma Nazief & Adriani, Porter dan algoritma dokumen yang diterima memenuhi kebutuhannya.
Arifin Setiono dengan metode stemming dan Tujuan yang harus dipenuhi adalah bagaimana
membandingkannya. menyusun dokumen yang telah didapatkan tersebut
Adapun batasan masalah dari penelitian ini yaitu: ditampilkan terurut dari dokumen yang memiliki
1. Dokumen yang digunakan adalah dokumen tingkat relevansi tinggi ke tingkat relevansi yang
berbahasa Indonesia. lebih rendah. Penyusunan dokumen tersebut
2. Parameter yang akan di hasilkan pada disebut sebagai perangkingan dokumen.
aplikasi ini adalah kecepatan dan ketepatan Stemming
dari ketiga algoritma. Stemming adalah suatu proses pencarian bentuk
3. Kamus sebagai pembanding kata yang di dasar dari tiap kata yang berada pada suatu
stemming berupa kata dasar yang sesuai dokumen teks, selain untuk memperkecil jumlah
dengan Kamus Besar Bahasa Indonesia. indeks yang berbeda dari suatu dokumen, juga
4. Taham filtering dihilangkan.. untuk melakukan pengelompokan kata-kata lain
Sedangkan metodologi yang digunakan pada yang memiliki kata dasar dan arti yang serupa
penelitian ini adalah sebagai berikut. namun memiliki bentuk atau form yang berbeda
1. Metode studi literatur yaitu pengumpulan data karena mendapatkan imbuhan yang berbeda dengan
yang di lakukan melalui membaca dan mempelajari menerapkan aturan morfologi bahasa Indonesia
reeferensi-referensi berupa jurnal ilmiah, skripsi yang baik dan benar.
dan buku. Fasilitas internet yang di pergunakan Proses stemming dilakukan dengan menghilangkan
untuk media sebagai pencari data atau informasi semua imbuhan (affixes) baik yang terdiri dari
yang di publikasikan di dunia maya yang berkaitan awalan (preffixes) sisipan (infixes) maupun akhiran
dengan obyek penelitian. (suffixes), stemming dilakukan atas dasar asumsi
2. Analisis dan Perancangan. Pada perancangan bahwa kata-kata yang memiliki stem yang sama
sistem dilakukan perancangan antarmuka pengguna memiliki makna dasar yang sama.
(user). Pada perancangan hasil, form hasil Teknik stemming dapat dikategorikan menjadi 3
menampilkan tingkat waktu perhitungan dan hasil yaitu berdasarkan aturan dalam bahasa tertentu,
deteksi kata dasar isi dari abstrak penelitian yang berdasarkan kamus, dan berdasarkan kemunculan
telah diproses. bersama. Salah satu tujuan utama dilakukan proses
3. Implementasi Sistem stemming adalah meningkatkan efisiensi dengan
Dalam implementasi sistem ini, yang dapat cara memilah isi dokumen menjadi unit-unit kecil
dilakukan pada stemming dengan metode Nazief & yang akan menjadi penciri misalnya berupa kata,
Adriani, Porter dan Arifin Setiono untuk frase atau kalimat. Terdapat beberapa algoritma
menganalisa ketepatan dalam menentukan kata dalam stemming, antara lain:
dasar dan waktu yang dibutuhkan dalam mencari 1. Algoritma Nazief & Adriani
kata dasar dari suatu kata. Algoritma Nazief & Adriani
4. Pengujian

2
Algoritma Nazief dan Adriani memiliki tiga Pada Porter Stemmer untuk Indonesia perlu
komponen, yaitu: pengelompokan imbuhan, ditambahkan beberapa aturan dalam algoritma
urutan penggunaan aturan (rule) dan kamus agar memberikan hasil yang lebih maksimal
(dictionary). Kamus akan dicek setiap dan untuk mempermudah proses stem maka
penerapan aturan stemming berhasil dibuatlah beberapa kamus kecil, antara lain
diidentifikasi, dan apabila stemming berhasil sebagai berikut :
menemukan akar kata maka algoritma akan 1. Kamus kata dasar yang dilekati
mengembalikan kata dalam kamus dan partikel, untuk menyimpan kata dasar
algoritma berhenti. yang memiliki suku kata terakhir
Langkah-langkah stemming algoritma Nazief (partikel infleksional) serta kata
& Adriani: tersebut tidak mendapat imbuhan
1) Kata yang akan distemm dicari dalam apapun.Seperti: masalah.
kamus. Jika ditemukan maka dianggap 2. Kamus kata dasar yang dilekati
kata tersebut adalah akar kata sehingga partikel berprefiks untuk menyimpan
kata tersebut direturn dan algoritma stop kata dasar yang memiliki suku kata
di sini. terakhir (partikel infleksional) dan
2) Hilangkan imbuhan infleksi (“-lah”, “- mempunyai prefiks. Seperti: menikah.
kah”,”-ku”,”-mu” dan “-nya”). Jika ini 3. Kamus kata dasar yang dilekati kata
berhasil dan jika akhiran adalah partikel ganti milik, untuk menyimpan kata
(“-lah” atau “-kah”) langkah ini dasar yang memiliki suku kata terakhir
dilanjutkan dengan menghilangkan (kata ganti infleksional) serta kata
imbuhan possesive (“-ku”, “-mu” dan “- dasar tersebut tidak mendapatkan
nya”). imbuhan apapun. Seperti: bangku.
3) Hilangkan imbuhan derivasi (“-i” atau “- 4. Kamus kata dasar yang dilekati kata
an”). ganti milik berprefiks, untuk
Jika berhasil, lanjutkan ke langkah 4, jika menyimpan kata dasar yang memiliki
tidak lakukan hal berikut ini: suku kata terakhir (kata ganti
a. Jika “-an” dibuang dan huruf terakhir infleksional) dan mempunyai prefiks.
dari kata adalah “-k”, maka “-k” juga Seperti: bersuku.
dibuang dan pergi ke langkah 4. 5. Kamus kata dasar yang dilekati prefiks
b. Penghilangan akhiran “-i”, “-an” dan “- pertama, untuk menyimpan kata dasar
kan” dibatalkan. yang memiliki suku kata pertama
4) Penghilangan awalan dengan berbagai (prefiks derivasional pertama) serta
variasi. kata dasar tersebut tidak mendapatkan
Jika semua langkah telah ditempuh dan imbuhan apapun. Seperti: median.
tidak berhasil, maka kembalikan kata asli 6. Kamus kata dasar yang dilekati prefiks
yang belum distemm. pertama bersufiks, untuk menyimpan
kata dasar yang memiliki suku kata
2. Algoritma Porter pertama (prefiks derivasional pertama)
Algoritma kedua yang digunakan adalah dan mempunyai sufiks
algoritma Porter. Adapun langkah – langkah derivasional.Seperti: terapan.
algoritma ini adalah sebagai berikut: 7. Kamus kata dasar yang dilekati prefiks
1. Hapus particle. kedua, untuk menyimpan kata dasar
2. Hapus possesive pronoun. yang memiliki suku kata pertama
3. Hapus awalan pertama. Jika tidak ada (prefiks derivasional kedua) serta kata
lanjutkan ke langkah 4a, jika ada cari dasar tersebut tidak mendapatkan
maka lanjutkan ke langkah 4b. imbuhan apapun. Seperti: percaya.
4. a. Hapus awalan kedua, lanjutkan ke 8. Kamus kata dasar yang dilekati prefiks
langkah 5a. kedua bersufiks, untuk menyimpan
b. Hapus akhiran, jika tidak kata dasar yang memiliki suku kata
ditemukan maka kata tersebut pertama (prefiks derivasional) dan
diasumsikan sebagai root word. mempunyai sufiks derivasional.
Jika ditemukan maka lanjutkan ke Seperti: perasaan.
langkah 5b. Kamus kata dasar yang dilekati sufiks, untuk
5. a. Hapus akhiran. Kemudian kata akhir menyimpan kata dasar yang memiliki suku
diasumsikan sebagai kata dasar. kata terakhir (sufiks derivasional). Seperti:
b. Hapus awalan kedua. Kemudian pantai.
kata akhir diasumsikan sebagai root
word.

3
3. Algoritma Arifin Setiono dengan sistem operasi Windows 7.
Algoritma Arifin Setiono merupakan Implementasi yang dilakukan yaitu memberikan
algoritma yang digunakan untuk pencarian suatu kemudahan dalam hal stemming teks
kata dasar pada dokumen teks dengan teknik bahasa Indonesia dengan algoritma Stemming
stemming. Input dari algoritma ini adalah Nazief & Adriani, Porter dan Arifin Setiono
dokumen teks yang diproses sehingga serta analisis algoritma yang tingkat akurasinya
menghasilkan output berupa kata dasar. besar dan membutuhkan waktu yang cepat.
Algoritma Arifin Setiono mengasumsikan
bahwa setiap kata memiliki dua awalan dan Hasil Pengujian
tiga akhiran, yaitu: Uji Coba algoritma dilakukan pada 10
[AW1] + [AW2] + KD + [AK3] + [AK2] dokumen teks bahasa Indonesia dengan ukuran
+ [AK1] dokumen yang bervariasi. Tabel hasi pengujian
Dimana AW = awalan, KD = kata dasar dan terdiri dari nama dokumen, jumlah data real,
AK = akhiran (Hamzah, 2006). jumlah kata dasar dari setiap algoritma yang
Langkah – langkah algoritma Arifin Setiono berhasil di stemm. Data real merupakan data uji
dalam proses stemming isi dokumen teks yang didapat melalui perhitungan manual
adalah sebagai berikut: dengan mencari kata dasar pada dokumen yang
1. Lakukan pemeriksaan setiap kata, sama. Hasil uji coba dokumen teks dapat dilihat
siapkan variabel p1,p2,s1,s2,s3 pada tabel dibawah.
2. Pemotangan dilakukan secara berurut,
yaitu: IV. Kesimpulan dan Saran
a. Awalan I, hasil disimpan pada p1 Kesimpulan
b. Awalan II, hasil disimpan pada p2 Dari hasil pengujian sistem dapat disimpulkan
c. Akhiran I, hasil disimpan dalam s1 bahwa algoritma Nazief & Adriani lebih unggul
dalam hal kecepatan dan akurasi dibandingkan
d. Akhiran II, hasil disimpan dalam s2 dengan dua algoritma lainnya.
e. Akhiran III, hasil disimpan dalam s3
Setiap tahap pemotongan hasil dicek dalam Saran
kamus, jika ada dalam kamus algoritma Berdasarkan hasil pengujian algoritma stemming
selesai, jika tidak ada proses dilanjutnya ke Nazief & Adriani, Porter dan Arifin & Setiono, saran
pemotongan berikutnya. Jika sampai pada untuk pengembang berikutnya kamus kata dasar
langkah 2.e. belum ditemukan dalam kamus, diharapkan lebih lengkap dan melakukan
maka dilakukan proses kombinasi. Kata dasar pengembangan terhadap morfologi pada algoirtma
yang dihasilkan dikombinasikan dengan porter stemmer untuk memperoleh akurasi yang lebih
besar dan diharapkan tahap filtering tidak
imbuhan-imbuhan dalam 12 kombinasi, yaitu: dihilangkan.
a. Kata Dasar
b. Kata Dasar + AK III V. Daftar Pustaka
c. Kata Dasar + AK III + AK II 1. Agusta, Ledy. 2009. Perbandingan Algoritma
d. Kata Dasar + AK III + AK II + AK I Stemming Porter dengan Algoritma Nazief dan
e. AW I + AW II + Kata Dasar Adriani Untuk Stemming Dokumen Teks Bahasa
f. AW I + AW II + Kata Dasar + AK Indonesia. Fakultas Teknologi Informasi
III Universitas Kristen Satya Wacana.
g. AW I + AW II + Kata Dasar + AK 2. Asian, Jelita. 2007. Effective Techniques For
Indonesian Text Retrieval. Australia: RMIT
III + AK II University.
h. AW I + AW II + Kata Dasar + AK 3. Firmansyah, Arif. 2015. Analisis Perfomansi
III + AKII + AK I Algoritma Arifin Setiono Dan Algoritma Porter
i. AW II + Kata Dasar Untuk Stemming Berbahasa Indonesia. Bandung:
j. AW II + Kata Dasar + AK III Unikom. (Online)
k. AW II + Kata Dasar + AK III + AK http://elib.unikom.ac.id/gdl.php?mod=browse&o
II p=read&id=jbptunikompp-gdl-arieffirma-33911.
l. AW II + Kata Dasar + AK III + AK Diakses terakhir pada 3 Maret 2016.
II + AK I 4. Hamzah, Amir. 2006. Pengaruh Stemming Kata
Dalam Peningkatan Unjuk Kerja Document
Clustering Untuk Dokumen Berbahasa Indonesia.
III. Pembahasan Jurusan Teknik Informatika, Institut Sains &
Implementasi Sistem Teknologi AKPRIND.
Setelah dilakukan perancangan, maka 5. Maarif, Abdul Azis. 2015. Penerapan Algoritma
tahap selanjutnya adalah implementasi sistem Tf-Idf Untuk Pencarian Karya Ilmiah. Jurusan
ke dalam bentuk program komputer. Bahasa Teknik Informatika, Fakultas Ilmu Komputer,
pemrograman yang digunakan adalah PHP Universitas Dian Nuswantoro.
dengan menggunakan aplikasi database 6. Pardede, Jasman., dkk. 2013. Implementasi
MYSQL. Aplikasi ini berjalan di komputer Metode Generalized Vector Space Model Pada
Aplikasi Information Retrieval. Jurusan Teknik

4
Informatika Institut Teknologi Nasional
Bandung.
7. Rozi, M Latif., dkk. 2013. Implementasi Dan
Analisis Perbandingan Algoritma Stemming
Nazief & Adriani Dengan Algoritma Stemming
Vega Dalam Information Retrieval System.
Fakultas Teknik Informatika Universitas Telkom.

Tabel Hasil Perhitungan Stemming

Nazief & Adriani Porter Arifin & Setiono


Data
No Dokumen Akuras Akuras
Real Kata Dasar Akurasi Kata Dasar Kata Dasar
i i
Analisis Kapasitas Simpang 69 69 70
Bersinyal Pada Pertigaan Jalan
1 94 12.797 73 % 34.567 73 % 74 %
Hayam Wuruk – Jalan Mojopahit 25.4 detik
detik detik
Kabupaten Jember
Aplikasi Pengukuran Kualitas Jasa 69 69 70
2 Sistem Informasi Dengan Logika 80 13.093 86 % 34.585 86 % 17.459 88 %
Fuzzy detik detik detik
Cropping Plat Nomor Mobil Pada 69 68 71
3 Citra Digital Dengan Metode 85 14.247 81 % 80 % 19.681 84 %
36.08 detik
Mathematical Morphology detik detik
Efektivitas Kekakuan Struktur 107 104 105
4 Bangunan Gedung Terhadap 119 19.403 90 % 57.554 87 % 37.073 88 %
Gempa detik detik detik
Identifikasi Faktor Usia, Jenis 132 130 135
Kelamin dengan Luas Infark
5 Miokard pada Penyakit Jantung 150 29.058 88 % 1 menit, 14 87 % 54.662 90 %
Koroner (PJK) Di Ruang ICCU detik detik detik
RSD Dr. Soebandi Jember
Kinerja Keuangan Berbasis 87 87 87
6 Penciptaan Nilai, Makro Ekonomi 89 19.695 98 % 43.453 98 % 30.019 98 %
Dan Dampaknya Terhadap detik detik detik
Klasifikasi Penyakit Diabetes 29 28 28
7 33 88 % 85 % 85 %
Dengan Hidden Naive Bayes 6.456 detik 13.95 detik 7.362 detik
Pencarian Data Dengan 41 41 41
Menggunakan Fungsi Dan Metode
8 50 82 % 19.415 82 % 10.558 82 %
Pada Hashing Statis Dan Hashing 9.439 detik
detik detik
Dinamis
Pendekatan Pengujian Regresi 72 71 70
untuk Sistem Waktu Nyata,
9 81 12.142 89 % 31.876 88 % 14.277 86 %
Terdistribusi dan Mempunyai
detik detik detik
Siklus Hidup Pendek
Pengaruh Faktor Internal Dan 83 82 83
External Diri Sumber Daya
Manusia Terhadap Minat
10 Berwirausaha (Studi Pada 89 31.156 93 % 58.393 92 % 31.5663 93 %
Mahasiswa Fakultas Ekonomi detik detik detik
Universitas Muhammadiyah
Jember

Anda mungkin juga menyukai