Anda di halaman 1dari 7

Efektivitas Stemming untuk Alam-Bahasa Akses ke Slovenia

Tekstual data

Mirko Popovie
Perpustakaan Nasional dan Universitas, Ljubljana, Yugoslavia

Peter Willett *
Departemen informasi Studi, University of Sheffield, Bank Barat, Sheffield 30 2tn, Inggris Raya

Ada beberapa studi tentang penggunaan berasal algoritma untuk conflating telah menyebabkan pengembangan penggabungan teknik, yang memungkinkan
varian morfologi dalam sistem pengambilan FREETEXT. Perbandingan pencocokan berbagai bentuk kata yang sama.
pencarian bertangkai dan nonconflated menunjukkan bahwa tidak ada
peningkatan yang signifikan dalam efektivitas pengambilan ketika berasal
Penggabungan dapat dicapai dengan baik cara manual atau otomatis.
diterapkan untuk dokumen berbahasa Inggris dan permintaan. Artikel ini
melaporkan penggunaan yang berasal dari dokumen Slovenia-bahasa dan penggabungan pengguna biasanya dipengaruhi oleh pemotongan tangan kanan
permintaan, dan menunjukkan bahwa penggunaan hasil berasal al-gorithm pada saat pencarian, dengan pemotongan yang dilakukan oleh pencari. Dengan
tepat dalam besar, dan signifikan secara statistik, peningkatan efektivitas demikian, dalam konteks sistem pencarian terbalik-file yang konvensional,
pengambilan bila dibandingkan dengan proses nonconflated; komentar serupa
masuknya COMPUT * dalam hasil query dalam persatuan daftar postingan dari
berlaku untuk penggunaan manual, pemotongan kanan.
semua kata dalam file kamus yang berisi prefix string yang ditentukan. pengalaman
yang luas diperlukan jika pemotongan yang efektif yang akan dicapai (Keen, 1992).
penggabungan otomatis dilakukan dengan cara berasal algoritma,

yang conflates varian morfologi dari kata untuk satu batang dengan penghapusan akhiran;

pada dasarnya, prosedur yang sama dapat digunakan untuk menghilangkan awalan,

tetapi ada sedikit pekerjaan ini sampai saat ini. pemotongan pengguna diterapkan hanya

untuk kata-kata dalam permintaan, sementara berasal adalah tambahan diterapkan untuk

kata-kata dalam dokumen seperti yang ditambahkan ke database. Stemming tampaknya


Pendahuluan: Penggunaan Stemming Algoritma
akan menyediakan cara sederhana untuk meningkatkan efektivitas dari pengambilan-teks
Variasi morfologi adalah salah satu dari banyak charac-teristics bahasa alam bebas
yang harus diambil ke dalam ac-hitungan ketika merancang sistem pencarian teks
gratis, karena mungkin ada beberapa, atau banyak, berbagai bentuk kata yang
diberikan, bentuk-bentuk yang dihasilkan dari penambahan akhiran berbeda-ent sistem, karena harus memungkinkan identifikasi pertandingan antara kata-kata
ke batang kata umum sesuai dengan perintah dari tata bahasa. Misalnya, batang dalam query dan dokumen bahkan jika mereka belum ditentukan dengan cara yang
COMPUT * dapat menimbulkan KOMPUTER, COMPUTING, dan komputasi, antara sama. Hal ini telah menyebabkan minat yang besar dalam pengembangan
lain algoritma berasal, seperti yang dibuktikan oleh karya Frakes (1984), Hafer dan
Weiss (1985), Harman (1991), Lennon dkk. (1981), Lovins (1968), Niedermair et al.
(Di mana simbol “*” menunjukkan pertandingan jangan perawatan (1985), Porter
variabel-panjang). bentuk kata varian tersebut cenderung sebanding im-portance
dalam menentukan relevansi dokumen ke pengguna query yang menentukan (1980), Ulmschneider dan Doszkocs
hanya satu bentuk, dan ini (1983), dan Walker dan Jones (1987) antara lain.
Efektivitas berasal untuk tujuan pengambilan telah dipelajari oleh beberapa
pekerja. Lennon dkk. (1981) membandingkan beberapa algoritma berasal berbeda,
dan mencatat bahwa mereka semua memberi tingkat sebanding per-Formance dan
* Untuk siapa semua korespondensi harus ditangani.
bahwa tidak satupun dari mereka secara signifikan di-ferior untuk mencari
menggunakan kata-kata unstemmed. Frakes (1984) menunjukkan bahwa algoritma
Menerima September11,1991; direvisi Novemberl & 1991; diterima
November 18, 1991. Porter (Porter, 1980) memberikan hasil yang sebanding dengan pengguna kanan

0 1992 oleh John Wiley & Sons, Inc.

Journal of American MASYARAKAT UNTUK INFORMASI ILMU. 43 (5): 384-390, 1992 ccc 0002-8231 / 92 / 050.384-07 $ 04.00
pemotongan. Niedermair et al. (1985) menyarankan bahwa perbaikan yang baik, 1969; Lencek, 1982; ToporiSiE, 1984). Sebagai contoh, kata benda mengacu
sangat besar dalam recall yang dihasilkan dari penerapan berasal dalam sistem pada orang atau objek yang menurun menggunakan enam kasus yang berbeda, dan
MARS lebih dari kompensasi untuk sedikit penurunan presisi yang juga diperoleh. dapat muncul tidak hanya dalam bentuk tunggal dan jamak tetapi juga dalam bentuk
Namun, penelitian lain menunjukkan bahwa berasal tidak selalu meningkatkan ganda, yang mengacu pada dua kejadian benda itu, memberikan total 18 bentuk yang
efektivitas pengambilan. Dengan demikian, Walker dan Jones (1987) menemukan berbeda . Komentar serupa berlaku untuk kata benda verbal, kata sifat, angka, dan kata
bahwa lemah berasal, yaitu, berasal dengan algoritma yang dihapus hanya sejumlah ganti, dan ada juga perubahan sering dalam bentuk batang dasar sebagai akhiran
kecil sufiks pendek (khusus, bentuk jamak, -1NG dan -ed), adalah biasanya ditambahkan untuk itu untuk menciptakan suatu bentuk kata tertentu. Karakteristik ini
bermanfaat dalam pencarian di Okapi, sebuah experi-mental yang OPAC bahasa berarti bahwa algoritma stemming untuk Slovenia akan perlu jauh lebih
berdasarkan pengindeksan otomatis dan tetangga terdekat-pencarian; Namun, kompleks daripada algoritma stemming untuk En-glish jika itu adalah untuk digunakan
mereka juga menemukan bahwa kuat berasal, yang mengakibatkan penghapusan dalam-teks bebas pengambilan environ-ment, misalnya, ada tidak kurang dari 94
jauh lebih luas dari akhiran, sering memberikan salah re-sults. Baru-baru ini, berbagai bentuk batang RAZISKOVA * (untuk RESEARCH) (Popoviz & Willett, 1991).
Harman (1991) dan Keen (1992) telah membandingkan efektivitas berbagai
algoritma batang-ming pada koleksi uji dokumen yang query dan penilaian
relevansi terkait yang avail-

Kami baru-baru ini menggambarkan perkembangan algoritma stemming


untuk Slovenia yang ditujukan untuk pengolahan dokumen alami-bahasa dan
permintaan dalam sistem pencarian peringkat-output (PopoviT: & Willett,
sanggup. kedua pekerja ditemukan bahwa penggunaan berasal melakukan
1991). Seperti kebanyakan algoritma berasal bahasa Inggris, ia memiliki
tidak menghasilkan perbaikan yang konsisten dalam efektif-an pengambilan, jika daftar umum
dibandingkan dengan pencarian yang berasal tidak digunakan. Memang, Harman (1991) akhiran, bersama dengan tubuh menipu-
menyimpulkan dengan menyatakan bahwa:
text-sensitif aturan, yaitu, aturan yang menentukan keadaan particu-lar di mana
setiap akhiran dapat dilucuti dari kata masukan. Namun, daftar ini lebih lama dari

Penggunaan tiga umum tujuan berasal Al- yang umum dengan stemmers bahasa Inggris, dan mengandung tidak kurang dari

gorithms tidak menimbulkan perbaikan dalam temu 5276 akhiran. Setiap akhiran disertai dengan panjang batang minimum, yaitu, catatan
prestasi dalam tiga koleksi uji diperiksa, dari batang yang diijinkan pendek-est yang dapat mengakibatkan setelah
yang diukur dengan teknik evaluasi klasik. Al-meskipun permintaan individu penghapusan akhiran, dan salah satu dari delapan kode tindakan, yang
dipengaruhi oleh berasal, jumlah permintaan dengan peningkatan kinerja menghalangi-tambang aturan konteks-sensitif tertentu yang harus diterapkan jika
cenderung sama nomor dengan kinerja yang lebih miskin, sehingga menghasilkan minimum batang-panjang kendala bukan untuk dilanggar. Setelah akhir telah
sedikit perubahan keseluruhan untuk seluruh koleksi tes. dihapus, tiga set recoding aturan diperiksa untuk melihat apakah perlu untuk
mengubah batang yang telah dihasilkan dari tahap akhiran-removal sebelumnya.

Semua studi tersebut di atas telah melibatkan pengembangan dan


penggunaan yang berasal algoritma untuk database teks Englishlanguage.
Ada juga telah kepentingan dalam pengembangan berasal algoritma untuk
bahasa lain, seperti Perancis (Chiaramella & Defude, 1987) dan Finlandia Algoritma berasal dilengkapi dengan daftar stopword luas yang
(JEppinen et al., 1985), meskipun ada bahasa lain yang berasal aku s tidak diterapkan pada teks alami-bahasa sebelum pelaksanaan prosedur berasal.
langsung berlaku. Dengan demikian, Fuhr (1990) telah mencatat bahwa Operasi teknik ini pada abstrak typi-cal diilustrasikan dalam Gambar
seperti teknologi-tehnik tidak dapat digunakan dengan teks Jerman, di mana
segmentasi kata majemuk adalah penting jauh lebih besar, seperti yang 1. Sebuah pemeriksaan bagian (a) dan (b) dari angka ini akan menggambarkan

dibuktikan, misalnya, dengan karya Wenzel (1980). Pada artikel ini, kami perubahan yang sangat besar yang menghasilkan teks Slovenia ketika algoritma kami

mengevaluasi efektivitas algoritma berasal baru untuk digunakan dengan berasal diterapkan untuk itu.

dokumen Slovenia dan permintaan, dan membandingkan penggunaan


algoritma ini dengan stemmer bahasa Inggris. pembaca disebut Popovi? Alasan utama untuk mengembangkan algoritma berasal adalah untuk
(1991) untuk de- lanjut meningkatkan efektivitas pencarian dari database alami-bahasa. Dengan
demikian tepat untuk mengevaluasi kinerja algoritma oleh sejauh mana
peningkatan semacam itu adalah, pada kenyataannya, diamati pada
prac-Tice; evaluasi algoritma berasal dibahas oleh tajam (1992), Lennon dkk.
ekor eksperimen yang dilakukan di luar. (1981) dan Lovins (1971), antara lain. Dengan demikian, penelitian kami telah
menggunakan koleksi uji dokumen-ment, yaitu, satu set dokumen yang query
dan penilaian relevansi terkait tersedia.
Eksperimental rincian

Bahasa Slovenia mirip dengan bahasa Inggris dalam varian kata bentuk yang
dibuat dengan menambahkan sufiks untuk batang dasar. Namun, morfologi
Slovenia jauh lebih kompleks daripada Ketika penelitian ini dimulai, diharapkan bahwa koleksi tes dapat
adalah morfologi Inggris (Tawaran- dibuat dari salah satu dari banyak

Journal of American MASYARAKAT UNTUK INFORMASI science Juni 1992 385


UPORABNIKI DI ONLINE JAVNO DOSTOPNI KATALOG Joie Kokole

Predstavljen je fenomen secara online javno dostopnega kataloga oziroma s kratico OPAC (po an-gleHkem katalog online akses publik) pri ra & nalniEko

podprtem poslovanju knjiinic oziroma knji% Enih sistemov, njegovega nastanka, razvoja di stanja v razvitih sredinah, njegovih naEe1, karakteristik di

pojavnih oblik. Obdelano je ge: uporaba OPAC-ov prve di druge generacije v posameznih knjiz'nicah di v vzajemnih katalogih, odnos lakukan secara online

bibliografskih servisov, prob-lemi koncnih uporabnikov di uporabe OPAC-a, zahteve di pogoji za oblikovanje u6nkovitega di uporabnisko prijaznega

iskalnega dialoga , perspektive za uvajanje OPAC katalogov nas pri.

(4

UPORAB onlin javen DOSTOP katal Joze KOKOLE

PREDSTAV FENOM onlin javen DOSTOP katal KRAT OPAC AnGl onlin PUBLIC ACCES KATALOG RACUNAL PODPR POS KNJIZ KNJIZ

SISTEM NASTAN RAZVOJ

STAN RAZVOJ SREDIN NAEEL KARAKTER POJAV oblik OBDEL UPORAB OPAC Gener KNJIZ VZAJEM katal ODNES onlin BIBLIOGRAF servis

MASALAH KON UPORAB UPORAB OPAC

ZAHTEV POGOJ oblik U & N UPORAB PRIJAZ ISKAL DIAL PERSPEK UVAJ OPAC katal

(B)

PENGGUNA DAN ONLINE KATALOG AKSES PUBLIK Joze Kokole

Ini merupakan pengantar untuk fenomena katalog akses publik secara online (short OPAC) yang diterapkan pada katalog perpustakaan otomatis atau

sistem perpustakaan. Berisi informasi tentang asal usulnya, pengembangan dan stateof-the-art di negara maju dan deskripsi prinsip-prinsip di bawah

berbaring fungsinya, karakteristik dan modalitas struktural dan fungsional untuk tujuan yang berbeda. Mengingat ini adalah gambaran singkat dari

OPACs generasi pertama dan kedua di perpustakaan tunggal

dan sistem bersama-katalog, yang ditunjukkan adalah hubungan ke layanan bibliografi secara online dan pengguna,

persyaratan dan sikap mengenai antarmuka pengambilan user-friendly. Akhirnya, keluar-penampilan dan persyaratan untuk memperkenalkan katalog

OPAC atau antarmuka di perpustakaan Yugoslavia disajikan.

(4

ARA. 1. Operasi dari Slovenia berasal algoritma: (A) asli teks, dan (b) teks yang sama setelah konversi untuk

kasus tunggal, stopwording dan berasal. (C) adalah bahasa Inggris terjemahan yang muncul dengan abstrak Slovenia
ketika diterbitkan dalam jurnal Knjiinica.

386 Journal of American MASYARAKAT UNTUK INFORMASI science Juni 1992


database bibliografi yang telah diciptakan oleh li-braries dan pusat-pusat Dokumen frekuensi bobot dari istilah permintaan, dan kemudian menyajikan
informasi di Slovenia selama beberapa tahun terakhir (Penelitian Komunitas beberapa jumlah top-peringkat dokumen-KASIH kepada pengguna. Dalam versi
Slovenia, 1989). Namun, pemeriksaan tersebut mengungkapkan bahwa lengkap dari INSTRUCT, docments ini kemudian dapat membentuk dasar untuk
mereka con-tained hanya kata kunci dan / atau judul untuk berbagai teknik relevansi-umpan balik; dalam konteks ini, bagaimanapun,
mengkarakterisasi isi dari dokumen konstituen. Dengan demikian, koleksi tes pengguna hanya diminta untuk memberikan penilaian relevansi dari 10 dokumen
baru yang berisi abstrak diciptakan untuk tujuan evaluasi ini. Koleksi ini yang diambil oleh masing-masing dari tiga jenis pencarian. Tiga set penilaian
con-tains abstrak dari semua 217 artikel yang diterbitkan dalam jurnal relevansi untuk setiap query kemudian dikumpulkan untuk memberikan satu set
Knjiinica di tahun-tahun 1972-1990, dan semua 287 artikel yang diterbitkan dokumen yang relevan untuk evaluasi kinerja.
dalam jurnal Informatofogia Yugosfavica di tahun-tahun 1969-1990. Koleksi ini
kecil dibandingkan dengan sebagian besar koleksi tes bahasa
Inggris-bahasa yang tersedia; Namun, itu selesai dalam arti bahwa dua
jour-nals ini mengandung sebagian besar semua artikel yang pernah
dipublikasikan di perpustakaan dan ilmu informasi dalam bahasa Slovenia.
Hasil eksperimental dan Diskusi

Hasil dari tiga set pencarian yang rinci pada Tabel 1, yang berisi daftar
jumlah dokumen-KASIH relevan diidentifikasi oleh pencarian bertangkai,
dipotong, dan non-digabungkan untuk masing-masing 48 pertanyaan. Sejak
pencarian tersebut semua digunakan tetap cut-off dari sepuluh
Query diperoleh, dengan menggunakan pedoman yang ditetapkan oleh Lesk dan Salton dokumen-KASIH, angka-angka dalam tabel ini sesuai dengan
(1969), dari delapan mem-bers dari Perpustakaan Nasional dan Universitas di Ljubl-jana. pra-keputusannya dari pencarian. Tabel 1 menunjukkan bahwa pencarian
Masing-masing mata pelajaran ini adalah salah seorang pustakawan atau peneliti dalam ilmu bertangkai dan dipotong memberikan hasil yang sangat mirip, dan bahwa
perpustakaan. Masing-masing dari 48 pertanyaan ob-tained mewakili informasi real butuhkan hasil ini jauh lebih unggul dengan yang diperoleh saat penggabungan tidak
dan mantan dilakukan. Secara khusus, pencarian bertangkai dan dipotong diambil total
dari 302 dan 297 dokumen yang relevan, masing-masing, sedangkan
ditekan gramatically-benar, tidak ambigu Slovenia. Dalam semua, 48 pertanyaan yang pencarian nonconflated diambil hanya 210 dokumen yang relevan. Hasil
terkandung 293 kata konten-bantalan, dengan antara dua dan 15 kata per query yang sama diperoleh jika hanya lima dokumen pertama di setiap peringkat
(saya-dian enam kata per query). Setiap query digeledah terhadap database di kedua dievaluasi: dalam hal ini,
berasal dan bentuk nonconflated. Frakes (1984) telah mencatat bahwa pengguna tangan
kanan pemotongan dan otomatis berasal keduanya dimaksudkan untuk meningkatkan
kinerja pengambilan, dan bahwa stemmer dapat dievaluasi dengan membandingkan
efektivitas pengambilan disebabkan dari penggunaan dengan yang sesuai efektivitas
yang dihasilkan dari penggunaan panduan kanan pemotongan. Perantara
berpengalaman itu maka digunakan untuk melaksanakan satu set lebih lanjut dari
pencarian, di mana istilah permintaan yang dipotong seperti yang dirasakan sesuai Signifikansi statistik dari perbedaan dalam kinerja yang ditunjukkan
dengan pada Tabel 1 dapat diuji dengan cara Sign Test (Siegal & Castellan, 1988).
Dalam konten ini, hipotesis nol untuk Masuk Test adalah

P [R (X)> I? (Y)] = P [R (X) <I? (Y)] = 0,5


perantara. Dengan demikian, ada tiga jenis pencarian yang dilakukan,
semua yang terlibat tahap stopwording awal untuk menghilangkan dimana P [R (X)> R (Y)] (P [R (X) <R (Y)]) menunjukkan probabilitas bahwa jumlah
non-konten-bantalan kata: yang nonconflated pencarian, di mana tidak ada dokumen yang relevan kembali trieved menggunakan beberapa strategi
proses-ing lanjut terjadi sebelum mencari; yang dipotong pencarian, di pengambilan, X, lebih besar dari ( kurang dari) jumlah dokumen yang relevan
mana perantara dilatih diterapkan kanan pemotongan kata-kata dari query kembali trieved menggunakan beberapa strategi pengambilan lainnya, Y. Jadi, jika
sebelum mencari; dan bertangkai pencarian, di mana kata-kata baik di X sesuai dengan berasal pencarian dan Y untuk trun-kasikan pencarian, misalnya,
query dan dokumen-dokumen basis data yang berasal sebelum mencari. Tanda Uji tes hipotesis nol, Ho, yang tidak ada perbedaan yang signifikan dalam
jumlah dokumen yang relevan diambil oleh bertangkai dan pencarian terpotong.
Signifikansi perbedaan, jika ada, antara dua strategi mungkin karena itu dibentuk
dengan membandingkan jumlah dokumen yang relevan diambil oleh
Percobaan menggunakan program INSTRUCT, yang pada awalnya masing-masing strategi dengan orang-orang yang akan diharapkan bawah
dikembangkan di Sheffield untuk menggambarkan prinsip-prinsip hipotesis nol. distribusi yang diamati kemudian dapat menjadi com-dikupas dengan
peringkat-output, non-Boolean mencari untuk siswa kepustakawanan dan ilmu tabel statistik untuk menentukan probabil-ity yang distribusi seperti itu bisa muncul
informasi (Willett & Wood, 1989). Normal stemmer berbahasa Inggris di secara kebetulan; perkiraan ke 2 tes dapat digunakan dalam kasus sampel besar
INSTRUCT digantikan oleh stemmer Slovenia dijelaskan di atas, dan fasilitas (Siegel & Castellan, 1988).
tambahan yang disediakan untuk memungkinkan Search nonconflated dan
dipotong

ing. Menanggapi permintaan alami-bahasa, IN-STRUCT melakukan pencarian terbaik


pertandingan, menggunakan inverse

Journal of American MASYARAKAT UNTUK INFORMASI science Juni 1992 387


TABEL 1. Jumlah dari relevan retrieveddocumentsfor 48 queries MEJA 2. Masuk analisis Uji menggunakan tiga yang berbeda jenis dari

di cutoff-10, menggunakan tiga yang berbeda jenis pencarian. pencarian.

Pertanyaan bertangkai cacad Nonconflated menggenang X Y + - P


-

1 6 5 4 6 bertangkai cacad 12 8 0,868

2 9 9 4 10 bertangkai Nonconflated 37 5 ~ 0,00003

3 9 7 5 9 cacad Nonconf lated 34 4 <0,00003

4 7 7 4 7
5 8 6 6 9

6 8 8 2 9 dan kedua otomatis berasal dan manual kanan


7 10 10 6 13 pemotongan untuk mencari database teks Slovenia; dan
8 3 3 1 3
bahwa tidak ada perbedaan yang signifikan antara ini
9 7 10 3 12
dua, pendekatan yang sangat berbeda untuk kata penggabungan.
10 7 6 2 9

11 9 9 8 14 Lebih lanjut statistik Analisis dilakukan dengan menggunakan

12 10 10 7 15 Kendall Koefisien Konkordansi, W, yang ukurlah


13 8 8 8 9 Sures sejauh mana k peringkat dari set yang sama
14 9 9 7 11
benda M berada dalam perjanjian dengan satu sama lain (Siegel &
15 9 9 9 11

16 5 5 3 6
Penjaga istana, 1988). Dalam konteks ini, A4 = 3,
17 7 6 6 7 jumlah yang berbeda jenis pencarian, dan k = 48, itu
18 7 6 6 7 jumlah peringkat dari ketiga penelusuran (dimana
19 6 6 8 14 pencarian bahwa diambil jumlah terbesar, itu
20 10 9 10 20
kedua greatestnumber dan jumlah terkecil, dari
21 10 10 3 12
dokumen yang relevan dalam menanggapi permintaan tertentu
22 6 6 3 7

23 6 6 4 7 diberi jajaran 1, 2, dan 3, masing-masing). Itu


24 3 4 1 4 Koefisien Kendall dapat digunakan untuk menguji nol hypothe-
2,5 6 7 7 12 sis, Ho, bahwa tidak ada perbedaan yang signifikan dalam
26 7 7 6 8
peringkat dari bertangkai, dipotong, dan nonconflated
27 8 8 8 10
pencarian.
28 7 8 8 13

29 5 5 4 8 Untuk menghitung W, jumlah diambil relevan


30 1 1 0 1 dokumen tiga
yang pertama kali digunakan untuk peringkat jenis
31 5 5 4 8 pencarian; peringkat ini kemudian digunakan untuk menemukan jumlah
32 3 3 2 5
jajaran, rij, di setiap kolom dari keseluruhan k x M
33 5 5 3 5
34 4 4 3 6
tabel hasil. Itu R, nilai-nilai dijumlahkan dan kemudian
35 10 8 5 12 dibagi dengan M untuk memperoleh nilai rata-rata dari rij: setiap
36 9 9 5 9 dari R, kemudian dinyatakan sebagai penyimpangan dari
37 3 2 1 4 berarti nilai. S, jumlah kuadrat dari penyimpangan, aku s
38 4 3 4 6
dihitung dari
39 7 8 3 9
41 3 3 5 8 , =, (,, - $)
40 5 4 4 6

42 2 2 0 2

43 6 4 2 6 dan W kemudian dihitung sebagai


44 5 6 5 8

45 6 6 2 6 S
w=1
46 2 3 3 4

47 5 5 3 7 ; K2 (M3 - M)
48 5 7 3 7

Total 302 297 210 401 Arti penting dari nilai yang dihitung untuk W dapat dibentuk menggunakan uji
Chi-square, karena

x2 = k (M - l) W.
Hasil Masuk analisis Uji dua ekor tercantum dalam Tabel 2, di mana “+” dan “-”
merupakan nilai num-bers kali bahwa strategi X melakukan lebih baik daripada Ketika prosedur ini diadopsi untuk hasil pada Tabel 1, nilai yang dihitung
strategi Y dan sebaliknya, dan di mana untuk W adalah 0,347; ini cor-merespon nilai untuk X2 dari 33,3, yang
p adalah probabilitas yang terkait untuk memperoleh distribusi ini “+“dan “-“s di bawah kemungkinan associ-diciptakan terjadinya bawah HO kurang dari 0,001.
Ho. Ini akan terlihat bahwa HO dapat ditolak untuk X = berasal, Y = nonstemming, dan Mengingat bahwa hubungan yang signifikan secara statistik ada antara 48
untuk X = pemotongan, Y = nonstemming, dan bahwa Ho didukung untuk X = berasal, pencarian, jumlah dari rij nilai dapat digunakan untuk mengidentifikasi yang terbaik
Y = pemotongan. Oleh karena itu, kami menyimpulkan bahwa ada perbedaan yang dari tiga jenis pencarian (Siegel & Castellan, 1988). Jumlah yang dari jajaran yang
signifikan antara nonconflation 79, 79, dan 128 untuk bertangkai, dipotong, dan

388 Journal of American MASYARAKAT UNTUK INFORMASI science Juni 1992


pencarian nonconflated, masing-masing, dan kami dengan demikian con-clude bahwa MEJA 3. Kompresi dicapai oleh Slovenia dan Porter batang-

algoritma ming untuk tiga kamus. W dan S adalah ukuran dari


pencarian bertangkai dan dipotong melakukan sama dengan baik dan keduanya unggul
kamus bertangkai dan nonconflated dan C kompresi yang dihasilkan.
pencarian nonconflated.

Ini akan menjadi jelas dari Tabel 1 dan 2 bahwa ada perbedaan kinerja yang Slovenia Porter

sangat besar antara kinerja representasi teks yang membingungkan dan Sumber Kamus

W S C W S c
nonconflated, dan bahwa perbedaan ini jauh lebih besar daripada yang diamati
dalam tes berasal algoritma dengan bahasa Inggris koleksi uji dokumen (Harman,
504 abstrak 8602 2957 65,5 4756 3012 36,7
1991; Keen, 1992; Lennon et al, 1981.). Untuk memastikan bahwa hasil yang 48 queries 224 148 33,9 159 144 9.4

diperoleh di sini bukan disebabkan oleh beberapa keganjilan dari data tes, 83 abstrak 2616 1184 45.3 1250 1065 14,8

bertangkai dan pencarian nonconflated dilakukan pada versi uji kolektif-tion di mana
kedua dokumen dan query telah diterjemahkan ke dalam bahasa Inggris. Algoritma
varian yang harus ditampung di Slovenia sistem teks-pengambilan.
berasal yang digunakan di sini adalah bahwa dijelaskan oleh Porter (1981), yang
juga telah digunakan dalam beberapa penelitian lain yang berasal (lihat, misalnya,
Frakes, 1984; Harman, 1991). Pada kasus ini, pencarian bertangkai diambil total 248
Set Slovenia dan Inggris batang yang dihasilkan dari bagian 83-abstrak
dokumen relevan dan pencarian nonconflated diambil total 234 dokumen yang
disajikan untuk perantara secara online expe-rienced untuk penilaian dari
relevan. Stemming memberi hasil yang lebih baik untuk 17 dari pencarian dan hasil
accu-bersemangat dari yang berasal. perantara yang dilaporkan total 109
buruk selama 13 dari pencarian, dengan sisa 18 menunjukkan tidak ada perbedaan
kesalahan dalam 1184 Slovenia batang, yang merupakan tingkat kegagalan
antara pencarian bertangkai dan non-digabungkan: penerapan Masuk Uji
menunjukkan bahwa perbedaan ini tidak signifikan, dengan p = 0,819. Dengan
9,2%, dan total 93 kesalahan dalam 1065 bahasa Inggris batang, yang merupakan
demikian, data Inggris nonconflated dilakukan lebih baik daripada data Slovenia
tingkat kegagalan 8,7%. Dalam pandangan tokoh kompresi dicatat sebelumnya, kami
nonconflated, menekankan kebutuhan untuk beberapa jenis prosedur penggabungan
menyimpulkan bahwa meskipun stemmer Slovenia adalah algoritma lebih kuat dari
(apakah manual atau otomatis) dalam teks-pengambilan sistem Slovenia untuk
stemmer Porter, mereka berdua memberikan tingkat kesalahan sangat mirip. Contoh
mencakup rentang yang jauh lebih besar dari variasi morfologi yang dapat
kesalahan di bawah berasal dan overstemming yang terjadi dengan dua algoritma ini
diharapkan jika dibandingkan ke bahasa Inggris. Namun, penggunaan algoritma
disajikan oleh Popovic (1991).
berasal dengan data bahasa Inggris hanya menghasilkan sangat sedikit
meningkatkan-ment dalam kinerja, hasil yang sepenuhnya sama dengan yang
diperoleh oleh Harman (1991).

kesimpulan

Pada artikel ini, kami telah membandingkan efektivitas tiga jenis query
alam-bahasa pencarian dari database Slovenia teks. Hasil penelitian menunjukkan
bahwa tidak ada perbedaan yang signifikan dalam efektif-ness pencarian yang
menggunakan manual, pemotongan tangan kanan dan sebuah otomatis berasal
algoritma, dan bahwa kedua jenis pencarian lebih unggul secara signifikan untuk
pencarian yang menggunakan kata-kata query. Mantan Temuan ini sesuai dengan
studi sebelumnya yang berasal dan pemotongan dalam pencarian database English
Perbedaan antara Slovenia dan Inggris lebih lanjut disorot oleh (Frakes, 1984); Namun, temuan terakhir ini berbeda dengan studi terbaru dari
perbandingan kompresi yang terjadi ketika algoritma berasal diterapkan berasal dan nonstemming dalam pencarian database English (Harman, 1991;
pada kamus jenis kata. Secara khusus, jika kamus asli berisi kata-kata W, Keen, 1992). Sebuah percobaan kontrol yang digunakan versi bahasa Inggris dari
dan ini diproses untuk memberikan total S yang berbeda batang, maka database Slovenia menunjukkan bahwa perbedaan kita amati adalah akibat
kompresi, C, didefinisikan oleh langsung dari kompleksitas lan-gauge yang digunakan, dan bukan dari data tes
khusus yang digunakan dalam penelitian ini.

100 x (W - S)
C=
w .

angka kompresi dihitung untuk Slovenia dan Porter stemmers ketika mereka
diterapkan pada kata-kata contentbearing di semua 504 abstrak, dalam Kesimpulannya, kami mencatat bahwa Harman (1991) hak nya kertas
semua 48 pertanyaan, dan dalam bagian 83-abstrak dari set lengkap “Seberapa efektif adalah suffixing?“: Kami percaya bahwa jawaban untuk
abstrak. Ukuran kamus dan compres-sion angka yang diperoleh tercantum pertanyaan ini adalah bahwa suffixing dapat sangat efektif, mengingat bahasa
dalam Tabel 3, di mana akan terlihat bahwa kedua dengan tingkat yang cukup kompleksitas morfologi.

Tongkat sihir C jauh lebih besar untuk teks Slovenia daripada teks-teks
bahasa Inggris, sedangkan angka S yang luas dibandingkan. lanjut ini
Ucapan Terima Kasih
em-phasizes angka yang jauh lebih besar dari morfologi
Kami berterima kasih kepada Perpustakaan Universitas Nasional dan, Ljubljana,
British Council, dan Kementerian

Journal of American MASYARAKAT UNTUK INFORMASI science Juni 1992 389


Budaya dan Riset dan Teknologi di Slovenia untuk pendanaan, dan Boris Lovins, JB (1968). Pengembangan dari yang berasal algoritma. Saya-

KoSorok untuk melaksanakan pencarian pemotongan tangan kanan dan chanical Terjemahan dan Komputasi Linguistik, II, 22-31.

Lovins, JB (1971). Kesalahan evaluasi algoritma


untuk menilai output stemmer.
untuk membendung sebagai

algoritma clustering. Jurnal dari American Society for Science Informa-tion, 22, 28-40.

Niedermair, GT, Thurmair, G., & Biittel, I. (1985). MARS: re- sebuah

trieval alat atas dasar morfologi analisis. Dalam CJ van


Referensi
Rijsbergen (Ed.), Penelitian dan Pengembangan di ulang informasi
trieval ( pp. 369-380). Cambridge: CANGKIR.
Bidwell, CA (1969). Garis besar morfologi Slovenia. Pittsburgh:
PopoviE, M. (1991). Pelaksanaan berbasis bahasa-gratis-Slovenia
Universitas of Pittsburgh Tekan.
sistem pencarian teks. PhD tesis, Universitas Sheffield.
Chiaramella, Y. & Defude, B. (1987). Sebuah prototipe dari cerdas
PopoviE, M. & Willett, P. (1990). Pengolahan dokumen dan
sistem informasi pengambilan: IOTA. Informasi Pengolahan
query dalam sistem pencarian teks bebas Bahasa Slovenia. Sastra dan Linguistik
dan Manajemen, 23, 285-303.
Komputasi, 5, 182-190. Porter, MF (1980). Algoritma untuk akhiran stripping.
Frakes, WB (1984). penggabungan jangka untuk informasi pengambilan. Di
Program, 14,
CJ van Rijsbergen, (Ed.), Penelitian dan pengembangan di INFORMATION
130-137.
tion pengambilan ( pp. 383-390). Cambridge: CANGKIR.
Komunitas penelitian Slovenia (1989). S & pakis znanstvenega di
Fuhr, N. (1990). Zur fiberwindung der Diskrepanz zwischen Re-
tehnihegu informiranja v Sloveniji. Ljubljana: Raziskovalna skup-
trievalforschung und praksis. Nuchrichten fiir Dokurnentution, 41, 3-7.
sarang Slovenije.
Siegel, S. & Castellan, N. J. (1988). statistik nonparametrik untuk
Hafer, MA & Weiss, SF (1974). segmentasi kata demi varietas pengganti huruf. Penyimpanan
ilmu perilaku. New York: McGraw-Hill. ToporiSi ?,
Informasi dan Retrieval, IO, 371-385. Harman, D. (1991). seberapa efektif
J. ( 1984). Slovenska slovnica. Maribor: Obzorja.
adalah suffixing? Jurnal dari theAmeri-
Ulmschneider, JE & Doszkocs, T. (1983). Sebuah praktis berasal
bisa Society for Information Science, 42, 7-15. algoritma untuk bantuan pencarian online. Online Review, 7 301-318. Pejalan, S. & Jones,
Jlppinnen, H., Niemistö, .I., & Ylilammi, M. (1985). FINNTEXT RM (1987). Meningkatkan pengambilan subjek dalam on-
- - teks pemulihan sistem untuk aglutinatif bahasa. Riao 85 katalog baris: 1. berasal, koreksi ejaan otomatis dan
Recherche d'lnformations ( pp. 217-226). Grenoble: IMAG. tabel referensi silang. British Library Research Paper 24. London: British Library. Wenzel, F. (1980).
Tajam, EM (in press). Pengaruh berasal kekuatan pada-upaya yang Semantische
fectiveness output Peringkat. Prosiding Informatika, II. Eingrenzung im Freitext-pengambilan
Lencek, RL (1982). struktur dan sejarah yang LAN-Slovenia auf der Dasar morphologischer Segmentierungen. fib Nuchrichten
gauge. Kolumbia: Slavica. Dokumentasi, 3I, 29-35.
Lennon, M., Peirce, D., Tarry, B., & Willett, P. (1981). sebuah evalu- Willett, P. & Wood, FE (1989). Penggunaan INSTRUCT yang teks kembali

asi dari beberapa penggabungan algoritma untuk informasi pengambilan.


Program trieval di Departemen Informasi Studi, Uni-
Jurnal Ilmu Informasi, 3, 177-183. hayati dari Sheffield. Pendidikan Informasi, 7
Lesk, ME & Salton, G. (1969). hubungan penilaian dan re- 133-141.

trieval sistem evaluasi. Penyimpanan Informasi dan Retrieval, 4,


343-359.

390 Journal of American MASYARAKAT UNTUK INFORMASI science Juni 1992

Anda mungkin juga menyukai