Tekstual data
Mirko Popovie
Perpustakaan Nasional dan Universitas, Ljubljana, Yugoslavia
Peter Willett *
Departemen informasi Studi, University of Sheffield, Bank Barat, Sheffield 30 2tn, Inggris Raya
Ada beberapa studi tentang penggunaan berasal algoritma untuk conflating telah menyebabkan pengembangan penggabungan teknik, yang memungkinkan
varian morfologi dalam sistem pengambilan FREETEXT. Perbandingan pencocokan berbagai bentuk kata yang sama.
pencarian bertangkai dan nonconflated menunjukkan bahwa tidak ada
peningkatan yang signifikan dalam efektivitas pengambilan ketika berasal
Penggabungan dapat dicapai dengan baik cara manual atau otomatis.
diterapkan untuk dokumen berbahasa Inggris dan permintaan. Artikel ini
melaporkan penggunaan yang berasal dari dokumen Slovenia-bahasa dan penggabungan pengguna biasanya dipengaruhi oleh pemotongan tangan kanan
permintaan, dan menunjukkan bahwa penggunaan hasil berasal al-gorithm pada saat pencarian, dengan pemotongan yang dilakukan oleh pencari. Dengan
tepat dalam besar, dan signifikan secara statistik, peningkatan efektivitas demikian, dalam konteks sistem pencarian terbalik-file yang konvensional,
pengambilan bila dibandingkan dengan proses nonconflated; komentar serupa
masuknya COMPUT * dalam hasil query dalam persatuan daftar postingan dari
berlaku untuk penggunaan manual, pemotongan kanan.
semua kata dalam file kamus yang berisi prefix string yang ditentukan. pengalaman
yang luas diperlukan jika pemotongan yang efektif yang akan dicapai (Keen, 1992).
penggabungan otomatis dilakukan dengan cara berasal algoritma,
yang conflates varian morfologi dari kata untuk satu batang dengan penghapusan akhiran;
pada dasarnya, prosedur yang sama dapat digunakan untuk menghilangkan awalan,
tetapi ada sedikit pekerjaan ini sampai saat ini. pemotongan pengguna diterapkan hanya
untuk kata-kata dalam permintaan, sementara berasal adalah tambahan diterapkan untuk
Journal of American MASYARAKAT UNTUK INFORMASI ILMU. 43 (5): 384-390, 1992 ccc 0002-8231 / 92 / 050.384-07 $ 04.00
pemotongan. Niedermair et al. (1985) menyarankan bahwa perbaikan yang baik, 1969; Lencek, 1982; ToporiSiE, 1984). Sebagai contoh, kata benda mengacu
sangat besar dalam recall yang dihasilkan dari penerapan berasal dalam sistem pada orang atau objek yang menurun menggunakan enam kasus yang berbeda, dan
MARS lebih dari kompensasi untuk sedikit penurunan presisi yang juga diperoleh. dapat muncul tidak hanya dalam bentuk tunggal dan jamak tetapi juga dalam bentuk
Namun, penelitian lain menunjukkan bahwa berasal tidak selalu meningkatkan ganda, yang mengacu pada dua kejadian benda itu, memberikan total 18 bentuk yang
efektivitas pengambilan. Dengan demikian, Walker dan Jones (1987) menemukan berbeda . Komentar serupa berlaku untuk kata benda verbal, kata sifat, angka, dan kata
bahwa lemah berasal, yaitu, berasal dengan algoritma yang dihapus hanya sejumlah ganti, dan ada juga perubahan sering dalam bentuk batang dasar sebagai akhiran
kecil sufiks pendek (khusus, bentuk jamak, -1NG dan -ed), adalah biasanya ditambahkan untuk itu untuk menciptakan suatu bentuk kata tertentu. Karakteristik ini
bermanfaat dalam pencarian di Okapi, sebuah experi-mental yang OPAC bahasa berarti bahwa algoritma stemming untuk Slovenia akan perlu jauh lebih
berdasarkan pengindeksan otomatis dan tetangga terdekat-pencarian; Namun, kompleks daripada algoritma stemming untuk En-glish jika itu adalah untuk digunakan
mereka juga menemukan bahwa kuat berasal, yang mengakibatkan penghapusan dalam-teks bebas pengambilan environ-ment, misalnya, ada tidak kurang dari 94
jauh lebih luas dari akhiran, sering memberikan salah re-sults. Baru-baru ini, berbagai bentuk batang RAZISKOVA * (untuk RESEARCH) (Popoviz & Willett, 1991).
Harman (1991) dan Keen (1992) telah membandingkan efektivitas berbagai
algoritma batang-ming pada koleksi uji dokumen yang query dan penilaian
relevansi terkait yang avail-
Penggunaan tiga umum tujuan berasal Al- yang umum dengan stemmers bahasa Inggris, dan mengandung tidak kurang dari
gorithms tidak menimbulkan perbaikan dalam temu 5276 akhiran. Setiap akhiran disertai dengan panjang batang minimum, yaitu, catatan
prestasi dalam tiga koleksi uji diperiksa, dari batang yang diijinkan pendek-est yang dapat mengakibatkan setelah
yang diukur dengan teknik evaluasi klasik. Al-meskipun permintaan individu penghapusan akhiran, dan salah satu dari delapan kode tindakan, yang
dipengaruhi oleh berasal, jumlah permintaan dengan peningkatan kinerja menghalangi-tambang aturan konteks-sensitif tertentu yang harus diterapkan jika
cenderung sama nomor dengan kinerja yang lebih miskin, sehingga menghasilkan minimum batang-panjang kendala bukan untuk dilanggar. Setelah akhir telah
sedikit perubahan keseluruhan untuk seluruh koleksi tes. dihapus, tiga set recoding aturan diperiksa untuk melihat apakah perlu untuk
mengubah batang yang telah dihasilkan dari tahap akhiran-removal sebelumnya.
dibuktikan, misalnya, dengan karya Wenzel (1980). Pada artikel ini, kami perubahan yang sangat besar yang menghasilkan teks Slovenia ketika algoritma kami
mengevaluasi efektivitas algoritma berasal baru untuk digunakan dengan berasal diterapkan untuk itu.
Bahasa Slovenia mirip dengan bahasa Inggris dalam varian kata bentuk yang
dibuat dengan menambahkan sufiks untuk batang dasar. Namun, morfologi
Slovenia jauh lebih kompleks daripada Ketika penelitian ini dimulai, diharapkan bahwa koleksi tes dapat
adalah morfologi Inggris (Tawaran- dibuat dari salah satu dari banyak
Predstavljen je fenomen secara online javno dostopnega kataloga oziroma s kratico OPAC (po an-gleHkem katalog online akses publik) pri ra & nalniEko
podprtem poslovanju knjiinic oziroma knji% Enih sistemov, njegovega nastanka, razvoja di stanja v razvitih sredinah, njegovih naEe1, karakteristik di
pojavnih oblik. Obdelano je ge: uporaba OPAC-ov prve di druge generacije v posameznih knjiz'nicah di v vzajemnih katalogih, odnos lakukan secara online
bibliografskih servisov, prob-lemi koncnih uporabnikov di uporabe OPAC-a, zahteve di pogoji za oblikovanje u6nkovitega di uporabnisko prijaznega
(4
PREDSTAV FENOM onlin javen DOSTOP katal KRAT OPAC AnGl onlin PUBLIC ACCES KATALOG RACUNAL PODPR POS KNJIZ KNJIZ
STAN RAZVOJ SREDIN NAEEL KARAKTER POJAV oblik OBDEL UPORAB OPAC Gener KNJIZ VZAJEM katal ODNES onlin BIBLIOGRAF servis
ZAHTEV POGOJ oblik U & N UPORAB PRIJAZ ISKAL DIAL PERSPEK UVAJ OPAC katal
(B)
Ini merupakan pengantar untuk fenomena katalog akses publik secara online (short OPAC) yang diterapkan pada katalog perpustakaan otomatis atau
sistem perpustakaan. Berisi informasi tentang asal usulnya, pengembangan dan stateof-the-art di negara maju dan deskripsi prinsip-prinsip di bawah
berbaring fungsinya, karakteristik dan modalitas struktural dan fungsional untuk tujuan yang berbeda. Mengingat ini adalah gambaran singkat dari
dan sistem bersama-katalog, yang ditunjukkan adalah hubungan ke layanan bibliografi secara online dan pengguna,
persyaratan dan sikap mengenai antarmuka pengambilan user-friendly. Akhirnya, keluar-penampilan dan persyaratan untuk memperkenalkan katalog
(4
ARA. 1. Operasi dari Slovenia berasal algoritma: (A) asli teks, dan (b) teks yang sama setelah konversi untuk
kasus tunggal, stopwording dan berasal. (C) adalah bahasa Inggris terjemahan yang muncul dengan abstrak Slovenia
ketika diterbitkan dalam jurnal Knjiinica.
Hasil dari tiga set pencarian yang rinci pada Tabel 1, yang berisi daftar
jumlah dokumen-KASIH relevan diidentifikasi oleh pencarian bertangkai,
dipotong, dan non-digabungkan untuk masing-masing 48 pertanyaan. Sejak
pencarian tersebut semua digunakan tetap cut-off dari sepuluh
Query diperoleh, dengan menggunakan pedoman yang ditetapkan oleh Lesk dan Salton dokumen-KASIH, angka-angka dalam tabel ini sesuai dengan
(1969), dari delapan mem-bers dari Perpustakaan Nasional dan Universitas di Ljubl-jana. pra-keputusannya dari pencarian. Tabel 1 menunjukkan bahwa pencarian
Masing-masing mata pelajaran ini adalah salah seorang pustakawan atau peneliti dalam ilmu bertangkai dan dipotong memberikan hasil yang sangat mirip, dan bahwa
perpustakaan. Masing-masing dari 48 pertanyaan ob-tained mewakili informasi real butuhkan hasil ini jauh lebih unggul dengan yang diperoleh saat penggabungan tidak
dan mantan dilakukan. Secara khusus, pencarian bertangkai dan dipotong diambil total
dari 302 dan 297 dokumen yang relevan, masing-masing, sedangkan
ditekan gramatically-benar, tidak ambigu Slovenia. Dalam semua, 48 pertanyaan yang pencarian nonconflated diambil hanya 210 dokumen yang relevan. Hasil
terkandung 293 kata konten-bantalan, dengan antara dua dan 15 kata per query yang sama diperoleh jika hanya lima dokumen pertama di setiap peringkat
(saya-dian enam kata per query). Setiap query digeledah terhadap database di kedua dievaluasi: dalam hal ini,
berasal dan bentuk nonconflated. Frakes (1984) telah mencatat bahwa pengguna tangan
kanan pemotongan dan otomatis berasal keduanya dimaksudkan untuk meningkatkan
kinerja pengambilan, dan bahwa stemmer dapat dievaluasi dengan membandingkan
efektivitas pengambilan disebabkan dari penggunaan dengan yang sesuai efektivitas
yang dihasilkan dari penggunaan panduan kanan pemotongan. Perantara
berpengalaman itu maka digunakan untuk melaksanakan satu set lebih lanjut dari
pencarian, di mana istilah permintaan yang dipotong seperti yang dirasakan sesuai Signifikansi statistik dari perbedaan dalam kinerja yang ditunjukkan
dengan pada Tabel 1 dapat diuji dengan cara Sign Test (Siegal & Castellan, 1988).
Dalam konten ini, hipotesis nol untuk Masuk Test adalah
4 7 7 4 7
5 8 6 6 9
16 5 5 3 6
Penjaga istana, 1988). Dalam konteks ini, A4 = 3,
17 7 6 6 7 jumlah yang berbeda jenis pencarian, dan k = 48, itu
18 7 6 6 7 jumlah peringkat dari ketiga penelusuran (dimana
19 6 6 8 14 pencarian bahwa diambil jumlah terbesar, itu
20 10 9 10 20
kedua greatestnumber dan jumlah terkecil, dari
21 10 10 3 12
dokumen yang relevan dalam menanggapi permintaan tertentu
22 6 6 3 7
42 2 2 0 2
45 6 6 2 6 S
w=1
46 2 3 3 4
47 5 5 3 7 ; K2 (M3 - M)
48 5 7 3 7
Total 302 297 210 401 Arti penting dari nilai yang dihitung untuk W dapat dibentuk menggunakan uji
Chi-square, karena
x2 = k (M - l) W.
Hasil Masuk analisis Uji dua ekor tercantum dalam Tabel 2, di mana “+” dan “-”
merupakan nilai num-bers kali bahwa strategi X melakukan lebih baik daripada Ketika prosedur ini diadopsi untuk hasil pada Tabel 1, nilai yang dihitung
strategi Y dan sebaliknya, dan di mana untuk W adalah 0,347; ini cor-merespon nilai untuk X2 dari 33,3, yang
p adalah probabilitas yang terkait untuk memperoleh distribusi ini “+“dan “-“s di bawah kemungkinan associ-diciptakan terjadinya bawah HO kurang dari 0,001.
Ho. Ini akan terlihat bahwa HO dapat ditolak untuk X = berasal, Y = nonstemming, dan Mengingat bahwa hubungan yang signifikan secara statistik ada antara 48
untuk X = pemotongan, Y = nonstemming, dan bahwa Ho didukung untuk X = berasal, pencarian, jumlah dari rij nilai dapat digunakan untuk mengidentifikasi yang terbaik
Y = pemotongan. Oleh karena itu, kami menyimpulkan bahwa ada perbedaan yang dari tiga jenis pencarian (Siegel & Castellan, 1988). Jumlah yang dari jajaran yang
signifikan antara nonconflation 79, 79, dan 128 untuk bertangkai, dipotong, dan
Ini akan menjadi jelas dari Tabel 1 dan 2 bahwa ada perbedaan kinerja yang Slovenia Porter
sangat besar antara kinerja representasi teks yang membingungkan dan Sumber Kamus
W S C W S c
nonconflated, dan bahwa perbedaan ini jauh lebih besar daripada yang diamati
dalam tes berasal algoritma dengan bahasa Inggris koleksi uji dokumen (Harman,
504 abstrak 8602 2957 65,5 4756 3012 36,7
1991; Keen, 1992; Lennon et al, 1981.). Untuk memastikan bahwa hasil yang 48 queries 224 148 33,9 159 144 9.4
diperoleh di sini bukan disebabkan oleh beberapa keganjilan dari data tes, 83 abstrak 2616 1184 45.3 1250 1065 14,8
bertangkai dan pencarian nonconflated dilakukan pada versi uji kolektif-tion di mana
kedua dokumen dan query telah diterjemahkan ke dalam bahasa Inggris. Algoritma
varian yang harus ditampung di Slovenia sistem teks-pengambilan.
berasal yang digunakan di sini adalah bahwa dijelaskan oleh Porter (1981), yang
juga telah digunakan dalam beberapa penelitian lain yang berasal (lihat, misalnya,
Frakes, 1984; Harman, 1991). Pada kasus ini, pencarian bertangkai diambil total 248
Set Slovenia dan Inggris batang yang dihasilkan dari bagian 83-abstrak
dokumen relevan dan pencarian nonconflated diambil total 234 dokumen yang
disajikan untuk perantara secara online expe-rienced untuk penilaian dari
relevan. Stemming memberi hasil yang lebih baik untuk 17 dari pencarian dan hasil
accu-bersemangat dari yang berasal. perantara yang dilaporkan total 109
buruk selama 13 dari pencarian, dengan sisa 18 menunjukkan tidak ada perbedaan
kesalahan dalam 1184 Slovenia batang, yang merupakan tingkat kegagalan
antara pencarian bertangkai dan non-digabungkan: penerapan Masuk Uji
menunjukkan bahwa perbedaan ini tidak signifikan, dengan p = 0,819. Dengan
9,2%, dan total 93 kesalahan dalam 1065 bahasa Inggris batang, yang merupakan
demikian, data Inggris nonconflated dilakukan lebih baik daripada data Slovenia
tingkat kegagalan 8,7%. Dalam pandangan tokoh kompresi dicatat sebelumnya, kami
nonconflated, menekankan kebutuhan untuk beberapa jenis prosedur penggabungan
menyimpulkan bahwa meskipun stemmer Slovenia adalah algoritma lebih kuat dari
(apakah manual atau otomatis) dalam teks-pengambilan sistem Slovenia untuk
stemmer Porter, mereka berdua memberikan tingkat kesalahan sangat mirip. Contoh
mencakup rentang yang jauh lebih besar dari variasi morfologi yang dapat
kesalahan di bawah berasal dan overstemming yang terjadi dengan dua algoritma ini
diharapkan jika dibandingkan ke bahasa Inggris. Namun, penggunaan algoritma
disajikan oleh Popovic (1991).
berasal dengan data bahasa Inggris hanya menghasilkan sangat sedikit
meningkatkan-ment dalam kinerja, hasil yang sepenuhnya sama dengan yang
diperoleh oleh Harman (1991).
kesimpulan
Pada artikel ini, kami telah membandingkan efektivitas tiga jenis query
alam-bahasa pencarian dari database Slovenia teks. Hasil penelitian menunjukkan
bahwa tidak ada perbedaan yang signifikan dalam efektif-ness pencarian yang
menggunakan manual, pemotongan tangan kanan dan sebuah otomatis berasal
algoritma, dan bahwa kedua jenis pencarian lebih unggul secara signifikan untuk
pencarian yang menggunakan kata-kata query. Mantan Temuan ini sesuai dengan
studi sebelumnya yang berasal dan pemotongan dalam pencarian database English
Perbedaan antara Slovenia dan Inggris lebih lanjut disorot oleh (Frakes, 1984); Namun, temuan terakhir ini berbeda dengan studi terbaru dari
perbandingan kompresi yang terjadi ketika algoritma berasal diterapkan berasal dan nonstemming dalam pencarian database English (Harman, 1991;
pada kamus jenis kata. Secara khusus, jika kamus asli berisi kata-kata W, Keen, 1992). Sebuah percobaan kontrol yang digunakan versi bahasa Inggris dari
dan ini diproses untuk memberikan total S yang berbeda batang, maka database Slovenia menunjukkan bahwa perbedaan kita amati adalah akibat
kompresi, C, didefinisikan oleh langsung dari kompleksitas lan-gauge yang digunakan, dan bukan dari data tes
khusus yang digunakan dalam penelitian ini.
100 x (W - S)
C=
w .
angka kompresi dihitung untuk Slovenia dan Porter stemmers ketika mereka
diterapkan pada kata-kata contentbearing di semua 504 abstrak, dalam Kesimpulannya, kami mencatat bahwa Harman (1991) hak nya kertas
semua 48 pertanyaan, dan dalam bagian 83-abstrak dari set lengkap “Seberapa efektif adalah suffixing?“: Kami percaya bahwa jawaban untuk
abstrak. Ukuran kamus dan compres-sion angka yang diperoleh tercantum pertanyaan ini adalah bahwa suffixing dapat sangat efektif, mengingat bahasa
dalam Tabel 3, di mana akan terlihat bahwa kedua dengan tingkat yang cukup kompleksitas morfologi.
Tongkat sihir C jauh lebih besar untuk teks Slovenia daripada teks-teks
bahasa Inggris, sedangkan angka S yang luas dibandingkan. lanjut ini
Ucapan Terima Kasih
em-phasizes angka yang jauh lebih besar dari morfologi
Kami berterima kasih kepada Perpustakaan Universitas Nasional dan, Ljubljana,
British Council, dan Kementerian
KoSorok untuk melaksanakan pencarian pemotongan tangan kanan dan chanical Terjemahan dan Komputasi Linguistik, II, 22-31.
algoritma clustering. Jurnal dari American Society for Science Informa-tion, 22, 28-40.
Niedermair, GT, Thurmair, G., & Biittel, I. (1985). MARS: re- sebuah