ISI
2.1 Sejarah Kosakata Terkendali dan Kosakata Alamiah
Bahasa dan atau kosa kata (vocabulary) memegang peranan yang sangat penting dalam
efektivitas dan efisiensi penelusuran pada suatu sistem temu balik informasi. (Muddamalle, 1998:
881). Pada dasarnya ada dua bahasa pendekatan penelusuran yang lazim digunakan dalam STBI
berbasis teks yaitu bahasa alami (natural language), dan kosa kata terkendali yang sering juga disebut
controlled vocabulary.
Muddamalle (1998: 881-883) mencatat bahwa sejarah bahasa alamiah (natural language)
kontra kosa kata terkendali (controlled vocabulary) dalam STBI dibagi kepada tiga era. Era pertama
dimulai pada abad ke-19 dengan penekanan kepada popularitas pengindeksan istilah berdasarkan
judul (title term indexing). Pada era ini kosa kata terkendali atau controlled vocabulary lebih dominan
digunakan dalam penelusuran, terutama digunakan untuk menemukan cantuman bibliografi dalam
katalog berklasifikasi di perpustakaan. Sedangkan penelusuran berdasarkan bahasa alamiah yang
biasa disebut dengan sebutan free-text searching atau penelusuran dengan teks bebas, baru dalam
tahap permulaan dilakukan pada era ini.
Era kedua dimulai pada saat kehadiran komputer dalam sistem temu balik informasi. Pada era
ini kegiatan pengindeksan mulai dilakukan dalam bentuk mekanis yaitu berupa pengindeksan
otomatis. Kemudian, era ketiga dimulai pada pertengahan tahun 1970-an, dimana pendekatan yang
berbeda dilakukan untuk menguji isu natural language versus controlled vocabulary, melalui
pengujian rasio Recall dan Precision dalam STBI pada berbagai database berbasis teks.
Pada tahun 1976, Barbara Charton melakukan penelitian melalui penelusuran pada Chemical
Abstracts, untuk menjawab pertanyaan penelitian, Is a controlled vocabulary necessary? Dalam hasil
penelitiannya, dia mengemukakan bahwa suatu penelusuran dengan teks bebas bisa seefektif
penelusuran menggunakan controlled vocabulary, asalkan dilakukan oleh seseorang yang memiliki
pengalaman dalam penelusuran. Penelusuran dengan teks bebas bisa lebih efektif, sebab ada kalanya
penelusuran menggunakan controlled vocabulary mengorbankan ketepatan dalam kemungkinan
mencapai kemudahan.
Markey, Atherton, dan Newton (1982), membandingkan 165 pernyataan penelusuran dengan
teks bebas (free-text search statements) yang digunakan dalam mengakses ERIC database untuk
mengetahui apakah konsep ekspresi dengan istilah teks bebas atau bahasa alamiah dapat juga
diekspresikan dari deskriptor ERIC (ERIC descriptors). Mereka menemukan bahwa salah satu dari
setiap delapan pernyataan penelusuran teks bebas yang tidak direpresentasikan dalam ERIC controlled
vocabulary. Secara keseluruhan, temu balik informasi secara teks bebas (free- text retrieval) dengan
menggunakan pendekatan bahasa alamiah menghasilkan perolehan (recall) yang tinggi dengan
ketepatan (precision) yang rendah, dari pada menggunakan pendekatan controlled vocabulary.
Calkins (1980) sesuai sitiran Muddamalle (1998: 881-883), dalam hasil pengamatannya
kepada sejumlah penelusur yang hanya menggunakan istilah controlled vocabulary dan yang hanya
menggunakan penelusuranteks bebas, mengemukakan kesimpulan bahwa penelusuran menggunakan
teks bebas dan controlled vocabulary ternyata saling melengkapi, dan penampilan terbaik yang
dicapai dalam penelusuran ialah menggunakan kombinasi dari keduanya.
Dari ketiga contoh hasil penelitian yang dikemukakan di atas, dapat dilihat bahwa efektivitas
dan efisiensi penelusuran menggunakan pendekatan bahasa alamiah atau penelusuran dengan teks
bebas (free-text search) ada kalanya lebih baik dari pada kosa kata terkendali, demikian sebaliknya
pendekatan menggunakan controlled vocabulary ada kalanya lebih baik dari bahasa alamiah.
Mengingat banyaknya penelitian dan eksperimen yang telah dilakukan untuk menguji kedua
pendekatan tersebut, maka keunggulan maupun kelemahan dari kedua pendekatan tersebut telah
banyak yang diketahui. Tulisan ini mencoba mengangkat isu tersebut untuk dibahas secara teoretis
melalui tinjauan literatur.
2.2. Pengertian Kosakata Terkendali dan Kosakata Alamiah
Bahasa atau kosakata alamiah adalah bahasa dari dokumen yang diindeks. Biasanya bahasa
tersebut merupakan bahasa yang tidak terkendali (uncontrolled vocabulary). Bahasa alamiah ini
umum digunakan dalam komunikasi dan penulisan ilmiah, yang banyak dipakai oleh pengarang
(Lancaster, 1986: 159). Sedangkan kosa kata terkendali dapat berupa indeks subjek, pengarang, judul
maupun dalam tesaurus.
Dalam pengindeksan kosa kata terkendali seperti tesaurus, istilah yang digunakan untuk
menyatakan kandungan atau isi suatu dokumen telah dibakukan dalam suatu daftar indeks yang
disusun secara alfabetis, misalnya dalam Sears List of Subject Heading, Library of Congress Subject
Heading, Macro Economics Thesaurus, DDC Index, dan sebagainya. Sedangkan dalam pengindeksan
bahasa alamiah, pengindeksan dilakukan pada semua istilah baik dari judul, abstrak, maupun dari teks
lengkap (full text) dokumen, terkecuali stop word atau daftar kata umum yang tidak digunakan dalam
penelusuran (Rowley, 1992: 272). Semua istilah indeks yang dihasilkan adalah bergantung kepada
bahasa dokumen itu sendiri, dan semuanya itu dapat merupakan representasi dari dokumen itu.
Mengingat volume pengindeksan dalam bahasa alamiah ini sangat besar, maka pengindeksan ini
biasanya dilakukan oleh komputer.
Bahasa alamiah dan kosa kata terkendali adalah dua bahasa hasil dari pengindeksan yang
sama-sama dapat dipergunakan sebagai representasi dokumen. Kedua bahasa pengindeksan tersebut
digunakan pada waktu pemasukan (input) data ke dalam database, dan akan digunakan juga pada
waktu pencarian/penelusuran (output) informasi dari database.
2.3 Kosakata Terkendali Vs Kosakata Alamiah
2.3.1 Kelebihan dan Kekurangan Kosakata Terkendali
Adapun kelebihan dan kekurangan dari kosakata terkendali (controlled vocabulary) adalah
seperti yang tercantum dalam table berikut :
Kelebihan
(a) Proses penelusuran dan temu balik
(a)
Kekurangan
Kosa kata terkendali harus selalu
diperbaharui.
1997:
dan
24).
Artinya,
dengan
Perkembangan ilmu
teknologi
menyebabkan
yang
terhadap
sebagai
query
untuk
dokumen
yang
Misalnya,
pada
input
seorang
pada
waktu
penelusur
sekaligus
juga
berdampak
pemunculan
atau
istilah
CANCER
atau
sebagai
kosa
kata
query pada
dirujuk
dengan
kata
see
menggunakan
MICROBIOLOGY
tersebut
pasti
akan
menemukan
dokumen
karena
representasi
kepada
istilah
di
pengindeks
(indexer)
komprehensif
istilah
dengan
terkait
dihadapkan
ketidak-cocokan
antara
dengan
pada
penelusur (searcher).
(c) Memudahkan
sering
bidang
ilmu
yang
sama
penelusuran
menyatukan
semantis
secara
memuat
sehingga
untuk
Misalnya
tentang
dapat
memperkuat
untuk
digunakan
pencarian.
mencari
dokumen
ialah
IMMUNIZATION,
akan
tetapi
untuk
pencarian
penelusur
(c)
juga
karena
dikurangi
dengan
bahasa
kedua
yang
sangat
Berbeda
abstrak
dapat
dan
menguatkan
indeks
sekecil
mungkin
komprehensif.
Kosa kata terkendali memerlukan
biaya dan upaya yang besar pada
waktu input sistem yaitu pada saat
Kekurangan
(a) Bahasa alamiah tidak atau kurang
ringkas
(Meadow,
berbagai
dapat
standar
dengan
kehilangan
nuansa
makna
kekayaan
perbendaharaan
(lack
of
1992:
sehingga
conciseness)
38).Query
sering
terjadi
informasi
saat
penelusuran.
penelusur
ketepatan
tinggi.
(precision)
Semakin
tinggi
penelusuran
akan
tinggi
ketepatan
semakin
(precision),
rendah.
Sebaliknya
spesifikasi
istilah
rendah,
perolehan
(recall)
tinggi,
sedangkan
akan
bila
maka
semakin
ketepatan
Lalu
Misalnya,
yang
ingin
dia
seorang
mendapatkan
menggunakan
query
sejumlah
dokumen
yang
sebenarnya
terletak
pada
(precision)
Misalnya,
cenderung
rendah.
istilah
LINGUISTICS
untuk
mencari
dokumen
memuat
suatu
jumlah
rendah,
karena
database,
yang
maka
karena
istilah
sinonim
atau
homograf.
perolehan
rendah,
(precision)
sedangkan
(recall)
akan
ketepatan
raut
spesifikasinya tinggi.
(c) Bahasa alamiah memiliki kedalaman
(exhaustivity) yang tinggi (Foskett,
1985: 114). Artinya, banyak tema atau
subjek baru yang dihasilkan dokumen
yang dapat dijadikan sebagai istilah
baru dalam penelusuran. Karena, pada
juga
artinya
artinya
Sinonim
meruncingkan,
tampang,
dan
mengakibatkan
terjaringnya
potongan.
homograf
false
dokumen
dapat
drops
yaitu
yang
sama
ikut
terjaring
atau
kata
prinsipnya
bahwa
semua
karena
ketidakmampuan
sistem
tidak
bisa
bekerja
knowledge
base.
Misalnya,
database,
menggunakan
maka
query
ia
akan
Perpustakaan
dokumen-dokumen
Perpustakaan
dengan
Sekolah
Sekolah
Perpustakaan
DAFTAR PUSTAKA
Hasugian, Jonner .2006. Vol 2 no 2. Pustaha: Jurnal Studi Perpustakaan dan Informasi. Penggunaan
Bahasa Alamiah dan Kosa Kata Terkendali dalam Sistem Temu Balik Informasi Berbasis
Teks. http://repository.usu.ac.id/bitstream/123456789/17059/1/pus-des2006-1.pdf akses pada
Senin, 21/4/2014 pukul 16.07 WIB