Anda di halaman 1dari 8

BAB II

ISI
2.1 Sejarah Kosakata Terkendali dan Kosakata Alamiah
Bahasa dan atau kosa kata (vocabulary) memegang peranan yang sangat penting dalam
efektivitas dan efisiensi penelusuran pada suatu sistem temu balik informasi. (Muddamalle, 1998:
881). Pada dasarnya ada dua bahasa pendekatan penelusuran yang lazim digunakan dalam STBI
berbasis teks yaitu bahasa alami (natural language), dan kosa kata terkendali yang sering juga disebut
controlled vocabulary.
Muddamalle (1998: 881-883) mencatat bahwa sejarah bahasa alamiah (natural language)
kontra kosa kata terkendali (controlled vocabulary) dalam STBI dibagi kepada tiga era. Era pertama
dimulai pada abad ke-19 dengan penekanan kepada popularitas pengindeksan istilah berdasarkan
judul (title term indexing). Pada era ini kosa kata terkendali atau controlled vocabulary lebih dominan
digunakan dalam penelusuran, terutama digunakan untuk menemukan cantuman bibliografi dalam
katalog berklasifikasi di perpustakaan. Sedangkan penelusuran berdasarkan bahasa alamiah yang
biasa disebut dengan sebutan free-text searching atau penelusuran dengan teks bebas, baru dalam
tahap permulaan dilakukan pada era ini.
Era kedua dimulai pada saat kehadiran komputer dalam sistem temu balik informasi. Pada era
ini kegiatan pengindeksan mulai dilakukan dalam bentuk mekanis yaitu berupa pengindeksan
otomatis. Kemudian, era ketiga dimulai pada pertengahan tahun 1970-an, dimana pendekatan yang
berbeda dilakukan untuk menguji isu natural language versus controlled vocabulary, melalui
pengujian rasio Recall dan Precision dalam STBI pada berbagai database berbasis teks.
Pada tahun 1976, Barbara Charton melakukan penelitian melalui penelusuran pada Chemical
Abstracts, untuk menjawab pertanyaan penelitian, Is a controlled vocabulary necessary? Dalam hasil
penelitiannya, dia mengemukakan bahwa suatu penelusuran dengan teks bebas bisa seefektif
penelusuran menggunakan controlled vocabulary, asalkan dilakukan oleh seseorang yang memiliki
pengalaman dalam penelusuran. Penelusuran dengan teks bebas bisa lebih efektif, sebab ada kalanya
penelusuran menggunakan controlled vocabulary mengorbankan ketepatan dalam kemungkinan
mencapai kemudahan.
Markey, Atherton, dan Newton (1982), membandingkan 165 pernyataan penelusuran dengan
teks bebas (free-text search statements) yang digunakan dalam mengakses ERIC database untuk
mengetahui apakah konsep ekspresi dengan istilah teks bebas atau bahasa alamiah dapat juga
diekspresikan dari deskriptor ERIC (ERIC descriptors). Mereka menemukan bahwa salah satu dari
setiap delapan pernyataan penelusuran teks bebas yang tidak direpresentasikan dalam ERIC controlled

vocabulary. Secara keseluruhan, temu balik informasi secara teks bebas (free- text retrieval) dengan
menggunakan pendekatan bahasa alamiah menghasilkan perolehan (recall) yang tinggi dengan
ketepatan (precision) yang rendah, dari pada menggunakan pendekatan controlled vocabulary.
Calkins (1980) sesuai sitiran Muddamalle (1998: 881-883), dalam hasil pengamatannya
kepada sejumlah penelusur yang hanya menggunakan istilah controlled vocabulary dan yang hanya
menggunakan penelusuranteks bebas, mengemukakan kesimpulan bahwa penelusuran menggunakan
teks bebas dan controlled vocabulary ternyata saling melengkapi, dan penampilan terbaik yang
dicapai dalam penelusuran ialah menggunakan kombinasi dari keduanya.
Dari ketiga contoh hasil penelitian yang dikemukakan di atas, dapat dilihat bahwa efektivitas
dan efisiensi penelusuran menggunakan pendekatan bahasa alamiah atau penelusuran dengan teks
bebas (free-text search) ada kalanya lebih baik dari pada kosa kata terkendali, demikian sebaliknya
pendekatan menggunakan controlled vocabulary ada kalanya lebih baik dari bahasa alamiah.
Mengingat banyaknya penelitian dan eksperimen yang telah dilakukan untuk menguji kedua
pendekatan tersebut, maka keunggulan maupun kelemahan dari kedua pendekatan tersebut telah
banyak yang diketahui. Tulisan ini mencoba mengangkat isu tersebut untuk dibahas secara teoretis
melalui tinjauan literatur.
2.2. Pengertian Kosakata Terkendali dan Kosakata Alamiah
Bahasa atau kosakata alamiah adalah bahasa dari dokumen yang diindeks. Biasanya bahasa
tersebut merupakan bahasa yang tidak terkendali (uncontrolled vocabulary). Bahasa alamiah ini
umum digunakan dalam komunikasi dan penulisan ilmiah, yang banyak dipakai oleh pengarang
(Lancaster, 1986: 159). Sedangkan kosa kata terkendali dapat berupa indeks subjek, pengarang, judul
maupun dalam tesaurus.
Dalam pengindeksan kosa kata terkendali seperti tesaurus, istilah yang digunakan untuk
menyatakan kandungan atau isi suatu dokumen telah dibakukan dalam suatu daftar indeks yang
disusun secara alfabetis, misalnya dalam Sears List of Subject Heading, Library of Congress Subject
Heading, Macro Economics Thesaurus, DDC Index, dan sebagainya. Sedangkan dalam pengindeksan
bahasa alamiah, pengindeksan dilakukan pada semua istilah baik dari judul, abstrak, maupun dari teks
lengkap (full text) dokumen, terkecuali stop word atau daftar kata umum yang tidak digunakan dalam
penelusuran (Rowley, 1992: 272). Semua istilah indeks yang dihasilkan adalah bergantung kepada
bahasa dokumen itu sendiri, dan semuanya itu dapat merupakan representasi dari dokumen itu.
Mengingat volume pengindeksan dalam bahasa alamiah ini sangat besar, maka pengindeksan ini
biasanya dilakukan oleh komputer.

Bahasa alamiah dan kosa kata terkendali adalah dua bahasa hasil dari pengindeksan yang
sama-sama dapat dipergunakan sebagai representasi dokumen. Kedua bahasa pengindeksan tersebut
digunakan pada waktu pemasukan (input) data ke dalam database, dan akan digunakan juga pada
waktu pencarian/penelusuran (output) informasi dari database.
2.3 Kosakata Terkendali Vs Kosakata Alamiah
2.3.1 Kelebihan dan Kekurangan Kosakata Terkendali
Adapun kelebihan dan kekurangan dari kosakata terkendali (controlled vocabulary) adalah
seperti yang tercantum dalam table berikut :
Kelebihan
(a) Proses penelusuran dan temu balik

(a)

Kekurangan
Kosa kata terkendali harus selalu

informasi lebih efisien (Korfhage,

diperbaharui.

1997:

dan

24).

Artinya,

dengan

Perkembangan ilmu

teknologi

menyebabkan

menggunakan kosa kata terkendali

munculnya berbagai subjek baru

seperti indeks subjek atau tesaurus

yang

dalam penelusuran, maka ketepatan

terhadap

dari dokumen yang terambil dengan

penghilangan suatu istilah atau kosa

kebutuhan pengguna dapat diperoleh

kata. Oleh karena itu, suatu tajuk

dalam waktu yang relatif singkat.


(b) Mempunyai representasi dokumen

subjek atau tesaurus pada suatu

yang konsisten. Kosa kata atau istilah


yang digunakan dalam pengindeksan
dokumen pada saat input ke sistem
adalah kosa kata yang terkendali dan
standar. Oleh karena itu, bila kosa
kata atau istilah tersebut kemudian
dijadikan

sebagai

query

untuk

pencarian atau penelusuran, maka


sudah pasti akan tetap mewakili atau
merepresentasikan

dokumen

yang

sama seperti pada saat input sistem


dilakukan.

Misalnya,

pada

input

sistem dokumen A direpresentasikan


oleh kosa kata atau indeks subjek
MICROBIOLOGY,
pencarian

seorang

pada

waktu

penelusur

sekaligus

juga

berdampak

pemunculan

atau

periode tertentu harus diperbaharui


untuk bisa menyesuaikan diri sesuai
perkembangan (Muddamalle, 1998:
881). Misalnya, bila kita menelusur
dengan

istilah

CANCER

atau

sebagai

kosa

kata

query pada

indeks DDC edisi ke-19, maka kita


akan

dirujuk

dengan

kata

see

TUMORS. Sekalipun keduanya


semantis, namun terdapat perbedaan.
Ini terjadi karena pada indeks DDC
edisi ke-19 subjek CANCER belum
dijabarkan secara lengkap karena
mungkin pada masa itu istilah cancer
masih belum populer. Akan tetapi
bila ditelusur pada indeks DDC edisi
ke-20 dan 21, istilah tersebut telah

menggunakan

MICROBIOLOGY

dijabarkan secara rinci. Hal itu

sebagai query-nya, maka penelusur

menunjukkan bahwa indeks DDC

tersebut

pasti

akan

menemukan

dokumen

karena

representasi

tersebut diperbaharui secara berkala.


(b) Kosa kata terkendali (controlled
vocabulary)

dokumennya tetap konsisten. Dengan

kepada

demikian selalu terjadi kesamaan


penggunaan

istilah

di

pengindeks

(indexer)

komprehensif
istilah

dengan

terkait

dihadapkan

ketidak-cocokan

(incompatibility) istilah di antara satu

antara

database dengan database lainnya

dengan

pada

penelusur (searcher).
(c) Memudahkan

sering

bidang

ilmu

yang

sama

penelusuran

(Lancaster, 1986: 159). Misalnya,

menyatukan

CAB CD-ROM dan Agricola CD-

semantis

ROM adalah dua database yang

secara

(Lancaster, 1977: 2). Maksudnya, ada

memuat

kalanya suatu kosa kata atau indeks

penelitian pada bidang ilmu yang

subjek tertentu mempunyai hubungan

sama yaitu pertanian (agriculture).

makna dengan indeks yang lain,

Akan tetapi ada kalanya beberapa

sehingga

untuk

kosa kata atau istilah yang digunakan

Misalnya

untuk indeks subjek pada kedua

tentang

database tersebut berbeda. Hal ini

pengebalan tubuh manusia terhadap

tentunya bisa menyulitkan penelusur

penyakit, maka kosa kata atau indeks

bila melakukan penelusuran pada

dapat

memperkuat
untuk

digunakan

pencarian.

mencari

dokumen

subjek yang dapat dijadikan sebagai


query

ialah

IMMUNIZATION,

akan

tetapi

untuk

pencarian

penelusur

(c)

juga
karena

dikurangi

dengan

bahasa

yang spesifik. Akan tetapi pada kosa

kedua

kata terkendali, spesifikasi istilah


ditentukan oleh ketersediaannya pada

yang

sangat

kecil. Ambiguitas atau kerancuan


dapat

Berbeda

menggunakan secara bebas kosa kata

kosa kata di atas adalah terkait secara


semantis.
(d) Memiliki ambiguity

abstrak

alamiah, di mana penelusur dapat

dapat

menggunakan kosa kata lain seperti


VACCINATION,

dan

kedua database tersebut.


Kurangnya spesifikasi dalam kosa
kata.

menguatkan

indeks

sekecil

indeks subjek atau tesaurus.


(d) Kosa kata terkendali memiliki
struktur yang tidak lengkap. Artinya

mungkin

rincian subjek adalah sangat terbatas

karena kosa kata dapat mengontrol

untuk pencarian atau penelusuran

sinonim dan homograf.


(e)

komprehensif.
Kosa kata terkendali memerlukan
biaya dan upaya yang besar pada
waktu input sistem yaitu pada saat

pengindeksan dilakukan (Lancaster,


177: 7).

2.3.2. Kelebihan dan Kekurangan Kosakata Alamiah


Adapun kelebihan dan kekurangan dari kosakata alamiah (uncontrolled vocabulary) adalah
seperti yang tercantum dalam table berikut :
Kelebihan
(a) Bahasa alamiah dapat dengan mudah

Kekurangan
(a) Bahasa alamiah tidak atau kurang

dimengerti oleh pengguna tanpa harus

ringkas

memerlukan pelatihan khusus, dan

(Meadow,

berbagai

dapat

digunakan penelusur sering berupa

diekspresikan dengan lebih leluasa

kata atau istilah berbeda atau tidak

(Meadow, 1992: 37- 38). Maksudnya,

standar

dengan

kehilangan

nuansa

makna

kekayaan

perbendaharaan

(lack

of

1992:

sehingga

conciseness)

38).Query

sering

terjadi

informasi

saat

kosa kata, memungkinkan penelusur

penelusuran.

mengekspresikan gagasan, perasaan

penelusur

dan keinginannya dengan berbagai

dokumen tentang proses yang dialami

cara dan nuansa untuk mendapatkan

seseorang untuk menjadi semakin tua.

dokumen yang diinginkannya.


(b) Bahasa alamiah memiliki spesifikasi
(specification) yang tinggi (Lancaster,
1977: 23). Spesifikasi istilah ini
muncul karena dapat menggunakan
seluruh istilah yang terdapat dalam
dokumen sebagai query. Spesifikasi
istilah memudahkan pencarian untuk
mendapatkan
yang

ketepatan

tinggi.

(precision)

Semakin

tinggi

spesifikasi istilah yang digunakan


dalam

penelusuran

akan

tinggi

ketepatan

semakin

(precision),

sedangkan perolehan (recall) akan


semakin

rendah.

Sebaliknya

spesifikasi

istilah

rendah,

perolehan

(recall)

tinggi,

sedangkan

akan

bila
maka

semakin
ketepatan

Lalu

Misalnya,

yang

ingin

dia

seorang

mendapatkan

menggunakan

query

PROSES MAKIN TUA. Dengan


query itu, mungkin penelusur tersebut
pasti mendapatkan perolehan (recall)
dokumen, akan tetapi ketepatannya
(precsion) dengan kebutuhan tidak
ada, karena dokumen yang berisi
istilah itu tidak ada. Akan tetapi bila
penelusur itu menggunakan istilah
indeks subjek PENUAAN sebagai
query, mungkin akan dia peroleh
(recall)

sejumlah

dokumen

yang

ketepatannya (precision) sangat tinggi,


yang berarti sangat sesuai dengan
yang diinginkannya. Kesalahan yang
terjadi

sebenarnya

terletak

pada

penyusunan atau pemilihan istilah


yang tepat sebagai query.

(precision)
Misalnya,

cenderung

rendah.

(b) Mempunyai ambiguitas (ambiguity)

bila kita menggunakan

yang tinggi (Meadaw, 1992: 37).

istilah

LINGUISTICS

untuk

Muddamalle (1998: 881) menyebut

mencari

dokumen

memuat

bahwa natural language is full of

penelitian tentang logat bahasa pada

ambiguities. Ambiguitas adalah kata

suatu

jumlah

atau istilah yang dapat memiliki lebih

perolehan (recall) pasti akan tinggi,

dari satu arti sehingga mengakibatkan

sedangkan ketepatan (precision) akan

kerancuan. Ambiguitas dapat terjadi

rendah,

karena

database,

yang
maka

karena

istilah

sinonim

atau

homograf.

LINGUISTICS adalah istilah umum

Sinonim yaitu bentuk kata yang

dalam ilmu bahasa, dengan demikian

berbeda tetapi artinya sama, dapat

spesifikasi yang dirumuskan rendah.

menyebabkan terpencarnya informasi

Akan tetapi bila kita menggunakan

mengenai topik yang sama, misalnya,

istilah DIALECT, maka jumlah

kata sado, dokar, delman. Homograf

perolehan

rendah,

yaitu kata- kata yang ejaannya sama

(precision)

tetapi maknanya berbeda, misalnya

sedangkan

(recall)

akan

ketepatan

tinggi, karena istilah DIALECT

raut

adalah istilah khusus, yang berarti

menghaluskan; akan tetapi raut dapat

spesifikasinya tinggi.
(c) Bahasa alamiah memiliki kedalaman
(exhaustivity) yang tinggi (Foskett,
1985: 114). Artinya, banyak tema atau
subjek baru yang dihasilkan dokumen
yang dapat dijadikan sebagai istilah
baru dalam penelusuran. Karena, pada

juga

artinya
artinya

Sinonim

meruncingkan,

tampang,

dan

mengakibatkan
terjaringnya

potongan.

homograf
false

dokumen

dapat

drops

yaitu

yang

sama

sekali tidak relevan, atau subjek yang


tidak relevan

ikut

terjaring

atau

kata

terambil dalam proses temu balik.


(c) Kesulitan
komputer
untuk

terkecuali stop word dapat dijadikan

menginterpretasikan teks (Meadow,

sebagai keyword dalam penelusuran.


(d) Penelusur yang merupakan praktisi

1992: 37). Kelemahan ini terjadi

prinsipnya

bahwa

semua

dalam bidangnya dapat melakukan


penelusuran dengan bahasa alamiah
dengan lebih efektif.

karena

ketidakmampuan

sistem

menyerap atau menangkap makna dari


suatu pernyataan. Hal ini terjadi
karena dalam memroses bahasa alami,
computer

tidak

bisa

bekerja

sebagaimana otak manusia, terkecuali


komputer tersebut dilengkapi dengan
suatu

knowledge

base.

Misalnya,

seseorang ingin mencari dokumen

tentang Perpustakaan Sekolah pada


suatu

database,

menggunakan

maka

query

ia

akan

Perpustakaan

AND Sekolah, akan tetapi dalam


pencariannya

dokumen-dokumen

tentang Sekolah Perpustakaan juga


akan terjaring atau terambil, padahal
konsep

Perpustakaan

dengan

Sekolah

Sekolah

Perpustakaan

mempunyai makna yang berbeda.


Dalam keadaan ini juga terjadi false
drops.

DAFTAR PUSTAKA
Hasugian, Jonner .2006. Vol 2 no 2. Pustaha: Jurnal Studi Perpustakaan dan Informasi. Penggunaan
Bahasa Alamiah dan Kosa Kata Terkendali dalam Sistem Temu Balik Informasi Berbasis
Teks. http://repository.usu.ac.id/bitstream/123456789/17059/1/pus-des2006-1.pdf akses pada
Senin, 21/4/2014 pukul 16.07 WIB

Anda mungkin juga menyukai