Anda di halaman 1dari 7

Text Operations

Text Operations meliputi pemilihan kata-kata dalam query maupun


dokumen dalam pentransformasian dokumen atau query menjadi terms index
dalam information retreival,
pengoprasian text dibagi menjadi 2 yaitu General Doc Preprocessing dan
Query Preprocessing.
1. General Doc Preprocessing
Tahapan dimana aplikasi melakukan seleksi data yang akan di proses pada
setiap dokumen
1.1 Lexical analysis
Analisis leksikal adalah Proses mengubah urutan karakter ke dalam suatu
urutan token. Sebuah program atau fungsi yang melakukan analisis leksikal
disebut sebagai analisa leksikal, lexer atau pemindai.

Tugas-tugas Aturan Lexical atau Lexical Analysis secara detil adalah :


a. mengidentifikasi semua besaran yang membangun suatu bahasa
b. mentransformasikan ke token-token (symbol terminal dari teori bahasa
automata)
c. menentukan jenis dari token-token
d. menangani kesalahan
e. menangani tabel symbol
f. scanner di desain untuk mengenali keyword, operator, identifier

contoh :
Besaran Lexical : (tergantung program)
Identifier dapat berupa keyword seperti if, else, begin .. end (pada Pascal)
,integer (Pascal), int float (pada C)
Konstanta : besaran yang berupa bilangan bulat (integer), bilangan
pecahan(float / real), Boolean (true/false), string, dll
Operator : operator aritmatika (+, -, *, /), operator logika(< = >)
Delimiter : berguna bagi pemisah atau pembatas, seperti kurung buka,
kurung tutup, titik, koma, titik dua, titik koma, white_space
White_space : pemisah yang diabaikan oleh program, seperti : enter,
spasi, ganti baris dan akhir file

Lexical Analysis, contoh :


Statement : Fahrenheit := 32 + celcius * 1.8
Maka akan diterjemahkan ke dalam token-token sebagai berikut :
Identifier Fahrenheit
Operator :=
Integer 32
Operator penjumlahan +
Identifier celcius
Operator perkalian *
Real / float 1.8

1.2 Parts-of- speech tagging


Part-of-speech tagging adalah sebuah sistem yang memberikan label kata secara
otomatis pada suatu kalimat.

Metode untuk mengembangkan sistem ini ada 3 tipe:


1. Menggunakan metode Rule Base. sistem mempunyai aturan pelabelan
dimana pengetahuan berasal dari ahli linguistik.
2. Menggunakan metode Statistik.
3. Menggunakan metode Transformation Based => bisa dibilang gabungan
kedua metode diatas.

contoh
Misalkan, ada kalimat saya makan nasi dan ada label KG=kata ganti, VV=kata
kerja, NN=kata benda. Sistem akan menerima input berupa kalimat tersebut,
outputnya adalah:
saya/KG makan/VV nasi/NN

1.3 Stopwords
Tahap Stopword adalah Proses penghapusan atau pembuangan kata-kata
yang sering ditampilkan dalam dokumen seperti: and, or, not, tetapi, yang,
sedangkan dan sebagainya. Atau merupakan tahap pengambilan kata-kata penting
dari hasi token.

1.4 Stemming/lemmatization
Tahap Stemming adalah tahap mencari root kata dari tiap kata hasil
filtering.

contoh
Stemming dapat dikatakan proses membentuk suatu kata menjadi kata
dasarnya. Misalnya:
berkata > kata

mengatakan > kata

perkataan > kata

Untuk bahasa Indonesia beberapa algoritma yang biasanya digunakan antara


lain :
a. Porter Stemmer
Algoritma ini terkenal digunakan sebagai stemmer untuk bahasa Inggris.
Porter Stemmer dalam bahasa Indonesia akan menghasilkan kambiguan
karena aturan morfologi bahasa Indonesia.
b. Nazief & Adriani Stemmer
Algoritma ini paling sering dibicarakan dalam Stemming bahasa indonesia.
Algoritma ini merupakan hasil penelitian internal UI (Universitas
Indonesia) dan tidak dipublish secara umum. Namun algoritma ini
mempunyai dua masalah yang pertama kemampuanya tergantung dari
besarnya database kata dasar, dan yang kedua, hasil Stemming tidak selalu
optimal untuk aplikasi information retrieval.

Algoritma Nazief & Andriani


Adapun langkah-langkah yang digunakan oleh algoritma Nazief dan
Adriani yaitu sebagai berikut:
1. Kata dicari di dalam daftar kamus. Bila kata tersebut ditemukan di dalam
kamus maka dapat diasumsikan kata tersebut adalah kata dasar sehingga
algoritma dihentikan.
2. Bila kata di dalam langkah pertama tidak ditemukan di dalam kamus,
maka diperiksa apakah surfiks tersebut yaitu sebuah partikel ("-lah" atau "-
kah"). Bila ditemukan maka partikel tersebut dihilangkan.
3. Pemerikasaan dilanjutkan pada kata ganti milik ("-ku","-mu","nya"). Bila
ditemukan maka kata ganti tersebut dihilangkan.
4. Memerikas akhiran ("-i", "-an"). Bila ditemukan maka akhiran tersebut
dihilangkan. Hingga langkah ke-4 dibutuhkan ketelitian untuk memeriksa
apakah akhiran "-an" merupakan hanya bagian dari akgiran "-kan" dan
memerikas lagi apakah partikel ("-lah", "-kah") dan kata ganti milik ("-
ku","-mu","-nya") yang telah dihilangkan pada langkah 2 dan 3 bukan
merupakan bagian dari kata dasar.
5. Memeriksa awalan ("se-","ke-","di-","te-","be-","pe-","me-"). Bila
ditemukan, maka awalan tersebut dihilangkan. Pemerikasaan dilakukan
dengan berulang mengingat adanya kemungkinan multiprefix. Langkah
ke-5 ini juga membutuhkan ketelitian untuk memeriksa kemungkinan
peluluhan awalan, perubahan prefix yang disesuaikan dengan huruf awal
kata dan aturan kombinasi prefix-suffix yang diperbolehkan.

1.5 Index terms


Index terms merupakan indeks dari kata-kata yang berfungsi sebagai
perpustakaan untuk mengumpulkan, mengatur dan menyebarkan dokumen. Index
terms digunakan sebagai kata kunci untuk mengambil dokumen dalam sistem
informasi,
contohnya pada mesin pencarian. Index terms dapat terdiri dari istilah
kata, frasa, atau alfanumerik.

1.6 Thesaurus
Thesaurus merupakan himpunan kata-kata yang berhubungan satu sama
lain. Bisa juga diartikan sebagai buku yang berisikan kata-kata yang memiliki
makna sama atau sinonim.

Struktur Thesaurus
Thesaurus terdiri dari 2 bagian utama, yakni:
a. Daftar descriptor menurut abjad
Pengelompokkan secara alfabetis yang terdiri dari kategori yang
mempunyai hubungan satu sama lain.
b. Daftar istilah yang merupakan panduan suatu descriptor
Merupakan pintu masuk kosa kata yang dipakai sebagai descriptor dan
menunjukkan hubungan hierarkis dari masing-masing descriptor.

Fungsi Thesaurus
a. Membantu menentukan dan menemukan istilah yang diberi definisi
tertentu.
b. Sangat berguna bagi orang yang bertanggung jawab terhadap peng-index-
an dan retrieving dalam bidang tertentu.
c. Mencapai standarisasi dan konsistensi dalam pengindeksan dokumen.

Tujuan Thesaurus
1. Untuk memberikan gambaran tentang bidang ilmu pengetahuan tertentu,
menunjukkan pengertian atau ide tentang konsep yang saling
berhubungan, untuk membantu pengindeks atau peneliti dalam memahami
struktur bidang ilmu pengetahuan tersebut.
2. Untuk menyediakan kosa kata yang standar untuk bidang subyek tertentu
yang dipergunakan oleh para pengindeks sacara konsisten pada saat
menyusun entri indeks dalam rangka penyimpanan dan atau dalam proses
temu kembali informasi.
3. Untuk menyediakan sebuah sistem referensi antara istilah yang telah
dipastikan hanya mempunyai satu bentuk sinonim yang digunakan untuk
mengindeks sebuah dokumen.
4. Untuk menyediakan panduan bagi para pemakai sistem, sehingga mereka
dapat memilih istilah yang benar untuk menelusur subyek tertentu.
5. Untuk menyediakan pengklasifikasian yang hierarkhis sehingga penelusur
dapat memperluas atau mempersempit secara sistematis, jika pilihan
pertama dalam penelusuran terlalu sedikit atau terlalu banyak petunjuk

2. Query Preprocessing
Query preprocessing menyiapkan query untuk optimasi. Ini dapat
mengubah representasi pernyataan sehingga pernyataan SQL yang dihasilkan oleh
Layanan Integrasi Komponen berbeda secara sintaktis dari pernyataan awal.
Preprocessing melakukan ekspansi tampilan, sehingga query dapat
beroperasi pada tabel yang direferensikan oleh tampilan.

2.1 Phrasing
Untuk mengatasi masalah presisi dan recall ini, kami memberikan
perlakuan khusus untuk frase dalam query. Untuk mengatasi masalah presisi di
mana barang-barang palsu dibalik, kami memerlukan urutan token tertentu untuk
diperlakukan sebagai ungkapan. Misalnya, ukuran 10 akan diutarakan dan karena
itu hanya cocok dengan item yang ada di dalamnya. Untuk mengatasi masalah
penarikan, kami mengidentifikasi query yang berisi frasa yang dapat dibatalkan.
Misalnya, dalam permintaan mobil bekas yang dijual token yang bisa dijual bisa
dijatuhkan; Demikian pula untuk youfen Jerman (buy) di query waschtrockner
kaufen (washerdryer beli). Untuk sisa kertas kita akan menggunakan terminologi
tersebut:
REQUIRED PHRASES: Token urutan diperlukan untuk menjadi frasa bila
digunakan dalam query.
DROPPED PHRASES: Frasa yang memungkinkan penghapusan sub-frasa.
Pendekatan frasa yang diperlukan harus memiliki kepercayaan yang tinggi
karena akan memblokir item agar tidak dikembalikan untuk permintaan pembeli.
Kami pertama kali mengajukan frasa kandidat untuk frasa yang diperlukan dan
untuk frase yang dibatalkan dalam query. Dari sekian besar kandidat ini, kami
kemudian menggunakan perilaku pembeli masa lalu untuk menentukan apakah
kandidat layak untuk mengajukan permintaan (lihat pada evaluasi calon saya
secara umum). Seperti yang akan kita lihat, setiap frasa yang tampaknya secara
intuitif terbentuk dengan baik sehingga kita tidak dapat digunakan sebagai frasa
query e-commerce karena mereka akan memblokir inventaris yang relevan agar
tidak dikembalikan (lihat (Diab et al., 2010) pada aplikasi NLP) .
Frasa yang lolos seleksi kandidat kemudian digabungkan ke dalam perluasan
query yang ada (yaitu pemetaan token-to-token, pemetaan kategori, pengarsipan
atribut). Frasa adalah jenis pemetaan token-to-token yang mengharuskan kuota query
muncul dalam urutan dan berdekatan, yaitu sebagai frase kecil, atau dijatuhkan.

2.2 Anti-phrasing
Anti-phrasing terkait erat dengan konsep stop word, yang merupakan kata-
kata yang diabaikan oleh sistem pencarian di query pengguna akhir. Fitur anti-
ungkapan tidak menghapus satu kata pun, namun ungkapan yang lengkap.
Melepaskan kata tunggal menyiratkan risiko menghapus kata-kata penting yang
identik dengan menghentikan kata-kata. Frasa kurang ambigu dan bisa dihapus
dari query dengan lebih aman. Kamus anti-ungkapan yang dikirimkan dengan
FAST Search Server 2010 untuk SharePoint oleh karena itu tidak mengandung
satu kata pun. Anda tidak bisa menyetel kamus anti-phrasing.

Anda mungkin juga menyukai