contoh :
Besaran Lexical : (tergantung program)
Identifier dapat berupa keyword seperti if, else, begin .. end (pada Pascal)
,integer (Pascal), int float (pada C)
Konstanta : besaran yang berupa bilangan bulat (integer), bilangan
pecahan(float / real), Boolean (true/false), string, dll
Operator : operator aritmatika (+, -, *, /), operator logika(< = >)
Delimiter : berguna bagi pemisah atau pembatas, seperti kurung buka,
kurung tutup, titik, koma, titik dua, titik koma, white_space
White_space : pemisah yang diabaikan oleh program, seperti : enter,
spasi, ganti baris dan akhir file
contoh
Misalkan, ada kalimat saya makan nasi dan ada label KG=kata ganti, VV=kata
kerja, NN=kata benda. Sistem akan menerima input berupa kalimat tersebut,
outputnya adalah:
saya/KG makan/VV nasi/NN
1.3 Stopwords
Tahap Stopword adalah Proses penghapusan atau pembuangan kata-kata
yang sering ditampilkan dalam dokumen seperti: and, or, not, tetapi, yang,
sedangkan dan sebagainya. Atau merupakan tahap pengambilan kata-kata penting
dari hasi token.
1.4 Stemming/lemmatization
Tahap Stemming adalah tahap mencari root kata dari tiap kata hasil
filtering.
contoh
Stemming dapat dikatakan proses membentuk suatu kata menjadi kata
dasarnya. Misalnya:
berkata > kata
1.6 Thesaurus
Thesaurus merupakan himpunan kata-kata yang berhubungan satu sama
lain. Bisa juga diartikan sebagai buku yang berisikan kata-kata yang memiliki
makna sama atau sinonim.
Struktur Thesaurus
Thesaurus terdiri dari 2 bagian utama, yakni:
a. Daftar descriptor menurut abjad
Pengelompokkan secara alfabetis yang terdiri dari kategori yang
mempunyai hubungan satu sama lain.
b. Daftar istilah yang merupakan panduan suatu descriptor
Merupakan pintu masuk kosa kata yang dipakai sebagai descriptor dan
menunjukkan hubungan hierarkis dari masing-masing descriptor.
Fungsi Thesaurus
a. Membantu menentukan dan menemukan istilah yang diberi definisi
tertentu.
b. Sangat berguna bagi orang yang bertanggung jawab terhadap peng-index-
an dan retrieving dalam bidang tertentu.
c. Mencapai standarisasi dan konsistensi dalam pengindeksan dokumen.
Tujuan Thesaurus
1. Untuk memberikan gambaran tentang bidang ilmu pengetahuan tertentu,
menunjukkan pengertian atau ide tentang konsep yang saling
berhubungan, untuk membantu pengindeks atau peneliti dalam memahami
struktur bidang ilmu pengetahuan tersebut.
2. Untuk menyediakan kosa kata yang standar untuk bidang subyek tertentu
yang dipergunakan oleh para pengindeks sacara konsisten pada saat
menyusun entri indeks dalam rangka penyimpanan dan atau dalam proses
temu kembali informasi.
3. Untuk menyediakan sebuah sistem referensi antara istilah yang telah
dipastikan hanya mempunyai satu bentuk sinonim yang digunakan untuk
mengindeks sebuah dokumen.
4. Untuk menyediakan panduan bagi para pemakai sistem, sehingga mereka
dapat memilih istilah yang benar untuk menelusur subyek tertentu.
5. Untuk menyediakan pengklasifikasian yang hierarkhis sehingga penelusur
dapat memperluas atau mempersempit secara sistematis, jika pilihan
pertama dalam penelusuran terlalu sedikit atau terlalu banyak petunjuk
2. Query Preprocessing
Query preprocessing menyiapkan query untuk optimasi. Ini dapat
mengubah representasi pernyataan sehingga pernyataan SQL yang dihasilkan oleh
Layanan Integrasi Komponen berbeda secara sintaktis dari pernyataan awal.
Preprocessing melakukan ekspansi tampilan, sehingga query dapat
beroperasi pada tabel yang direferensikan oleh tampilan.
2.1 Phrasing
Untuk mengatasi masalah presisi dan recall ini, kami memberikan
perlakuan khusus untuk frase dalam query. Untuk mengatasi masalah presisi di
mana barang-barang palsu dibalik, kami memerlukan urutan token tertentu untuk
diperlakukan sebagai ungkapan. Misalnya, ukuran 10 akan diutarakan dan karena
itu hanya cocok dengan item yang ada di dalamnya. Untuk mengatasi masalah
penarikan, kami mengidentifikasi query yang berisi frasa yang dapat dibatalkan.
Misalnya, dalam permintaan mobil bekas yang dijual token yang bisa dijual bisa
dijatuhkan; Demikian pula untuk youfen Jerman (buy) di query waschtrockner
kaufen (washerdryer beli). Untuk sisa kertas kita akan menggunakan terminologi
tersebut:
REQUIRED PHRASES: Token urutan diperlukan untuk menjadi frasa bila
digunakan dalam query.
DROPPED PHRASES: Frasa yang memungkinkan penghapusan sub-frasa.
Pendekatan frasa yang diperlukan harus memiliki kepercayaan yang tinggi
karena akan memblokir item agar tidak dikembalikan untuk permintaan pembeli.
Kami pertama kali mengajukan frasa kandidat untuk frasa yang diperlukan dan
untuk frase yang dibatalkan dalam query. Dari sekian besar kandidat ini, kami
kemudian menggunakan perilaku pembeli masa lalu untuk menentukan apakah
kandidat layak untuk mengajukan permintaan (lihat pada evaluasi calon saya
secara umum). Seperti yang akan kita lihat, setiap frasa yang tampaknya secara
intuitif terbentuk dengan baik sehingga kita tidak dapat digunakan sebagai frasa
query e-commerce karena mereka akan memblokir inventaris yang relevan agar
tidak dikembalikan (lihat (Diab et al., 2010) pada aplikasi NLP) .
Frasa yang lolos seleksi kandidat kemudian digabungkan ke dalam perluasan
query yang ada (yaitu pemetaan token-to-token, pemetaan kategori, pengarsipan
atribut). Frasa adalah jenis pemetaan token-to-token yang mengharuskan kuota query
muncul dalam urutan dan berdekatan, yaitu sebagai frase kecil, atau dijatuhkan.
2.2 Anti-phrasing
Anti-phrasing terkait erat dengan konsep stop word, yang merupakan kata-
kata yang diabaikan oleh sistem pencarian di query pengguna akhir. Fitur anti-
ungkapan tidak menghapus satu kata pun, namun ungkapan yang lengkap.
Melepaskan kata tunggal menyiratkan risiko menghapus kata-kata penting yang
identik dengan menghentikan kata-kata. Frasa kurang ambigu dan bisa dihapus
dari query dengan lebih aman. Kamus anti-ungkapan yang dikirimkan dengan
FAST Search Server 2010 untuk SharePoint oleh karena itu tidak mengandung
satu kata pun. Anda tidak bisa menyetel kamus anti-phrasing.