(Revisi) BAB 27 Introduction To Information Baihaqi Yogie Prasetyo 2111601957

Bab 27
Introduction to Information Retrieval and

Web Search
Baihaqi Yogie Prasetyo

2111601957
Pengantar Pencarian Informasi dan Pencarian

Web
Di sebagian besar bab dalam buku sejauh ini, kita telah membahas teknik untuk pemodelan,
perancangan, Query, pemrosesan transaksi, dan pengelolaan data terstruktur. Dalam Bagian 13.1,
kita membahas perbedaan antara data terstruktur, semi terstruktur, dan tidak terstruktur.
Pencarian informasi terutama berkaitan dengan data tidak terstruktur, dan teknik untuk
mengindeks, mencari, dan mengambil informasi dari kumpulan besar dokumen tidak terstruktur.
Dalam Bab 24, tentang teknologi NOSQL, kami mempertimbangkan sistem, seperti MongoDB, yang
cocok untuk menangani data berupa dokumen. Dalam bab ini,
kami akan memberikan pengantar Infromation Retrieval (IR). Ini adalah topik yang sangat luas,
jadi kami akan fokus pada persamaan dan perbedaan antara pencarian informasi dan teknologi
database, dan pada teknik pengindeksan yang membentuk dasar dari banyak sistem pencarian
informasi.
Bab ini disusun sebagai berikut. Dalam Bagian 27.1, kami memperkenalkan konsep pengambilan
informasi (IR) dan membahas bagaimana IR berbeda dari database tradisional. Bagian 27.2
dikhususkan untuk diskusi model pengambilan, yang membentuk dasar untuk pencarian IR. Bagian
27.3 mencakup berbagai jenis kueri dalam sistem IR. Bagian 27.4 membahas pra-pemrosesan teks,
dan Bagian 27.5 memberikan gambaran umum tentang pengindeksan IR, yang merupakan inti dari
setiap sistem IR. Dalam Bagian 27.6, kami menjelaskan berbagai metrik evaluasi untuk kinerja
sistem IR. Bagian 27.7 merinci analisis Web dan hubungannya dengan pengambilan informasi, dan
Bagian 27.8 secara singkat memperkenalkan tren terkini dalam IR. Bagian 27.9 merangkum bab ini.
Untuk gambaran terbatas tentang IR, kami menyarankan agar siswa membaca Bagian 27.1 hingga
27.6
27.1 Konsep Information Retrieval (IR)

Pengambilan informasi adalah proses mengambil dokumen dari koleksi direspons terhadap Query
(atau permintaan penelusuran) oleh pengguna. Bagian ini memberikan gambaran umum tentang
konsep IR.
Di Bagian 27.1.1, kami memperkenalkan pencarian informasi secara umum dan kemudian
diskusikan berbagai jenis dan tingkat pencarian yang dicakup IR. Di bagian 27.1.2, kami
membandingkan teknologi IR dan database. Bagian 27.1.3 memberikan sejarah singkat IR. Kami
kemudian menyajikan berbagai mode interaksi pengguna dengan IR sistem di Bagian 27.1.4. Dalam
Bagian 27.1.5, kami menjelaskan proses IR tipikal dengan serangkaian tugas yang terperinci dan
kemudian dengan aliran proses yang disederhanakan, dan kami mengakhirinya dengan diskusi
singkat tentang perpustakaan digital dan Web
Dalam bab ini, kami akan memberikan pengantar untuk Information Retrieval (IR). Ini adalah topik
yang sangat luas, jadi kami akan fokus pada persamaan dan perbedaan antara pencarian informasi
dan teknologi database, dan pada teknik pengindeksan yang membentuk dasar dari banyak sistem
pencarian informasi.
27.1 .1 Pengenalan Information Retrieval (IR)
Arti istilah pengambilan informasi bisa sangat luas. Hanya mendapatkan kartu Tanda
Penduduk keluar dari dompet Anda sehingga Anda dapat mengetikkan nomor kartu adalah bentuk
pengambilan informasi. Namun, sebagai bidang studi akademik, pengambilan informasi dapat
didefinisikan berikut:
Information Retrieval (IR) adalah menemukan bahan (biasanya dokumen) dari
sifat tidak terstruktur (biasanya teks) yang memenuhi kebutuhan informasi

dari dalam koleksi besar (biasanya disimpan di komputer)
Seperti yang didefinisikan dengan cara diatas, pencarian informasi dulunya merupakan
aktivitas yang hanya beberapa orang yang terlibat didalamnya: seperti pustakawan, paralegal, dan
pencari profesional serupa. Sekarang dunia telah berubah, dan ratusan juta orang terlibat dalam
pencarian informasi setiap hari ketika mereka menggunakan web mesin pencari atau mencari
email mereka sendiri. Pengambilan informasi dengan cepat menjadi bentuk dominan dari akses
informasi, menyalip pencarian gaya database tradisional (semacam yang terjadi ketika petugas
mengatakan kepada Anda: "Maaf, Saya hanya dapat melihat pesanan Anda jika Anda dapat memberi
saya ID Pesanan Anda”).
IR (information retrieval) juga dapat mencakup jenis lain dari masalah data dan informasi di luar
yang ditentukan dalam definisi inti di atas. Istilah “data tidak terstruktur” mengacu pada data yang
tidak jelas, terbuka secara semantik, mudah untuk struktur komputer. Ini adalah kebalikan dari
data terstruktur, contoh kanonik dari yang merupakan database relasional, dari jenis yang biasanya
digunakan perusahaan untuk mengelola inventaris produk dan catatan personel. Pada
kenyataannya, hampir tidak ada data benar-benar “tidak terstruktur”. Ini pasti berlaku untuk
semua data teks jika Anda menghitung struktur linguistik laten bahasa manusia. Tetapi bahkan
pengertian struktur yang dimaksudkan adalah struktur terbuka, sebagian besar teks memiliki
struktur, seperti judul dan paragraf dan catatan kaki, yang biasanya direpresentasikan dalam
dokumen dengan markup eksplisit (seperti pengkodean yang mendasari halaman web). IR juga
digunakan untuk memfasilitasi pencarian "semistruktur" seperti menemukan dokumen di mana
judul berisi Java dan isi berisi threading
Kami pertama-tama meninjau perbedaan antara data terstruktur dan tidak terstruktur (lihat
Bagian 13.1) untuk melihat bagaimana pengambilan informasi berbeda dari manajemen data
terstruktur. Pertimbangkan relasi (atau tabel) yang disebut RUMAH dengan atribut:
RUMAH(Lot#, Alamat, Square_footage, Listed_price)
Ini adalah contoh data terstruktur(structured data). Hubungan ini dapat kita bandingkan dengan
dokumen kontrak pembelian rumah, yang merupakan contoh data tidak terstruktur (unstructured
data). Biasanya, dokumen kontrak di negara bagian tertentu akan memiliki daftar klausa standar
yang dijelaskan dalam paragraf di dalam bagian dokumen, dengan beberapa teks yang telah
ditentukan sebelumnya dan beberapa area variabel yang isinya akan dipasok oleh pembeli dan
penjual tertentu. Isi informasi dalam dokumen tersebut dapat dianggap sebagai data tidak
terstruktur(unstructured data) yang dapat disimpan dalam berbagai kemungkinan pengaturan dan
format.
Secara historis, pengambilan informasi (informastion retrieval) adalah “disiplin yang berhubungan
dengan struktur, analisis, organisasi, penyimpanan, pencarian, dan pengambilan informasi”
sebagaimana didefinisikan oleh Gerald Salton, seorang pelopor IR. Kita dapat sedikit meningkatkan
definisi untuk mengatakan bahwa itu berlaku dalam konteks dokumen tidak terstruktur untuk
memenuhi kebutuhan informasi pengguna. Dalam program akademik, bidang IR telah lama menjadi
bagian dari program Ilmu Perpustakaan dan Informasi. Contoh informasi tersebut termasuk teks
tertulis, abstrak, dokumen, buku, halaman Web, email, pesan instan, dan koleksi dari perpustakaan
digital.
Sistem IR dapat dicirikan pada tingkat yang berbeda: berdasarkan jenis pengguna, jenis data, dan
jenis-jenis kebutuhan informasi, bersama dengan ukuran dan skala repositori informasi yang
ditanganinya. Sistem IR yang berbeda dirancang untuk menangani secara spesifik masalah yang
membutuhkan kombinasi karakteristik yang berbeda. Karakteristik ini dapat dijelaskan secara
singkat sebagai berikut:
Jenis Pengguna. Pengguna dapat sangat bervariasi dalam kemampuan mereka untuk
berinteraksi dengan sistem komputasi. Kemampuan ini tergantung pada banyak faktor,
seperti pendidikan, budaya, dan paparan masa lalu terhadap lingkungan komputasi.
Pengguna dapat menjadi Expert User (misalnya, kurator atau pustakawan) yang mencari
informasi spesifik yang jelas dalam pikirannya, memahami ruang lingkup dan struktur
repositori yang tersedia, dan membentuk Query yang relevan untuk tugas tersebut, atau
pengguna awam dengan kebutuhan informasi umum
Jenis Data. Sistem pencarian dapat disesuaikan dengan jenis data tertentu. Misalnya,
masalah pengambilan informasi tentang topik tertentu dapat ditangani lebih efisien dengan
sistem pencarian khusus yang dibangun untuk mengumpulkan dan mengambil hanya
informasi yang terkait dengan topik tertentu. Repositori informasi bisa diatur secara
hierarkis berdasarkan konsep atau hierarki topik. Topikal domain-specific atau vertical IR
systems tidak sebesar atau beragam seperti generik World Wide Web, yang berisi informasi
tentang semua jenis topik.
Jenis-jenis Kebutuhan Informasi. Dalam konteks pencarian Web, informasi kebutuhan
pengguna dapat didefinisikan sebagai navigasi, informasi, atau transaksional. Pencarian
navigasi mengacu pada menemukan informasi tertentu (seperti Situs Web Georgia Tech
University) yang dibutuhkan pengguna dengan cepat. Tujuan dari pencarian informasi
adalah untuk menemukan informasi terkini tentang suatu topik (seperti kegiatan penelitian
di perguruan tinggi komputasi di Georgia Tech — ini adalah tugas sistem IR klasik). Tujuan
pencarian transaksional adalah untuk mencapai situs di mana interaksi lebih lanjut terjadi
yang mengakibatkan beberapa peristiwa transaksional (seperti bergabung dengan jejaring
sosial, berbelanja produk, membuat reservasi online, mengakses database, dan sebagainya)
27.1.2 Perbandingan Database and Sistem IR
Dalam disiplin ilmu komputer, database dan sistem IR terkait erat. Database berurusan dengan
pengambilan informasi terstruktur melalui pengambilan informasi yang terdefinisi dengan baik
dan bahasa formal untuk representasi dan manipulasi berdasarkan teoritis model data yang
didirikan. Algoritma yang efisien telah dikembangkan untuk operator yang memungkinkan
eksekusi cepat Query yang kompleks. Beberapa perbedaan utama antara database dan sistem IR
tercantum dalam Tabel 27.1.
Tabel 27.1 Perbandingan Database and Sistem

IR
Database Sistem IR
 Data Terstruktur  Data Tidak Terstruktur
 Berdasar Skema  Tidak ada skema tetap; berbagai model
data (misalnya, model ruang vektor)
 Relasional (atau objek, hierarki, dan  Model Query bentuk bebas
jaringan)
 Model Query terstruktur  Operasi data yang beragam
 Operasi metadata yang beragam  Permintaan daftar pencarian, balikan
atau petunjuk ke dokumen
 Query data balikan
 Hasil didasarkan pada pencocokan  Hasil didasarkan pada perkiraan
tepat (selalu Benar) pencocokan dan ukuran efektivitas
(mungkin tidak tepat dan diperingkat)
permintaan pengguna dalam query IR mewakili upaya terbaik sistem IR dalam mengambil
informasi yang paling relevan dengan query itu sendiri. Sementara sistem database
mempertahankan metadata dalam jumlah besar dan memungkinkan penggunaannya dalam
pengoptimalan query, operasi dalam sistem IR bergantung pada nilai data itu sendiri dan frekuensi
kemunculannya. Analisis statistik yang kompleks terkadang dilakukan untuk menentukan relevansi
setiap dokumen atau bagian dari dokumen dengan permintaan pengguna.
27.1.3 Sejarah Singkat IR

Pengambilan informasi telah menjadi tugas umum sejak zaman peradaban kuno, yang menemukan
cara untuk mengatur, menyimpan, dan membuat katalog dokumen dan catatan. Media seperti
gulungan papirus dan lempengan batu digunakan untuk mencatat informasi terdokumentasi pada
zaman kuno. Dengan munculnya perpustakaan umum dan mesin cetak, metode skala besar untuk
memproduksi, mengumpulkan, mengarsipkan, dan mendistribusikan dokumen dan buku
berkembang. Ketika komputer dan sistem penyimpanan otomatis muncul, kebutuhan untuk
menerapkan metode ini ke sistem komputerisasi muncul. Beberapa teknik muncul pada tahun
1950-an, seperti karya mani H. P. Luhn, 5 yang mengusulkan penggunaan kata dan frekuensinya
dihitung sebagai unit pengindeksan untuk dokumen, dan menggunakan ukuran tumpang tindih
kata antara Query dan dokumen sebagai kriteria pengambilan. Segera disadari bahwa menyimpan
teks dalam jumlah besar tidaklah sulit. Tugas yang lebih sulit adalah mencari dan mengambil
informasi itu secara selektif untuk pengguna dengan kebutuhan informasi tertentu. Metode yang
mengeksplorasi statistik distribusi kata memunculkan pilihan kata kunci berdasarkan sifat
distribusinya6 dan juga mengarah ke skema pembobotan berbasis kata kunci.
Eksperimen sebelumnya dengan sistem pengambilan dokumen seperti SMART 7 pada 1960-an
mengadopsi organisasi file terbalik berdasarkan kata kunci dan bobotnya sebagai metode
pengindeksan (lihat Bagian 17.6.4 tentang pengindeksan terbalik). Serial (atau berurutan)
organisasi terbukti tidak memadai jika Query membutuhkan waktu respons yang cepat dan
mendekati waktu nyata. Organisasi yang tepat dari file-file ini menjadi bidang studi yang penting;
klasifikasi dokumen dan skema pengelompokan pun terjadi. Skala percobaan pengambilan tetap
tantangan karena kurangnya ketersediaan koleksi teks besar. Ini segera berubah dengan web di
seluruh dunia. Juga, Konferensi Pengambilan Teks (TREC) diluncurkan oleh NIST (Institut Standar
dan Teknologi Nasional) pada tahun 1992 sebagai bagian dari Program TIPSTER8 dengan tujuan
menyediakan platform untuk mengevaluasi informasi metodologi pengambilan dan memfasilitasi
transfer teknologi untuk mengembangkan produk IR.
5 Lihat Luhn (1957) “A statistical approach to mechanized encoding and searching of literary information.”
6 Lihat Salton, Yang, and Yu (1975).
7 untuk lebih lengkap, lihat Buckley et al. (1993).
8 untuk lebih lengkap, lihat Harman (1992)
27.1.4 Mode Interaksi dalam Sistem IR

Di awal Bagian 27.1, kami mendefinisikan pengambilan informasi sebagai proses pengambilan
dokumen dari koleksi sebagai tanggapan atas permintaan (atau permintaan pencarian) oleh
pengguna. Biasanya koleksi terdiri dari dokumen yang berisi data tidak terstruktur. Jenis dokumen
lainnya termasuk gambar, rekaman audio, strip video, dan peta. Data mungkin tersebar tidak
seragam dalam dokumen-dokumen ini tanpa struktur definitif. Query adalah sekumpulan istilah
(juga disebut sebagai kata kunci) yang digunakan oleh pencari untuk menentukan kebutuhan
informasi (misalnya, istilah database dan sistem operasi dapat dianggap sebagai Query ke database
bibliografi ilmu komputer). Permintaan informasi atau Query penelusuran juga dapat berupa frasa
bahasa alami atau pertanyaan (misalnya, “Apa mata uang Tiongkok?” atau “Temukan restoran Italia
di Sarasota, Florida.”).
Ada dua mode utama interaksi dengan sistem IR — pengambilan dan penelusuran — yang,
meskipun memiliki tujuan yang sama, dicapai melalui tugas interaksi yang berbeda. Pengambilan
berkaitan dengan ekstraksi informasi yang relevan dari gudang dokumen melalui Query IR,
sedangkan penelusuran menandakan aktivitas eksplorasi pengguna yang mengunjungi atau
menavigasi melalui dokumen serupa atau terkait berdasarkan penilaian relevansi pengguna.
Selama browsing, kebutuhan informasi pengguna mungkin tidak ditentukan secara apriori dan
fleksibel. Pertimbangkan skenario penelusuran berikut: Seorang pengguna menentukan 'Atlanta'
sebagai kata kunci. Sistem pencarian informasi mengambil tautan ke dokumen hasil relevan yang
berisi berbagai aspek Atlanta untuk pengguna. Pengguna menemukan istilah 'Georgia Tech' di salah
satu dokumen balikan dan menggunakan beberapa teknik akses (seperti mengklik frasa 'Georgia
Tech' dalam dokumen yang memiliki tautan bawaan) dan mengunjungi dokumen tentang Georgia
Tech di situs Web yang sama atau berbeda (repositori). Di sana pengguna menemukan entri untuk
'Atletik' yang mengarahkan pengguna ke informasi tentang berbagai program atletik di Georgia
Tech. Akhirnya, pengguna mengakhiri pencariannya di jadwal Musim Gugur untuk tim sepak bola
Jaket Kuning, yang menurutnya sangat menarik. Aktivitas pengguna ini dikenal sebagai browsing.
Hyperlink digunakan untuk menghubungkan halaman Web dan terutama digunakan untuk
browsing. Teks jangkar adalah frasa teks dalam dokumen yang digunakan untuk memberi label
hyperlink dan sangat relevan dengan penjelajahan.
27.1.5 Pipa Umum IR

Seperti yang kami sebutkan sebelumnya, dokumen terdiri dari teks bahasa alami yang tidak
terstruktur yang terdiri dari string karakter dari bahasa Inggris dan bahasa lainnya. Contoh umum
dari dokumen termasuk layanan newswire, manual dan laporan perusahaan, pemberitahuan
pemerintah, artikel halaman Web, blog, tweet, buku, dan makalah jurnal. Ada dua pendekatan
utama untuk IR: statistik dan semantik.
Dalam pendekatan statistik, dokumen dianalisis dan dipecah menjadi potongan teks dan setiap
kata atau frasa dihitung, diberi bobot, dan diukur untuk relevansi atau kepentingannya. Boolean,
ruang vektor, dan probabilistik .
Pendekatan semantik untuk IR menggunakan teknik temu kembali berbasis pengetahuan yang
secara luas bergantung pada tingkat pemahaman pengetahuan sintaksis, leksikal, sentensial,
berbasis wacana, dan pragmatis. Dalam praktiknya, pendekatan semantik juga menerapkan
beberapa bentuk analisis statistik untuk meningkatkan proses pengambilan.
Gambar 27.1 menunjukkan berbagai tahapan yang terlibat dalam sistem pemrosesan IR. Langkah-
langkah yang ditunjukkan di sebelah kiri pada Gambar 27.1 biasanya merupakan proses offline,
yang menyiapkan satu set dokumen untuk pengambilan yang efisien; ini adalah pra-pemrosesan
dokumen, pemodelan dokumen, dan pengindeksan. Sisa bab ini menjelaskan beberapa konsep yang
terlibat dalam berbagai tugas dalam proses IR yang ditunjukkan pada Gambar 27.1.
Gambar 27.2 menunjukkan pipa pemrosesan IR yang disederhanakan. Untuk melakukan
pengambilan pada dokumen, dokumen pertama-tama direpresentasikan dalam bentuk yang sesuai
untuk pengambilan.
Istilah signifikan dan propertinya diekstraksi dari dokumen dan direpresentasikan dalam indeks
dokumen di mana kata/istilah dan propertinya disimpan dalam matriks yang berisi setiap
dokumen individu dalam satu baris dan setiap baris berisi referensi ke kata-kata yang terkandung
dalam dokumen-dokumen itu.
Mekanisme
Pencarian
Jenis Query
27.2 Model Retrieval
Pada bagian ini, kami menjelaskan secara singkat model-model penting IR. Ini adalah tiga model
statistik utama—Boolean, ruang vektor, dan probabilistik—dan model semantik
27.2.1 Model Boolean
Dalam model ini, dokumen direpresentasikan sebagai satu set istilah. Pertanyaan dirumuskan
sebagai kombinasi istilah menggunakan operator teori himpunan logika Boolean standar seperti
AND, OR dan NOT. Pengambilan dan relevansi dianggap sebagai konsep biner dalam model ini,
sehingga elemen yang diambil adalah pengambilan “kecocokan yang tepat” dari dokumen yang
relevan. Semua dokumen yang diambil dianggap sama pentingnya—penyederhanaan utama yang
tidak mempertimbangkan frekuensi istilah dokumen atau kedekatannya dengan istilah lain
dibandingkan dengan istilah Query. Model pengambilan boolean tidak memiliki algoritma peringkat
yang canggih dan merupakan salah satu model pengambilan informasi paling awal dan paling
sederhana.
Model pengambilan boolean tidak memiliki algoritma peringkat yang canggih dan merupakan salah
satu model pengambilan informasi paling awal dan paling sederhana. Model ini memudahkan
untuk mengaitkan informasi metadata dan menulis Query yang cocok dengan konten dokumen
serta properti dokumen lainnya, seperti tanggal pembuatan, penulis, dan jenis dokumen
27.2.2 Model Ruang Vektor
Model ruang vektor menyediakan kerangka kerja di mana pembobotan istilah, peringkat dokumen
yang diambil, dan menentukan relevansi umpan balik dimungkinkan.
Menggunakan istilah individu sebagai dimensi, setiap dokumen diwakili oleh vektor nilai n-
dimensi. Nilai-nilai itu sendiri dapat berupa nilai Boolean untuk mewakili ada atau tidaknya istilah
dalam dokumen itu; bergantian, mereka mungkin merupakan nomor yang mewakili bobot atau
frekuensi dalam dokumen.
Proses pemilihan istilah penting ini dan propertinya sebagai daftar sparse dari sejumlah besar
istilah yang tersedia tidak bergantung pada spesifikasi model. Query juga ditentukan sebagai vektor
istilah , dan ini dibandingkan dengan vektor dokumen untuk penilaian kesamaan/relevansi. Ketika
sudut antara vektor berkurang, cosinus sudut mendekati satu, yang berarti bahwa kesamaan Query
dengan vektor dokumen meningkat. Istilah dibobot secara proporsional dengan jumlah
frekuensinya untuk mencerminkan pentingnya istilah dalam perhitungan ukuran relevansi.
Dalam model vektor, bobot term dokumen wij (untuk term i dalam dokumen j) direpresentasikan
berdasarkan beberapa variasi skema TF (term frequency) atau TF-IDF (term frequency–inverse
document frequency) (seperti yang akan kami jelaskan di bawah ini). ). TF-IDF adalah ukuran
bobot statistik yang digunakan untuk mengevaluasi pentingnya sebuah kata dokumen dalam
kumpulan dokumen. Rumus berikut biasanya digunakan:
Dalam rumus yang diberikan di atas, kami menggunakan simbol-simbol berikut:
 Dj adalah vektor dokumen untuk dokumen j.

 q adalah vektor Query.
 Wij adalah bobot term i dalam dokumen j.
 Wiq adalah bobot suku i dalam vektor Query q.
 |V| adalah jumlah dimensi dalam vektor yang merupakan jumlah total kata kunci (atau
fitur) penting.
TF-IDF menggunakan produk frekuensi normalisasi dari istilah i (TFij) dalam dokumen
Dj dan frekuensi dokumen kebalikan dari term i (IDFi) untuk membobot suatu term dalam sebuah
dokumen. Idenya adalah bahwa istilah yang menangkap esensi dokumen sering muncul dalam
dokumen (yaitu, TF mereka tinggi), tetapi jika istilah seperti itu menjadi istilah yang baik yang
membedakan dokumen dari orang lain, itu harus terjadi hanya beberapa dokumen dalam populasi
umum (yaitu, IDF-nya juga harus tinggi).
Nilai IDF dapat dengan mudah dihitung untuk kumpulan dokumen tetap. Dalam hal mesin pencari
Web, mengambil sampel dokumen yang representatif mendekati perhitungan IDF. Rumus berikut
dapat digunakan:
Dalam rumus ini, arti dari simbol adalah:
 TFij adalah frekuensi term normalisasi term i dalam dokumen Dj

 fij adalah jumlah kemunculan term i dalam dokumen Dj
 IDFi adalah bobot frekuensi dokumen terbalik untuk term i.
 N adalah jumlah dokumen dalam koleksi.
 ni adalah jumlah dokumen di mana term i muncul.
Perhatikan bahwa jika istilah i muncul di semua dokumen, maka ni = N dan karenanya IDFi = log(1)
menjadi nol, meniadakan kepentingannya dan menciptakan situasi di mana pembagian dengan nol
dapat terjadi. Bobot term i dalam dokumen j, wij, dihitung berdasarkan Nilai TF-IDF dalam
beberapa teknik. Untuk mencegah pembagian dengan nol, biasanya ditambahkan a 1 ke penyebut
dalam rumus seperti rumus kosinus di atas. Terkadang, relevansi dokumen dengan Query
(rel(Dj,Q)) adalah diukur secara langsung sebagai jumlah nilai TF-IDF dari istilah dalam Query Q:
Faktor normalisasi (mirip dengan penyebut rumus kosinus) dimasukkan ke dalam rumus TF-IDF
itu sendiri, sehingga mengukur relevansi dokumen dengan Query dengan menghitung produk titik
dari Query dan vektor dokumen.
Algoritme Rocchio adalah algoritme umpan balik relevansi yang terkenal berdasarkan model ruang
vektor yang memodifikasi vektor Query awal dan bobotnya sebagai respons terhadap dokumen
relevan yang diidentifikasi pengguna. Ini memperluas vektor Query asli q ke vektor baru qe sebagai
berikut:
Di sini, Dr adalah singkatan dari document–relevant (Dr) dan Dnr adalah singkatan dari document–
nonrelevant (Dnr); istilah-istilah ini masing-masing mewakili kumpulan dokumen yang relevan dan
tidak relevan.
Istilah dari dokumen yang relevan dan tidak relevan ditambahkan ke vektor Query asli dengan
bobot positif dan negatif, masing-masing, untuk membuat vektor Query yang dimodifikasi. a, b, dan
g adalah parameter persamaan. Penjumlahan atas dr merupakan penjumlahan atas semua istilah
yang relevan dari dokumen dr. Demikian pula, penjumlahan atas dnr mewakili penjumlahan atas
semua istilah dokumen dnr yang tidak relevan. Nilai parameter ini menentukan bagaimana umpan
balik memengaruhi Query asli, dan ini dapat ditentukan setelah sejumlah percobaan
27.2.3 Model Probabilistik
Dalam kerangka probabilistik, sistem IR harus memutuskan apakah dokumen termasuk dalam
kumpulan yang relevan atau kumpulan yang tidak relevan untuk suatu Query. Untuk membuat
keputusan ini, diasumsikan bahwa himpunan relevan dan himpunan tidak relevan yang telah
ditentukan sebelumnya ada untuk Query, dan tugasnya adalah menghitung probabilitas bahwa
dokumen tersebut termasuk dalam kumpulan yang relevan dan membandingkannya dengan
probabilitas bahwa dokumen tersebut termasuk dalam kumpulan set yang tidak relevan.
Mengingat representasi dokumen D dari sebuah dokumen, memperkirakan relevansi R dan NR
yang tidak relevan dari dokumen tersebut melibatkan perhitungan probabilitas bersyarat P(R|D)
dan P(NR|D). Probabilitas bersyarat ini dapat dihitung menggunakan Aturan Bayes:
P(R|D) = P(D|R) × P(R)/P(D)
P(NR|D) = P(D|NR) × P(NR)/P(D)
Sebuah dokumen D diklasifikasikan sebagai relevan jika P(R|D) > P(NR|D). Membuang konstanta
P(D), ini setara dengan mengatakan bahwa suatu dokumen relevan jika:
P(D|R) × P(R) > P(D|NR) × P(NR)
Rasio kemungkinan P(D|R)/P(D|NR) digunakan sebagai skor untuk menentukan kemungkinan
dokumen dengan representasi D milik himpunan yang relevan.
Istilah independensi atau asumsi nave Bayes digunakan untuk mengestimasi P(D|R) dengan
menggunakan perhitungan P(ti|R) untuk aturan ti. Rasio kemungkinan P(D|R)/P(D|NR) dokumen
digunakan sebagai proxy untuk peringkat berdasarkan asumsi bahwa dokumen dengan peringkat
tinggi akan memiliki kemungkinan tinggi untuk menjadi bagian dari kumpulan yang relevan
algoritma peringkat probabilistik yang disebut BM25 (Best Match / Pencocokan Terbaik 25) cukup
populer. Skema pembobotan ini telah berkembang dari beberapa versi sistem Okapi14.
Berat Okapi untuk dokumen dj dan query q dihitung dengan rumus di bawah ini. Notasi tambahan
adalah sebagai berikut:
 ti adalah istilah.
 fij adalah jumlah frekuensi mentah dari istilah ti dalam dokumen dj
 fiq adalah jumlah frekuensi mentah istilah ti dalam Query q.
 N adalah jumlah total dokumen dalam koleksi.
 dfi adalah jumlah dokumen yang mengandung istilah ti.
 dlj adalah panjang dokumen (dalam byte) dari dj
 avdl adalah rata-rata panjang dokumen koleksi
Skor relevansi Okapi dari dokumen dj untuk Query q diberikan oleh persamaan di bawah ini, di
mana k1 (antara 1,0–2,0), b (biasanya 0,75), dan k2 (antara 1–1.000) adalah parameter:
27.2.4 Model Semantik
Pendekatan semantik mencakup berbagai tingkat analisis, seperti analisis morfologis, sintaksis, dan
semantik, untuk mengambil dokumen secara lebih efektif. Dalam analisis morfologi, akar dan
imbuhan dianalisis untuk menentukan bagian-bagian ujaran (kata benda, kata kerja, kata sifat, dan
sebagainya) dari kata-kata tersebut. Setelah analisis morfologi, analisis sintaksis mengikuti untuk
mengurai dan menganalisis frasa lengkap dalam dokumen. Akhirnya, metode semantik harus
menyelesaikan ambiguitas kata dan/atau menghasilkan sinonim yang relevan berdasarkan
hubungan semantik antara tingkat entitas struktural dalam dokumen (kata, paragraf, halaman, atau
seluruh dokumen)
27.3 Jenis-Jenis Query dalam Sistem IR

Kata kunci yang berbeda dikaitkan dengan kumpulan dokumen selama proses pengindeksan. Kata
kunci ini umumnya terdiri dari kata, frasa, dan karakterisasi dokumen lainnya seperti tanggal
dibuat, nama penulis, dan jenis dokumen. Mereka digunakan oleh sistem IR untuk membangun
indeks terbalik , yang kemudian dikonsultasikan selama pencarian. Sebagian besar sistem IR juga
memungkinkan penggunaan Boolean dan operator lain untuk membangun Query yang kompleks.
27.3.1 Query Kata Kunci

Query berbasis kata kunci adalah bentuk Query IR yang paling sederhana dan paling umum
digunakan: pengguna cukup memasukkan kombinasi kata kunci untuk mengambil dokumen. Istilah
kata kunci Query secara implisit dihubungkan oleh operator AND logis. Sebuah pertanyaan seperti
'konsep database' mengambil dokumen yang berisi kata 'database' dan 'konsep' di bagian atas hasil
yang diambil. Selain itu, sebagian besar sistem juga mengambil dokumen yang hanya berisi
'database' atau hanya 'konsep' dalam teksnya. Beberapa sistem menghapus kata-kata yang paling
sering muncul (seperti a, the, of, dan seterusnya, yang disebut stopwords) sebagai langkah pra-
pemrosesan sebelum mengirim kata kunci Query yang difilter ke mesin IR. Sebagian besar sistem IR
tidak memperhatikan urutan kata-kata ini dalam Query. Semua model pengambilan memberikan
dukungan untuk Query kata kunci
27.3.2 Query Boolean

Beberapa sistem IR memungkinkan penggunaan operator AND, OR, NOT, , + , dan Boolean dalam
kombinasi formulasi kata kunci. DAN mengharuskan kedua istilah ditemukan. NOT berarti setiap
record yang mengandung istilah kedua akan dikecualikan. '' berarti operator Boolean dapat
disarangkan menggunakan tanda kurung.
'+' setara dengan DAN, membutuhkan istilah; '+' harus ditempatkan langsung di depan istilah
pencarian. '–' setara dengan DAN TIDAK dan berarti mengecualikan istilah tersebut; tanda '–' harus
ditempatkan langsung di depan istilah pencarian yang tidak diinginkan. Tidak ada peringkat yang
memungkinkan, karena dokumen memenuhi Query semacam itu atau tidak memuaskannya .
Dokumen diambil untuk Query Boolean jika Query secara logika benar sebagai pencocokan tepat
dalam dokumen. Pengguna umumnya tidak menggunakan kombinasi operator Boolean yang
kompleks ini, dan sistem IR mendukung versi terbatas dari operator yang ditetapkan ini.
27.3.3 Query Frasa

Ketika dokumen diwakili menggunakan indeks kata kunci terbalik untuk pencarian, urutan relatif
dari istilah dalam dokumen hilang. Untuk melakukan pengambilan frasa yang tepat, frasa ini harus
dikodekan dalam indeks terbalik atau diimplementasikan secara berbeda (dengan posisi relatif
kemunculan kata dalam dokumen). Sebuah query frase terdiri dari urutan kata-kata yang
membentuk sebuah frase. Frasa ini biasanya diapit oleh tanda kutip ganda. Setiap dokumen yang
diambil harus berisi setidaknya satu contoh dari frase yang tepat. Pencarian frasa adalah versi
pencarian kedekatan yang lebih terbatas dan spesifik yang kami sebutkan di bawah ini. Misalnya,
Query penelusuran frasa dapat berupa 'desain database konseptual'. Jika frasa diindeks oleh model
pengambilan, model pengambilan apa pun dapat digunakan untuk jenis Query ini. Sebuah tesaurus
frase juga dapat digunakan dalam model semantik untuk pencarian kamus frase yang cepat.
27.3.4 Query Kedekatan

Pencarian kedekatan mengacu pada pencarian yang memperhitungkan seberapa dekat dalam
catatan beberapa istilah harus satu sama lain. Opsi pencarian kedekatan yang paling umum
digunakan adalah pencarian frase yang membutuhkan istilah dalam urutan yang tepat. Operator
kedekatan lainnya dapat menentukan seberapa dekat istilah satu sama lain. Beberapa juga akan
menentukan urutan istilah pencarian. Setiap mesin pencari dapat mendefinisikan operator
kedekatan secara berbeda, dan mesin pencari menggunakan berbagai nama operator seperti
DEKAT, ADJ (berdekatan), atau SETELAH. Dalam beberapa kasus, urutan kata tunggal diberikan,
bersama dengan jarak maksimum yang diperbolehkan di antara mereka. Model ruang vektor yang
juga memelihara informasi tentang posisi dan offset token (kata) memiliki implementasi yang kuat
untuk jenis Query ini. Namun, memberikan dukungan untuk operator kedekatan yang kompleks
menjadi mahal secara komputasi karena memerlukan pra-pemrosesan dokumen yang memakan
waktu dan dengan demikian cocok untuk koleksi dokumen yang lebih kecil daripada untuk Web.
27.3.5 Query Wildcard

Pencarian wildcard umumnya dimaksudkan untuk mendukung ekspresi reguler dan pencarian
berbasis pencocokan pola dalam teks. Dalam sistem IR, jenis dukungan pencarian wildcard tertentu
dapat diterapkan—biasanya kata-kata dengan karakter tambahan apa pun (misalnya, 'data*' akan
mengambil data, database, titik data, kumpulan data, dan sebagainya). Memberikan dukungan
penuh untuk pencarian wildcard di mesin pencari Web melibatkan overhead preprocessing dan
umumnya tidak diterapkan oleh banyak mesin pencari Web saat ini.17 Model pengambilan tidak
secara langsung memberikan dukungan untuk jenis Query ini. Lucene18 menyediakan dukungan
untuk jenis Query wildcard tertentu. Pengurai Query di Lucene menghitung Query Boolean besar
yang menggabungkan semua kombinasi dan perluasan kata dari indeks
27.3.6 Query Bahasa Alami

Ada beberapa mesin pencari bahasa alami yang bertujuan untuk memahami struktur dan makna
Query yang ditulis dalam teks bahasa alami, umumnya sebagai pertanyaan atau narasi. Ini adalah
area penelitian aktif yang menggunakan teknik seperti semantik dangkal penguraian teks, atau
formulasi ulang Query berdasarkan pemahaman bahasa alami. Sistem mencoba merumuskan
jawaban untuk Query tersebut dari hasil yang diambil. Beberapa sistem pencarian mulai
menyediakan antarmuka bahasa alami untuk memberikan jawaban atas jenis pertanyaan tertentu,
seperti pertanyaan definisi dan factoid, yang meminta definisi istilah teknis atau fakta umum yang
dapat diambil dari database khusus. Pertanyaan seperti itu biasanya lebih mudah dijawab karena
ada pola linguistik yang kuat yang memberi petunjuk pada jenis kalimat tertentu—misalnya,
'didefinisikan sebagai' atau 'mengacu pada'. Model semantik dapat memberikan dukungan untuk
jenis Query ini
27.4 Prapemrosesan Teks

Pada bagian ini, kami meninjau teknik preprocessing teks yang umum digunakan yang merupakan
bagian dari tugas pemrosesan teks pada Gambar 27.1
27.4.1 Penghapusan Stopword

Stopwords adalah kata-kata yang sangat umum digunakan dalam bahasa yang memainkan peran
utama dalam pembentukan kalimat tetapi itu jarang berkontribusi pada makna kalimat itu. Kata-
kata yang diharapkan muncul di 80% atau lebih dokumen dalam kumpulan biasanya disebut
sebagai stopwords, dan kata-kata tersebut berpotensi tidak berguna. Contohnya termasuk kata-
kata seperti, dari, ke, a, dan, dikatakan, untuk, itu, dulu, dia, adalah, dengan, di, oleh, dan itu. Kata-
kata ini disajikan di sini dengan penurunan frekuensi kemunculan dari kumpulan besar dokumen
yang disebut AP89. Penghapusan stopwords dari dokumen harus dilakukan sebelum pengindeksan.
Artikel, preposisi, konjungsi, dan beberapa kata ganti umumnya diklasifikasikan sebagai stopwords.
Query juga harus diproses sebelumnya untuk penghapusan stopword sebelum proses pengambilan
yang sebenarnya. Penghapusan stopwords menghasilkan penghapusan kemungkinan indeks palsu,
sehingga mengurangi ukuran struktur indeks sekitar 40% atau lebih. Namun, hal itu dapat
memengaruhi penarikan jika stopword merupakan bagian integral dari Query (misalnya, pencarian
frasa 'Menjadi atau tidak menjadi', di mana penghapusan stopword membuat Query tidak sesuai,
karena semua kata dalam frasa adalah stopwords). Banyak mesin telusur tidak menggunakan
penghapusan kata kunci Query karena alasan ini
27.4.2 Stemming
Sebuah Stem didefinisikan sebagai kata yang diperoleh setelah pemangkasan akhiran dan awalan
dari kata asli. Misalnya, 'comput' adalah kata induk untuk computer, computing, computable, dan
computation. Sufiks dan prefiks ini sangat umum dalam bahasa Inggris untuk mendukung
pengertian verba, tenses, dan bentuk jamak.
Stemming mengurangi berbagai bentuk kata yang dibentuk oleh infleksi (karena bentuk jamak atau
tenses) dan derivasi menjadi batang umum.
Algoritma stemming dapat diterapkan untuk mereduksi kata apapun menjadi stemnya. Dalam
bahasa Inggris, algoritma stemming yang paling terkenal adalah algoritma stemming Martin Porter.
The Porter stemmer20 adalah versi sederhana dari teknik Lovin yang menggunakan set yang
dikurangi dari sekitar 60 aturan (dari 260 pola sufiks dalam teknik Lovin) dan mengaturnya
menjadi set; konflik dalam satu bagian aturan diselesaikan sebelum melanjutkan ke selanjutnya.
Menggunakan stemming untuk data pra-pemrosesan menghasilkan penurunan ukuran struktur
pengindeksan dan peningkatan penarikan, mungkin dengan mengorbankan presisi
27.4.3 Menggunakan Tesaurus

Tesaurus terdiri dari daftar konsep penting yang telah disusun sebelumnya dan kata utama yang
menjelaskan setiap konsep untuk domain pengetahuan tertentu. Untuk setiap konsep dalam daftar
ini, satu set sinonim dan kata terkait juga dikompilasi. Dengan demikian, sinonim dapat dikonversi
ke konsep yang cocok selama prapemrosesan. Langkah preprocessing ini membantu dalam
menyediakan kosakata standar untuk pengindeksan dan pencarian. Penggunaan tesaurus, juga
dikenal sebagai kumpulan sinonim, memiliki dampak besar pada ingatan sistem informasi. Proses
ini dapat menjadi rumit karena banyak kata memiliki arti yang berbeda dalam konteks yang
berbeda
UMLS22 adalah tesaurus biomedis besar dari jutaan konsep (disebut metathesaurus) dan jaringan
semantik konsep meta dan hubungan yang mengatur metathesaurus (lihat Gambar 27.3). Konsep
diberi label dari jaringan semantik.
WordNet adalah tesaurus yang dibuat secara manual yang mengelompokkan kata-kata ke dalam
kumpulan sinonim yang ketat yang disebut synsets. Synsets ini dibagi menjadi kategori kata benda,
kata kerja, kata sifat, dan kata keterangan. Dalam setiap kategori, synsets ini dihubungkan bersama
oleh hubungan yang sesuai seperti kelas/subclass atau hubungan "is-a" untuk kata benda. WordNet
didasarkan pada gagasan menggunakan kosakata terkontrol untuk pengindeksan, sehingga
menghilangkan redundansi. Ini juga berguna dalam memberikan bantuan kepada pengguna dengan
menemukan istilah untuk formulasi Query yang tepat
27.4.4 Langkah Pra-pemrosesan Lainnya: Digit, Tanda hubung, Tanda Baca,

Huruf Besar
Digit, tanggal, nomor telepon, alamat email, URL, dan jenis teks standar lainnya mungkin atau
mungkin tidak dihapus selama prapemrosesan. Mesin pencari web, bagaimanapun, mengindeksnya
untuk menggunakan jenis informasi ini dalam metadata dokumen untuk meningkatkan presisi dan
recall(lihat Bagian 27.6 untuk definisi rinci presisi dan recall) .
Dalam beberapa sistem, karakter yang mewakili tanda hubung/tanda baca dapat dihilangkan, atau
dapat diganti dengan spasi. Sistem temu kembali informasi yang berbeda mengikuti aturan
pemrosesan yang berbeda. Menangani tanda hubung secara otomatis dapat menjadi rumit: dapat
dilakukan sebagai masalah klasifikasi, atau lebih umum dengan beberapa aturan heuristik. Banyak
istilah khusus domain seperti katalog produk, versi produk yang berbeda, dan sebagainya memiliki
tanda hubung di dalamnya. Saat mesin pencari merayapi Web untuk pengindeksan, menjadi sulit
untuk memperlakukan tanda hubung secara otomatis dengan benar; oleh karena itu, strategi yang
lebih sederhana dirancang untuk memproses tanda hubung. Sebagian besar sistem pencarian
informasi melakukan pencarian case-insensitive, mengubah semua huruf teks menjadi huruf besar
atau kecil.
27.4.5 Ekstraksi Informasi Ekstraksi informasi (IE)

adalah istilah umum yang digunakan untuk mengekstraksi konten terstruktur dari teks. Tugas
analitik teks seperti mengidentifikasi frasa kata benda, fakta, peristiwa, orang, tempat, dan
hubungan adalah contoh tugas IE. Tugas-tugas ini juga disebut tugas pengenalan entitas bernama
dan menggunakan pendekatan berbasis aturan dengan tesaurus, ekspresi reguler dan tata bahasa,
atau pendekatan probabilistik. Untuk IR dan aplikasi pencarian, teknologi IE sebagian besar
digunakan untuk mengidentifikasi entitas bernama yang melibatkan analisis teks, pencocokan, dan
kategorisasi untuk meningkatkan relevansi sistem pencarian. Teknologi bahasa yang menggunakan
penandaan bagian-of-speech diterapkan untuk membubuhi keterangan semantik pada dokumen
dengan fitur yang diekstraksi untuk membantu relevansi pencarian
27.5 Prapemrosesan Terbalik

Cara paling sederhana untuk mencari kemunculan istilah Query dalam kumpulan teks dapat
dilakukan dengan memindai teks secara berurutan. Jenis pencarian online ini hanya sesuai ketika
koleksi teks sedikit. Sebagian besar sistem pencarian informasi memproses kumpulan teks untuk
membuat indeks dan beroperasi pada struktur data indeks terbalik . Setiap istilah dalam kumpulan
kosakata memiliki kumpulan informasi terkait tentang dokumen yang berisi istilah tersebut,
seperti id dokumen, jumlah kemunculan, dan offset di dalam dokumen tempat istilah terjadi.
Bentuk paling sederhana dari istilah kosakata terdiri dari kata-kata atau tanda individu dari
dokumen. Dalam beberapa kasus, istilah kosakata ini juga terdiri dari frasa, n-gram, entitas, tautan,
nama, tanggal, atau istilah deskriptor yang ditetapkan secara manual dari dokumen dan/atau
halaman Web. Untuk setiap istilah dalam kosakata, id dokumen yang sesuai, lokasi kemunculan
istilah dalam setiap dokumen, jumlah kemunculan istilah dalam setiap dokumen, dan informasi
relevan lainnya dapat disimpan di bagian informasi dokumen.
Suatu istilah dapat menjadi pendeskripsi yang lebih baik dari satu dokumen daripada yang lain
dengan proses pembobotan . Indeks terbalik dari kumpulan dokumen adalah struktur data yang
melampirkan istilah berbeda dengan daftar semua dokumen yang berisi istilah tersebut. Proses
konstruksi indeks terbalik melibatkan langkah-langkah ekstraksi dan pemrosesan yang
ditunjukkan pada Gambar 27.2. Teks yang diperoleh pertama kali diproses dan dokumen
direpresentasikan dengan istilah kosakata. istilah kosakata ditimbang pada waktu pengindeksan
menurut kriteria yang berbeda untuk koleksi. Salah satu skema pembobotan yang paling populer
adalah metrik TF-IDF yang kami jelaskan di Bagian 27.2. Bobot ini dinormalisasi untuk
memperhitungkan panjang dokumen yang bervariasi, selanjutnya memastikan bahwa dokumen
yang lebih panjang dengan kemunculan kata yang lebih banyak secara proporsional tidak disukai
untuk pengambilan daripada dokumen yang lebih pendek dengan kemunculan yang lebih sedikit
secara proporsional
Langkah-langkah yang terlibat dalam konstruksi indeks terbalik dapat diringkas sebagai berikut:
1. Memecah dokumen menjadi istilah kosakata dengan tokenizing, pembersihan, menghapus
stopwords, stemming, dan/atau menggunakan tesaurus tambahan sebagai kosakata.
2. Kumpulkan statistik dokumen dan simpan statistik dalam tabel pencarian dokumen.
3. Balikkan aliran document-term menjadi aliran term-document bersama dengan informasi
tambahan seperti frekuensi istilah, posisi istilah, dan bobot istilah
Mencari dokumen yang relevan dari indeks terbalik, dengan serangkaian istilah Query, umumnya
merupakan proses tiga langkah.
1. Pencarian kosakata. Jika Query terdiri dari beberapa istilah, mereka dipisahkan dan
diperlakukan sebagai istilah independen. Setiap istilah dicari dalam kosakata. Berbagai
struktur data, seperti variasi B+-tree atau hashing, dapat digunakan untuk mengoptimalkan
proses pencarian. Istilah Query juga dapat dipesan dalam urutan leksikografis untuk
meningkatkan efisiensi ruang.
2. Pencarian informasi dokumen. Informasi dokumen untuk setiap istilah diambil.
3. Manipulasi informasi yang diambil. Vektor informasi dokumen untuk setiap istilah yang
diperoleh pada langkah 2 sekarang diproses lebih lanjut untuk menggabungkan berbagai
bentuk logika Query. Berbagai jenis Query seperti Query awalan, rentang, konteks, dan
kedekatan diproses dalam langkah ini untuk menyusun hasil akhir berdasarkan kumpulan
dokumen yang dikembalikan pada langkah 2.
27.5.1 Pengantar Lucene

Lucene adalah mesin pengindeksan/pencarian open source yang dipelihara secara aktif yang telah
menjadi populer di lingkungan akademis dan komersial. Pengindeksan adalah fokus utama Lucene,
tetapi menggunakan pengindeksan untuk memfasilitasi pencarian. Pustaka Lucene ditulis dalam
Java dan dilengkapi dengan kemampuan skalabel dan kinerja tinggi yang siap pakai. Lucene adalah
mesin yang mendukung aplikasi pencarian perusahaan populer lainnya yang disebut Solr.25 Solr
menyediakan banyak kemampuan tambahan untuk Lucene, seperti menyediakan antarmuka Web
untuk mengindeks banyak format dokumen yang berbeda
Pengindeksan: Di Lucene, dokumen harus melalui proses pengindeksan sebelum tersedia untuk
pencarian. Dokumen Lucene terdiri dari sekumpulan bidang. Bidang teks terdiri dari seluruh
potongan teks yang tidak diberi tanda atau serangkaian unit leksikal yang diproses yang disebut
aliran token. Aliran token dibuat melalui penerapan berbagai jenis algoritma tokenisasi dan
penyaringan yang tersedia. Juga mudah untuk memperluas tokenizer dan filter ini di Lucene untuk
membuat algoritme analisis teks khusus untuk tokenisasi dan pemfilteran. Ada tokenizer lain,
seperti WhitespaceTokenizer, yang membagi teks pada spasi putih. Juga mudah untuk memperluas
tokenizer dan filter ini di Lucene untuk membuat algoritme analisis teks khusus untuk tokenisasi
dan pemfilteran. Algoritma analisis ini sangat penting untuk mencapai hasil pencarian yang
diinginkan. Lucene menyediakan API dan beberapa implementasi untuk banyak algoritma
pemfilteran dan tokenisasi berkecepatan tinggi dan efisien.
Pencarian: Dengan API pencarian yang kuat, Query dicocokkan dengan dokumen dan daftar
peringkat hasil diambil. Query dibandingkan dengan istilah vektor dalam indeks terbalik untuk
menghitung skor relevansi berdasarkan model ruang vektor (lihat Bagian 27.2.2). Lucene
menyediakan API pencarian yang sangat dapat dikonfigurasi di mana seseorang dapat membuat
Query untuk pencarian wildcard, eksak, Boolean, kedekatan, dan rentang. Algoritme penilaian
default Lucene menggunakan varian penilaian TF-IDF untuk menentukan peringkat hasil pencarian.
Untuk mempercepat pencarian, Lucene mempertahankan faktor normalisasi yang bergantung pada
dokumen yang dihitung sebelumnya pada waktu indeks; ini disebut norma vektor istilah di bidang
dokumen. Norma yang dihitung sebelumnya ini mempercepat proses penilaian di Lucene.
Algoritme pencocokan Query yang sebenarnya menggunakan fungsi yang melakukan perhitungan
yang sangat sedikit pada waktu pencocokan Query
Aplikasi: Salah satu alasan popularitas Lucene yang luar biasa adalah kemudahan ketersediaan
aplikasi Lucene untuk menangani berbagai koleksi dokumen dan sistem penerapan untuk
mengindeks koleksi dokumen besar yang tidak terstruktur. Aplikasi pencarian perusahaan yang
dibangun di atas Lucene disebut Solr. Solr adalah aplikasi server Web yang menyediakan dukungan
untuk pencarian faceted (lihat Bagian 27.8.1 tentang pencarian faceted), dukungan pemrosesan
dokumen format kustom (seperti PDF, HTML, dll.), dan layanan Web untuk beberapa fungsi API
untuk pengindeksan dan pencarian di Lucene.
27.6 Langkah-langkah Evaluasi Relevansi

Pencarian
Tanpa teknik evaluasi yang tepat, seseorang tidak dapat membandingkan dan mengukur relevansi
model pengambilan yang berbeda dan sistem IR untuk melakukan perbaikan. Teknik evaluasi
sistem IR mengukur relevansi topikal dan relevansi pengguna. Relevansi topikal mengukur sejauh
mana topik hasil cocok dengan topik Query. Selain itu, karena sebagian besar Query pengguna
bersifat informasional, tidak ada jawaban pasti yang benar untuk ditampilkan kepada pengguna .
Relevansi pengguna adalah istilah yang digunakan untuk menggambarkan “kebaikan” dari hasil
yang diambil sehubungan dengan kebutuhan informasi pengguna. Relevansi pengguna mencakup
faktor implisit lainnya, seperti persepsi pengguna, konteks, ketepatan waktu, lingkungan pengguna,
dan kebutuhan tugas saat ini. Dalam pencarian informasi Web, tidak ada keputusan klasifikasi biner
yang dibuat pada apakah dokumen relevan atau tidak relevan dengan Query sedangkan model
pengambilan Boolean . Sebagai gantinya, peringkat dokumen dibuat untuk pengguna.
27.6.1 Recall dan Presisi

Metrik recall dan presisi didasarkan pada asumsi relevansi biner (apakah setiap dokumen relevan
atau tidak relevan dengan Query). Recall didefinisikan sebagai jumlah dokumen relevan yang
diambil oleh pencarian dibagi dengan jumlah total dokumen yang benar-benar relevan yang ada
dalam database. Presisi didefinisikan sebagai jumlah dokumen relevan yang diambil dengan
pencarian dibagi dengan jumlah total dokumen yang diambil oleh pencarian itu. Gambar 27.5
adalah representasi bergambar dari istilah yang diambil versus relevan dan menunjukkan
bagaimana hasil pencarian berhubungan dengan empat kumpulan dokumen yang berbeda.
Notasi untuk Gambar 27.5 adalah sebagai berikut:
 TP: positif benar

 FP: positif palsu
Istilah positif benar, positif palsu, negatif palsu, dan negatif benar umumnya digunakan dalam
semua jenis tugas klasifikasi untuk membandingkan klasifikasi item yang diberikan dengan
klasifikasi benar yang diinginkan. Menggunakan istilah hits untuk dokumen yang benar-benar atau
“benar” sesuai dengan permintaan pengguna, kita dapat mendefinisikan recall dan precision
sebagai berikut:
Recall = |Hits|/|Relevant|
Presisi = |Hits|/|Diambil|
Recall dan presisi juga dapat didefinisikan dalam pengaturan pengambilan peringkat. Mari kita
asumsikan bahwa ada satu dokumen di setiap posisi peringkat. Recall pada posisi rangking i untuk
dokumen di q (dilambangkan dengan r(i)) (di q adalah dokumen yang diambil pada posisi i untuk
query q) adalah pecahan dari dokumen yang relevan dari d1 q ke di q pada hasil yang ditetapkan
untuk pertanyaan. Misalkan himpunan dokumen yang relevan dari d1 q ke di q dalam himpunan
tersebut adalah Si dengan kardinalitas | Si |. Biarkan (|Dq| menjadi ukuran dokumen yang relevan
untuk Query. Dalam hal ini,|Si | |Dq|). Kemudian:
Peringkat retrieval_recall: r(i) = |Si |/|Dq|
Presisi pada posisi rangking i atau dokumen di q (dilambangkan dengan p(i)) adalah pecahan
dokumen dari d1 q sampai di q pada himpunan hasil yang relevan:
Peringkat_pengambilan_presisi: p(i) = |Si |/i
Tabel 27.2 mengilustrasikan metrik p(i), r(i), dan presisi rata-rata (dibahas di bagian berikutnya).
Dapat dilihat bahwa daya ingat dapat ditingkatkan dengan menghadirkan lebih banyak hasil
kepada pengguna, tetapi pendekatan ini berisiko menurunkan presisi. Dalam contoh, jumlah
dokumen yang relevan untuk beberapa Query = 10. Posisi peringkat dan relevansi dokumen
individual ditampilkan. Presisi dan nilai recall dapat dihitung pada setiap posisi dalam daftar
peringkat seperti yang ditunjukkan pada dua kolom terakhir. Seperti yang kita lihat pada Tabel
27.2, rank_retrieval_recall naik secara monoton sedangkan presisi cenderung berfluktuasi
Tabel 27.2 peringkat pengambilan Presisi dan recall

27.6.2 Presisi Rata-rata
Presisi rata-rata dihitung berdasarkan presisi pada setiap dokumen yang relevan dalam
pemeringkatan. Ukuran ini berguna untuk menghitung nilai presisi tunggal untuk membandingkan
algoritma pengambilan yang berbeda pada Query q
Pertimbangkan nilai presisi sampel dari dokumen yang relevan pada Tabel 27.2. Rata-rata presisi
(nilai Pavg) untuk contoh pada Tabel 27.2 adalah P(1) + P(2) + P(3) + P(7) + P(8) + P(10)/6 =
79,93% (hanya dokumen yang relevan dipertimbangkan dalam perhitungan ini). Banyak algoritma
yang baik cenderung memiliki presisi rata-rata top-k yang tinggi untuk nilai k yang kecil, dengan
nilai recall yang rendah.
27.6.3 Kurva Recall/Precision

Kurva recall/precision dapat digambar berdasarkan nilai recall dan presisi pada setiap posisi rank,
dimana sumbu x adalah recall dan sumbu y adalah presisi. Alih-alih menggunakan presisi dan daya
ingat pada setiap posisi peringkat, kurva biasanya diplot menggunakan tingkat daya ingat r(i) pada
0%, 10%, 20% … 100%. Kurva biasanya memiliki kemiringan negatif, yang mencerminkan
hubungan terbalik antara presisi dan daya ingat
27.6.4 Skor-F
F-score (F) adalah rata-rata harmonik dari nilai presisi (p) dan recall (r). Itu adalah
Presisi tinggi dicapai hampir selalu dengan mengorbankan penarikan dan sebaliknya. Ini adalah
masalah konteks aplikasi, apakah akan menyetel sistem untuk presisi tinggi atau penarikan tinggi.
F-score biasanya digunakan sebagai ukuran tunggal yang menggabungkan presisi dan recall untuk
membandingkan set hasil yang berbeda:
Salah satu sifat rata-rata harmonik adalah bahwa rata-rata harmonik dua bilangan cenderung lebih
dekat ke yang lebih kecil dari keduanya. Jadi F secara otomatis dibias ke arah yang lebih kecil dari
nilai presisi dan recall. Oleh karena itu, untuk F-score yang tinggi, presisi dan recall harus tinggi.
27.7 Analisis dan Pencarian WEB

Munculnya Web telah membawa jutaan pengguna untuk mencari informasi, yang disimpan di
sejumlah besar situs aktif. Untuk membuat informasi ini dapat diakses, mesin pencari seperti
Google, bing dan Yahoo! harus merayapi dan mengindeks situs-situs ini dan kumpulan dokumen
dalam database indeks mereka. Karena ada jutaan halaman yang tersedia di Web dengan topik yang
berbeda, mesin pencari harus menerapkan banyak teknik canggih seperti analisis tautan untuk
mengidentifikasi pentingnya halaman. Ada jenis mesin pencari lain selain yang secara teratur
merayapi Web dan membuat indeks otomatis: ini adalah mesin pencari vertikal atau mesin
metasearch yang digerakkan oleh manusia. Mereka terdiri dari direktori Web khusus yang dibuat
secara manual yang disusun secara hierarkis untuk memandu navigasi pengguna ke berbagai
sumber daya di Web. Mesin telusur vertikal adalah mesin telusur khusus topik khusus yang
merayapi dan mengindeks koleksi dokumen tertentu di Web dan memberikan hasil penelusuran
dari koleksi spesifik tersebut.
Penemuan hypertext, yang dibayangkan oleh Vannevar Bush pada tahun 1940-an dan pertama kali
direalisasikan dalam sistem kerja pada tahun 1970-an, secara signifikan mendahului pembentukan
World Wide Web (yang kita sebut saja sebagai Web), pada 1990-an. Penggunaan web telah
menunjukkan pertumbuhan yang luar biasa ke titik di mana sekarang mengklaim sebagian besar
umat manusia sebagai peserta, dengan mengandalkan desain server-klien yang sederhana dan
terbuka: (1) server berkomunikasi dengan klien melalui protokol (http atau hypertext protokol
transfer) yang ringan dan sederhana, secara asinkron membawa berbagai muatan (teks, gambar
dan – dari waktu ke waktu – media yang lebih kaya seperti file audio dan video) yang dikodekan
dalam bahasa markup sederhana yang disebut HTML (untuk bahasa markup hypertext); (2) klien –
umumnya browser, aplikasi dalam lingkungan pengguna grafis – dapat mengabaikan apa yang tidak
dipahaminya. Masing-masing fitur yang tampaknya tidak berbahaya ini telah memberikan
kontribusi besar terhadap pertumbuhan Web, jadi ada baiknya untuk memeriksanya lebih lanjut.
Sumber lain dari dokumen Web yang dapat dicari adalah perpustakaan digital. Koleksi ini dapat
mencakup katalog perpustakaan universitas, katalog dari sekelompok universitas yang
berpartisipasi, seperti di Sistem Universitas Negara Bagian Florida, atau kompilasi dari beberapa
sumber daya eksternal di World Wide Web, seperti Google Cendekia atau indeks IEEE/ACM. Mirip
dengan perpustakaan nyata, koleksi digital ini dipelihara melalui katalog dan diatur dalam kategori
untuk referensi online.
27.7.1 Analisis Web dan Hubungannya untuk Pengambilan Informasi

Selain menjelajah dan mencari di Web, aktivitas penting lainnya yang terkait erat dengan pencarian
informasi adalah menganalisis atau menggali informasi di Web untuk mendapatkan informasi baru
yang menarik. Penerapan teknik analisis data untuk penemuan dan analisis informasi yang berguna
dari Web dikenal sebagai analisis Web. Properti ini menjadikannya target yang menarik untuk
aplikasi analisis data. Bidang penambangan dan analisis Web merupakan integrasi dari berbagai
bidang yang mencakup pencarian informasi, analisis teks, pemrosesan bahasa alami, penambangan
data, pembelajaran mesin, dan analisis statistik. Tujuan dari analisis Web adalah untuk
meningkatkan dan mempersonalisasi relevansi hasil pencarian dan untuk mengidentifikasi tren
yang mungkin bernilai bagi berbagai bisnis dan organisasi. Kami menguraikan tujuan ini
selanjutnya.
 Menemukan informasi yang relevan. Orang biasanya mencari informasi spesifik di Web
dengan memasukkan kata kunci di mesin pencari atau menjelajahi portal informasi dan
menggunakan layanan. Layanan pencarian sangat dibatasi oleh masalah relevansi pencarian
karena mesin pencari harus memetakan dan memperkirakan kebutuhan informasi jutaan
pengguna sebagai tugas apriori. Presisi rendah terjadi karena hasil yang tidak relevan bagi
pengguna. Dalam kasus Web, ingatan yang tinggi tidak mungkin ditentukan karena
ketidakmampuan untuk mengindeks semua halaman di Web. Juga, mengukur ingatan tidak
masuk akal karena pengguna hanya memperhatikan beberapa dokumen teratas.
 Personalisasi informasi. Orang yang berbeda memiliki konten dan preferensi presentasi
yang berbeda. Berbagai alat penyesuaian yang digunakan dalam aplikasi dan layanan
berbasis Web digunakan untuk adaptasi dan personalisasi layanan. Web telah menjadi
lanskap yang kaya di mana orang meninggalkan jejak saat mereka menavigasi, mengklik,
menyukai, berkomentar, dan membeli barang di ruang virtual ini.
 Menemukan informasi nilai sosial. Dengan lebih dari 1 miliar unduhan aplikasi Facebook
di berbagai perangkat Android, dapat dibayangkan betapa populernya berbagai jejaring
sosial belakangan ini. Orang membangun apa yang disebut modal sosial di dunia maya
seperti Twitter dan Facebook. Modal sosial mengacu pada fitur organisasi sosial, seperti
jaringan, norma, dan kepercayaan sosial, yang memfasilitasi koordinasi dan kerjasama
untuk keuntungan bersama. Ilmuwan sosial sedang mempelajari modal sosial dan
bagaimana memanfaatkan sumber daya yang kaya ini untuk memberi manfaat bagi
masyarakat dengan berbagai cara.
Analisis web dapat diklasifikasikan lebih lanjut ke dalam tiga kategori: Analisis struktur web,
yang menemukan pengetahuan dari hyperlink yang mewakili struktur Web; Analisis konten web,
yang berhubungan dengan penggalian informasi/pengetahuan yang berguna dari konten halaman
Web; dan analisis penggunaan Web, yang menggali pola akses pengguna dari log penggunaan
yang merekam aktivitas setiap pengguna.
27.7.2 Analisis struktur web
World Wide Web adalah kumpulan informasi yang sangat besar, tetapi menemukan sumber daya
yang berkualitas tinggi dan relevan dengan kebutuhan pengguna sangat sulit. Halaman web yang
diambil secara keseluruhan hampir tidak memiliki struktur pemersatu, dengan variabilitas dalam
gaya penulisan dan konten; variabilitas ini membuat sulit untuk secara tepat menemukan informasi
yang dibutuhkan. Mesin pencari web merayapi Web dan membuat indeks ke Web untuk tujuan
pencarian. Ketika seorang pengguna menentukan kebutuhannya akan informasi dengan
menyediakan kata kunci, mesin pencari Web ini menanyakan repositori indeks mereka dan
menghasilkan tautan atau URL dengan konten yang disingkat sebagai hasil pencarian. Masalah
muncul ketika hanya beberapa hasil yang paling relevan yang dikembalikan ke pengguna. Diskusi
kami tentang Query dan peringkat berdasarkan relevansi dalam sistem IR di berlaku untuk mesin
pencari Web.
Halaman web, tidak seperti kumpulan teks standar, berisi koneksi ke halaman Web atau dokumen
lain, memungkinkan pengguna untuk menelusuri dari halaman ke halaman. Hyperlink memiliki dua
komponen: halaman tujuan dan teks jangkar yang menjelaskan tautan. Seseorang yang menautkan
ke halaman Web lain dari halaman Web-nya dianggap memiliki hubungan dengan halaman Web
tersebut. Mesin pencari web bertujuan untuk menyaring hasil sesuai dengan relevansi dan
otoritasnya. Ada banyak hyperlink yang berlebihan, seperti link ke homepage pada setiap halaman
Web dari situs Web. Hub adalah halaman Web atau situs Web yang menautkan ke kumpulan situs
terkemuka tentang topik umum. Otoritas yang baik adalah halaman yang ditunjuk oleh banyak hub
yang baik, sedangkan hub yang baik adalah halaman yang menunjuk ke banyak otoritas yang baik.
27.7.3 Menganalisis Struktur Tautan Halaman Web

Tujuan dari analisis struktur Web adalah untuk menghasilkan representasi struktural tentang
situs Web dan halaman Web. Analisis struktur web berfokus pada struktur dalam dokumen dan
berhubungan dengan struktur tautan menggunakan hyperlink di tingkat antar dokumen. Struktur
dan isi halaman Web sering digabungkan untuk pencarian informasi oleh mesin pencari Web.
Mengingat kumpulan dokumen Web yang saling berhubungan, fakta menarik dan informatif yang
menggambarkan konektivitas mereka di Subset web dapat ditemukan.
Algoritma Peringkat PageRank, Seperti dibahas sebelumnya, algoritma peringkat digunakan
untuk mengurutkan hasil pencarian berdasarkan relevansi dan otoritas. Google menggunakan
algoritma PageRank yang terkenal,28 yang didasarkan pada “kepentingan” setiap halaman. Setiap
halaman Web memiliki sejumlah tautan maju dan tautan balik. Sangat sulit untuk menentukan
semua backlink dari sebuah halaman Web, sedangkan untuk menentukan forward link-nya relatif
mudah. Menurut algoritma PageRank, halaman yang sangat terkait lebih penting daripada halaman
dengan lebih sedikit link. Namun, tidak semua backlink itu penting. PageRank adalah upaya untuk
melihat seberapa baik perkiraan “pentingnya” suatu halaman dapat diperoleh dari struktur tautan.
Perhitungan peringkat halaman mengikuti pendekatan berulang. PageRank dari halaman Web
dihitung sebagai jumlah dari PageRank dari semua backlink-nya.
28 The PageRank algorithm was proposed by Lawrence Page (1998) and Sergey Brin, founders of Google. For more information, see
http://en.wikipedia.org/wiki/PageRank
PageRank memperlakukan Web seperti model Markov. PageRank adalah ukuran kepentingan
Query-independen dari halaman/simpul. Sebagai contoh, misalkan P(X) adalah PageRank dari
setiap halaman X dan C(X) adalah jumlah link keluar dari halaman X, dan misalkan d adalah faktor
redaman dalam rentang 0 < d < 1. Biasanya d diset ke 0,85. Maka PageRank untuk halaman A dapat
dihitung sebagai:
Di sini T1, T2, … , Tn adalah halaman yang mengarah ke Halaman A (yaitu, kutipan ke halaman A).
PageRank membentuk distribusi probabilitas melalui halaman Web, jadi jumlah dari semua
PageRank halaman Web adalah satu
Algoritma Peringkat HITS. Algoritme HITS yang diusulkan oleh Jon Kleinberg adalah jenis lain
dari algoritme peringkat yang mengeksploitasi struktur tautan Web. Algoritme menganggap bahwa
hub yang baik adalah dokumen yang menunjuk ke banyak hub, dan otoritas yang baik adalah
dokumen yang ditunjuk oleh banyak otoritas lainnya. Algoritme berisi dua langkah utama:
komponen pengambilan sampel dan komponen propagasi bobot. Komponen pengambilan sampel
membuat kumpulan halaman S yang terfokus dengan properti berikut:
1. S relatif kecil.
2. S kaya akan halaman yang relevan.
3. S berisi sebagian besar (atau mayoritas) otoritas terkuat.
Komponen bobot secara rekursif menghitung nilai hub dan otoritas untuk masing-masing dokumen
sebagai berikut:
1. Inisialisasi nilai hub dan otoritas untuk semua halaman di S dengan menyetelnya ke 1.
2. Sementara (nilai hub dan otoritas tidak konvergen):
a. untuk setiap halaman di S, hitung nilai otoritas = Jumlah nilai hub semua halaman yang
menunjuk ke halaman saat ini.
b. Untuk setiap halaman di S, hitung nilai hub = Jumlah nilai otoritas semu halaman yang
ditunjuk oleh halaman saat ini.
c. Menormalkan nilai hub dan otoritas sedemikian rupa sehingga jumlah semua nilai hub di S
sama dengan 1 dan jumlah semua nilai otoritas di S sama dengan 1.
27.7.4 Analisi konten web

Seperti yang disebutkan sebelumnya, analisis konten Web mengacu pada proses menemukan
informasi yang berguna dari konten/data/dokumen Web. Data konten Web terdiri dari data tidak
terstruktur seperti teks bebas dari dokumen yang disimpan secara elektronik, data semi
terstruktur yang biasanya ditemukan sebagai dokumen HTML dengan data gambar yang
disematkan, dan data yang lebih terstruktur seperti data tabular dan halaman dalam HTML, XML,
atau bahasa markup lainnya yang dihasilkan sebagai keluaran dari database. Secara lebih umum,
istilah
Konten web mengacu pada data nyata apa pun di halaman Web yang ditujukan untuk pengguna
yang mengakses halaman itu. kita akan membahas beberapa tugas analisis konten Web awal dan
kemudian melihat tugas analisis tradisional klasifikasi dan pengelompokan halaman Web
Ekstraksi Data Terstruktur. Data terstruktur di Web seringkali sangat penting karena mewakili
informasi penting, seperti tabel terstruktur yang menunjukkan jadwal penerbangan maskapai
antara dua kota. Salah satunya termasuk menulis pembungkus, atau program yang mencari
karakteristik struktural berbeda dari informasi pada halaman dan mengekstrak konten yang tepat.
Pendekatan lain adalah menulis program ekstraksi secara manual untuk setiap situs Web
berdasarkan pola format situs yang diamati, yang sangat padat karya dan memakan waktu.
Pendekatan ketiga adalah induksi pembungkus atau pembelajaran pembungkus, di mana pengguna
pertama-tama secara manual memberi label satu set halaman set pelatihan dan sistem
pembelajaran menghasilkan aturan — berdasarkan halaman pembelajaran — yang diterapkan
untuk mengekstrak item target dari halaman Web lain. Pendekatan keempat adalah pendekatan
otomatis, yang bertujuan untuk menemukan pola/tata bahasa dari halaman Web dan kemudian
menggunakan generasi pembungkus untuk menghasilkan pembungkus untuk mengekstrak data
secara otomatis.
Integrasi Informasi Web. Web sangat besar dan memiliki miliaran dokumen, yang ditulis oleh
banyak orang dan organisasi yang berbeda. Karena itu, halaman Web yang berisi informasi serupa
mungkin memiliki sintaks dan kata berbeda yang menjelaskan konsep yang sama. Dua pendekatan
populer untuk integrasi informasi Web adalah:
1. Integrasi antarmuka Query web, untuk mengaktifkan Query beberapa database Web yang
tidak terlihat di antarmuka eksternal dan disembunyikan di "Web dalam." Deep Web terdiri
dari halaman-halaman yang tidak ada sampai mereka dibuat secara dinamis sebagai hasil
pencarian database tertentu, yang menghasilkan beberapa informasi di halaman tersebut
(lihat Bab 11). Karena perayap mesin telusur tradisional tidak dapat menyelidiki dan
mengumpulkan informasi dari laman tersebut, Deep Web sampai sekarang disembunyikan
dari perayap.
2. Pencocokan skema, seperti mengintegrasikan direktori dan katalog untuk menghasilkan
skema global untuk aplikasi. Contohnya dengan mencocokkan dan menggabungkan menjadi
satu catatan data dari berbagai sumber dengan menghubungkan catatan kesehatan dari
berbagai sistem. Hasilnya akan menjadi catatan kesehatan global individu
Integrasi Informasi Berbasis Ontologi. Tugas ini melibatkan penggunaan ontologi untuk secara
efektif menggabungkan informasi dari berbagai sumber yang heterogen. Ontologi—model
representasi formal dengan konsep yang didefinisikan secara eksplisit dan hubungan bernama
yang menghubungkannya—digunakan untuk mengatasi masalah heterogenitas semantik dalam
sumber data. Kelas pendekatan yang berbeda digunakan untuk integrasi informasi menggunakan
ontologi
 Pendekatan ontologi tunggal menggunakan satu ontologi global yang menyediakan

kosakata bersama untuk spesifikasi semantik.
 Dalam pendekatan ontologi ganda, setiap sumber informasi dijelaskan oleh ontologinya
sendiri. Pada prinsipnya, “ontologi sumber” dapat merupakan kombinasi dari beberapa
ontologi lain, tetapi tidak dapat diasumsikan bahwa “ontologi sumber” yang berbeda
memiliki kosakata yang sama.
Membangun Hirarki Konsep. Salah satu cara umum untuk mengatur hasil pencarian adalah
melalui daftar peringkat linier dokumen. Tetapi untuk beberapa pengguna dan aplikasi, cara yang
lebih baik untuk menampilkan hasil adalah dengan membuat pengelompokan dokumen terkait
dalam hasil pencarian. Dokumen dalam hasil pencarian diatur ke dalam grup secara hierarkis.
Teknik terkait lainnya untuk mengatur dokumen adalah melalui klasifikasi dan pengelompokan.
Segmentasi Halaman Web dan Mendeteksi Kebisingan. Informasi dan teks di bagian yang
berlebihan ini harus dihilangkan sebagai noise sebelum mengklasifikasikan dokumen berdasarkan
isinya.
27.7.5 Pendekatan untuk Analisis Konten Web

Dua pendekatan utama untuk analisis konten Web adalah (1) berbasis agen (tampilan IR) dan (2)
berbasis database (tampilan DB).
Pendekatan berbasis agen melibatkan pengembangan sistem kecerdasan buatan yang canggih yang
dapat bertindak secara otonom atau semi-otonom atas nama pengguna tertentu, untuk menemukan
dan memproses informasi berbasis Web. Umumnya, sistem analisis Web berbasis agen dapat
ditempatkan ke dalam tiga kategori berikut:
 Agen Web Cerdas adalah agen perangkat lunak yang mencari informasi yang relevan
menggunakan karakteristik domain aplikasi tertentu untuk mengatur dan menafsirkan
informasi yang ditemukan. Misalnya, agen cerdas mengambil informasi produk dari
berbagai situs vendor hanya menggunakan informasi umum tentang domain produk.
 Penyaringan/kategorisasi informasi adalah teknik lain yang menggunakan Agen web
untuk mengkategorikan dokumen Web. Agen Web ini menggunakan metode dari pencarian
informasi, serta informasi semantik berdasarkan tautan di antara berbagai dokumen, untuk
mengatur dokumen ke dalam hierarki konsep.
 Agen Web yang Dipersonalisasi adalah jenis lain dari agen Web yang memanfaatkan
preferensi pribadi pengguna untuk mengatur hasil pencarian, atau untuk menemukan
informasi dan dokumen yang dapat bernilai bagi pengguna tertentu. Preferensi pengguna
dapat dipelajari dari pilihan pengguna sebelumnya, atau dari individu lain yang dianggap
memiliki preferensi serupa dengan pengguna.
Pendekatan berdatabasebase bertujuan untuk menyimpulkan struktur situs Web atau untuk
mengubah situs Web untuk mengaturnya sebagai database sehingga manajemen informasi yang
lebih baik dan query di Web menjadi mungkin. Pendekatan analisis konten Web ini terutama
mencoba untuk memodelkan data di Web dan mengintegrasikannya sehingga Query yang lebih
canggih daripada pencarian berbasis kata kunci dapat dilakukan. Ini dapat dicapai dengan
menemukan skema dokumen Web atau membangun gudang dokumen Web, basis pengetahuan
Web, atau database virtual. Data di OEM dilihat sebagai grafik, dengan objek sebagai simpul dan
label di tepinya. Setiap objek diidentifikasi oleh pengidentifikasi objek dan nilai yang bersifat
atomik—seperti integer, string, gambar GIF, atau dokumen HTML—atau kompleks dalam bentuk
kumpulan referensi objek.
Fokus utama dari pendekatan berbasis database adalah dengan penggunaan database bertingkat
dan sistem Query Web. Pada tingkat yang lebih tinggi, metadata atau generalisasi diekstraksi dari
tingkat yang lebih rendah dan diatur dalam kumpulan terstruktur seperti database relasional atau
berorientasi objek. Dalam sistem Query Web, informasi tentang konten dan struktur dokumen Web
diekstraksi dan diatur menggunakan teknik mirip database. Bahasa Query yang mirip dengan SQL
kemudian dapat digunakan untuk mencari dan meminta dokumen Web.
27.7.6 Analisis Penggunaan Web
Analisis penggunaan web adalah penerapan teknik analisis data untuk menemukan pola
penggunaan dari data Web, untuk memahami dan melayani kebutuhan aplikasi berbasis Web
dengan lebih baik. Kegiatan ini tidak secara langsung berkontribusi pada pencarian informasi;
tetapi ini penting untuk meningkatkan dan menyempurnakan pengalaman penelusuran pengguna.
Data penggunaan web menggambarkan pola penggunaan halaman Web, seperti alamat IP, referensi
halaman, dan tanggal dan waktu akses untuk pengguna, grup pengguna, atau aplikasi. Analisis
penggunaan web biasanya terdiri dari tiga fase utama: pra-pemrosesan, penemuan pola, dan
analisis pola.
1. Pra-pemrosesan. Preprocessing mengubah informasi yang dikumpulkan tentang statistik
penggunaan dan pola menjadi bentuk yang dapat digunakan oleh metode penemuan pola.
Misalnya, kami menggunakan istilah tampilan halaman untuk merujuk ke halaman yang
dilihat atau dikunjungi oleh pengguna. Ada beberapa jenis teknik preprocessing yang
tersedia
a. Prapemrosesan penggunaan menganalisis data yang dikumpulkan yang tersedia
tentang pola penggunaan pengguna, aplikasi, dan grup pengguna. Karena data ini
sering tidak lengkap, prosesnya sulit. Teknik pembersihan data diperlukan untuk
menghilangkan dampak item yang tidak relevan dalam hasil analisis.
b. Prapemrosesan konten adalah proses mengubah teks, gambar, skrip, dan konten
lainnya ke dalam bentuk yang dapat digunakan oleh analisis penggunaan. Seringkali,
proses ini terdiri dari melakukan analisis konten seperti klasifikasi atau
pengelompokan. Teknik pengelompokan atau klasifikasi dapat mengelompokkan
informasi penggunaan untuk jenis halaman Web yang serupa, sehingga pola
penggunaan dapat ditemukan untuk kelas halaman Web tertentu yang menjelaskan
topik tertentu.
c. Pra-pemrosesan struktur dapat dilakukan dengan mem-parsing dan memformat
ulang informasi tentang hyperlink dan struktur antara halaman yang dilihat. Satu
kesulitan adalah bahwa struktur situs mungkin dinamis dan mungkin harus
dibangun untuk setiap sesi server
2. Penemuan pola. Teknik yang digunakan dalam penemuan pola didasarkan pada metode
dari bidang statistik, pembelajaran mesin, pengenalan pola, analisis data, penambangan
data, dan bidang serupa lainnya. Analisis web. Misalnya, dalam penemuan aturan asosiasi,
gagasan transaksi untuk analisis keranjang pasar menganggap item tidak berurutan. Oleh
karena itu, penemuan pola melibatkan urutan penambangan tampilan halaman. Secara
umum, menggunakan data penggunaan Web, jenis aktivitas penambangan data berikut
dapat dilakukan untuk penemuan pola:
a. Analisis statistik. Teknik statistik adalah metode yang paling umum untuk
mengekstrak pengetahuan tentang pengunjung ke situs Web. Dengan menganalisis
log sesi, dimungkinkan untuk menerapkan ukuran statistik seperti rata-rata,
median, dan jumlah frekuensi ke parameter seperti halaman yang dilihat, waktu
tampilan per halaman, panjang jalur navigasi antar halaman, dan parameter lain
yang relevan dengan analisis penggunaan Web
b. Aturan asosiasi. Dalam konteks analisis penggunaan Web, aturan asosiasi mengacu
pada kumpulan halaman yang diakses bersama dengan nilai dukungan yang
melebihi beberapa ambang batas yang ditentukan. Halaman-halaman ini mungkin
tidak terhubung langsung satu sama lain melalui hyperlink. Misalnya, penemuan
aturan asosiasi dapat mengungkapkan korelasi antara pengguna yang mengunjungi
halaman yang berisi produk elektronik dengan mereka yang mengunjungi halaman
tentang peralatan olahraga
c. Kekelompokan. Dalam domain penggunaan Web, ada dua jenis cluster yang
menarik untuk ditemukan: cluster penggunaan dan cluster halaman.
Pengelompokan pengguna cenderung membentuk kelompok pengguna yang
menunjukkan pola penelusuran serupa. Pengetahuan tersebut sangat berguna
untuk menyimpulkan demografi pengguna untuk melakukan segmentasi pasar
dalam aplikasi e-commerce atau menyediakan konten Web yang dipersonalisasi
kepada pengguna. Pengelompokan halaman didasarkan pada konten halaman, dan
halaman dengan konten serupa dikelompokkan bersama
d. Klasifikasi. Dalam domain Web, salah satu tujuannya adalah untuk
mengembangkan profil pengguna yang termasuk dalam kelas atau kategori tertentu.
Ini membutuhkan ekstraksi dan pemilihan fitur yang paling menggambarkan
properti dari kelas atau kategori pengguna tertentu. Misalnya, pola menarik yang
mungkin ditemukan adalah: 60% pengguna yang melakukan pemesanan online di /
Produk/Buku berada dalam kelompok usia 18–25 tahun dan tinggal di apartemen
sewaan.
e. Pola berurutan. Jenis pola ini mengidentifikasi urutan akses Web, yang dapat
digunakan untuk memprediksi rangkaian halaman Web berikutnya yang akan
diakses oleh kelas pengguna tertentu. Pola-pola ini dapat digunakan oleh pemasar
untuk menghasilkan iklan bertarget di halaman Web. Misalnya, setelah membeli
komputer, printer yang sering dibeli
f. Pemodelan ketergantungan. Pemodelan dependensi bertujuan untuk menentukan
dan memodelkan dependensi yang signifikan di antara berbagai variabel dalam
domain Web. Misalnya, seseorang mungkin tertarik untuk membangun model yang
mewakili berbagai tahapan yang dialami pengunjung saat berbelanja di toko online;
model ini akan didasarkan pada tindakan pengguna (misalnya, menjadi pengunjung
biasa versus menjadi pembeli potensial yang serius).
3. Analisis pola. Langkah terakhir adalah menyaring aturan atau pola yang dianggap tidak
menarik berdasarkan pola yang ditemukan. Salah satu teknik umum untuk analisis pola
adalah dengan menggunakan bahasa query seperti Teknik lain melibatkan pemuatan data
penggunaan ke dalam gudang data dengan alat ETL dan melakukan operasi OLAP untuk
melihat data sepanjang beberapa dimensi. Adalah umum untuk menggunakan teknik
visualisasi, seperti pola grafik atau menetapkan warna ke nilai yang berbeda, untuk
menyoroti pola atau tren dalam data.
27.7.7 Aplikasi Praktis Analisis Web

Analisis Web. Tujuan dari analisis web adalah untuk memahami dan mengoptimalkan kinerja
penggunaan Web. Ini membutuhkan pengumpulan, analisis, dan pemantauan kinerja data
penggunaan Internet. Analisis Web di tempat mengukur kinerja situs Web dalam konteks
komersial. Data ini biasanya dibandingkan dengan indikator kinerja utama untuk mengukur
efektivitas atau kinerja situs Web secara keseluruhan, dan dapat digunakan untuk meningkatkan
situs Web atau meningkatkan strategi pemasaran.
Spam Web. Menjadi semakin penting bagi perusahaan dan individu untuk menampilkan situs
Web/halaman Web mereka di hasil pencarian teratas. Untuk mencapai ini, penting untuk
memahami algoritme peringkat mesin pencari dan menyajikan informasi di halaman seseorang
sedemikian rupa sehingga halaman tersebut berperingkat tinggi ketika kata kunci masing-masing
ditanyakan. Spamming web dengan demikian didefinisikan sebagai aktivitas yang disengaja untuk
mempromosikan halaman seseorang dengan memanipulasi hasil yang dikembalikan oleh mesin
pencari
Keamanan Web. Analisis web dapat digunakan untuk menemukan pola penggunaan situs Web
yang menarik. Jika ada kelemahan dalam situs Web yang telah dieksploitasi, itu dapat disimpulkan
menggunakan analisis Web, sehingga memungkinkan desain situs Web yang lebih kuat. Misalnya,
pintu belakang atau kebocoran informasi server Web dapat dideteksi dengan menggunakan teknik
analisis Web pada data log aplikasi Web yang tidak normal. Teknik analisis keamanan seperti
deteksi intrusi dan serangan penolakan layanan didasarkan pada analisis pola akses Web
Perayap Web. Ini adalah program yang mengunjungi halaman Web dan membuat salinan dari
semua halaman yang dikunjungi sehingga dapat diproses oleh mesin pencari untuk mengindeks
halaman yang diunduh dan menyediakan pencarian cepat. Penggunaan lain dari crawler adalah
untuk secara otomatis memeriksa dan memelihara situs Web. Misalnya, kode HTML dan tautan di
Situs web dapat diperiksa dan divalidasi oleh crawler.
27.8 Tren Pengambilan Informasi

Di bagian ini, kami meninjau beberapa konsep yang sedang dipertimbangkan dalam penelitian
terbaru
bekerja dalam pencarian informasi
27.8.1 Pencarian Segi

Pencarian faceted adalah teknik yang memungkinkan pencarian terintegrasi dan pengalaman
navigasi dengan memungkinkan pengguna untuk menjelajah dengan memfilter informasi yang
tersedia. Teknik pencarian ini sering digunakan dalam situs Web e-niaga dan aplikasi dan
memungkinkan pengguna untuk menavigasi ruang informasi multi-dimensi. Aspek umumnya
digunakan untuk menangani tiga atau lebih dimensi klasifikasi. Misalnya, halaman Web dapat
diklasifikasikan dalam berbagai cara: menurut konten ; dengan menggunakan; berdasarkan lokasi;
menurut bahasa yang digunakan; dan dengan cara atau segi lain. Oleh karena itu, objek dapat
diklasifikasikan dalam berbagai cara berdasarkan beberapa taksonomi.
Sebuah facet mendefinisikan properti atau karakteristik dari kelas objek. Misalnya, suatu koleksi
benda seni dapat diklasifikasikan menggunakan segi seniman , segi era , segi jenis , segi negara asal ,
segi media , segi koleksi, dan sebagainya.
Pencarian faceted menggunakan klasifikasi faceted, yang memungkinkan pengguna untuk
menavigasi informasi di sepanjang beberapa jalur yang sesuai dengan urutan faset yang berbeda.
Ini kontras dengan taksonomi tradisional, di mana hierarki kategori tetap dan tidak berubah.
Proyek Flamenco dari University of California–Berkeley adalah salah satu contoh sebelumnya dari
sistem pencarian segi.
27.8.2 Pencarian Sosial

Pandangan tradisional navigasi Web dan browsing mengasumsikan bahwa satu pengguna sedang
mencari informasi. Pandangan ini kontras dengan penelitian sebelumnya oleh ilmuwan
perpustakaan yang mempelajari kebiasaan pencarian informasi pengguna. Penelitian ini
menunjukkan bahwa individu tambahan mungkin menjadi sumber informasi yang berharga selama
pencarian informasi oleh satu pengguna. Baru-baru ini, penelitian menunjukkan bahwa sering ada
kerjasama pengguna langsung selama pencarian informasi berbasis Web. Kolaborasi aktif oleh
banyak pihak juga terjadi dalam kasus-kasus tertentu; di lain waktu, dan mungkin untuk sebagian
besar pencarian, pengguna sering berinteraksi dengan orang lain dari jarak jauh, tidak sinkron, dan
bahkan tanpa sadar dan implisit.
Pencarian informasi online yang diaktifkan secara sosial adalah fenomena baru yang difasilitasi
oleh teknologi Web baru-baru ini. Pencarian sosial kolaboratif melibatkan berbagai cara untuk
keterlibatan aktif dalam aktivitas terkait pencarian seperti pencarian lokasi bersama, kolaborasi
jarak jauh dalam tugas pencarian, penggunaan jejaring sosial untuk pencarian, penggunaan
jaringan keahlian, penggunaan penambangan data sosial, atau kecerdasan kolektif untuk
meningkatkan proses pencarian, dan penggunaan interaksi sosial untuk memfasilitasi pencarian
informasi dan pembuatan akal. Orang-orang dalam kelompok sosial dapat memberikan solusi,
petunjuk ke database atau orang lain, dan validasi dan legitimasi ide; selain itu, kelompok sosial
dapat berfungsi sebagai alat bantu ingatan dan dapat membantu merumuskan kembali masalah.
Partisipasi terbimbing adalah proses di mana orang-orang membangun pengetahuan bersama
dengan rekan-rekan di komunitas mereka. Pencarian informasi sebagian besar merupakan aktivitas
tersendiri di Web saat ini. Beberapa karya terbaru tentang pencarian kolaboratif melaporkan
beberapa temuan menarik dan potensi teknologi ini untuk akses informasi yang lebih baik.
27.8.2 Akses Informasi Percakapan

Akses informasi percakapan adalah interaksi pencarian informasi yang interaktif dan kolaboratif.
Para peserta terlibat dalam percakapan manusia-ke-manusia yang alami, dan agen cerdas
mendengarkan percakapan di latar belakang dan melakukan ekstraksi maksud untuk memberikan
informasi spesifik yang dibutuhkan peserta. Agen menggunakan interaksi langsung atau tidak
kentara dengan peserta melalui perangkat komunikasi seluler atau perangkat yang dapat
dikenakan. Interaksi ini memerlukan teknologi seperti identifikasi pembicara, pencarian kata kunci,
pengenalan ucapan otomatis, pemahaman semantik percakapan, dan analisis wacana sebagai
sarana untuk memberikan petunjuk yang lebih cepat dan relevan kepada pengguna untuk
percakapan. Melalui teknologi seperti yang baru saja disebutkan, akses informasi diubah dari
aktivitas soliter menjadi aktivitas partisipatif.
27.8.2 Pemodelan Topik Probabilistik
Pertumbuhan informasi yang belum pernah terjadi sebelumnya yang dihasilkan dengan munculnya
Web telah menyebabkan masalah tentang bagaimana mengatur data ke dalam kategori yang akan
memfasilitasi penyebaran informasi yang benar dan efisien. Misalnya, kantor berita internasional
seperti Reuters dan Associated Press mengumpulkan berita harian di seluruh dunia yang berkaitan
dengan bisnis, olahraga, politik, teknologi, dan sebagainya. Mesin pencari secara konvensional
mengatur kata-kata di dalam dan menghubungkan antar dokumen agar dapat diakses di Web.
Pengorganisasian informasi menurut topik dan tema dokumen memungkinkan pengguna untuk
menavigasi melalui sejumlah besar informasi berdasarkan topik yang mereka minati.
Untuk mengatasi masalah ini, kelas algoritma pembelajaran mesin yang dikenal sebagai model
topik probabilistik telah muncul dalam dekade terakhir.Algoritme ini dapat secara otomatis
mengatur koleksi besar dokumen ke dalam tema yang relevan. Misalnya, dokumen tentang Barack
Obama mungkin menyebutkan presiden lain, masalah lain yang terkait dengan pemerintah, atau
tema politik tertentu. Artikel tentang salah satu film Iron Man mungkin berisi referensi ke karakter
fiksi ilmiah lain dari serial Marvel atau umumnya bertema fiksi ilmiah. Struktur inheren dalam
dokumen ini dapat diekstraksi dengan pemodelan probabilistik dan metode estimasi. Sebagai
contoh lain, mari kita asumsikan bahwa setiap dokumen terdiri dari kumpulan topik yang berbeda
dalam proporsi yang berbeda . Juga, setiap topik terdiri dari kumpulan kata-kata
Dengan memperhatikan Gambar 27.6, kita dapat menebak bahwa dokumen D, yang menyebutkan
A.S.
Presiden Barack Obama dan George W. Bush, dapat termasuk dalam topik Presiden, Politik,
Demokrat, Republik, dan Pemerintah. Kami biasanya memilih jumlah topik yang ingin kami ekstrak
dari koleksi. Setiap topik memberi peringkat kata-kata secara berbeda sesuai dengan seberapa
sering sebuah kata diwakili di bawah topik tertentu dalam dokumen yang berbeda. Pada Gambar
27.6, batang yang mewakili proporsi topik semuanya harus berjumlah 1. Dokumen D terutama
milik Presiden topik, seperti yang ditunjukkan pada grafik batang. Gambar 27.6 menggambarkan
topik yang terkait dengan Presiden beserta daftar kata yang terkait dengan topik ini.
Pemodelan topik probabilistik memperkirakan distribusi topik menggunakan algoritma
pembelajaran yang mengasumsikan bahwa dokumen dapat dihasilkan sebagai campuran proporsi
topik. Estimasi proporsi topik ini dihitung menggunakan algoritme pengambilan sampel dan
maksimalisasi ekspektasi. Sebuah algoritma yang disebut alokasi Dirichlet laten digunakan untuk
menghasilkan model topik.
Model generatif secara acak menghasilkan data yang dapat diamati dengan beberapa parameter
tersembunyi. Parameter tersembunyi/tidak teramati ini adalah Dirichlet Distribusi sebelum kata
dan topik, distribusi topik, dan distribusi kata per topik. Metode inferensi Bayesian seperti Gibbs
sampling digunakan untuk menyesuaikan parameter tersembunyi berdasarkan data yang diamati
(kata-kata dalam dokumen).
27.8.3 Sistem Penjawab Pertanyaan

Penjawab pertanyaan telah menjadi topik hangat studi karena lonjakan teknologi asisten virtual.
Teknologi asisten virtual ini merupakan kemajuan dalam sistem respons suara interaktif, yang
terutama mengandalkan teknik pengenalan suara seperti pencarian kata kunci. Baru-baru ini, IBM
menciptakan sejarah dengan mengembangkan sistem QA yang disebut Watson, yang berpartisipasi
dalam Jeopardy! Tantang36 dan kalahkan pemain manusia di acara kuis TV populer. Menjawab
pertanyaan telah muncul sebagai disiplin teknik praktis yang terdiri dari teknik-teknik seperti
penguraian; pengakuan entitas bernama Teknik menjawab pertanyaan juga melibatkan rekayasa
pengetahuan dari korpora besar yang tidak terstruktur seperti kumpulan dokumen Web dan
database terstruktur yang menggabungkan pengetahuan dari berbagai domain. Kumpulan
dokumen ini umumnya cukup besar untuk memerlukan penerapan alat dan teknologi big data,
beberapa di antaranya telah kita bahas di Bab 25.
Jenis-Jenis Pertanyaan: Dalam sistem tanya jawab, penting untuk mengetahui kategori atau jenis
soal, karena strategi menjawab sangat bergantung pada jenis soal. Beberapa dari kategori ini tidak
selalu eksklusif satu sama lain dan karenanya memerlukan strategi penjawab hibrida. Secara
umum, pertanyaan dapat dikategorikan ke dalam jenis berikut:
 Pertanyaan Factoid: Jenis pertanyaan ini menunjukkan dengan tepat frasa yang tepat
dalam dokumen atau database yang menjawab pertanyaan dengan benar. Contoh jenis ini
mencakup pertanyaan seperti, “Siapa presiden Amerika Serikat?”, “Di kota mana Elvis
Presley lahir?”, 'Di mana Bandara Internasional Hartsfield Jackson berada?', dan "Pada jam
berapa hari ini matahari terbenam?”
 Daftar Pertanyaan: Jenis pertanyaan ini mencari daftar tanggapan factoid yang memenuhi
kriteria tertentu. Contohnya termasuk "Sebutkan tiga drama yang ditulis oleh Shakespeare",
"Sebutkan aktor pria yang memainkan peran James Bond dalam serial film James Bond
007", dan "Daftar tiga sayuran berwarna merah".
 Pertanyaan Definisi: Jenis pertanyaan ini menanyakan tentang definisi dan makna konsep,
dan untuk mengekstrak informasi penting dan sifat-sifat konsep. Contohnya termasuk "Apa
itu gas inert?", "Siapa Alexander Agung?", dan "Berapa tingkat LIBOR?"
 Pertanyaan Opini: Jenis pertanyaan ini mencari pandangan yang berbeda tentang subjek
pertanyaan itu. Misalnya, "Negara apa yang harus diizinkan untuk menguji senjata nuklir?"
dan “Apa sentimen di Arab Saudi tentang terorisme di Timur Tengah?”
Arsitektur. Sebagian besar arsitektur QA tercanggih umumnya terdiri dari jalur pipa yang terdiri
dari tahapan berikut:
Analisis Pertanyaan: Tahap ini melibatkan analisis pertanyaan dan mengubahnya menjadi
representasi struktural dari teks yang dianalisis untuk diproses oleh komponen hilir.
 Parsing semantik dangkal: Proses menetapkan markup tingkat permukaan ke

struktur kalimat melalui metode pembelajaran mesin yang diawasi. Secara umum,
frame secara otomatis dipakai untuk kalimat dengan mencoba mencocokkan elemen
“WHO did WHAT to WhoM, WHEN, WHERE, WHY, and HOW”
 Deteksi fokus: Dalam sebuah gambar, hal-hal tertentu menonjol sedangkan yang
lain
tetap di latar belakang. Kami mengatakan bahwa hal-hal yang menonjol adalah
fokus.
Demikian pula, di QA, pertanyaan memiliki kata-kata fokus yang berisi referensi ke
jawaban. Misalnya, dalam pertanyaan "Buku Shakespeare mana yang berisi
kebencian tentang kekasih?", kata-kata fokus "buku Shakespeare" dapat digunakan
dengan aturan "X yang mana", di mana X adalah frasa kata benda dalam sebuah
kalimat. Sistem QA menggunakan kata-kata fokus untuk memicu pencarian terarah
dan membantu dalam penyelesaian jawaban.
 Klasifikasi jenis jawaban: Fase ini membantu menentukan kategori jawaban di QA.
Dalam contoh sebelumnya, kata utama dari kata fokus, “buku”, adalah jenis jawaban
untuk pertanyaan ini. Beberapa teknik pembelajaran mesin diterapkan dalam QA
untuk menentukan jenis jawaban dari suatu pertanyaan.
 Pengenalan entitas bernama: Pengenalan entitas bernama berusaha untuk

mengklasifikasikan elemen dalam teks ke dalam kategori yang telah ditentukan
sebelumnya, seperti orang, tempat, hewan, negara, sungai, benua.
 Resolusi referensi bersama: Tugas resolusi referensi bersama adalah tentang
mengidentifikasi beberapa ekspresi dalam teks yang merujuk pada hal yang sama.
Minggu.
Pembuatan Query: Pada tahap ini, teks yang dianalisis digunakan untuk menghasilkan beberapa
Query menggunakan normalisasi Query dan teknik perluasan untuk satu atau lebih mesin telusur
yang mendasari di mana jawabannya dapat disematkan. Sebagai contoh, dalam pertanyaan, "Buku
Shakespeare yang mana tentang tragedi kekasih?", pertanyaan yang diperluas dapat berupa "Kisah
cinta Shakespeare", "novel Shakespeare", "penulis kisah cinta tragis Shakespeare", "penulis tragedi
genre kisah cinta Shakespeare" , dan seterusnya. Kata kunci yang diekstraksi, jenis jawaban,
informasi sinonim, dan nama entitas umumnya digunakan dalam kombinasi yang berbeda untuk
membuat Query yang berbeda
Pencarian: Pada tahap ini, Query dikirim ke mesin pencari yang berbeda dan bagian yang relevan
diambil. Mesin pencari tempat pencarian dilakukan bisa online, seperti Google atau bing, dan
offline, seperti Lucene atau Indri
Generasi Kandidat Jawaban: Ekstraktor entitas bernama digunakan pada bagian yang diambil
dan dicocokkan dengan jenis jawaban yang diinginkan untuk menghasilkan jawaban kandidat.
Bergantung pada perincian jawaban yang diinginkan, generasi kandidat dan algoritme pencocokan
tipe jawaban diterapkan . Dalam pencocokan pola permukaan, templat ekspresi reguler dipakai
dengan argumen dari pertanyaan dan dicocokkan dengan potongan leksikal dari bagian yang
diambil untuk mengekstrak jawaban. Misalnya, kata fokus disejajarkan dengan bagian yang berisi
jawaban potensial untuk mengekstrak kandidat jawaban. Dalam kalimat, “Romeo dan Juliet adalah
kisah cinta yang tragis oleh Shakespeare”, frasa “Romeo dan Juliet” dapat dengan mudah
menggantikan dalam pencocokan struktural, pertanyaan dan bagian yang diambil diuraikan dan
disejajarkan bersama menggunakan penyelarasan sintaksis dan semantik untuk menemukan
kandidat jawaban. Kalimat seperti, “Shakespeare menulis kisah cinta tragis Romeo dan Juliet” tidak
dapat dicocokkan dengan pertanyaan di atas, tetapi dengan penguraian dan penyelarasan yang
benar secara struktural akan cocok dengan pertanyaan tersebut.
Skor Jawaban: Pada tahap ini, skor kepercayaan untuk jawaban kandidat diperkirakan. Jawaban
serupa digabungkan; sumber pengetahuan dapat digunakan kembali untuk mengumpulkan bukti
pendukung untuk jawaban kandidat yang berbeda
27.9 Kesimpulan
Dalam bab ini, kita membahas area penting yang disebut pencarian informasi yang terkait erat
dengan database. Dengan munculnya Web, data tidak terstruktur dengan teks, gambar, audio, dan
video berkembang biak dengan kecepatan yang fenomenal. Meskipun sistem manajemen database
memiliki penanganan yang sangat baik pada data terstruktur, data tidak terstruktur yang berisi
berbagai tipe data disimpan terutama pada repositori informasi ad hoc di Web yang tersedia untuk
konsumsi terutama melalui sistem IR. Google, Yahoo, dan mesin telusur serupa adalah sistem IR
yang membuat kemajuan di bidang ini tersedia untuk pengguna akhir rata-rata dan memberikan
pengalaman penelusuran yang lebih kaya dan terus ditingkatkan kepada pengguna akhir.
Kami mulai di Bagian 27.1 dengan terlebih dahulu memperkenalkan bidang IR di bagian 27.1.1 dan
membandingkan teknologi IR dan database di Bagian 27.1.2. Model ini memungkinkan kita untuk
mengukur apakah dokumen relevan dengan permintaan pengguna dan memberikan heuristik
pengukuran kesamaan. Di Bagian 27.3 kami menyajikan berbagai jenis Query—selain Query
berbasis kata kunci, yang mendominasi, ada jenis lain, termasuk Boolean, frasa, kedekatan, bahasa
alami, dan lainnya yang dukungan eksplisitnya perlu disediakan oleh model pengambilan . Pra-
pemrosesan teks penting dalam
Sistem IR, dan kami membahas di Bagian 27.4 berbagai kegiatan seperti penghapusan stopword,
stemming, dan penggunaan tesaurus. Kami kemudian membahas konstruksi dan penggunaan
indeks terbalik di Bagian 27.5, yang merupakan inti dari sistem IR dan berkontribusi pada faktor
yang melibatkan efisiensi pencarian. Kami kemudian membahas di Bagian 27.6 berbagai metrik
evaluasi, seperti presisi recall dan F-score, untuk mengukur kebaikan hasil Query IR. Pengindeksan
open source dan mesin pencari Lucene dan ekstensi yang disebut Solr telah dibahas. Kami
menyediakan di Bagian 27.7 pengenalan yang agak rinci untuk analisis Web yang berkaitan dengan
pencarian informasi. Kami membagi perlakuan ini ke dalam analisis konten, struktur, dan
penggunaan Web. Pencarian web telah dibahas, termasuk analisis struktur tautan Web, termasuk
pengenalan algoritma untuk menentukan peringkat hasil dari pencarian Web seperti PageRank dan
HITS. Akhirnya, kami secara singkat membahas tren saat ini, termasuk pencarian segi, pencarian
sosial, dan pencarian percakapan. Kami juga menyajikan pemodelan probabilistik topik dokumen
dan teknik populer yang disebut alokasi Dirichlet laten. Kami mengakhiri bab ini dengan diskusi
tentang sistem penjawab pertanyaan , yang menjadi sangat populer dan menggunakan alat seperti
Siri dari Apple dan Cortana dari Microsoft.
REFERENSI
Elmasri, Navathe 2016, Fundamentals of Database Systems Seventh Edition, Pearson

Samidi, Fadly, Yusuf, Adi, Afifah, Andra, Ario, Danar, Daniel, Dika, Edi, Fajar, Suwandi, Oji, Parno,
Ronal, Samuel, Shofi, Sutan 2021, Buku Referensi Kuliah Managemen Data Tahun 2021, Fakultas
Teknologi Informasi Universitas Budi Luhur, Jakarta
Christopher D. Manning ,Prabhakar Raghavan, Hinrich Schü tze 2008 An Introduction to
Information Retrieval

(Revisi) BAB 27 Introduction To Information Baihaqi Yogie Prasetyo 2111601957

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

(Revisi) BAB 27 Introduction To Information Baihaqi Yogie Prasetyo 2111601957

Diunggah oleh

Hak Cipta:

Format Tersedia

Bab 27

Introduction to Information Retrieval and

Baihaqi Yogie Prasetyo

Pengantar Pencarian Informasi dan Pencarian

27.1 Konsep Information Retrieval (IR)

sifat tidak terstruktur (biasanya teks) yang memenuhi kebutuhan informasi

27.1.2 Perbandingan Database and Sistem IR

Tabel 27.1 Perbandingan Database and Sistem

27.1.3 Sejarah Singkat IR

27.1.4 Mode Interaksi dalam Sistem IR

27.1.5 Pipa Umum IR

Dalam rumus yang diberikan di atas, kami menggunakan simbol-simbol berikut:

 Dj adalah vektor dokumen untuk dokumen j.

 TFij adalah frekuensi term normalisasi term i dalam dokumen Dj

27.3 Jenis-Jenis Query dalam Sistem IR

27.3.1 Query Kata Kunci

27.3.2 Query Boolean

27.3.3 Query Frasa

27.3.4 Query Kedekatan

27.3.5 Query Wildcard

27.3.6 Query Bahasa Alami

27.4 Prapemrosesan Teks

27.4.1 Penghapusan Stopword

27.4.3 Menggunakan Tesaurus

27.4.4 Langkah Pra-pemrosesan Lainnya: Digit, Tanda hubung, Tanda Baca,

27.4.5 Ekstraksi Informasi Ekstraksi informasi (IE)

27.5 Prapemrosesan Terbalik

27.5.1 Pengantar Lucene

27.6 Langkah-langkah Evaluasi Relevansi

27.6.1 Recall dan Presisi

 TP: positif benar

Tabel 27.2 peringkat pengambilan Presisi dan recall

27.6.3 Kurva Recall/Precision

27.7 Analisis dan Pencarian WEB

27.7.1 Analisis Web dan Hubungannya untuk Pengambilan Informasi

27.7.3 Menganalisis Struktur Tautan Halaman Web

27.7.4 Analisi konten web

 Pendekatan ontologi tunggal menggunakan satu ontologi global yang menyediakan

27.7.5 Pendekatan untuk Analisis Konten Web

27.7.7 Aplikasi Praktis Analisis Web

27.8 Tren Pengambilan Informasi

27.8.1 Pencarian Segi

27.8.2 Pencarian Sosial

27.8.2 Akses Informasi Percakapan

27.8.3 Sistem Penjawab Pertanyaan

 Parsing semantik dangkal: Proses menetapkan markup tingkat permukaan ke

 Pengenalan entitas bernama: Pengenalan entitas bernama berusaha untuk

Elmasri, Navathe 2016, Fundamentals of Database Systems Seventh Edition, Pearson

Anda mungkin juga menyukai