Pencarian informasi terutama berkaitan dengan data tidak terstruktur, dan teknik untuk
mengindeks, mencari, dan mengambil informasi dari kumpulan besar dokumen tidak terstruktur.
Dalam Bab 24, tentang teknologi NOSQL, kami mempertimbangkan sistem, seperti MongoDB, yang
cocok untuk menangani data berupa dokumen. Dalam bab ini,
kami akan memberikan pengantar Infromation Retrieval (IR). Ini adalah topik yang sangat luas,
jadi kami akan fokus pada persamaan dan perbedaan antara pencarian informasi dan teknologi
database, dan pada teknik pengindeksan yang membentuk dasar dari banyak sistem pencarian
informasi.
Bab ini disusun sebagai berikut. Dalam Bagian 27.1, kami memperkenalkan konsep pengambilan
informasi (IR) dan membahas bagaimana IR berbeda dari database tradisional. Bagian 27.2
dikhususkan untuk diskusi model pengambilan, yang membentuk dasar untuk pencarian IR. Bagian
27.3 mencakup berbagai jenis kueri dalam sistem IR. Bagian 27.4 membahas pra-pemrosesan teks,
dan Bagian 27.5 memberikan gambaran umum tentang pengindeksan IR, yang merupakan inti dari
setiap sistem IR. Dalam Bagian 27.6, kami menjelaskan berbagai metrik evaluasi untuk kinerja
sistem IR. Bagian 27.7 merinci analisis Web dan hubungannya dengan pengambilan informasi, dan
Bagian 27.8 secara singkat memperkenalkan tren terkini dalam IR. Bagian 27.9 merangkum bab ini.
Untuk gambaran terbatas tentang IR, kami menyarankan agar siswa membaca Bagian 27.1 hingga
27.6
Arti istilah pengambilan informasi bisa sangat luas. Hanya mendapatkan kartu Tanda
Penduduk keluar dari dompet Anda sehingga Anda dapat mengetikkan nomor kartu adalah bentuk
pengambilan informasi. Namun, sebagai bidang studi akademik, pengambilan informasi dapat
didefinisikan berikut:
Information Retrieval (IR) adalah menemukan bahan (biasanya dokumen) dari
Dalam disiplin ilmu komputer, database dan sistem IR terkait erat. Database berurusan dengan
pengambilan informasi terstruktur melalui pengambilan informasi yang terdefinisi dengan baik
dan bahasa formal untuk representasi dan manipulasi berdasarkan teoritis model data yang
didirikan. Algoritma yang efisien telah dikembangkan untuk operator yang memungkinkan
eksekusi cepat Query yang kompleks. Beberapa perbedaan utama antara database dan sistem IR
tercantum dalam Tabel 27.1.
permintaan pengguna dalam query IR mewakili upaya terbaik sistem IR dalam mengambil
informasi yang paling relevan dengan query itu sendiri. Sementara sistem database
mempertahankan metadata dalam jumlah besar dan memungkinkan penggunaannya dalam
pengoptimalan query, operasi dalam sistem IR bergantung pada nilai data itu sendiri dan frekuensi
kemunculannya. Analisis statistik yang kompleks terkadang dilakukan untuk menentukan relevansi
setiap dokumen atau bagian dari dokumen dengan permintaan pengguna.
Mekanisme
Pencarian
Jenis Query
27.2 Model Retrieval
Pada bagian ini, kami menjelaskan secara singkat model-model penting IR. Ini adalah tiga model
statistik utama—Boolean, ruang vektor, dan probabilistik—dan model semantik
27.2.1 Model Boolean
Dalam model ini, dokumen direpresentasikan sebagai satu set istilah. Pertanyaan dirumuskan
sebagai kombinasi istilah menggunakan operator teori himpunan logika Boolean standar seperti
AND, OR dan NOT. Pengambilan dan relevansi dianggap sebagai konsep biner dalam model ini,
sehingga elemen yang diambil adalah pengambilan “kecocokan yang tepat” dari dokumen yang
relevan. Semua dokumen yang diambil dianggap sama pentingnya—penyederhanaan utama yang
tidak mempertimbangkan frekuensi istilah dokumen atau kedekatannya dengan istilah lain
dibandingkan dengan istilah Query. Model pengambilan boolean tidak memiliki algoritma peringkat
yang canggih dan merupakan salah satu model pengambilan informasi paling awal dan paling
sederhana.
Model pengambilan boolean tidak memiliki algoritma peringkat yang canggih dan merupakan salah
satu model pengambilan informasi paling awal dan paling sederhana. Model ini memudahkan
untuk mengaitkan informasi metadata dan menulis Query yang cocok dengan konten dokumen
serta properti dokumen lainnya, seperti tanggal pembuatan, penulis, dan jenis dokumen
27.2.2 Model Ruang Vektor
Model ruang vektor menyediakan kerangka kerja di mana pembobotan istilah, peringkat dokumen
yang diambil, dan menentukan relevansi umpan balik dimungkinkan.
Menggunakan istilah individu sebagai dimensi, setiap dokumen diwakili oleh vektor nilai n-
dimensi. Nilai-nilai itu sendiri dapat berupa nilai Boolean untuk mewakili ada atau tidaknya istilah
dalam dokumen itu; bergantian, mereka mungkin merupakan nomor yang mewakili bobot atau
frekuensi dalam dokumen.
Proses pemilihan istilah penting ini dan propertinya sebagai daftar sparse dari sejumlah besar
istilah yang tersedia tidak bergantung pada spesifikasi model. Query juga ditentukan sebagai vektor
istilah , dan ini dibandingkan dengan vektor dokumen untuk penilaian kesamaan/relevansi. Ketika
sudut antara vektor berkurang, cosinus sudut mendekati satu, yang berarti bahwa kesamaan Query
dengan vektor dokumen meningkat. Istilah dibobot secara proporsional dengan jumlah
frekuensinya untuk mencerminkan pentingnya istilah dalam perhitungan ukuran relevansi.
Dalam model vektor, bobot term dokumen wij (untuk term i dalam dokumen j) direpresentasikan
berdasarkan beberapa variasi skema TF (term frequency) atau TF-IDF (term frequency–inverse
document frequency) (seperti yang akan kami jelaskan di bawah ini). ). TF-IDF adalah ukuran
bobot statistik yang digunakan untuk mengevaluasi pentingnya sebuah kata dokumen dalam
kumpulan dokumen. Rumus berikut biasanya digunakan:
Perhatikan bahwa jika istilah i muncul di semua dokumen, maka ni = N dan karenanya IDFi = log(1)
menjadi nol, meniadakan kepentingannya dan menciptakan situasi di mana pembagian dengan nol
dapat terjadi. Bobot term i dalam dokumen j, wij, dihitung berdasarkan Nilai TF-IDF dalam
beberapa teknik. Untuk mencegah pembagian dengan nol, biasanya ditambahkan a 1 ke penyebut
dalam rumus seperti rumus kosinus di atas. Terkadang, relevansi dokumen dengan Query
(rel(Dj,Q)) adalah diukur secara langsung sebagai jumlah nilai TF-IDF dari istilah dalam Query Q:
Faktor normalisasi (mirip dengan penyebut rumus kosinus) dimasukkan ke dalam rumus TF-IDF
itu sendiri, sehingga mengukur relevansi dokumen dengan Query dengan menghitung produk titik
dari Query dan vektor dokumen.
Algoritme Rocchio adalah algoritme umpan balik relevansi yang terkenal berdasarkan model ruang
vektor yang memodifikasi vektor Query awal dan bobotnya sebagai respons terhadap dokumen
relevan yang diidentifikasi pengguna. Ini memperluas vektor Query asli q ke vektor baru qe sebagai
berikut:
Di sini, Dr adalah singkatan dari document–relevant (Dr) dan Dnr adalah singkatan dari document–
nonrelevant (Dnr); istilah-istilah ini masing-masing mewakili kumpulan dokumen yang relevan dan
tidak relevan.
Istilah dari dokumen yang relevan dan tidak relevan ditambahkan ke vektor Query asli dengan
bobot positif dan negatif, masing-masing, untuk membuat vektor Query yang dimodifikasi. a, b, dan
g adalah parameter persamaan. Penjumlahan atas dr merupakan penjumlahan atas semua istilah
yang relevan dari dokumen dr. Demikian pula, penjumlahan atas dnr mewakili penjumlahan atas
semua istilah dokumen dnr yang tidak relevan. Nilai parameter ini menentukan bagaimana umpan
balik memengaruhi Query asli, dan ini dapat ditentukan setelah sejumlah percobaan
27.2.3 Model Probabilistik
Dalam kerangka probabilistik, sistem IR harus memutuskan apakah dokumen termasuk dalam
kumpulan yang relevan atau kumpulan yang tidak relevan untuk suatu Query. Untuk membuat
keputusan ini, diasumsikan bahwa himpunan relevan dan himpunan tidak relevan yang telah
ditentukan sebelumnya ada untuk Query, dan tugasnya adalah menghitung probabilitas bahwa
dokumen tersebut termasuk dalam kumpulan yang relevan dan membandingkannya dengan
probabilitas bahwa dokumen tersebut termasuk dalam kumpulan set yang tidak relevan.
Mengingat representasi dokumen D dari sebuah dokumen, memperkirakan relevansi R dan NR
yang tidak relevan dari dokumen tersebut melibatkan perhitungan probabilitas bersyarat P(R|D)
dan P(NR|D). Probabilitas bersyarat ini dapat dihitung menggunakan Aturan Bayes:
P(R|D) = P(D|R) × P(R)/P(D)
P(NR|D) = P(D|NR) × P(NR)/P(D)
Sebuah dokumen D diklasifikasikan sebagai relevan jika P(R|D) > P(NR|D). Membuang konstanta
P(D), ini setara dengan mengatakan bahwa suatu dokumen relevan jika:
P(D|R) × P(R) > P(D|NR) × P(NR)
Rasio kemungkinan P(D|R)/P(D|NR) digunakan sebagai skor untuk menentukan kemungkinan
dokumen dengan representasi D milik himpunan yang relevan.
Istilah independensi atau asumsi nave Bayes digunakan untuk mengestimasi P(D|R) dengan
menggunakan perhitungan P(ti|R) untuk aturan ti. Rasio kemungkinan P(D|R)/P(D|NR) dokumen
digunakan sebagai proxy untuk peringkat berdasarkan asumsi bahwa dokumen dengan peringkat
tinggi akan memiliki kemungkinan tinggi untuk menjadi bagian dari kumpulan yang relevan
algoritma peringkat probabilistik yang disebut BM25 (Best Match / Pencocokan Terbaik 25) cukup
populer. Skema pembobotan ini telah berkembang dari beberapa versi sistem Okapi14.
Berat Okapi untuk dokumen dj dan query q dihitung dengan rumus di bawah ini. Notasi tambahan
adalah sebagai berikut:
ti adalah istilah.
fij adalah jumlah frekuensi mentah dari istilah ti dalam dokumen dj
fiq adalah jumlah frekuensi mentah istilah ti dalam Query q.
N adalah jumlah total dokumen dalam koleksi.
dfi adalah jumlah dokumen yang mengandung istilah ti.
dlj adalah panjang dokumen (dalam byte) dari dj
avdl adalah rata-rata panjang dokumen koleksi
Skor relevansi Okapi dari dokumen dj untuk Query q diberikan oleh persamaan di bawah ini, di
mana k1 (antara 1,0–2,0), b (biasanya 0,75), dan k2 (antara 1–1.000) adalah parameter:
27.2.4 Model Semantik
Pendekatan semantik mencakup berbagai tingkat analisis, seperti analisis morfologis, sintaksis, dan
semantik, untuk mengambil dokumen secara lebih efektif. Dalam analisis morfologi, akar dan
imbuhan dianalisis untuk menentukan bagian-bagian ujaran (kata benda, kata kerja, kata sifat, dan
sebagainya) dari kata-kata tersebut. Setelah analisis morfologi, analisis sintaksis mengikuti untuk
mengurai dan menganalisis frasa lengkap dalam dokumen. Akhirnya, metode semantik harus
menyelesaikan ambiguitas kata dan/atau menghasilkan sinonim yang relevan berdasarkan
hubungan semantik antara tingkat entitas struktural dalam dokumen (kata, paragraf, halaman, atau
seluruh dokumen)
27.4.2 Stemming
Sebuah Stem didefinisikan sebagai kata yang diperoleh setelah pemangkasan akhiran dan awalan
dari kata asli. Misalnya, 'comput' adalah kata induk untuk computer, computing, computable, dan
computation. Sufiks dan prefiks ini sangat umum dalam bahasa Inggris untuk mendukung
pengertian verba, tenses, dan bentuk jamak.
Stemming mengurangi berbagai bentuk kata yang dibentuk oleh infleksi (karena bentuk jamak atau
tenses) dan derivasi menjadi batang umum.
Algoritma stemming dapat diterapkan untuk mereduksi kata apapun menjadi stemnya. Dalam
bahasa Inggris, algoritma stemming yang paling terkenal adalah algoritma stemming Martin Porter.
The Porter stemmer20 adalah versi sederhana dari teknik Lovin yang menggunakan set yang
dikurangi dari sekitar 60 aturan (dari 260 pola sufiks dalam teknik Lovin) dan mengaturnya
menjadi set; konflik dalam satu bagian aturan diselesaikan sebelum melanjutkan ke selanjutnya.
Menggunakan stemming untuk data pra-pemrosesan menghasilkan penurunan ukuran struktur
pengindeksan dan peningkatan penarikan, mungkin dengan mengorbankan presisi
WordNet adalah tesaurus yang dibuat secara manual yang mengelompokkan kata-kata ke dalam
kumpulan sinonim yang ketat yang disebut synsets. Synsets ini dibagi menjadi kategori kata benda,
kata kerja, kata sifat, dan kata keterangan. Dalam setiap kategori, synsets ini dihubungkan bersama
oleh hubungan yang sesuai seperti kelas/subclass atau hubungan "is-a" untuk kata benda. WordNet
didasarkan pada gagasan menggunakan kosakata terkontrol untuk pengindeksan, sehingga
menghilangkan redundansi. Ini juga berguna dalam memberikan bantuan kepada pengguna dengan
menemukan istilah untuk formulasi Query yang tepat
Pertimbangkan nilai presisi sampel dari dokumen yang relevan pada Tabel 27.2. Rata-rata presisi
(nilai Pavg) untuk contoh pada Tabel 27.2 adalah P(1) + P(2) + P(3) + P(7) + P(8) + P(10)/6 =
79,93% (hanya dokumen yang relevan dipertimbangkan dalam perhitungan ini). Banyak algoritma
yang baik cenderung memiliki presisi rata-rata top-k yang tinggi untuk nilai k yang kecil, dengan
nilai recall yang rendah.
27.6.4 Skor-F
F-score (F) adalah rata-rata harmonik dari nilai presisi (p) dan recall (r). Itu adalah
Presisi tinggi dicapai hampir selalu dengan mengorbankan penarikan dan sebaliknya. Ini adalah
masalah konteks aplikasi, apakah akan menyetel sistem untuk presisi tinggi atau penarikan tinggi.
F-score biasanya digunakan sebagai ukuran tunggal yang menggabungkan presisi dan recall untuk
membandingkan set hasil yang berbeda:
Salah satu sifat rata-rata harmonik adalah bahwa rata-rata harmonik dua bilangan cenderung lebih
dekat ke yang lebih kecil dari keduanya. Jadi F secara otomatis dibias ke arah yang lebih kecil dari
nilai presisi dan recall. Oleh karena itu, untuk F-score yang tinggi, presisi dan recall harus tinggi.
Penemuan hypertext, yang dibayangkan oleh Vannevar Bush pada tahun 1940-an dan pertama kali
direalisasikan dalam sistem kerja pada tahun 1970-an, secara signifikan mendahului pembentukan
World Wide Web (yang kita sebut saja sebagai Web), pada 1990-an. Penggunaan web telah
menunjukkan pertumbuhan yang luar biasa ke titik di mana sekarang mengklaim sebagian besar
umat manusia sebagai peserta, dengan mengandalkan desain server-klien yang sederhana dan
terbuka: (1) server berkomunikasi dengan klien melalui protokol (http atau hypertext protokol
transfer) yang ringan dan sederhana, secara asinkron membawa berbagai muatan (teks, gambar
dan – dari waktu ke waktu – media yang lebih kaya seperti file audio dan video) yang dikodekan
dalam bahasa markup sederhana yang disebut HTML (untuk bahasa markup hypertext); (2) klien –
umumnya browser, aplikasi dalam lingkungan pengguna grafis – dapat mengabaikan apa yang tidak
dipahaminya. Masing-masing fitur yang tampaknya tidak berbahaya ini telah memberikan
kontribusi besar terhadap pertumbuhan Web, jadi ada baiknya untuk memeriksanya lebih lanjut.
Sumber lain dari dokumen Web yang dapat dicari adalah perpustakaan digital. Koleksi ini dapat
mencakup katalog perpustakaan universitas, katalog dari sekelompok universitas yang
berpartisipasi, seperti di Sistem Universitas Negara Bagian Florida, atau kompilasi dari beberapa
sumber daya eksternal di World Wide Web, seperti Google Cendekia atau indeks IEEE/ACM. Mirip
dengan perpustakaan nyata, koleksi digital ini dipelihara melalui katalog dan diatur dalam kategori
untuk referensi online.
Menemukan informasi yang relevan. Orang biasanya mencari informasi spesifik di Web
dengan memasukkan kata kunci di mesin pencari atau menjelajahi portal informasi dan
menggunakan layanan. Layanan pencarian sangat dibatasi oleh masalah relevansi pencarian
karena mesin pencari harus memetakan dan memperkirakan kebutuhan informasi jutaan
pengguna sebagai tugas apriori. Presisi rendah terjadi karena hasil yang tidak relevan bagi
pengguna. Dalam kasus Web, ingatan yang tinggi tidak mungkin ditentukan karena
ketidakmampuan untuk mengindeks semua halaman di Web. Juga, mengukur ingatan tidak
masuk akal karena pengguna hanya memperhatikan beberapa dokumen teratas.
Personalisasi informasi. Orang yang berbeda memiliki konten dan preferensi presentasi
yang berbeda. Berbagai alat penyesuaian yang digunakan dalam aplikasi dan layanan
berbasis Web digunakan untuk adaptasi dan personalisasi layanan. Web telah menjadi
lanskap yang kaya di mana orang meninggalkan jejak saat mereka menavigasi, mengklik,
menyukai, berkomentar, dan membeli barang di ruang virtual ini.
Menemukan informasi nilai sosial. Dengan lebih dari 1 miliar unduhan aplikasi Facebook
di berbagai perangkat Android, dapat dibayangkan betapa populernya berbagai jejaring
sosial belakangan ini. Orang membangun apa yang disebut modal sosial di dunia maya
seperti Twitter dan Facebook. Modal sosial mengacu pada fitur organisasi sosial, seperti
jaringan, norma, dan kepercayaan sosial, yang memfasilitasi koordinasi dan kerjasama
untuk keuntungan bersama. Ilmuwan sosial sedang mempelajari modal sosial dan
bagaimana memanfaatkan sumber daya yang kaya ini untuk memberi manfaat bagi
masyarakat dengan berbagai cara.
Analisis web dapat diklasifikasikan lebih lanjut ke dalam tiga kategori: Analisis struktur web,
yang menemukan pengetahuan dari hyperlink yang mewakili struktur Web; Analisis konten web,
yang berhubungan dengan penggalian informasi/pengetahuan yang berguna dari konten halaman
Web; dan analisis penggunaan Web, yang menggali pola akses pengguna dari log penggunaan
yang merekam aktivitas setiap pengguna.
27.7.2 Analisis struktur web
World Wide Web adalah kumpulan informasi yang sangat besar, tetapi menemukan sumber daya
yang berkualitas tinggi dan relevan dengan kebutuhan pengguna sangat sulit. Halaman web yang
diambil secara keseluruhan hampir tidak memiliki struktur pemersatu, dengan variabilitas dalam
gaya penulisan dan konten; variabilitas ini membuat sulit untuk secara tepat menemukan informasi
yang dibutuhkan. Mesin pencari web merayapi Web dan membuat indeks ke Web untuk tujuan
pencarian. Ketika seorang pengguna menentukan kebutuhannya akan informasi dengan
menyediakan kata kunci, mesin pencari Web ini menanyakan repositori indeks mereka dan
menghasilkan tautan atau URL dengan konten yang disingkat sebagai hasil pencarian. Masalah
muncul ketika hanya beberapa hasil yang paling relevan yang dikembalikan ke pengguna. Diskusi
kami tentang Query dan peringkat berdasarkan relevansi dalam sistem IR di berlaku untuk mesin
pencari Web.
Halaman web, tidak seperti kumpulan teks standar, berisi koneksi ke halaman Web atau dokumen
lain, memungkinkan pengguna untuk menelusuri dari halaman ke halaman. Hyperlink memiliki dua
komponen: halaman tujuan dan teks jangkar yang menjelaskan tautan. Seseorang yang menautkan
ke halaman Web lain dari halaman Web-nya dianggap memiliki hubungan dengan halaman Web
tersebut. Mesin pencari web bertujuan untuk menyaring hasil sesuai dengan relevansi dan
otoritasnya. Ada banyak hyperlink yang berlebihan, seperti link ke homepage pada setiap halaman
Web dari situs Web. Hub adalah halaman Web atau situs Web yang menautkan ke kumpulan situs
terkemuka tentang topik umum. Otoritas yang baik adalah halaman yang ditunjuk oleh banyak hub
yang baik, sedangkan hub yang baik adalah halaman yang menunjuk ke banyak otoritas yang baik.
Di sini T1, T2, … , Tn adalah halaman yang mengarah ke Halaman A (yaitu, kutipan ke halaman A).
PageRank membentuk distribusi probabilitas melalui halaman Web, jadi jumlah dari semua
PageRank halaman Web adalah satu
Algoritma Peringkat HITS. Algoritme HITS yang diusulkan oleh Jon Kleinberg adalah jenis lain
dari algoritme peringkat yang mengeksploitasi struktur tautan Web. Algoritme menganggap bahwa
hub yang baik adalah dokumen yang menunjuk ke banyak hub, dan otoritas yang baik adalah
dokumen yang ditunjuk oleh banyak otoritas lainnya. Algoritme berisi dua langkah utama:
komponen pengambilan sampel dan komponen propagasi bobot. Komponen pengambilan sampel
membuat kumpulan halaman S yang terfokus dengan properti berikut:
1. S relatif kecil.
2. S kaya akan halaman yang relevan.
3. S berisi sebagian besar (atau mayoritas) otoritas terkuat.
Komponen bobot secara rekursif menghitung nilai hub dan otoritas untuk masing-masing dokumen
sebagai berikut:
1. Inisialisasi nilai hub dan otoritas untuk semua halaman di S dengan menyetelnya ke 1.
2. Sementara (nilai hub dan otoritas tidak konvergen):
a. untuk setiap halaman di S, hitung nilai otoritas = Jumlah nilai hub semua halaman yang
menunjuk ke halaman saat ini.
b. Untuk setiap halaman di S, hitung nilai hub = Jumlah nilai otoritas semu halaman yang
ditunjuk oleh halaman saat ini.
c. Menormalkan nilai hub dan otoritas sedemikian rupa sehingga jumlah semua nilai hub di S
sama dengan 1 dan jumlah semua nilai otoritas di S sama dengan 1.
Agen Web Cerdas adalah agen perangkat lunak yang mencari informasi yang relevan
menggunakan karakteristik domain aplikasi tertentu untuk mengatur dan menafsirkan
informasi yang ditemukan. Misalnya, agen cerdas mengambil informasi produk dari
berbagai situs vendor hanya menggunakan informasi umum tentang domain produk.
Penyaringan/kategorisasi informasi adalah teknik lain yang menggunakan Agen web
untuk mengkategorikan dokumen Web. Agen Web ini menggunakan metode dari pencarian
informasi, serta informasi semantik berdasarkan tautan di antara berbagai dokumen, untuk
mengatur dokumen ke dalam hierarki konsep.
Agen Web yang Dipersonalisasi adalah jenis lain dari agen Web yang memanfaatkan
preferensi pribadi pengguna untuk mengatur hasil pencarian, atau untuk menemukan
informasi dan dokumen yang dapat bernilai bagi pengguna tertentu. Preferensi pengguna
dapat dipelajari dari pilihan pengguna sebelumnya, atau dari individu lain yang dianggap
memiliki preferensi serupa dengan pengguna.
Pendekatan berdatabasebase bertujuan untuk menyimpulkan struktur situs Web atau untuk
mengubah situs Web untuk mengaturnya sebagai database sehingga manajemen informasi yang
lebih baik dan query di Web menjadi mungkin. Pendekatan analisis konten Web ini terutama
mencoba untuk memodelkan data di Web dan mengintegrasikannya sehingga Query yang lebih
canggih daripada pencarian berbasis kata kunci dapat dilakukan. Ini dapat dicapai dengan
menemukan skema dokumen Web atau membangun gudang dokumen Web, basis pengetahuan
Web, atau database virtual. Data di OEM dilihat sebagai grafik, dengan objek sebagai simpul dan
label di tepinya. Setiap objek diidentifikasi oleh pengidentifikasi objek dan nilai yang bersifat
atomik—seperti integer, string, gambar GIF, atau dokumen HTML—atau kompleks dalam bentuk
kumpulan referensi objek.
Fokus utama dari pendekatan berbasis database adalah dengan penggunaan database bertingkat
dan sistem Query Web. Pada tingkat yang lebih tinggi, metadata atau generalisasi diekstraksi dari
tingkat yang lebih rendah dan diatur dalam kumpulan terstruktur seperti database relasional atau
berorientasi objek. Dalam sistem Query Web, informasi tentang konten dan struktur dokumen Web
diekstraksi dan diatur menggunakan teknik mirip database. Bahasa Query yang mirip dengan SQL
kemudian dapat digunakan untuk mencari dan meminta dokumen Web.
27.7.6 Analisis Penggunaan Web
Analisis penggunaan web adalah penerapan teknik analisis data untuk menemukan pola
penggunaan dari data Web, untuk memahami dan melayani kebutuhan aplikasi berbasis Web
dengan lebih baik. Kegiatan ini tidak secara langsung berkontribusi pada pencarian informasi;
tetapi ini penting untuk meningkatkan dan menyempurnakan pengalaman penelusuran pengguna.
Data penggunaan web menggambarkan pola penggunaan halaman Web, seperti alamat IP, referensi
halaman, dan tanggal dan waktu akses untuk pengguna, grup pengguna, atau aplikasi. Analisis
penggunaan web biasanya terdiri dari tiga fase utama: pra-pemrosesan, penemuan pola, dan
analisis pola.
1. Pra-pemrosesan. Preprocessing mengubah informasi yang dikumpulkan tentang statistik
penggunaan dan pola menjadi bentuk yang dapat digunakan oleh metode penemuan pola.
Misalnya, kami menggunakan istilah tampilan halaman untuk merujuk ke halaman yang
dilihat atau dikunjungi oleh pengguna. Ada beberapa jenis teknik preprocessing yang
tersedia
a. Prapemrosesan penggunaan menganalisis data yang dikumpulkan yang tersedia
tentang pola penggunaan pengguna, aplikasi, dan grup pengguna. Karena data ini
sering tidak lengkap, prosesnya sulit. Teknik pembersihan data diperlukan untuk
menghilangkan dampak item yang tidak relevan dalam hasil analisis.
b. Prapemrosesan konten adalah proses mengubah teks, gambar, skrip, dan konten
lainnya ke dalam bentuk yang dapat digunakan oleh analisis penggunaan. Seringkali,
proses ini terdiri dari melakukan analisis konten seperti klasifikasi atau
pengelompokan. Teknik pengelompokan atau klasifikasi dapat mengelompokkan
informasi penggunaan untuk jenis halaman Web yang serupa, sehingga pola
penggunaan dapat ditemukan untuk kelas halaman Web tertentu yang menjelaskan
topik tertentu.
c. Pra-pemrosesan struktur dapat dilakukan dengan mem-parsing dan memformat
ulang informasi tentang hyperlink dan struktur antara halaman yang dilihat. Satu
kesulitan adalah bahwa struktur situs mungkin dinamis dan mungkin harus
dibangun untuk setiap sesi server
2. Penemuan pola. Teknik yang digunakan dalam penemuan pola didasarkan pada metode
dari bidang statistik, pembelajaran mesin, pengenalan pola, analisis data, penambangan
data, dan bidang serupa lainnya. Analisis web. Misalnya, dalam penemuan aturan asosiasi,
gagasan transaksi untuk analisis keranjang pasar menganggap item tidak berurutan. Oleh
karena itu, penemuan pola melibatkan urutan penambangan tampilan halaman. Secara
umum, menggunakan data penggunaan Web, jenis aktivitas penambangan data berikut
dapat dilakukan untuk penemuan pola:
a. Analisis statistik. Teknik statistik adalah metode yang paling umum untuk
mengekstrak pengetahuan tentang pengunjung ke situs Web. Dengan menganalisis
log sesi, dimungkinkan untuk menerapkan ukuran statistik seperti rata-rata,
median, dan jumlah frekuensi ke parameter seperti halaman yang dilihat, waktu
tampilan per halaman, panjang jalur navigasi antar halaman, dan parameter lain
yang relevan dengan analisis penggunaan Web
b. Aturan asosiasi. Dalam konteks analisis penggunaan Web, aturan asosiasi mengacu
pada kumpulan halaman yang diakses bersama dengan nilai dukungan yang
melebihi beberapa ambang batas yang ditentukan. Halaman-halaman ini mungkin
tidak terhubung langsung satu sama lain melalui hyperlink. Misalnya, penemuan
aturan asosiasi dapat mengungkapkan korelasi antara pengguna yang mengunjungi
halaman yang berisi produk elektronik dengan mereka yang mengunjungi halaman
tentang peralatan olahraga
c. Kekelompokan. Dalam domain penggunaan Web, ada dua jenis cluster yang
menarik untuk ditemukan: cluster penggunaan dan cluster halaman.
Pengelompokan pengguna cenderung membentuk kelompok pengguna yang
menunjukkan pola penelusuran serupa. Pengetahuan tersebut sangat berguna
untuk menyimpulkan demografi pengguna untuk melakukan segmentasi pasar
dalam aplikasi e-commerce atau menyediakan konten Web yang dipersonalisasi
kepada pengguna. Pengelompokan halaman didasarkan pada konten halaman, dan
halaman dengan konten serupa dikelompokkan bersama
d. Klasifikasi. Dalam domain Web, salah satu tujuannya adalah untuk
mengembangkan profil pengguna yang termasuk dalam kelas atau kategori tertentu.
Ini membutuhkan ekstraksi dan pemilihan fitur yang paling menggambarkan
properti dari kelas atau kategori pengguna tertentu. Misalnya, pola menarik yang
mungkin ditemukan adalah: 60% pengguna yang melakukan pemesanan online di /
Produk/Buku berada dalam kelompok usia 18–25 tahun dan tinggal di apartemen
sewaan.
e. Pola berurutan. Jenis pola ini mengidentifikasi urutan akses Web, yang dapat
digunakan untuk memprediksi rangkaian halaman Web berikutnya yang akan
diakses oleh kelas pengguna tertentu. Pola-pola ini dapat digunakan oleh pemasar
untuk menghasilkan iklan bertarget di halaman Web. Misalnya, setelah membeli
komputer, printer yang sering dibeli
f. Pemodelan ketergantungan. Pemodelan dependensi bertujuan untuk menentukan
dan memodelkan dependensi yang signifikan di antara berbagai variabel dalam
domain Web. Misalnya, seseorang mungkin tertarik untuk membangun model yang
mewakili berbagai tahapan yang dialami pengunjung saat berbelanja di toko online;
model ini akan didasarkan pada tindakan pengguna (misalnya, menjadi pengunjung
biasa versus menjadi pembeli potensial yang serius).
3. Analisis pola. Langkah terakhir adalah menyaring aturan atau pola yang dianggap tidak
menarik berdasarkan pola yang ditemukan. Salah satu teknik umum untuk analisis pola
adalah dengan menggunakan bahasa query seperti Teknik lain melibatkan pemuatan data
penggunaan ke dalam gudang data dengan alat ETL dan melakukan operasi OLAP untuk
melihat data sepanjang beberapa dimensi. Adalah umum untuk menggunakan teknik
visualisasi, seperti pola grafik atau menetapkan warna ke nilai yang berbeda, untuk
menyoroti pola atau tren dalam data.
Dengan memperhatikan Gambar 27.6, kita dapat menebak bahwa dokumen D, yang menyebutkan
A.S.
Presiden Barack Obama dan George W. Bush, dapat termasuk dalam topik Presiden, Politik,
Demokrat, Republik, dan Pemerintah. Kami biasanya memilih jumlah topik yang ingin kami ekstrak
dari koleksi. Setiap topik memberi peringkat kata-kata secara berbeda sesuai dengan seberapa
sering sebuah kata diwakili di bawah topik tertentu dalam dokumen yang berbeda. Pada Gambar
27.6, batang yang mewakili proporsi topik semuanya harus berjumlah 1. Dokumen D terutama
milik Presiden topik, seperti yang ditunjukkan pada grafik batang. Gambar 27.6 menggambarkan
topik yang terkait dengan Presiden beserta daftar kata yang terkait dengan topik ini.
Pemodelan topik probabilistik memperkirakan distribusi topik menggunakan algoritma
pembelajaran yang mengasumsikan bahwa dokumen dapat dihasilkan sebagai campuran proporsi
topik. Estimasi proporsi topik ini dihitung menggunakan algoritme pengambilan sampel dan
maksimalisasi ekspektasi. Sebuah algoritma yang disebut alokasi Dirichlet laten digunakan untuk
menghasilkan model topik.
Model generatif secara acak menghasilkan data yang dapat diamati dengan beberapa parameter
tersembunyi. Parameter tersembunyi/tidak teramati ini adalah Dirichlet Distribusi sebelum kata
dan topik, distribusi topik, dan distribusi kata per topik. Metode inferensi Bayesian seperti Gibbs
sampling digunakan untuk menyesuaikan parameter tersembunyi berdasarkan data yang diamati
(kata-kata dalam dokumen).
Pertanyaan Factoid: Jenis pertanyaan ini menunjukkan dengan tepat frasa yang tepat
dalam dokumen atau database yang menjawab pertanyaan dengan benar. Contoh jenis ini
mencakup pertanyaan seperti, “Siapa presiden Amerika Serikat?”, “Di kota mana Elvis
Presley lahir?”, 'Di mana Bandara Internasional Hartsfield Jackson berada?', dan "Pada jam
berapa hari ini matahari terbenam?”
Daftar Pertanyaan: Jenis pertanyaan ini mencari daftar tanggapan factoid yang memenuhi
kriteria tertentu. Contohnya termasuk "Sebutkan tiga drama yang ditulis oleh Shakespeare",
"Sebutkan aktor pria yang memainkan peran James Bond dalam serial film James Bond
007", dan "Daftar tiga sayuran berwarna merah".
Pertanyaan Definisi: Jenis pertanyaan ini menanyakan tentang definisi dan makna konsep,
dan untuk mengekstrak informasi penting dan sifat-sifat konsep. Contohnya termasuk "Apa
itu gas inert?", "Siapa Alexander Agung?", dan "Berapa tingkat LIBOR?"
Pertanyaan Opini: Jenis pertanyaan ini mencari pandangan yang berbeda tentang subjek
pertanyaan itu. Misalnya, "Negara apa yang harus diizinkan untuk menguji senjata nuklir?"
dan “Apa sentimen di Arab Saudi tentang terorisme di Timur Tengah?”
Arsitektur. Sebagian besar arsitektur QA tercanggih umumnya terdiri dari jalur pipa yang terdiri
dari tahapan berikut:
Analisis Pertanyaan: Tahap ini melibatkan analisis pertanyaan dan mengubahnya menjadi
representasi struktural dari teks yang dianalisis untuk diproses oleh komponen hilir.
27.9 Kesimpulan
Dalam bab ini, kita membahas area penting yang disebut pencarian informasi yang terkait erat
dengan database. Dengan munculnya Web, data tidak terstruktur dengan teks, gambar, audio, dan
video berkembang biak dengan kecepatan yang fenomenal. Meskipun sistem manajemen database
memiliki penanganan yang sangat baik pada data terstruktur, data tidak terstruktur yang berisi
berbagai tipe data disimpan terutama pada repositori informasi ad hoc di Web yang tersedia untuk
konsumsi terutama melalui sistem IR. Google, Yahoo, dan mesin telusur serupa adalah sistem IR
yang membuat kemajuan di bidang ini tersedia untuk pengguna akhir rata-rata dan memberikan
pengalaman penelusuran yang lebih kaya dan terus ditingkatkan kepada pengguna akhir.
Kami mulai di Bagian 27.1 dengan terlebih dahulu memperkenalkan bidang IR di bagian 27.1.1 dan
membandingkan teknologi IR dan database di Bagian 27.1.2. Model ini memungkinkan kita untuk
mengukur apakah dokumen relevan dengan permintaan pengguna dan memberikan heuristik
pengukuran kesamaan. Di Bagian 27.3 kami menyajikan berbagai jenis Query—selain Query
berbasis kata kunci, yang mendominasi, ada jenis lain, termasuk Boolean, frasa, kedekatan, bahasa
alami, dan lainnya yang dukungan eksplisitnya perlu disediakan oleh model pengambilan . Pra-
pemrosesan teks penting dalam
Sistem IR, dan kami membahas di Bagian 27.4 berbagai kegiatan seperti penghapusan stopword,
stemming, dan penggunaan tesaurus. Kami kemudian membahas konstruksi dan penggunaan
indeks terbalik di Bagian 27.5, yang merupakan inti dari sistem IR dan berkontribusi pada faktor
yang melibatkan efisiensi pencarian. Kami kemudian membahas di Bagian 27.6 berbagai metrik
evaluasi, seperti presisi recall dan F-score, untuk mengukur kebaikan hasil Query IR. Pengindeksan
open source dan mesin pencari Lucene dan ekstensi yang disebut Solr telah dibahas. Kami
menyediakan di Bagian 27.7 pengenalan yang agak rinci untuk analisis Web yang berkaitan dengan
pencarian informasi. Kami membagi perlakuan ini ke dalam analisis konten, struktur, dan
penggunaan Web. Pencarian web telah dibahas, termasuk analisis struktur tautan Web, termasuk
pengenalan algoritma untuk menentukan peringkat hasil dari pencarian Web seperti PageRank dan
HITS. Akhirnya, kami secara singkat membahas tren saat ini, termasuk pencarian segi, pencarian
sosial, dan pencarian percakapan. Kami juga menyajikan pemodelan probabilistik topik dokumen
dan teknik populer yang disebut alokasi Dirichlet laten. Kami mengakhiri bab ini dengan diskusi
tentang sistem penjawab pertanyaan , yang menjadi sangat populer dan menggunakan alat seperti
Siri dari Apple dan Cortana dari Microsoft.
REFERENSI