klasik (IR) dan, pada saat yang sama, yang pertama dan yang paling banyak diadopsi. Ini
digunakan oleh banyak sistem IR hingga hari ini. [ Kutipan diperlukan ] BIR didasarkan pada
logika Boolean dan teori himpunan klasik di mana kedua dokumen yang akan dicari dan
permintaan pengguna dipahami sebagai kumpulan istilah. Pengambilan didasarkan pada
apakah dokumen berisi persyaratan kueri atau tidak.
Rumah
Acak
Dekat
Gabung
Pengaturan
Tentang Wikipedia
Penafian
Buka menu utama
Wikipedia
Cari
Model pengambilan informasi Boolean
Missing in Bahasa Indonesia
Automatic translation
Learn more
Artikel ini mungkin terlalu teknis untuk dipahami oleh sebagian besar pembaca . Tolong bantu
memperbaikinya agar dapat dimengerti oleh non-pakar , tanpa menghapus rincian teknis.
Model pengambilan informasi (BIR ) Boolean (standar) [1] adalah model pencarian informasi
klasik (IR) dan, pada saat yang sama, yang pertama dan yang paling banyak diadopsi. Ini
digunakan oleh banyak sistem IR hingga hari ini. [ Kutipan diperlukan ] BIR didasarkan pada
logika Boolean dan teori himpunan klasik di mana kedua dokumen yang akan dicari dan
permintaan pengguna dipahami sebagai kumpulan istilah. Pengambilan didasarkan pada
apakah dokumen berisi persyaratan kueri atau tidak.
definisi
Istilah indeks adalah kata atau ungkapan , yang dapat dibendung , menggambarkan atau
mengkarakterisasi dokumen, seperti kata kunci yang diberikan untuk artikel jurnal. Membiarkan
{\ textstyle O_ {1}}{\textstyle O_{1}} = "Prinsip Bayes ': Prinsip bahwa, dalam memperkirakan
suatu parameter, seseorang pada awalnya harus mengasumsikan bahwa setiap nilai yang
mungkin memiliki probabilitas yang sama (distribusi sebelumnya yang seragam)."
{\ textstyle O_ {3}}{\textstyle O_{3}} = " Epistemologi Bayesian: Sebuah teori filosofis yang
menyatakan bahwa status epistemik dari suatu proposisi (yaitu seberapa baik terbukti atau
mapan itu) yang terbaik diukur dengan probabilitas dan bahwa cara yang tepat untuk merevisi
probabilitas ini diberikan oleh kondisionalisasi Bayesian atau serupa prosedur. Seorang
epistemologis Bayesian akan menggunakan probabilitas untuk mendefinisikan, dan
mengeksplorasi hubungan antara, konsep-konsep seperti status epistemik, dukungan atau
kekuatan penjelas. "
{\ displaystyle {\ begin {aligned} D_ {1} & = \ {{\ text {probability}}, \ {\ text {prinsip Bayes '}} \} \\
D_ {2} & = \ {{\ text {probability}}, \ {\ text {pengambilan keputusan}} \} \\ D_ {3} & = \ {{\ text
{probability}}, \ {\ text {Bayesian epistemology}} \} \ end {sejajar }}}{\displaystyle
{\begin{aligned}D_{1}&=\{{\text{probability}},\ {\text{Bayes' principle}}\}\\D_{2}&=\
{{\text{probability}},\ {\text{decision-making}}\}\\D_{3}&=\{{\text{probability}},\ {\text{Bayesian
epistemology}}\}\end{aligned}}}
Biarkan kueri {\ textstyle Q}{\textstyle Q} menjadi:
Jelas, jika ada lebih dari satu dokumen dengan representasi yang sama, setiap dokumen
tersebut diambil. Dokumen-dokumen seperti itu tidak bisa dibedakan dalam BIR (dengan kata
lain, setara).
Keuntungan
Formalisme bersih
Mudah diimplementasikan
Konsep yang intuitif
Kekurangan
Pencocokan tepat dapat mengambil terlalu sedikit atau terlalu banyak dokumen
Sulit menerjemahkan kueri ke dalam ekspresi Boolean
Semua istilah memiliki bobot yang sama
Lebih seperti pencarian data daripada pencarian informasi
Struktur data dan algoritma
Dari sudut pandang matematika formal murni, BIR sangat mudah. Dari sudut pandang praktis,
bagaimanapun, beberapa masalah lebih lanjut harus dipecahkan yang berhubungan dengan
algoritma dan struktur data, seperti, misalnya, pemilihan istilah (pemilihan manual atau otomatis
atau keduanya), membendung , tabel hash , struktur file terbalik , dan seterusnya. [2]
Hash mengatur
Kemungkinan lain adalah menggunakan hash set . Setiap dokumen diwakili oleh tabel hash
yang berisi setiap istilah dari dokumen itu. Karena ukuran tabel hash meningkat dan menurun
secara real time dengan penambahan dan penghapusan persyaratan, setiap dokumen akan
menempati ruang yang jauh lebih sedikit dalam memori. Namun, itu akan memiliki penurunan
kinerja karena operasi lebih kompleks daripada dengan vektor bit . Pada kasus terburuk, kinerja
dapat menurun dari O ( n ) ke O ( n 2 ). Pada kasus rata-rata, penurunan kinerja tidak akan jauh
lebih buruk daripada vektor bit dan penggunaan ruang jauh lebih efisien.
Referensi
Lancaster, FW; Fayen, EG (1973), Pengambilan Informasi On-Line , Melville Publishing Co.,
Los Angeles, California
Wartik, Steven (1992). "Operasi Boolean". Struktur & Algoritma Pengambilan Informasi .
Prentice-Hall, Inc. ISBN 0-13-463837-9 . Diarsipkan dari yang asli pada 2013-09-28.
Lashkari, AH; Mahdavi, F .; Ghomi, V. (2009), Model Boolean dalam Pengambilan Informasi
untuk Mesin Pencari , doi : 10.1109 / ICIME.2009.10