Anda di halaman 1dari 4

Model pengambilan informasi (BIR ) Boolean (standar) [1] adalah model pencarian informasi

klasik (IR) dan, pada saat yang sama, yang pertama dan yang paling banyak diadopsi. Ini
digunakan oleh banyak sistem IR hingga hari ini. [ Kutipan diperlukan ] BIR didasarkan pada
logika Boolean dan teori himpunan klasik di mana kedua dokumen yang akan dicari dan
permintaan pengguna dipahami sebagai kumpulan istilah. Pengambilan didasarkan pada
apakah dokumen berisi persyaratan kueri atau tidak.

Rumah
Acak
Dekat
Gabung
Pengaturan
Tentang Wikipedia
Penafian
Buka menu utama
Wikipedia
Cari
Model pengambilan informasi Boolean
Missing in Bahasa Indonesia
Automatic translation
Learn more
Artikel ini mungkin terlalu teknis untuk dipahami oleh sebagian besar pembaca . Tolong bantu
memperbaikinya agar dapat dimengerti oleh non-pakar , tanpa menghapus rincian teknis.
Model pengambilan informasi (BIR ) Boolean (standar) [1] adalah model pencarian informasi
klasik (IR) dan, pada saat yang sama, yang pertama dan yang paling banyak diadopsi. Ini
digunakan oleh banyak sistem IR hingga hari ini. [ Kutipan diperlukan ] BIR didasarkan pada
logika Boolean dan teori himpunan klasik di mana kedua dokumen yang akan dicari dan
permintaan pengguna dipahami sebagai kumpulan istilah. Pengambilan didasarkan pada
apakah dokumen berisi persyaratan kueri atau tidak.

definisi
Istilah indeks adalah kata atau ungkapan , yang dapat dibendung , menggambarkan atau
mengkarakterisasi dokumen, seperti kata kunci yang diberikan untuk artikel jurnal. Membiarkan

{\ displaystyle T = \ {t_ {1}, t_ {2}, \ \ ldots, \ t_ {m} \}}{\displaystyle T=\{t_{1},t_{2},\ \ldots ,\


t_{m}\}}
menjadi himpunan semua istilah indeks tersebut.
Dokumen adalah bagian apa pun dari {\ displaystyle T}T . Membiarkan

{\ displaystyle D = \ {D_ {1}, \ \ ldots \, D_ {n} \}}{\displaystyle D=\{D_{1},\ \ldots \ ,D_{n}\}}


menjadi himpunan semua dokumen.
Kueri adalah ekspresi Boolean {\ textstyle Q}{\textstyle Q} dalam bentuk normal:
{\ displaystyle Q = (W_ {1} \ \ lor \ W_ {2} \ \ lor \ \ cdots) \ land \ \ cdots \ \ land \ (W_ {i} \ \ lor \
W_ {i + 1} \ \ lata \ \ cdots)}{\displaystyle Q=(W_{1}\ \lor \ W_{2}\ \lor \ \cdots )\land \ \cdots \ \land
\ (W_{i}\ \lor \ W_{i+1}\ \lor \ \cdots )}
dimana {\ textstyle W_ {i}}{\textstyle W_{i}} itu berlaku untuk {\ displaystyle D_ {j}}D_{j} kapan
{\ displaystyle t_ {i} \ dalam D_ {j}}{\displaystyle t_{i}\in D_{j}} . (Setara, {\ textstyle Q}{\textstyle
Q} dapat diekspresikan dalam bentuk normal disjungtif .)
Kami berusaha menemukan kumpulan dokumen yang memuaskan {\ textstyle Q}{\textstyle Q} .
Operasi ini disebut pengambilan dan terdiri dari dua langkah berikut:

1. Untuk masing-masing {\ textstyle W_ {j}}{\textstyle W_{j}} di {\ textstyle Q}{\textstyle Q} ,


temukan set {\ textstyle S_ {j}}{\textstyle S_{j}} dokumen yang memuaskan {\ textstyle W_ {j}}
{\textstyle W_{j}} :
{\ displaystyle S_ {j} = \ {D_ {i} \ mid W_ {j} \}}{\displaystyle S_{j}=\{D_{i}\mid W_{j}\}}
2. Kemudian kumpulan dokumen yang memenuhi Q diberikan oleh:
{\ displaystyle (S_ {1} \ cup S_ {2} \ cup \ cdots) \ cap \ cdots \ cap (S_ {i} \ cup S_ {i + 1} \ cup \
cdots)}{\displaystyle (S_{1}\cup S_{2}\cup \cdots )\cap \cdots \cap (S_{i}\cup S_{i+1}\cup
\cdots )}
Contoh
Biarkan kumpulan dokumen asli (nyata) menjadi, misalnya

{\ displaystyle O = \ {O_ {1}, \ O_ {2}, \ O_ {3} \}}{\displaystyle O=\{O_{1},\ O_{2},\ O_{3}\}}


dimana

{\ textstyle O_ {1}}{\textstyle O_{1}} = "Prinsip Bayes ': Prinsip bahwa, dalam memperkirakan
suatu parameter, seseorang pada awalnya harus mengasumsikan bahwa setiap nilai yang
mungkin memiliki probabilitas yang sama (distribusi sebelumnya yang seragam)."

{\ textstyle O_ {2}}{\textstyle O_{2}} = " Teori keputusan Bayesian : Teori matematika


pengambilan keputusan yang mengandaikan fungsi utilitas dan probabilitas, dan yang
menurutnya tindakan yang dipilih adalah tindakan Bayes, yaitu yang memiliki utilitas harapan
subyektif tertinggi. Jika seseorang memiliki waktu tak terbatas dan menghitung kekuatan yang
dapat digunakan untuk membuat setiap keputusan, prosedur ini akan menjadi cara terbaik
untuk membuat keputusan. "

{\ textstyle O_ {3}}{\textstyle O_{3}} = " Epistemologi Bayesian: Sebuah teori filosofis yang
menyatakan bahwa status epistemik dari suatu proposisi (yaitu seberapa baik terbukti atau
mapan itu) yang terbaik diukur dengan probabilitas dan bahwa cara yang tepat untuk merevisi
probabilitas ini diberikan oleh kondisionalisasi Bayesian atau serupa prosedur. Seorang
epistemologis Bayesian akan menggunakan probabilitas untuk mendefinisikan, dan
mengeksplorasi hubungan antara, konsep-konsep seperti status epistemik, dukungan atau
kekuatan penjelas. "

Biarkan set {\ textstyle T}{\textstyle T} syarat menjadi:


{\ displaystyle T = \ {t_ {1} = {\ text {prinsip Bayes '}}, t_ {2} = {\ text {probability}}, t_ {3} = {\ text
{pengambilan keputusan}}, t_ {4} = {\ text {Bayesian epistemology}} \}}{\displaystyle T=\
{t_{1}={\text{Bayes' principle}},t_{2}={\text{probability}},t_{3}={\text{decision-
making}},t_{4}={\text{Bayesian epistemology}}\}}
Lalu, set {\ textstyle D}{\textstyle D} dokumen adalah sebagai berikut:

{\ displaystyle D = \ {D_ {1}, \ D_ {2}, \ D_ {3} \}}{\displaystyle D=\{D_{1},\ D_{2},\ D_{3}\}}


dimana

{\ displaystyle {\ begin {aligned} D_ {1} & = \ {{\ text {probability}}, \ {\ text {prinsip Bayes '}} \} \\
D_ {2} & = \ {{\ text {probability}}, \ {\ text {pengambilan keputusan}} \} \\ D_ {3} & = \ {{\ text
{probability}}, \ {\ text {Bayesian epistemology}} \} \ end {sejajar }}}{\displaystyle
{\begin{aligned}D_{1}&=\{{\text{probability}},\ {\text{Bayes' principle}}\}\\D_{2}&=\
{{\text{probability}},\ {\text{decision-making}}\}\\D_{3}&=\{{\text{probability}},\ {\text{Bayesian
epistemology}}\}\end{aligned}}}
Biarkan kueri {\ textstyle Q}{\textstyle Q} menjadi:

{\ displaystyle Q = {\ text {probability}} \ land {\ text {pengambilan keputusan}}}{\displaystyle


Q={\text{probability}}\land {\text{decision-making}}}
Kemudian untuk mengambil dokumen yang relevan:
Pertama, set berikut {\ textstyle S_ {1}}{\textstyle S_{1}} dan {\ textstyle S_ {2}}{\textstyle S_{2}}
dokumen {\ textstyle D_ {i}}{\textstyle D_{i}} diperoleh (diambil):
{\ displaystyle {\ begin {aligned} S_ {1} & = \ {D_ {1}, \ D_ {2}, \ D_ {3} \} \\ S_ {2} & = \ {D_
{2} \ } \ end {aligned}}}{\displaystyle {\begin{aligned}S_{1}&=\{D_{1},\ D_{2},\ D_{3}\}\\S_{2}&=\
{D_{2}\}\end{aligned}}}
Akhirnya, dokumen-dokumen berikut {\ textstyle D_ {i}}{\textstyle D_{i}} diambil sebagai
respons terhadap {\ textstyle Q}{\textstyle Q}
{\ displaystyle Q: \ {D_ {1}, \ D_ {2}, \ D_ {3} \} \ \ cap \ \ {D_ {2} \} \ = \ \ {D_ {2} \}}{\displaystyle
Q:\{D_{1},\ D_{2},\ D_{3}\}\ \cap \ \{D_{2}\}\ =\ \{D_{2}\}}
Ini berarti dokumen asli {\ textstyle O_ {2}}{\textstyle O_{2}} (sesuai dengan {\ textstyle D_ {2}}
{\textstyle D_{2}} ) adalah jawabannya {\ textstyle Q}{\textstyle Q} .

Jelas, jika ada lebih dari satu dokumen dengan representasi yang sama, setiap dokumen
tersebut diambil. Dokumen-dokumen seperti itu tidak bisa dibedakan dalam BIR (dengan kata
lain, setara).

Keuntungan
Formalisme bersih
Mudah diimplementasikan
Konsep yang intuitif
Kekurangan
Pencocokan tepat dapat mengambil terlalu sedikit atau terlalu banyak dokumen
Sulit menerjemahkan kueri ke dalam ekspresi Boolean
Semua istilah memiliki bobot yang sama
Lebih seperti pencarian data daripada pencarian informasi
Struktur data dan algoritma
Dari sudut pandang matematika formal murni, BIR sangat mudah. Dari sudut pandang praktis,
bagaimanapun, beberapa masalah lebih lanjut harus dipecahkan yang berhubungan dengan
algoritma dan struktur data, seperti, misalnya, pemilihan istilah (pemilihan manual atau otomatis
atau keduanya), membendung , tabel hash , struktur file terbalik , dan seterusnya. [2]

Hash mengatur
Kemungkinan lain adalah menggunakan hash set . Setiap dokumen diwakili oleh tabel hash
yang berisi setiap istilah dari dokumen itu. Karena ukuran tabel hash meningkat dan menurun
secara real time dengan penambahan dan penghapusan persyaratan, setiap dokumen akan
menempati ruang yang jauh lebih sedikit dalam memori. Namun, itu akan memiliki penurunan
kinerja karena operasi lebih kompleks daripada dengan vektor bit . Pada kasus terburuk, kinerja
dapat menurun dari O ( n ) ke O ( n 2 ). Pada kasus rata-rata, penurunan kinerja tidak akan jauh
lebih buruk daripada vektor bit dan penggunaan ruang jauh lebih efisien.

Referensi
Lancaster, FW; Fayen, EG (1973), Pengambilan Informasi On-Line , Melville Publishing Co.,
Los Angeles, California
Wartik, Steven (1992). "Operasi Boolean". Struktur & Algoritma Pengambilan Informasi .
Prentice-Hall, Inc. ISBN 0-13-463837-9 . Diarsipkan dari yang asli pada 2013-09-28.
Lashkari, AH; Mahdavi, F .; Ghomi, V. (2009), Model Boolean dalam Pengambilan Informasi
untuk Mesin Pencari , doi : 10.1109 / ICIME.2009.10

Anda mungkin juga menyukai