Anda di halaman 1dari 10

No

1
2
3
Pemerolehan Informasi
Pada tahap pemrosesan awal dilakukan proses perubahan dari full text menjadi set index term.
Operasi teks (Text operation) diperlukan untuk mendapatkan logical view documents dari dokumen asal
Diperlukan pendefinisian basis data teks (database text) dengan melakukan identifikasi terhadap koleksi dokumen asal (corpu
Basis Data
pengelola basis data (DBMS) Pengelolaan basis data secara fisik tidak ditangani langsung oleh user (pemakai), tetapi ditangani
Database merujuk pada pengumpulan data yang saling berhubungan, dan perangkat lunak harus mengacu pada sistem manaj
Basis Data memiliki gambaran terstruktur dari jenis fakta yang tersimpan di dalamnya
(pemakai), tetapi ditangani oleh sebuah perangkat lunak (sistem) yang khusus / spesifik.
engacu pada sistem manajemen database (database management system / DBMS).
Kata ke-i k1 k2 k3 k4 k5
Frekuensi dok yang berisi kata ke-I pada dok j 3 1 2 2 3
Jumlah dok yang berisi kata ke-i 15 11 6 10 5
Frekunsi kemunculan kata ke-I pada q 1 2 1 1 2

tf
df N/df idf
Term q j
k1 1 3 15 2 0.30103
k2 2 1 11 2.727273 0.435729
k3 1 2 6 5 0.69897
k4 1 2 10 3 0.477121
k5 2 3 5 6 0.778151
k6 2 1 12 2.5 0.39794
k7 1 1 2 15 1.176091
k8 1 2 18 1.7 0.221849
k6 k7 k8
1 1 2
12 2 18
2 1 1

w wij*wiq w2
q j j q j
0.30103 0.90309 0.271857 0.090619 0.815572
0.871457 0.435729 0.379719 0.759438 0.189859
0.69897 1.39794 0.977118 0.488559 1.954236
0.477121 0.954243 0.455289 0.227645 0.910579
1.556303 2.334454 3.633116 2.422077 5.449674
0.79588 0.39794 0.316713 0.633425 0.158356
1.176091 1.176091 1.383191 1.383191 1.383191
0.221849 0.443697 0.098434 0.049217 0.196867
8.043184 7.515437 6.05417 11.05833

CosSin
0.983005
Dua buah sistem pemerolehan informasi melakukan proses retrieval berdasar kueri q terhadap sekumpulan dokumen. Dibaw
Dari hasil pemerolehan kedua sistem, dilakukan pengujian relevansi terhadap top 8 dokumen. Dokumen relevan dalam keselu
Dibawah ini adalah hasil pengujian relevansi

Sistem 1 : (diisi dengan tanggal lahir, setiap digit angka di tanggal lahir dikonversi ke R atau N, angka ganjil dianggap
Tanggal Lahir : 6/3/2000

Data Yang terbentuk : 0 3 0 6 2 0 0 0


NNNRRNNN
Qsistem 1 = {d4,d5}

hasil query : Recall Precision


1 d1 0.00 0.00
2 d2 0.00 0.00
3 d3 0.00 0.00
4 d4 0.13 0.25
5 d5 0.25 0.40
6 d6 0.25 0.33
7 d7 0.25 0.29
8 d8 0.25 0.25

Recall Precision
0.13 0.25
0.25 0.40

Recall Precision
0% 40.00% Precision
10% 40.00% 45.00%
20% 40.00% 40.00%
30% 0.00% 35.00%
30.00% Precision
40% 0.00% 25.00%
50% 0.00% 20.00%
60% 0.00% 15.00%
10.00%
70% 0.00% 5.00%
80% 0.00% 0.00%
90% 0.00% 0% 20% 40% 60% 80% 100% 120%
100% 0.00%

Sistem 2 : N R N N N R R R
Qsistem 1 = {d2,d6,d7,d8}

hasil query : Recall Precision


1 d1 0.00 0.00
2 d2 0.13 0.50
3 d3 0.13 0.33
4 d4 0.13 0.25
5 d5 0.13 0.20
6 d6 0.25 0.33
7 d7 0.38 0.43
8 d8 0.50 0.50

Recall Precision
0.13 50.00
0.25 0.33
0.38 0.43
0.50 0.50

Recall Precision
0% 50.00%
Precision
10% 50.00% 60.00%
20% 50.00%
50.00%
30% 50.00%
40% 50.00% 40.00%
50% 50.00% Precision
60% 0.00% 30.00%
70% 0.00%
20.00%
80% 0.00%
90% 0.00% 10.00%
100% 0.00%
0.00%
0% 20% 40% 60% 80% 100% 120%

Untuk sistem manakah yang lebih baik adalah sistem 2 karna mendekati atas kanan
umpulan dokumen. Dibawah ini adalah hasil pengujian relevansi
umen relevan dalam keseluruhan dokumen berjumlah 8.

tau N, angka ganjil dianggap relevan (R) sedang angka genap dianggap tidak relevan (N)
Precision

Anda mungkin juga menyukai