Anda di halaman 1dari 31

information retrieval

Evaluation in Information Retrieval

Deddy Wijaya Suliantoro, S.Kom


review [1]

Kita sudah melihat beberapa metode


retrieval dimulai dari boolean model, TCM,
VSM, EBM sampai ke language modeling.
Masalah 1 Bagaimana kita tahu
metode mana yang sesuai dengan
masalah mana.
Masalah 2 Perlukah memakai
stemming? Perlukah memakai
stopwordlist? Perlukah normalisasi token?
review [2]

Masalah 3 Apakah perlu kita


memakai nilai idf yang dinormalisasi?
Atau tidak?
Kuliah hari ini membicarakan
bagaimana mengukur keefektifan
suatu sistem IR, termasuk metode-
metode evaluasi hasil IR.
Evaluasi Sistem IR [1]
Untuk mengukur keefektifan ad-hoc IR, kita
memerlukan test collection yang terdiri dari
3 macam:
koleksi dokumen
tes information needs (yang diekspresikan sebagai
query)
Sebuah set penentuan relevansi
Pendekatan standar dalam mengevaluasi
sebuah sistem IR adalah relevansi sebuah
dokumen
Dengan pengecekan seluruh isi dokumen,
semua koleksi dokumen akan diklasifikasi
menjadi 2: dokumen relevan dan tidak relevan.
Evaluasi Sistem IR [2]

Penentuan relevansi yang hanya membagi


dokumen menjadi 2 ini (relevan dan non-
relevan) disebut sebagai binary relevance
judgement.
Pengecekan tersebut dilakukan secara manual
dan sering disebut sebagai gold standard atau
ground truth judgement
Pengecekan ini harus dilakukan dalam jumlah
yang besar dan beragam karena hasil retrieval
akan berbeda untuk dokumen berbeda dan
information needs yang berbeda.
Evaluasi Sistem IR [3]
Bagaimana suatu dokumen ditentukan
relevan atau tidak? Ditentukan dari
information needs-nya, bukan dari query-
nya.
Tidak berarti suatu dokumen yang
memuat semua isi query adalah dokumen
yang relevan.
Standard Test Collection
Berikut ini adalah beberapa test
collection dan evaluasi-evaluasi yang
sudah dilakukan oleh beberapa
lembaga.
Cranfield pioner, tahun 1950an
TREC dilakukan oleh NIST, sejak
1992
CLEF European Language
Reuters Text Classification
Evaluation dari Unranked Retrieval

2 pengukuran dasar dan paling


sering digunakan adalah precision
dan recall
Precision adalah: Bagian dari dokumen
te-retrieve yang relevan.
Recall adalah: bagian dari dokumen
relevan yang te-retrieve.
Precision & Recall
Precision & Recall

Gambar di atas adalah merupakan


gambar tabel ketergantungan
untuk menghitung nilai precision dan
recall.
Rumusnya:
Precision, Recall, & Accuracy

Jumlah dokumen (N) yang dipakai di dalam


korpus dihitung dari tp + fp + tn + fn.
Alternatif yang dapat digunakan untuk
mengevaluasi adalah menghitung
accuracy.
Accuracy didapat dari (tp+tn)/N.
Precision, Recall, & Accuracy

Latihan:
Sebuah sistem IR mengembalikan 8 dokumen relevan
dan 10 dokumen non-relevan dari total 20 dokumen
relevan yang ada dari 60 dokumen dalam korpus.
Hitung precision, recall, dan accuracy-nya!
(Gunakan tabel ketergantungan untuk
mempermudah Anda)
Precision, Recall, & Accuracy
Muncul anggapan yang mengatakan bahwa
precision, recall, serta accuracy belum
merupakan pengukur yang baik untuk
evaluasi
Alasannya:
Nilai precision dan recall memiliki trade-of. Nilai
accuracy tidak mempertimbangkannya.
Perbedaan kebutuhan user akan precision dan
recall.
Perhitungan lain selain accuracy yang
memperhitungkan trade-off dari precision dan
recall adalah F measure
F Measure

Rumus di atas adalah rumus perhitungan F


Measure yang mempertimbangkan
precision, recall, dan nilai sebagai
pemberat.
Nilai =0.5 berarti pemberat untuk
precision 2x lipat
Nilai = 2 berarti pemberat untuk recall
2x lipat
F Measure

Nilai = 1 berarti precision dan recall


dianggap setara.
Nilai = 1 ini sering ditulis menjadi F 1,
singkatan dari F=1 . Hasil perhitungannya
sering disebut juga sebagai balanced F-
score
Jadi Apa keuntungan menggunakan F
Measure dibandingkan dengan accuracy?
Evaluation dari Ranked Retrieval

Precision dan Recall di atas dapat


dipakai saat kita hanya
mengevaluasi sebuah sistem tanpa
mempertimbangkan tingkat relevansi
suatu dokumen (ranked retrieval)
Kita bisa menggunakan precision-
recall curve untuk mengevaluasi
hasil dari sebuah ranked retrieval.
(Mempertimbangkan ranking dari
dokumen hasil retrieval)
Evaluation dari Ranked Retrieval

Misalkan ada 10 dokumen relevan untuk query


q:
Rq = {d3, d5, d9, d25, d39, d44, d56, d71, d89, d123}
Setelah diberikan query q kepada sistem, maka
sistem itu mengembalikan 15 dokumen dengan
urutan ranking sebagai berikut:
Evaluation dari Ranked Retrieval

Dokumen d123 ada di tingkat recall 10%, dan


berada di peringkat pertama.
(1 dokumen relevan dan 0 dokumen non-
relevan).
Berarti, precision di recall 10% adalah 100%
Evaluation dari Ranked Retrieval

Dokumen d56 ada di tingkat recall 20%, dan


berada di peringkat ketiga.
(2 dokumen relevan dan 1 dokumen non-
relevan).
Berarti, precision di recall 20% adalah 2/3 =
66%
Evaluation dari Ranked Retrieval

Dokumen d9 ada di tingkat recall 30%, dan


berada di peringkat keenam.
(3 dokumen relevan dan 3 dokumen non-
relevan).
Berarti, precision di recall 30% adalah 3/6 =
50%
Evaluation dari Ranked Retrieval

Hitung precision untuk tingkat recall 40%


dan 50%!
Evaluation dari Ranked Retrieval

Ini adalah precision-recall curve yang didapat


dari perhitungan interpolated precision
Evaluation dari Ranked Retrieval

Bagaimana kalau ada 100 dokumen


relevan dalam korpus?
Apakah kita harus menghitung precision
dari tiap dokumen relevan yang
ditemukan? (tingkat recall 1%, 2%, 3%, ,
100%)
eleven-point interpolated average
precision tingkat recall 0%, 10%, 20%,
30%, , 100%
Bagaimana untuk 3 dokumen relevan saja?
Evaluation dari Ranked Retrieval

Contoh: Rq = {d3, d56, d129}


Kembalian sistem misalkan sama
dengan contoh di atas:
Evaluation dari Ranked Retrieval

Berarti ada 3 tingkat recall 33,3%,


66,6%, dan 100%.
Silahkan hitung untuk masing-masing
tingkat recall!
Evaluation dari Ranked Retrieval

Tingkat recall 33,3% precision 33,3%


Tingkat recall 66,6% precision 25%
Tingkat recall 100% precision 20%
Evaluation dari Ranked Retrieval

Ada 5 dokumen relevan


Hasil retrieved seperti gambar di atas
Buat curve-nya!
Evaluation dari Ranked Retrieval

Dalam pengevaluasian, tidak dilakukan


dengan satu set query saja, maka akan
dihitung rata-rata precision untuk tiap level
recall.

Dari dua contoh di atas, average precision


untuk tingkat recall 20% adalah:
(66,6%+33,3%)/2 = 49.95%
Any Questions ??
Evaluation in Information Retrieval

Deddy Wijaya Suliantoro, S.Kom


( ! ) notification
Jangan lupa, minggu depan adalah
presentasi Project-2.
Presentasi akan dibagi dalam 2
pertemuan (seperti project 1)
Urutan akan sekali lagi diacak
Harap disiapkan sebaik-baiknya.
Perlu diingat, mini 2 juga dikumpul
paling lambat Selasa depan (9
November 2010)
( ! ) notification
Project 3 IR: Presentasi Metode
Klasifikasi n Clustering (Kelompok)
pertemuan terakhir dan satu
pertemuan tambahan.
Silahkan cari salah satu metode
klasifikasi/clustering yang akan
dipresentasikan, kumpulkan paling
lambat hari Selasa depan.
Bisa mengumpulkan via sms, e-mail,
ataupun bertemu langsung.

Anda mungkin juga menyukai