Ir 08 Evaluation in Ir

information retrieval
Evaluation in Information Retrieval
Deddy Wijaya Suliantoro, S.Kom

review [1]
Kita sudah melihat beberapa metode

retrieval dimulai dari boolean model, TCM,
VSM, EBM sampai ke language modeling.
Masalah 1 Bagaimana kita tahu
metode mana yang sesuai dengan
masalah mana.
Masalah 2 Perlukah memakai
stemming? Perlukah memakai
stopwordlist? Perlukah normalisasi token?
review [2]
Masalah 3 Apakah perlu kita

memakai nilai idf yang dinormalisasi?
Atau tidak?
Kuliah hari ini membicarakan
bagaimana mengukur keefektifan
suatu sistem IR, termasuk metode-
metode evaluasi hasil IR.
Evaluasi Sistem IR [1]
Untuk mengukur keefektifan ad-hoc IR, kita
memerlukan test collection yang terdiri dari
3 macam:
koleksi dokumen
tes information needs (yang diekspresikan sebagai
query)
Sebuah set penentuan relevansi
Pendekatan standar dalam mengevaluasi
sebuah sistem IR adalah relevansi sebuah
dokumen
Dengan pengecekan seluruh isi dokumen,
semua koleksi dokumen akan diklasifikasi
menjadi 2: dokumen relevan dan tidak relevan.
Penentuan relevansi yang hanya membagi

dokumen menjadi 2 ini (relevan dan non-
relevan) disebut sebagai binary relevance
judgement.
Pengecekan tersebut dilakukan secara manual
dan sering disebut sebagai gold standard atau
ground truth judgement
Pengecekan ini harus dilakukan dalam jumlah
yang besar dan beragam karena hasil retrieval
akan berbeda untuk dokumen berbeda dan
information needs yang berbeda.
Bagaimana suatu dokumen ditentukan
relevan atau tidak? Ditentukan dari
information needs-nya, bukan dari query-
nya.
Tidak berarti suatu dokumen yang
memuat semua isi query adalah dokumen
yang relevan.
Standard Test Collection
Berikut ini adalah beberapa test
collection dan evaluasi-evaluasi yang
sudah dilakukan oleh beberapa
lembaga.
Cranfield pioner, tahun 1950an
TREC dilakukan oleh NIST, sejak
1992
CLEF European Language
Reuters Text Classification
Evaluation dari Unranked Retrieval
2 pengukuran dasar dan paling

sering digunakan adalah precision
dan recall
Precision adalah: Bagian dari dokumen
te-retrieve yang relevan.
Recall adalah: bagian dari dokumen
relevan yang te-retrieve.
Precision & Recall
Precision & Recall
Gambar di atas adalah merupakan

gambar tabel ketergantungan
untuk menghitung nilai precision dan
recall.
Rumusnya:
Precision, Recall, & Accuracy
Jumlah dokumen (N) yang dipakai di dalam

korpus dihitung dari tp + fp + tn + fn.
Alternatif yang dapat digunakan untuk
mengevaluasi adalah menghitung
accuracy.
Accuracy didapat dari (tp+tn)/N.
Latihan:
Sebuah sistem IR mengembalikan 8 dokumen relevan
dan 10 dokumen non-relevan dari total 20 dokumen
relevan yang ada dari 60 dokumen dalam korpus.
Hitung precision, recall, dan accuracy-nya!
(Gunakan tabel ketergantungan untuk
mempermudah Anda)
Muncul anggapan yang mengatakan bahwa
precision, recall, serta accuracy belum
merupakan pengukur yang baik untuk
evaluasi
Alasannya:
Nilai precision dan recall memiliki trade-of. Nilai
accuracy tidak mempertimbangkannya.
Perbedaan kebutuhan user akan precision dan
recall.
Perhitungan lain selain accuracy yang
memperhitungkan trade-off dari precision dan
recall adalah F measure
F Measure
Rumus di atas adalah rumus perhitungan F

Measure yang mempertimbangkan
precision, recall, dan nilai sebagai
pemberat.
Nilai =0.5 berarti pemberat untuk
precision 2x lipat
Nilai = 2 berarti pemberat untuk recall
2x lipat
F Measure
Nilai = 1 berarti precision dan recall

dianggap setara.
Nilai = 1 ini sering ditulis menjadi F 1,
singkatan dari F=1 . Hasil perhitungannya
sering disebut juga sebagai balanced F-
score
Jadi Apa keuntungan menggunakan F
Measure dibandingkan dengan accuracy?
Evaluation dari Ranked Retrieval
Precision dan Recall di atas dapat

dipakai saat kita hanya
mengevaluasi sebuah sistem tanpa
mempertimbangkan tingkat relevansi
suatu dokumen (ranked retrieval)
Kita bisa menggunakan precision-
recall curve untuk mengevaluasi
hasil dari sebuah ranked retrieval.
(Mempertimbangkan ranking dari
dokumen hasil retrieval)
Misalkan ada 10 dokumen relevan untuk query

q:
Rq = {d3, d5, d9, d25, d39, d44, d56, d71, d89, d123}
Setelah diberikan query q kepada sistem, maka
sistem itu mengembalikan 15 dokumen dengan
urutan ranking sebagai berikut:
Dokumen d123 ada di tingkat recall 10%, dan

berada di peringkat pertama.
(1 dokumen relevan dan 0 dokumen non-
relevan).
Berarti, precision di recall 10% adalah 100%

berada di peringkat ketiga.
relevan).
Berarti, precision di recall 20% adalah 2/3 =
66%

berada di peringkat keenam.
relevan).
Berarti, precision di recall 30% adalah 3/6 =
50%
Hitung precision untuk tingkat recall 40%

dan 50%!
Ini adalah precision-recall curve yang didapat

dari perhitungan interpolated precision
Bagaimana kalau ada 100 dokumen

relevan dalam korpus?
Apakah kita harus menghitung precision
dari tiap dokumen relevan yang
ditemukan? (tingkat recall 1%, 2%, 3%, ,
100%)
eleven-point interpolated average
precision tingkat recall 0%, 10%, 20%,
30%, , 100%
Bagaimana untuk 3 dokumen relevan saja?
Contoh: Rq = {d3, d56, d129}

Kembalian sistem misalkan sama
dengan contoh di atas:
Berarti ada 3 tingkat recall 33,3%,

66,6%, dan 100%.
Silahkan hitung untuk masing-masing
tingkat recall!
Tingkat recall 33,3% precision 33,3%

Tingkat recall 66,6% precision 25%
Tingkat recall 100% precision 20%
Ada 5 dokumen relevan

Hasil retrieved seperti gambar di atas
Buat curve-nya!
Dalam pengevaluasian, tidak dilakukan

dengan satu set query saja, maka akan
dihitung rata-rata precision untuk tiap level
recall.
Dari dua contoh di atas, average precision

untuk tingkat recall 20% adalah:
(66,6%+33,3%)/2 = 49.95%
Any Questions ??
Evaluation in Information Retrieval
Deddy Wijaya Suliantoro, S.Kom

( ! ) notification
Jangan lupa, minggu depan adalah
presentasi Project-2.
Presentasi akan dibagi dalam 2
pertemuan (seperti project 1)
Urutan akan sekali lagi diacak
Harap disiapkan sebaik-baiknya.
Perlu diingat, mini 2 juga dikumpul
paling lambat Selasa depan (9
November 2010)
( ! ) notification
Project 3 IR: Presentasi Metode
Klasifikasi n Clustering (Kelompok)
pertemuan terakhir dan satu
pertemuan tambahan.
Silahkan cari salah satu metode
klasifikasi/clustering yang akan
dipresentasikan, kumpulkan paling
lambat hari Selasa depan.
Bisa mengumpulkan via sms, e-mail,
ataupun bertemu langsung.

Ir 08 Evaluation in Ir

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Ir 08 Evaluation in Ir

Diunggah oleh

Hak Cipta:

Format Tersedia

information retrieval

Evaluation in Information Retrieval

Deddy Wijaya Suliantoro, S.Kom

Kita sudah melihat beberapa metode

Masalah 3 Apakah perlu kita

Penentuan relevansi yang hanya membagi

2 pengukuran dasar dan paling

Gambar di atas adalah merupakan

Jumlah dokumen (N) yang dipakai di dalam

Rumus di atas adalah rumus perhitungan F

Nilai = 1 berarti precision dan recall

Precision dan Recall di atas dapat

Misalkan ada 10 dokumen relevan untuk query

Dokumen d123 ada di tingkat recall 10%, dan

Dokumen d56 ada di tingkat recall 20%, dan

Dokumen d9 ada di tingkat recall 30%, dan

Hitung precision untuk tingkat recall 40%

Ini adalah precision-recall curve yang didapat

Bagaimana kalau ada 100 dokumen

Contoh: Rq = {d3, d56, d129}

Berarti ada 3 tingkat recall 33,3%,

Tingkat recall 33,3% precision 33,3%

Ada 5 dokumen relevan

Dalam pengevaluasian, tidak dilakukan

Dari dua contoh di atas, average precision

Deddy Wijaya Suliantoro, S.Kom

Anda mungkin juga menyukai