Anda di halaman 1dari 29

Parte III

Evaluacin de sistemas de IR

Almacenamiento y recuperacin de
informacin en la Web

Evaluacin de la
recuperacin
Objetivo: evaluar la funcionalidad y eficiencia
de un sistema de IR
Medidas usuales de evaluacin:
Tiempo de respuesta
Espacio utilizado
Evaluacin de la eficiencia de recuperacin basada
en
Colecciones prueba (TIPSTER/TREC, CACM, CISI,)
Diferentes medidas de evaluacin
Recall y Precision
MAP, etc.
Almacenamiento y recuperacin de
informacin en la Web

Medidas de evaluacin
recall y precision
El usuario desea realizar una solicitud de
informacin sobre una coleccin de docs
Sean
R: docs relevantes
A: docs respuesta

Coleccin

|R|

Ra
Recall=
R

|A|

Ra
Precision=
A

Ra Card ( A R )

Almacenamiento y recuperacin de
informacin en la Web

Evolucin recuperacin precisin


Ejemplo
Suponemos las siguiente tabla de docs recuperados
orden

orden

d123

orden

d9

11

d38

Rq d 3 , d 56 , d129 documentos relevantes


--A d123 A 1

d84

d511

12

d48

Recall

0
0
0 Precision 0
3
1

---

d56

d129

13

d250

A d123 , d 84 A 2
Recall

4
5

d6
d8

9
10

d187
d25

14
15

d113
d3

0
0
0 Precision 0
3
2

--A d123 , d 84 , d 56 A 3
Recall

1
1
0,33% Precision 0,33%
3
3

Almacenamiento y recuperacin de
informacin en la Web

Evolucin recuperacin precisin


Ejemplo
Doc

|A|

|Ra|

|R|

Recall

Precision

33,3

33,3

33,3

25

33,3

20

33,3

16,6

33,3

14,2

66,6

25

66,6

22,2

10

10

66,6

20

11

11

66,6

18,1

12

12

66,6

16,6

13

13

66,6

15,3

14

14

66,6

14,2

15

15

100

20

Almacenamiento y recuperacin de
informacin en la Web

Evolucin recuperacin - precisin


Para la representacin de las curvas recallprecision generalmente se emplean 11 niveles
de recuperacin
120
100

Precision

80
60
40
20
0
0

20

40

60

80

Recall

Almacenamiento y recuperacin de
informacin en la Web

100

120

Consideraciones generales sobre las


medidas r y P
En colecciones grandes no es posible
disponer de un conocimiento detallado de
los docs.
Considerar la combinacin de ambas
medidas (r y P).
Las medidas de r y P son para queries
procesadas en modo batch. Para sistemas
de IR interactivos son ms convenientes
medidas que cuantifiquen la bondad del
proceso.
Almacenamiento y recuperacin de
informacin en la Web

Medida de Precisin
promedio
Desde el punto de vista de
las medidas de evaluacin,
los algoritmos de
recuperacin (search
engines) evalan diferentes
queries para evaluar su
eficacia.
Una forma habitual de
evaluar un algoritmo
consiste en promediar las
distintas precisiones
obtenidas para cada query
en cada nivel de
recuperacin.

1
P( r )
Nq

Nq

P (r)
i 1

P(r )

Precision media al nivel r de recuperacion

Pi (r )

Precision al nivel r para la i-esima q

Nq

N de qs utilizadas

Almacenamiento y recuperacin de
informacin en la Web

Interpolacin de la Precisin
Promedio
Para representar la evolucin de la
precisin promedio se efecta una
interpolacin de las precisiones en
cada nivel de recuperacin
P( r ) max P( r )
rj r rj 1

rj 0,1, 2,K ,10

Almacenamiento y recuperacin de
informacin en la Web

Interpolacin de la Precisin
Promedio
Ejemplo
Rq={d3,d56,d129}
Aq={d123,d84,d56,d6,d8,d9,d511,d129,d187,d25,d38,d48,d250,d113,d3}
R=33%, P=33%
R=66%, P=25%
R=100%, P=20%

P (rj ) max P (r )
r j r r j 1

rj 0,1, 2,K ,10


Ej r5 recall (50%)

120
100

Precision

80
60
40

33

33

33

20

33

25

25

25

20

20

20

20

0
0

20

40

60

80

100

Recall

Precision interpolada para 11 niveles de recall para Rq

Almacenamiento y recuperacin de
informacin en la Web

120

Medida de Precisin Promedio


en n
Otra medida usual es el clculo de la
precisin promedio tras n documentos
relevantes recuperados (p. ej. 5, 10, 20, 30,
50, 100)
Se calcula la media de las precisiones
obtenidas hasta el nivel de corte
Este sistema favorece a los buscadores que
recuperan los documentos relevantes rpido
Ej: si al nivel 5 tenemos unas medidas de
precisin de 1, 0.66, 0.5, 0.4, 0.3
AvP@5 = (1+.66+.5+.4+.3)/5 = 0.572

Almacenamiento y recuperacin de
informacin en la Web

Medida de R-Precision
La idea es generar un valor resumen del
ranking mediante la precisin en la
posicin R-sima del ranking, siendo R el n
total de docs relevantes para una query
Para Rq={d3, d5,d9,d25,d39,d44,d56,d71, d89,d123}
la 10-Precision es: 0.4 (4 docs relevantes en los 10
primeros)

Para Rq={d3,d56,d129}
la 3-Precision es: 0.33 (1 doc relevantes en los 3
primeros)

Es til para comprobar el comportamiento


de un algoritmo frente a cada tem
Almacenamiento y recuperacin de
informacin en la Web

Histogramas de R-Precisin

RPA / B (i ) RPA (i ) RPB (i )

1.5
1

R -Precision A /B

Las medidas de R-Precisin


se pueden usar para
comparar el comportamiento
de dos algoritmos de forma
grfica a lo largo de
diferentes bsquedas.
Search Engines: A y B
Numero de queries: 10

0.5
0
-0.5

-1
-1.5

RPA / B (i ) 0 A f B
RPA / B (i ) 0 A B
RPA / B (i ) 0 A p B
Almacenamiento y recuperacin de
informacin en la Web

Q uery N um baer

10

Comparacin de algoritmos
IR
100
90
80

Precision

70
60
50
40
30
20
10
0
0

20

40

60

80

100

120

Recall

Curvas recall-precision para dos search engines diferentes

Almacenamiento y recuperacin de
informacin en la Web

Discounted Cumulative Gain


(DCG)
Medida de la efectividad de un buscador
Mide la ganancia de un documento basada en su
posicin en la lista de documentos de un ranking
Hiptesis
Los documentos ms relevantes son ms tiles si aparecen
en las primeras posiciones del ranking. Su relevancia se
debe penalizar proporcionalmente a su posicin con el
logaritmo de su posicin en el ranking
Los documentos ms relevantes son ms tiles que los
parcialmente relevantes y estos, a su vez, ms que los no
relevantes
Se basa en la medida CG (p posicin en el ranking -)
p

CG p reli
i 1

Almacenamiento y recuperacin de
informacin en la Web

DCG (II)
DCG para una posicin p en el ranking
p

reli
DCG p rel1
i 2 log 2 i
2reli 1
DCG p
i 1 log 2 (1 i )
p

nDCG representa la medida DCG normalizada para consultas sucesivas.


Para poder calcularla se supone conocida la distribucin ideal, no siempre
posible.

nDCG p

DCG p
IDCG p

[0,1]
Almacenamiento y recuperacin de
informacin en la Web

DCG (III)
Ejemplo:
Clculo de la DCG para p=6
Suponemos un usuario que
valora la lista de docs: D 1, D2,
D3, D4, D5, D6 que son el
resultado de una consulta q
Los documentos se valoran
en una escala 0 a 3
0: no relevante
1,2: en cierto grado
relevante
3: completamente relevante

Resultado:
3, 2, 3, 0, 1, 2

reli

Logi

reli/Lo
gi

---

---

1.59

1.887

2.32

0.431

2.59

0.772

CG6 reli 3 2 3 0 1 2 11
i 1

Almacenamiento y recuperacin de
informacin en la Web

DCG (y IV)
6

DCG6 rel1
i2

reli
3 (2 1.887 0 0.431 0.772) 8.09
log 2 i

Supuesto un orden ideal (montono decreciente): 3,3,2,2,1,0


6

IDCG6 rel1
i2

reli
8.693
log 2 i

Ahora podemos calcular el nDCG para la consulta inicial

nDCG6

DCG6
8.09

0.9306
nDCG6 8.693

Almacenamiento y recuperacin de
informacin en la Web

Medidas alternativas, I
Media armnica
Combina r y P
F=0 no se recuperan docs
relevantes
F=1 todos los docs
recuperados son relevantes
r y P altas F alta

F j =

F [0,1]
1
1

r(j) P(j)
r ( j ) recuperacion j-esimo doc
P j

F j

Almacenamiento y recuperacin de
informacin en la Web

precision j-esimo doc


recuperacion j-esimo doc

Medidas alternativas, II
Medida E (de evaluacin)E j =1-

1+b 2

b2
1

r(j) P(j)
r ( j ) recuperacion j-esimo doc

Combina r y P
b=1 E(j)=1-F(j)
b>1
P j precision j-esimo doc
usuario interesado en P
F j recuperacion j-esimo doc
b<1
b
parametro definido por el usuario
usuario interesado en r

Almacenamiento y recuperacin de
informacin en la Web

Medidas alternativas, III


(orientadas al usuario)
Pretenden tener en cuenta las diferencias existentes entre
usuarios interesados por un doc
Contexto
C: Coleccin de docs de referencia
I: Ejemplo de solicitud de info
R: Conjunto relevante de docs para I
A: Conjunto recuperado
U: Subconjunto de R conocido por el usuario
|U| = Card(U)

AU: docs conocidos por el usuario relevantes y recuperados


|Rk| = Card(AU)
|Ru|
n de docs relevantes desconocidos por el usuario que fueron
recuperados
Almacenamiento y recuperacin de
informacin en la Web

Medidas alternativas, IV
(orientadas al usuario)
|R|

|U|

|A|

|Rk|
Almacenamiento y recuperacin de
informacin en la Web

|Ru|

Medidas alternativas, V
(orientadas al usuario)
Alcance
Fraccin de los docs conocidos relevantes recuperados

RK
alcance=
U
Novedad
Fraccin de los docs desconocidos relevantes recuperados

novedad=

RU
RU RK

Almacenamiento y recuperacin de
informacin en la Web

Medidas alternativas, VI
(orientadas al usuario)
Recuperacin relativa
Cociente entre el n de docs relevantes encontrados y el
n de docs relevantes que el usuario esperaba encontrar
Si encuentra tantos como esperaba --> RR=1

Esfuerzo de recuperacin
Cociente entre el n de docs relevantes que el usuario
esperaba encontrar y el n de docs examinados con el fin
de cubrir el n anterior

Almacenamiento y recuperacin de
informacin en la Web

Colecciones, I
TIPSTER/TREC
TREC Text Retrieval Conference (1990)
Dedicada a experimentacin con colecciones
grandes (1.000.000 docs)
Coleccin TREC: 6 CDs 1Gb cada uno
Docs de: WSJ, AP, FT, etc.
http://trec.nist.gov/

Almacenamiento y recuperacin de
informacin en la Web

TREC, descripcin
Disk
1

4
5
6

Contents

Size (MB)

WSJ, 1987-1989
AP, 1989
ZIFF
FR, 1989
DOE

267
254
242
260
184

WSJ, 1990-1992
AP, 1988
ZIFF
FR, 1988
SJMN, 1991
AP, 1990
ZIFF
PAT, 1993
FT, 1991-1994
FR, 1994
CR, 1993
FBIS
LAT
FBIS

242
237
175
209
287
237
345
243
564
395
235
470
475
490

Number Docs Words/Doc


(median)
98,732
245
84,678
446
75,180
200
25,960
391
226,087
111
74,520
79,919
56,920
19,860
90,257
78,321
161,021
6,711
210,158
55,630
27,922
130,471
131,896
120,653

Almacenamiento y recuperacin de
informacin en la Web

301
438
182
396
379
451
122
4,445
316
588
288
322
351
348

Words/Doc
(mean)
434.0
473.9
473.0
1315.9
120.4
508.4
468.7
451.9
1378.1
453.0
478.4
295.4
5391.0
412.7
644.7
1373.5
543.6
526.5
581.3

Colecciones, II
CACM
3204 artculos de Communications of the ACM (19581979)
Campos
Autores, fecha edicin, palabras clave (reducidas a su raz
gramatical) de ttulo y abstract, referencias entre
artculos, bibliografa, etc.

Incluye un conjunto de 52 solicitudes de informacin.


Ej: Qu artculos hay que traten de TSS (Time
Sharing System), sistema operativo de ordenadores
IBM
El n medio de docs relevantes para cada I es pequeo, en
torno a 15.
Almacenamiento y recuperacin de
informacin en la Web

Colecciones, III
ISI (o CISI)
1460 docs escogidos del ISI (Institute of Scientific
Information)
Los docs escogidos se seleccionaron como los ms citados en
un estudio sobre citacin realizado por Small
Propsito general: facilitar la investigacin sobre similaridades
basadas en trminos y patrones de referencias cruzadas
Campos
Autores, palabras clave (reducidas a su raz gramatical) de ttulo y
abstract y n de cocitaciones para cada par de artculos

Incluye un conjunto de 35 solicitudes de informacin en LN y


qs booleanas y 41 slo en LN.
El n medio de docs relevantes para cada I es grande, en torno a
50.

Almacenamiento y recuperacin de
informacin en la Web

Calidad de los resultados


Se pueden aplicar los criterios de medida de la
IR clsica a la web?
En IR clsica las medidas usadas son:
Precisin: % de pginas recuperadas que son
relevantes
Recuperacin: % de pginas relevantes que son
recuperadas

En web IR:
El trmino relevante se liga al de calidad
Una pgina es valorable si es una pgina de calidad
para el objeto de la bsqueda
Precisin: nmero de pginas valorables recuperadas
Almacenamiento y recuperacin de
informacin en la Web