Anda di halaman 1dari 49

El Modelo Probabilstico:

Caractersticas y Modelos Derivados

Jesus Vilares
Grupo de Lengua y Sociedad de la Informacion (LYS)

Universidade da Coruna

jvilares@udc.es

J. Vilares El Modelo Probabilstico: Caractersticas y Modelos Derivados p. 1


ndice
Introduccin
Conceptos de Teora de Probabilidades
Principio de Ordenacin por Probabilidad
Modelo de Independencia Binaria
Okapi BM25
Paradigma DFR
Conclusin

J. Vilares El Modelo Probabilstico: Caractersticas y Modelos Derivados p. 2


ndice
Introduccin
Conceptos de Teora de Probabilidades
Principio de Ordenacin por Probabilidad
Modelo de Independencia Binaria
Okapi BM25
Paradigma DFR
Conclusin

J. Vilares El Modelo Probabilstico: Caractersticas y Modelos Derivados p. 2


Recuperacin de Informacin (RI)

J. Vilares El Modelo Probabilstico: Caractersticas y Modelos Derivados p. 3


Terminologa
Documento: unidad de texto almacenada y disponible
para su recuperacin; p.ej., pginas web, artculos de
prensa, tesis, ...

Coleccin: repositorio de documentos en los que


buscar

Trminos: unidades lxicas (palabras) que componen


un documento/consulta

Consulta (query): representacin en forma de


trminos, de la necesidad de informacin del usuario

J. Vilares El Modelo Probabilstico: Caractersticas y Modelos Derivados p. 4


Terminologa (cont.)
Relevancia de un documento:
Calculada por el sistema respecto a la consulta
Juzgada por el usuario respecto a la necesidad de
informacin en su cabeza (subjetividad)

Ordenacin (ranking): los documentos suelen


devolverse ordenados por relevancia

Peso de un trmino: medida de su representatividad


Frecuencia dentro del documento
Distribucin dentro de la coleccin
Longitud del documento

J. Vilares El Modelo Probabilstico: Caractersticas y Modelos Derivados p. 5


Paradigma Bag-of-Terms
Def.: representacin de documentos/consultas como conjunto
de trminos ndice

Ppo. de composicionalidad de Frege: "la semntica de un


objeto puede obtenerse a partir de la semntica de sus
componentes"
Si una palabra aparece en un texto, dicho texto trata dicho
tema
Si una consulta y un documento comparten uno/ms
trminos ndice, el documento debera tratar el tema de
la consulta

J. Vilares El Modelo Probabilstico: Caractersticas y Modelos Derivados p. 6


Modelos de Recuperacin
Establecen:

Cmo representar los documentos


Cmo representar la consulta
Cmo compararlos

J. Vilares El Modelo Probabilstico: Caractersticas y Modelos Derivados p. 7


Otros Modelos
Modelo vectorial como ejemplo

Base matemtica: lgebra vectorial

Consultas y documentos representados como vectores en


un espacio multidimensional

1 dimensin por trmino vocabulario

P.ej. Vocabulario tamao M espacio M -dimensional




Documento dj : vector dj = ( w1j , w2j , . . . , wM j )
Consulta q: vector

q = (w , w , ..., w )
1q 2q Mq

donde wij 0 y wiq 0 los pesos del trmino ti en dj y q

J. Vilares El Modelo Probabilstico: Caractersticas y Modelos Derivados p. 8


Otros Modelos (cont.)

dj
lenguaje

procesamiento

0
-
natural

Si los vectores de consulta y documento estn


prximos, asumimos que documento es similar a la
consulta (i.e., posiblemente relevante)

J. Vilares El Modelo Probabilstico: Caractersticas y Modelos Derivados p. 9


Otros Modelos (cont.)
Medida proximidad (similaridad): coseno del ngulo
formado por los vectores:
M
P


wij wiq
dj q i=1
sim(dj , q) = cos () = =
| dj | |

s s
q| M
P M
P
w2 ij w2 iq
i=1 i=1

J. Vilares El Modelo Probabilstico: Caractersticas y Modelos Derivados p. 10


Otros Modelos (cont.)
Base formal?
S.

Forma calcular correspondencias, es la mejor/ms


adecuada?
No sabemos, no hay nada que nos lo permite afirmar.

J. Vilares El Modelo Probabilstico: Caractersticas y Modelos Derivados p. 11


(Familia) Modelos Probabilsticos
Sistema IR:
Comprensin incierta de la necesidad/consulta.
Conjeturar acerca de si el contenido del documento
es relevante.

Marco formal de trabajo: teora de probabilidades


Probabilidad de relevancia vs. medida similaridad

J. Vilares El Modelo Probabilstico: Caractersticas y Modelos Derivados p. 12


ndice
Introduccin
Conceptos de Teora de Probabilidades
Principio de Ordenacin por Probabilidad
Modelo de Independencia Binaria
Okapi BM25
Paradigma DFR
Conclusin

J. Vilares El Modelo Probabilstico: Caractersticas y Modelos Derivados p. 13


Conceptos de Teora de Probabilidades

P (A) probabilidad de que un suceso A ocurra


P (A) probabilidad de que un suceso A no ocurra
P (A) + P (A) = 1

P (A|B) probabilidad (condicionada) de que suceda A si ocurre B


P (A|B) probabilidad (condicionada) de que no suceda A si ocurre B

P (A|B) + P (A|B) = 1

A y B independientes entre s:

P (A|B) = P (A) P (B|A) = P (B)


P (A, B) = P (A B) = P (A) P (B)
J. Vilares El Modelo Probabilstico: Caractersticas y Modelos Derivados p. 14
Conceptos de Teora de Probabilidades (cont.)

Teorema de Bayes:

P (B|A) P (A)
P (A|B) =
P (B)

permitiendo expresar P (A|B) en trminos de P (B|A).

Razn odds (odds ratio) de un suceso A:

P (A)
O(A) =
P (A)

J. Vilares El Modelo Probabilstico: Caractersticas y Modelos Derivados p. 15


ndice
Introduccin
Conceptos de Teora de Probabilidades
Principio de Ordenacin por Probabilidad
Modelo de Independencia Binaria
Okapi BM25
Paradigma DFR
Conclusin

J. Vilares El Modelo Probabilstico: Caractersticas y Modelos Derivados p. 16


Ppo. de Ordenacin por Probabilidad

Base de los modelos probabilsticos:


la recuperacin ptima es aqulla en la que
los documentos son devueltos ordenados en
orden decreciente de acuerdo a su probabilidad
de relevancia respecta a la consulta

J. Vilares El Modelo Probabilstico: Caractersticas y Modelos Derivados p. 17


Ppo. de Ordenacin por Probabilidad (cont.)

Sean:
P (R|dj , q) probabilidad de que un documento dj
sea relevante para una consulta q
P (R|dj , q) probabilidad de que un documento dj
no sea relevante para una consulta q

Documentos devueltos por orden de probabilidad


de relevancia P (R|dj , q)

Documento es relevante si P (R|dj , q) > P (R|dj , q)

J. Vilares El Modelo Probabilstico: Caractersticas y Modelos Derivados p. 18


ndice
Introduccin
Conceptos de Teora de Probabilidades
Principio de Ordenacin por Probabilidad
Modelo de Independencia Binaria
Okapi BM25
Paradigma DFR
Conclusin

J. Vilares El Modelo Probabilstico: Caractersticas y Modelos Derivados p. 19


Bases del Modelo
El ms sencillo de los probabilsticos.

Hiptesis clster :
los trminos estn distribuidos de forma diferente
en los documentos relevantes y no relevantes

Binario (booleano): slo tendremos en cuenta si un trmino


aparece o no en un documento, no cuntas veces:


dj = ( w1j , w2j , . . . , wM j )

donde wij = 1 si ti Dj (trmino ti est en documento dj )


wij = 0 si ti
/ Dj (trmino ti no est en documento dj )

J. Vilares El Modelo Probabilstico: Caractersticas y Modelos Derivados p. 20


Bases del Modelo (cont.)
Independencia:
Distribucin de un trmino en la coleccin independiente
de la de otros
Relevancia de un documento independiente de la de otros

J. Vilares El Modelo Probabilstico: Caractersticas y Modelos Derivados p. 21


Formulacin



Trabajaremos con O(R| dj , q ) en lugar de con P (R| dj ,
q ):



P (R| d j , q)
O(R| dj , q ) =

P (R| dj , q)

Al aplicar el Teorema de Bayes:









P (R| q ) P ( d j |R, q )
P ( d j |R, q)
O(R| dj , q ) =
= O(R| q )


P (R| q ) P ( dj |R, q ) P ( dj |R,
q)

Al asumir que los trminos son independientes entre s:


Y P (wij |R,
M
q)


O(R| dj , q ) = O(R| q )
P (w |R,

q)
i=1 ij

J. Vilares El Modelo Probabilstico: Caractersticas y Modelos Derivados p. 22


Formulacin (cont.)
Agrupamos los operandos de los trminos segn aparezcan o
no en el documento:

Y P (wij = 1|R,

q ) Y P (wij = 0|R,

q)


O(R| dj , q ) = O(R| q )


P (w = 1|R, q ) P (w = 0|R,
q)
ti Dj ij ti D
/ j ij

Simplificamos la notacin:

pi = P (wij = 1|R,

q) prob. trmino ti aparezca en doc. relevante
u = P (w = 1|R,
i ij

q) prob. trmino ti aparezca en doc. no relevante




Y pi Y 1 pi
O(R| dj , q ) = O(R| q )
ui 1 ui
ti Dj ti D
/ j

J. Vilares El Modelo Probabilstico: Caractersticas y Modelos Derivados p. 23


Formulacin (cont.)
Obviamos trminos ajenos a la consulta:



Y pi Y 1 pi
O(R| dj , q ) = O(R| q )
ui 1 ui
ti Q ti Q
ti Dj ti D
/ j

Operando sucesivamente:

(. . .)





Y p (1 u )
i i
Y 1 pi
O(R| dj , q ) = O(R| q )

ui (1 pi ) 1 ui
ti Q ti Q
ti Dj

J. Vilares El Modelo Probabilstico: Caractersticas y Modelos Derivados p. 24


Formulacin (cont.)
Slo nos interesa la ordenacin, no el valor concreto:
Eliminamos factores constantes (mantiene ordenacin)
Aplicamos logaritmos (mantiene ordenacin)
Retrieval Status Value
Y pi (1 ui ) X pi (1 ui )
RSVdj q = log = log
ui (1 pi ) ui (1 pi )
ti Q ti Q
ti Dj ti Dj

Considerando cada trmino de la consulta por separado:


X pi (1 ui ) pi / (1 pi )
RSVdj q = ci con ci = log = log
ui (1 pi ) ui / (1 ui )
ti Q
ti Dj

J. Vilares El Modelo Probabilstico: Caractersticas y Modelos Derivados p. 25


Formulacin (cont.)
pi / (1 pi )
ci = log
ui / (1 ui )

Tmino ms probable en relevantes (pi > ui ): ci > 0.

Tmino ms probable en no relevantes (pi < ui ): ci < 0.

Trmino igualmente probable (pi = ui ): ci = 0.

J. Vilares El Modelo Probabilstico: Caractersticas y Modelos Derivados p. 26


Estimacin de Probabilidades
pi / (1 pi )
ci = log
ui / (1 ui )

Problema: desconocemos pi y ui

Solucin: estimacin a partir de subconjunto resultado inicial


(relevance feedback ):
Obtenemos conjunto resultado inicial
Comprobamos cules son relevantes
Estimamos pi y ui a partir de estos conjuntos

J. Vilares El Modelo Probabilstico: Caractersticas y Modelos Derivados p. 27


Estimacin de Probabilidades (cont.)

Conocemos:
|V |, no docs. relevantes devueltos
|Vi |, no docs. relevantes devueltos contienen trmino t i
N , no docs. en coleccin
dfi , no docs. en coleccin contienen trmino ti
J. Vilares El Modelo Probabilstico: Caractersticas y Modelos Derivados p. 28
Estimacin de Probabilidades (cont.)

Aproximamos pi mediante la proporcin de docs. relevantes


devueltos que contienen trmino ti :

|Vi |
pi
|V |

J. Vilares El Modelo Probabilstico: Caractersticas y Modelos Derivados p. 29


Estimacin de Probabilidades (cont.)

Suponiendo resto son no relevantes, aproximamos u i


mediante la proporcin de docs. no relevantes que
contienen trmino ti :
dfi |Vi |
ui
N |V |

J. Vilares El Modelo Probabilstico: Caractersticas y Modelos Derivados p. 30


Estimacin de Probabilidades (cont.)
Sustituyendo y operando:
Factores de ajuste

pi / (1pi )
ci = log ui / (1ui )

(. . .)
(|Vi |+0,5) / (|V ||Vi |+0,5)
log (dfi |Vi |+0,5) / (N dfi |V |+|Vi |+0,5)

denominado peso Robertson-Sparck Jones

J. Vilares El Modelo Probabilstico: Caractersticas y Modelos Derivados p. 31


ndice
Introduccin
Conceptos de Teora de Probabilidades
Principio de Ordenacin por Probabilidad
Modelo de Independencia Binaria
Okapi BM25
Paradigma DFR
Conclusin

J. Vilares El Modelo Probabilstico: Caractersticas y Modelos Derivados p. 32


Okapi BM25
Modelo de referencia (entre los mejores)

Evolucin del modelo de dependencia binaria,


introduce:
No apariciones del trmino en el documento
Longitud del documento

J. Vilares El Modelo Probabilstico: Caractersticas y Modelos Derivados p. 33


Formulacin: Base Inicial
Partimos de la expresin del modelo de independencia
binaria bsico:
X
RSVdj q = ci
ti Q
ti Dj

J. Vilares El Modelo Probabilstico: Caractersticas y Modelos Derivados p. 34


Formulacin: Frec. Trmino
Ponderar no apariciones del trmino en el documento:
frecuencia del trmino ti en el documento dj (tfij )

Introducir funcin de peso del trmino en el documento


en base a su frecuencia:
X (k1 + 1) tfij
RSVdj q = ci
k1 + tfij
ti Q
ti Dj

Constante de ajuste k1 :
k1 = 0: comportamiento binario original
k1 muy alto: devolvera valores prximos a tfij

J. Vilares El Modelo Probabilstico: Caractersticas y Modelos Derivados p. 35


Formulacin: Frec. Trmino (cont.)
dem para frecuencia de los trminos en la consulta:
X (k1 + 1) tfij (k3 + 1) tfiq
RSVdj q = ci
k1 + tfij k3 + tfiq
ti Q
ti Dj

J. Vilares El Modelo Probabilstico: Caractersticas y Modelos Derivados p. 36


Formulacin: Longitud Doc.
Ponderar longitud del documento

Introducimos longitud dlj del documento dj , normalizada


respecto a la longitud media de los documentos de la
coleccin (dlavg ):
X (k1 + 1) tfij (k3 + 1) tfiq
RSVdj q = ci
K + tfij k3 + tfiq
ti Q
ti Dj

con K = k1 ((1 b) + b dlj /dlavg )

Constante de ajuste b [0, 1]:


b = 0: se desestima longitud
b = 1: aplicacin plena
J. Vilares El Modelo Probabilstico: Caractersticas y Modelos Derivados p. 37
ndice
Introduccin
Conceptos de Teora de Probabilidades
Principio de Ordenacin por Probabilidad
Modelo de Independencia Binaria
Okapi BM25
Paradigma DFR
Conclusin

J. Vilares El Modelo Probabilstico: Caractersticas y Modelos Derivados p. 38


Paradigma DFR
Divergence From Randomness (DFR): metodologa para
construir modelos de recuperacin

Diferencias respecto modelos probabilsticos clsicos:


Metodologa, no modelo.
No paramtrico: no hay parmetros a ajustar (ej. k1 , k3 y b
en BM25).
Ganancia de informacin vs. probabilidad de relevancia.

Idea:
Asumir distribucin aleatoria de los trminos en los docs.
Si una palabra aparece en un doc. mucho ms de lo
esperado, ese doc. trata ese tema.

J. Vilares El Modelo Probabilstico: Caractersticas y Modelos Derivados p. 39


Paradigma DFR: Componentes
Un modelo DFR tiene 3 componentes:
X
RSVdj q = wij con wij = tfiq Inf1 (tf nij )Prisk (tf nij )
ti Q

Inf1 , contenido informativo del trmino ti en doc. dj


Prisk , riesgo asumido al aceptar ti como descriptor vlido
del doc. dj
tf nij , frecuencia tfij del trmino ti en doc. dj tras ser
normalizada respecto a longitud del doc.

J. Vilares El Modelo Probabilstico: Caractersticas y Modelos Derivados p. 40


Comp. 1: Modelo Aleatorio
Modelo de distribucin de los trminos
P rob1 (tfij ): probabilidad trmino ti aparezca tfij veces en
doc. dj

Inf1 , contenido informativo del trmino ti en doc. dj

Inf1 = log2 P rob1

trmino con alta probabilidad de aparecer en un doc. ("de


no-especialidad"): escaso contenido informativo
trmino con poca probabilidad de aparecer en un doc. ("de
especialidad"): alto contenido informativo

J. Vilares El Modelo Probabilstico: Caractersticas y Modelos Derivados p. 41


Comp. 1: Ejemplos
Distribucin binomial:
 
T Fi 1
P rob1 (tfij ) = ptfij q T Fij tf ij con p= y q = 1p
tfij N

donde tfij es la frecuencia del trmino ti en el documento dj


T Fi es la frecuencia total del trmino ti en la coleccin
N es el nmero de documentos en la coleccin

Distribucin geomtrica:
   tfij !
1 T Fi
P rob1 (tfij ) = log2 con =
1+ 1+ N

J. Vilares El Modelo Probabilstico: Caractersticas y Modelos Derivados p. 42


Comp. 2: Primera Normalizacin
Sea un trmino poco comn ("de especialidad") que aparece
en un doc. ...
... muy pocas veces: puede ser por casualidad, no conviene
usarlo (riesgo alto)
... muchas veces: seguro relacionado con el tema,
debemos usarlo (riesgo bajo)

Ponderar contenido informativo (Inf1 ) respecto riesgo al


tomarlo como descriptor (Prisk )

J. Vilares El Modelo Probabilstico: Caractersticas y Modelos Derivados p. 43


Comp. 2: Ejemplos
Normalizacin L:
1
Prisk =
tfij + 1

Normalizacin B:
T Fi + 1
Prisk =
dfi (tfij + 1)

donde T Fi es la frecuencia total del trmino ti en la coleccin


dfi es no docs. que contienen el trmino ti .

J. Vilares El Modelo Probabilstico: Caractersticas y Modelos Derivados p. 44


Comp. 3: Segunda Normalizacin
Normalizar la frecuencia tfij del trmino ti en el documento
dj en base a:
Longitud del documento (dlj )
Longitud media de los documentos (dlavg )

Ejemplos:
dlavg
tf nij = tfij
dlj
 
dlavg
tf nij = tfij log2 1 +
dlj

J. Vilares El Modelo Probabilstico: Caractersticas y Modelos Derivados p. 45


ndice
Introduccin
Conceptos de Teora de Probabilidades
Principio de Ordenacin por Probabilidad
Modelo de Independencia Binaria
Okapi BM25
Paradigma DFR
Conclusin

J. Vilares El Modelo Probabilstico: Caractersticas y Modelos Derivados p. 46


Conclusin
Base formal: teora de probabilidades

Ppo. de Ordenacin por Probabilidad


Ordenacin por probabilidad de relevancia
Recuperacin ptima

J. Vilares El Modelo Probabilstico: Caractersticas y Modelos Derivados p. 47


Conclusin (cont.)
Modelo de Independencia Binaria
Modelo bsico

Okapi BM25
Evolucin: frecuencia del trmino + longitud

Paradigma DFR
Metodologa vs. modelo
Ganancia de informacin vs. probabilidad de relevancia

J. Vilares El Modelo Probabilstico: Caractersticas y Modelos Derivados p. 48