Anda di halaman 1dari 24

Reconocimiento de Patrones

Tema 3: Estimacin de Distribuciones de Probabilidad

Introduccin

Recordamos:
La forma ptima de realizar el proceso de clasificacin consiste en
la utilizacin del clasificador bayesiano:

Para utilizarlo, sin embargo, es necesario conocer la forma de la


distribucin condicional en cada clase p(x |wi) y la probabilidad a
priori P(wi).
Problema:
En la prctica las distribuciones de probabilidad no se conocen.
Solucin (aproximacin generativa):
Estimar todas las distribuciones de probabilidad mediante un
conjunto de entrenamiento H. De esta forma obtenemos el modelo
probabilstico mediante el cual se gener el conjunto de
entrenamiento

Escuela Tcnica Superior de Ingeniera Informtica. Universidad de La Laguna

Fernando Prez Nava

Elegir wi si p(x |wi) P(wi) > p(x |wj) P(wi) ji

Reconocimiento de Patrones

Aproximacin Generativa

Objetivo:
Estimar p(x|wi) , P(wi), necesarios para aplicar el modelo de
Decisin Bayesiano.
Informacin disponible:
Un conjunto de muestras de entrenamiento H representativas de
las distintas clases, correctamente etiquetadas con su clase de
pertenencia.
Esto es, H= H1 H2 ... Hc, donde cada Hi tiene las muestras de
la clase wi
Asumiremos:
Que las muestras de cada clase no proporcionan informacin
acerca de la otra clase.
Las muestras en cada clase son independientes
Esto permite:
Estimar p(x|wi) , P(wi) nicamente a partir de las muestras en Hi.
Tenemos que resolver el problema de estimacin para cada clase
Problema:
La estimacin de P(wi) es simple, sin embargo la estimacin de
p(x|wi) es un problema complejo

Escuela Tcnica Superior de Ingeniera Informtica. Universidad de La Laguna

Fernando Prez Nava

Tema 3: Estimacin de Distribuciones de Probabilidad

Reconocimiento de Patrones

Tema 3: Estimacin de Distribuciones de Probabilidad

Estrategias de Estimacin

Estimacin Paramtrica
Se basa en suponer que la forma de p(x|wi) es conocida (gausiana,
beta, etc...) y depende de un conjunto de parmetros i .
Principal Ventaja: Los mtodos de estimacin son ms simples y
precisos
Principal Desventaja: Es necesario conocer la forma de la distribucin.
Los mtodos suelen ser sensibles a errores en dicha forma.

Mtodos ms importantes:
Estimacin por Mxima Verosimilitud.
Estimacin mximo a posteriori
Estimacin Bayesiana.

Estimacin no Paramtrica.
No se realiza ninguna asuncin acerca de la forma de p(x|wi)
Principal Ventaja: Mtodos robustos
Principal Desventaja: Mtodos complejos y que requieren un gran
nmero de muestras para una estimacin precisa.

Mtodos ms importantes
Ventanas de Parzen.
Vecinos ms prximos.
Escuela Tcnica Superior de Ingeniera Informtica. Universidad de La Laguna

Fernando Prez Nava

Reconocimiento de Patrones

Tema 3: Estimacin de Distribuciones de Probabilidad

Mtodos paramtricos
Se asume que la forma de las funciones de densidad condicionales
son conocidas y dependen de un conjunto de parmetros i.
Escribiremos esta dependencia como p(x|wi ,i).
Por ejemplo para una normal multidimensional tendremos que
i={i,i}
Sin embargo, se desconoce el valor verdadero del conjunto de
parmetros que la determinan completamente. Este verdadero valor
se estima a partir de un conjunto de entrenamiento mediante un
estimador.
Es importante recordar que:
El valor del estimador (estimacin) depende del conjunto de
entrenamiento y distintos conjuntos de entrenamiento proporcionan
distintas estimaciones.
La estimacin no tiene por qu coincidir con el verdadero valor del
parmetro.

Escuela Tcnica Superior de Ingeniera Informtica. Universidad de La Laguna

Fernando Prez Nava

Estimacin Paramrica (1)

Reconocimiento de Patrones

Tema 3: Estimacin de Distribuciones de Probabilidad

Simplificacion:
Las muestras de la clase wi slo dan informacin acerca del
parmetro de dicha clase i,.
Esto permite trabajar con cada clase por separado y obtener c
problemas de la forma:
Utilizar un conjunto de muestras Hi tomadas de forma
independiente de p(x | wi ,i ) para estimar i

Notacin:
Eliminaremos de la notacin la dependencia de la clase para
simplificar la escritura y escribiremos p(x | ) en vez de p(x | wi ,i )
y H en lugar de Hi.
No obstante debemos recordar siempre que estamos utilizando las
muestras de una nica clase y estimado los parmetros para esa
clase.
Por tanto para completar el clasificador debemos tener resuelto el
problema de estimacin para cada clase por separado.

Escuela Tcnica Superior de Ingeniera Informtica. Universidad de La Laguna

Fernando Prez Nava

Estimacin Paramtrica (2)

Reconocimiento de Patrones

Tema 3: Estimacin de Distribuciones de Probabilidad

EMV: Mtodo

Idea:
Encontrar los valores del conjunto de parmetros que hace mxima
la verosimilitud del conjunto de entrenamiento
Obtencin de la mxima verosimilitud
Si H={x1,x2,...,xn} son muestras generadas de forma independiente
de la funcin de densidad p(x| ) entonces
1.- Calcular la funcin de verosimilitud de todas las muestras:
n

L = p(H | ) = p( x k | )

p(H|)

k =1

2.- Obtener el valor EMV de que hace


mxima la funcin de verosimilitud L.
Para ello puede resolverse la ecuacin:
p(H | ) = 0 , o de forma equivalente:

EMV

Ejemplo:
Estimar la media , y la matriz de una distribucin normal por
EMV, a partir de un conjunto H={x1,x2,...,xn}.
1 n
1 n

EMV = x k ,
EMV = ( x k EMV )( x k EMV )T
n k =1
n k =1

Escuela Tcnica Superior de Ingeniera Informtica. Universidad de La Laguna

Fernando Prez Nava

ln( p(H | )) = 0

Reconocimiento de Patrones

Tema 3: Estimacin de Distribuciones de Probabilidad

EMV: Propiedades
El EMV tiene propiedades muy deseables:
Es asintticamente insesgado: lim E(EMV ) =
n
Significa que la media sobre los valores de los posibles
conjuntos de entrenamiento da el verdadero valor del
parmetro cuando el nmero de muestras del conjunto de
entrenamiento tiende a infinito
P EMV = 1
Es asintticamente consistente: nlim

Significa que cuando el nmero de muestras del conjunto de


entrenamiento tiende a infinito el valor del estimador estar
arbitrariamente cerca del verdadero valor del parmetro.
Es asintticamente eficiente:
Significa que alcanza la menor varianza que cualquier
estimador puede tener cuando el nmero de muestras del
conjunto de entrenamiento tiende a infinito

Escuela Tcnica Superior de Ingeniera Informtica. Universidad de La Laguna

Fernando Prez Nava

Reconocimiento de Patrones

Tema 3: Estimacin de Distribuciones de Probabilidad

La estimacin mediante EMV de las probabilidades a priori P(wi)


es simple y se calcula mediante:
^
P(w
|.|=nmero de elementos
i)=|Hi| / |H|,
Esto es, el cociente entre el nmero de elementos de la clase wi
en el conjunto de entrenamiento y el nmero total de elementos
del conjunto de entrenamiento

Un inciso...
De la misma forma puede comprobarse que la decisin tomada
utilizando el conjunto de entrenamiento para el ejemplo de los
rdalos y salmones del tema anterior est basada en la estimacin
por mxima verosimilitud de las correspondientes funciones de
distribucin para cada clase.

Escuela Tcnica Superior de Ingeniera Informtica. Universidad de La Laguna

Fernando Prez Nava

Estimacin de las probabilidades a priori

Reconocimiento de Patrones

Tema 3: Estimacin de Distribuciones de Probabilidad

Clasificacin tras estimacin por EMV:


Ejemplo

Distribuciones verdaderas:

0 1 0
p(x | w1 ,1 )~ N ,

0 0 1


P(w1)=0.5, P(w2)=0.5
Clasificacin:
Conjunto de testeo:

1 1 0

, p(x | w2 ,2 )~ N ,
1 0 1

50 muestras por clase

Conjunto de entrenamiento:
50 muestras por clase

Estimacin:
0.45 0.02 0.09
,

p ( x | w1 ) ~ N
0
.
32

0
.
09
0
.
53

0.52 2.32 0.73


,

p ( x | w2 ) ~ N
0
.
16

0
.
73
0
.
23

Error de clasificacin estimado:


0.24

Error bayesiano:
0.23

-1

-2
-1.5

-1

-0.5

0.5

1.5

2.5

Ejemplo de clasificacin tras estimacin mediante EMV


Circulos: muestras de la clase 1
Aspas: muestras de la clase 2
Linea negra: Frontera de decisin a partir de la estimacin
Linea roja: Frontera de decisin bayesiana

Escuela Tcnica Superior de Ingeniera Informtica. Universidad de La Laguna

Fernando Prez Nava

Reconocimiento de Patrones

Tema 3: Estimacin de Distribuciones de Probabilidad

Mtodos no Paramtricos (M.n.P.)

Mtodos no Paramtricos:
Es un conjunto de mtodos que no necesita informacin acerca de la forma
de las funciones de densidad condicionales p(x | wi)
Simplificacin:
Se asume que los elementos de Hi solo dan informacin sobre dicha clase.
Esto permite resolver c problemas independientes
Notacin:
Eliminaremos de la notacin la dependencia de la clase para simplificar la
escritura y escribiremos p(x) en lugar de p(x | wi ) y H en lugar de Hi
No obstante debemos recordar siempre que estamos utilizando las
muestras de una nica clase y por tanto para completar el clasificador
debemos tener resuelto el problema de estimacin para cada clase por
separado.
Algunos Procedimientos:
Ventanas de Parzen
Se estima la funcin de densidad p(x) examinando el conjunto de entrenamiento
H en un entorno de x que cuya forma no depende de H

k- Vecinos ms prximos
Se estima la funcin de densidad p(x) examinando el conjunto de entrenamiento
H en un entorno de x cuya forma depende de H
Escuela Tcnica Superior de Ingeniera Informtica. Universidad de La Laguna

Fernando Prez Nava

Reconocimiento de Patrones

Tema 3: Estimacin de Distribuciones de Probabilidad

M.n.P.: Aspectos Generales

Objetivo: Estimar p(x) a partir de H


Metodologa:
Disear una regin R del espacio de caractersticas, que contiene
a x y lo suficientemente pequea para asumir que la funcin de
densidad p(x) es aproximadamente constante.
A partir de las n muestras independientes presentes en H,
generadas de acuerdo a la funcin de densidad p(x), y siendo k el
nmero de muestras que caen en R estimar:
p ( x ) =

k n
,
V

V =

dx
R

x
R

p ( x ) =

Ejemplo de Estimacin de p(x)

Escuela Tcnica Superior de Ingeniera Informtica. Universidad de La Laguna

5 / 18
V

Fernando Prez Nava

k=5
n=18
V=rea de R

Reconocimiento de Patrones

Tema 3: Estimacin de Distribuciones de Probabilidad

Convergencia de la Estimacin

Convergencia
Una condicin deseable es la convergencia de la estimacin de
p(x) a su verdadero valor cuando el tamao del conjunto de
entrenamiento tiende a infinito.
Condiciones de Convergencia
Para expresar la dependencia de k y V del tamao del conjunto de
entrenamiento n escribiremos:
k n
p n ( x ) = n
Vn
Con el siguiente resultado se asegura la convergencia de dicha
estimacin:
lim Vn = 0, lim k n = , lim k n / n = 0 lim p n ( x ) = p( x )
n

Esto es, cuando el tamao del conjunto de entrenamiento tiende a


infinito tiene que cumplirse:
1. El volumen de la regin Vn debe tender a 0
2. El nmero de puntos en la regin debe tender a
3. La frecuencia relativa de los puntos en la regin debe tender a 0
Escuela Tcnica Superior de Ingeniera Informtica. Universidad de La Laguna

Fernando Prez Nava

Reconocimiento de Patrones

Tema 3: Estimacin de Distribuciones de Probabilidad

Ventanas de Parzen:Preliminares

Histogramas
La forma ms simple de estimacin de funciones de densidad es
mediante la creacin de un histograma de frecuencias relativas.
En un histograma unidimensional se puede elegir el nmero de
celdas M y el punto de comienzo de la divisin en intervalos

Desventajas
Cuando se tienen d caractersticas no es factible construir el
histograma debido a que el nmero de celdas es exponencial ( Md )
en el nmero de caractersticas d.

Escuela Tcnica Superior de Ingeniera Informtica. Universidad de La Laguna

Fernando Prez Nava

Estimacin de funciones de densidad mediante histogramas para distintos valores de M

Reconocimiento de Patrones

Tema 3: Estimacin de Distribuciones de Probabilidad

Ventanas de Parzen:Introduccin

Idea inicial:
Fijar un tamao de regin, construirla nicamente alrededor del
punto x para el que se desea estimar su probabilidad y aplicar la
frmula de los mtodos no paramtricos:
k n
p ( x ) =
V
Vamos a formalizarlo:
Caso unidimensional
La celda es un intervalo centrado en x de longitud h
Hallaremos k de una forma un tanto especial:
1 | t | 1 2
Primero definimos
la
funcin

(
t
)
=

n
0 otro caso
Entonces k= (( x x i ) h )
i =1

p ( x ) =

k n 1 n (( x x i ) h ) 1 n
p ( x ) =
=
= (x x i ),
V
n
V
n i =1
i =1
34
h

x1

(x) =

1 x
, V = h
V h

x
x3 x4

x2

h/2

h/2

Ventanas de Parzen

x1

x2

Escuela Tcnica Superior de Ingeniera Informtica. Universidad de La Laguna

x3 x4

Fernando Prez Nava

Finalmente la estimacin es:

Reconocimiento de Patrones

Tema 3: Estimacin de Distribuciones de Probabilidad

Ventanas de Parzen: Caso


Multidimensional

Caso multidimensional
La celda es un hipercubo centrado en x
y la longitud de cada lado es h

h /2

h /2

-h/2
- h /2

Hipercubo en 2-D

De nuevo hallamos k de una forma especial:


1 | x | 1 2
Primero definimos la funcin ( x ) = ( x1, x 2,..., xd ) = 0 otroi caso

igual a 0 salvo dentro del hipercubo centrado en 0 y de longitud


de lado 1/2 donde vale 1.
n

Entonces k=

(( x x i ) h)

Finalmente la estimacin es:


k n 1 n (( x x i ) h ) 1 n
p ( x ) =
=
= (x x i ),
V
n i =1
V
n i =1

(x ) =

1 x
, V = h d
V h

Escuela Tcnica Superior de Ingeniera Informtica. Universidad de La Laguna

Fernando Prez Nava

i =1

Reconocimiento de Patrones

Tema 3: Estimacin de Distribuciones de Probabilidad

Ventanas de Parzen:Funciones ncleo

Problema:
1 n
La estimacin p ( x ) = (x x i ) genera funciones de densidad
n i =1
discontinuas (pues las funciones son discontinuas).
Generalmente se suele trabajar con funciones de densidad
continuas
Solucin
Generalizar la nocin de histograma variando la funcin ncleo
utilizando por ejemplo una gausiana: G(x)=1/(2h2)d/2 exp( (-1/2)
xx) que suelen proporcionar una estimacin ms suave.

Estimacin de Parzen mediante las funciones ncleo gausianas para 5 muestras y distintos valores de h
Grficos de: Richard O. Duda, Peter E. Hart, and David G. Stork, Pattern Classification. Copyright (c) 2001 por John Wiley & Sons, Inc.

Escuela Tcnica Superior de Ingeniera Informtica. Universidad de La Laguna

Fernando Prez Nava

Funciones ncleo gausianas para distintos valores de h

Reconocimiento de Patrones

Tema 3: Estimacin de Distribuciones de Probabilidad

Ventanas de Parzen: La eleccin de h

Todava mas problemas...


La estimacin depende de h. Si h es muy grande la estimacin es
muy suave. Si por el contrario h es muy pequeo la estimacin
suele tener variaciones bruscas inaceptables (se produce
sobreajuste).

Una solucin:
Dividir el conjunto de entrenamiento en dos partes: uno para testeo
y otro para validacin. Utilizar el conjunto de entrenamiento para
definir distintas estimaciones en funcin de h. Posteriormente elegir
aquel valor de h para el que la probabilidad del conjunto de
validacin sea mxima.
Grficos de: Richard O. Duda, Peter E. Hart, and David G. Stork, Pattern Classification. Copyright (c) 2001 por John Wiley & Sons, Inc.

Escuela Tcnica Superior de Ingeniera Informtica. Universidad de La Laguna

Fernando Prez Nava

Estimacin de Parzen de una funcin de distribucin gausiana para distintos valores de h y n

Reconocimiento de Patrones

Tema 3: Estimacin de Distribuciones de Probabilidad

Clasificacin por Ventanas de Parzen:


Ejemplo

Distribuciones verdaderas:
0 1 0
p(x | w1 ,1 )~ N ,

0
0
1

1 1 0

, p(x | w2 ,2 )~ N ,
1 0 1

P(w1)=0.5, P(w2)=0.5

Clasificacin:
Conjunto de testeo:
50 muestras por clase

Conjunto de entrenamiento:
50 muestras por clase

Valor ptimo calculado para h:

2.154
0.32

Error bayesiano:
0.23

-1

-2
-1.5

-1

-0.5

0.5

1.5

2.5

Ejemplo de clasificacin tras estimacin mediante Parzen


Circulos: muestras de la clase 1
Aspas: muestras de la clase 2
Linea negra: Frontera de decisin a partir de la estimacin
Linea roja: Frontera de decisin bayesiana

Escuela Tcnica Superior de Ingeniera Informtica. Universidad de La Laguna

Fernando Prez Nava

Error de clasificacin estimado:

Reconocimiento de Patrones

Tema 3: Estimacin de Distribuciones de Probabilidad

Estimacin por k- vecinos ms prximos


Idea:
Parece que en zonas con pocas muestras deberamos hacer la
regin grande mientras que en zonas con pocas muestras la
podemos hacer pequea. Una idea sera entonces fijar el nmero
de muestras que queremos en la regin alrededor del punto x para
el que se desea estimar su probabilidad y aplicar la frmula de los
mtodos no paramtricos:
k n
p ( x ) =
V

Estimacin mediante k-vecinos (k=3,5) y 8 muestras

Estimacin mediante k-vecinos en 2 dimensiones

Grficos de: Richard O. Duda, Peter E. Hart, and David G. Stork, Pattern Classification. Copyright (c) 2001 por John Wiley & Sons, Inc.

Escuela Tcnica Superior de Ingeniera Informtica. Universidad de La Laguna

Fernando Prez Nava

Reconocimiento de Patrones

Tema 3: Estimacin de Distribuciones de Probabilidad

Estimacin directa de p (wi |x)

Recordemos:
El clasificador ptimo bayesiano se puede construir hallando la
clase para la que es mxima la probabilidad a posteriori: p (wi |x)
Entonces:
Supongamos que el conjunto de datos H contiene ni muestras en la
clase wi y n muestras en total.
Supongamos que fijamos una regin R de volumen V para todas
las clases
Como sabemos, debemos resolver un problema de estimacin por
clase. Para la clase wi la estimacin ser:
k n
p ( x | wi ) = i i
V
ni
k
Entonces si utilizamos p (w i ) =
tendremos p (w i | x ) = i
n
k
La regla es simple: Seleccionar la clase con mayor nmero de
elementos en la regin R.
La regin R puede definirse mediante el esquema de las ventanas
de Parzen o los k-vecinos. Este ltimo esquema lleva a la
clasificacin por vecinos ms cercanos.

Escuela Tcnica Superior de Ingeniera Informtica. Universidad de La Laguna

Fernando Prez Nava

Reconocimiento de Patrones

Tema 3: Estimacin de Distribuciones de Probabilidad

Clasificacin por el vecino ms prximo

Clasificacin (1-vecino ms prximo)


Dado el conjunto H de muestras se clasifica x como perteneciente
a la clase de su vecino ms prximo en H.
Probabilidad de Error
Si P* es la probabilidad de error bayesiano (mnima), P la de la
regla 1-NN, c el nmero de clases y n el nmero de muestras en H:

Clasificacin mediante el vecino ms prximo en 1 y 2 dimensiones


Grficos de: Richard O. Duda, Peter E. Hart, and David G. Stork, Pattern Classification. Copyright (c) 2001 por John Wiley & Sons, Inc.

Escuela Tcnica Superior de Ingeniera Informtica. Universidad de La Laguna

Fernando Prez Nava

P* P P*2
P * < 2P * , para n
c 1

Reconocimiento de Patrones

Tema 3: Estimacin de Distribuciones de Probabilidad

Clasificacin por k-vecinos ms prximos

Clasificacin (k-vecinos ms prximos)


Dado el conjunto H de muestras se clasifica x como perteneciente
a la clase mayoritaria entre sus k vecinos ms prximos de H.
Probabilidad de Error
Se aproxima a la Probabilidad de Error Bayesiano, cuando tanto k,
como el nmero de muestras n, tienden a infinito.
La probabilidad de error se puede acotar:
P * PkNN P * +

1
ke

Qu valor elegir para k?


Se suele dividir el conjunto de entrenamiento en dos partes: uno
para testeo y otro para validacin. Utilizar el conjunto de
entrenamiento para construir el clasificador para distintos valores
de k. Posteriormente elegir aquel valor de k para el que la
probabilidad de error sea mnima sobre el conjunto de validacin

Escuela Tcnica Superior de Ingeniera Informtica. Universidad de La Laguna

Fernando Prez Nava

Reconocimiento de Patrones

Tema 3: Estimacin de Distribuciones de Probabilidad

Clasificacin por k-vecinos: Ejemplo

Distribuciones verdaderas:
0 1 0
p(x | w1 ,1 )~ N ,

0
0
1

1 1 0

, p(x | w2 ,2 )~ N ,
1 0 1

P(w1)=0.5, P(w2)=0.5

Clasificacin:
Conjunto de testeo:
50 muestras por clase

Conjunto de entrenamiento:

50 muestras por clase

Valor ptimo calculado para k:


8

-1

Error de clasificacin estimado:


Error bayesiano:
0.23

-2
-1.5

-1

-0.5

0.5

1.5

2.5

Ejemplo de clasificacin por k-vecinos


Circulos: muestras de la clase 1
Aspas: muestras de la clase 2
Linea negra: Frontera de decisin a partir de la estimacin
Linea roja: Frontera de decisin bayesiana

Escuela Tcnica Superior de Ingeniera Informtica. Universidad de La Laguna

Fernando Prez Nava

0.28

Reconocimiento de Patrones

Tema 3: Estimacin de Distribuciones de Probabilidad

En este tema hemos visto mtodos para estimar la estructura de


probabilidad necesaria para aplicar la regla de clasificacin bayesiana.
Las buenas noticias...
Cuando la forma de la funcin de densidad condicional p(x | wi ) es conocida
y depende nicamente de un vector de parmetros (caso paramtrico) se
dispone de estimadores con buenas propiedades. Adems el coste
computacional del clasificador depende del nmero de caractersticas.
Aun en el caso de que la forma de la funcin de densidad condicional p(x |
wi ) sea desconocida (caso no paramtrico) se dispone tambin de mtodos
de estimacin. Algunos muy simples como los k-vecinos.
Adems obtenemos un modelo probabilstico de la forma de generacin de
los datos
Las malas noticias...
La forma de p(x | wi ) raramente es conocida en problemas complejos.
Cuando la forma de p(x | wi ) es errnea el clasificador suele ofrecer malos
resultados (no es robusto frente a errores en forma de la distribucin).
Los mtodos no paramtricos necesitan un gran nmero de muestras para
ofrecer resultados precisos. Adems el coste computacional del clasificador
depende del nmero de muestras.
Los mtodos no paramtricos son tan flexibles que pueden sufrir de
sobreajuste. Es necesario fijar determinados parmetros para que esto no
ocurra.

Escuela Tcnica Superior de Ingeniera Informtica. Universidad de La Laguna

Fernando Prez Nava

Resumiendo...