Anda di halaman 1dari 29

Reconocimiento de Patrones

Tema 2: Reconocimiento Estadstico de Patrones

Por qu una aproximacin estadstica en el RP?


La utilizacin de caractersticas para representar una entidad provoca una
prdida de informacin. Esto implica que los valores de las caractersticas
tienen asociado un determinado nivel de certeza.
El Reconocimiento Estadstico de Patrones (REP) se basa en:
Considerar un patrn como un conjunto de d caractersticas numricas que
se interpretan como un vector d dimensional
Asumir que la certeza de que el vector represente una determinada entidad
viene dada a travs de una distribucin de probabilidad asociada a las
caractersticas
Es la aproximacin ms extendida debido a:
La fundamentacin de la aproximacin en una teora matemtica slida
como la teora de la probabilidad.
Su mayor presencia temporal en el rea de RP (desde finales de los aos
30).
Su mayor aplicabilidad:
Clasificacin con valores de las caractersticas perdidas
Toma de decisiones que minimizan la prdida esperada

Escuela Tcnica Superior de Ingeniera Informtica. Universidad de La Laguna

Fernando Prez Nava

Introduccin

Reconocimiento de Patrones

Tema 2: Reconocimiento Estadstico de Patrones

Cuando estamos en un entorno en el que no existe certeza


absoluta es necesario tener alguna forma de modelar la
incertidumbre.
Dentro de la IA existen muchas formas de modelar la
incertidumbre: probabilidad, lgica difusa, teora de DempsterShaffer.
Puede comprobarse (Cox 1946) que si se pretende trabajar de
forma consistente con niveles de certeza, stos nmeros deben
cumplir las reglas de la teora de la probabilidad.
La Teora de la Probabilidad (TP) asocia un valor numrico entre 0
y 1 a la certeza en un evento. La certeza absoluta de que un
evento ocurrir toma el valor 1 y la certeza completa de que un
evento no ocurrir toma el valor 0.

(Cox, 1946)

Cox R.T, Probability, Frequency, and Reasonable Expectation, Am. Jour. Phys., 14, 1-13, (1946).

Escuela Tcnica Superior de Ingeniera Informtica. Universidad de La Laguna

Fernando Prez Nava

Recordatorio de Probabilidad (1)

Reconocimiento de Patrones

Tema 2: Reconocimiento Estadstico de Patrones

Recordatorio de Probabilidad (2)

Las probabilidades se manipulan con dos reglas sencillas:


Regla del Producto
Dadas dos variables X e Y que pueden tomar un conjunto finito de
valores si llamamos P(x,y) a la probabilidad conjunta de que ocurran
X=x e Y=y entonces:
P(x,y)=P(y|x)P(x)
donde:P(y|x) es la probabilidad condicional de que Y=y dado que X=x
P(x) es la probabilidad marginal de que X=x independientemente de Y
De forma similar: P(x,y)=P(x|y)P(y)

Regla de la suma
Dadas de nuevo las variables X e Y se tiene: P( y ) = P( x, y )
donde la suma se hace sobre todos los valores x de la variable X
De forma similar: P( x ) = P( x, y )
y

Escuela Tcnica Superior de Ingeniera Informtica. Universidad de La Laguna

Fernando Prez Nava

Reconocimiento de Patrones

Tema 2: Reconocimiento Estadstico de Patrones

Recordatorio de Probabilidad (3)

A partir de la regla del producto se obtiene la Regla de Bayes:


P( x | y ) =

P( y | x )P( x )
P( y )

con: P( y ) = P( x, y ) = P( y | x )P( x )
x

La regla de Bayes proporciona por tanto la forma de adaptar


nuestras creencias iniciales a la vista de nueva informacin

Escuela Tcnica Superior de Ingeniera Informtica. Universidad de La Laguna

Fernando Prez Nava

Podemos considerar P(x) como la probabilidad a priori (inicial) de


que X=x antes de observar la variable Y.
Entonces P(x|y) nos dice la probabilidad de que X=x despus de
observar la variable Y.

Reconocimiento de Patrones

Tema 2: Reconocimiento Estadstico de Patrones

Frecuencias Relativas y Probabilidades

La frecuencia relativa de un evento es el cociente entre el nmero


de veces que se presenta un evento y el nmero total de
observaciones
Las frecuencias relativas y las probabilidades tienen propiedades
muy parecidas:
Ambas toman valores entre 0 y 1
Ambas cumplen la Regla del Producto, la Regla de la Suma y la
Regla de Bayes
De hecho, la frecuencia relativa de un evento converge* a su
probabilidad cuando el nmero de observaciones tiende a infinito.

*Converge con probabilidad 1

Ejemplo de convergencia de frecuencias relativas a probabilidades


Azul: Probabilidad de obtener n caras al tirar 4 monedas
Rojo: Frecuencia relativa del nmero de caras tras 100 lanzamientos

Escuela Tcnica Superior de Ingeniera Informtica. Universidad de La Laguna

Fernando Prez Nava

Reconocimiento de Patrones

Tema 2: Reconocimiento Estadstico de Patrones

Retomemos el experimento de la clasificacin con 2 Clases,


salmones y rdalos. (w1 y w2)
Supongamos que la caracterstica elegida es la longitud (X) y
supongamos por simplificar que sta toma 3 valores:
x1=corta (0-40 cm), x2=media(40-100 cm) y x3=larga (>100 cm)
Supongamos que tenemos el siguiente conjunto de
entrenamiento:
H={(x1, w2), (x2, w2), (x2, w2), (x2, w2), (x2, w2), (x2, w2), (x2, w2),
(x3, w2), (x3, w2), (x1, w1), (x1, w1), (x1, w1), (x1, w1), (x2, w1), (x2, w1),
(x2, w1), (x2, w1), (x2, w1), (x3, w1), (x3, w1)}
Como disearas el clasificador?
Cul sera tu eleccin (w1 o w2) si:
Se observa X= x1 (Corta)
Se observa X= x2 (Media)
Se observa X= x3 (Larga)

Escuela Tcnica Superior de Ingeniera Informtica. Universidad de La Laguna

Fernando Prez Nava

Teora de Decisin Bayesiana (TDB):


Motivacin (1)

Reconocimiento de Patrones

Tema 2: Reconocimiento Estadstico de Patrones

TDB: Motivacin (2)

Un criterio sencillo: buscar la regla que produzca menos errores o


lo que es lo mismo elegir la clase de mayor frecuencia absoluta (o
relativa)
x1

x2

x3

x1

x2

x3

w1

Elijo w1

w2

Elijo w2

Errores absolutos sobre el conjunto de


entrenamiento. Amarillo: Valores mnimos

Frecuencias absolutas

x1

x2

x3

x1

x2

x3

w1

4/20

5/20

2/20

Elijo w1

1/20

6/20

2/20

w2

1/20

6/20

2/20

Elijo w2

4/20

5/20

2/20

Frecuencias relativas

Errores relativos sobre el conjunto de


entrenamiento. Amarillo: Valores mnimos

La frecuencia relativa del error de esta regla es 8/20 y no hay


ninguna regla con menor error sobre este conjunto de
entrenamiento*.

*Hay otra regla con el mismo error

Escuela Tcnica Superior de Ingeniera Informtica. Universidad de La Laguna

Fernando Prez Nava

Decisin. Naranja:Salmn, Violeta:Rdalo.

Reconocimiento de Patrones

Tema 2: Reconocimiento Estadstico de Patrones

TDB: Motivacin (3)


A que se aproxima la tabla de errores relativos cuando el nmero
de muestras tiende a infinito?
x1

x2

x3

x1

x2

x3

Elijo w1

1/20

6/20

2/20

Elijo w1

P(x1,w2)

P(x2,w2)

P(x3,w2)

Elijo w2

4/20

5/20

2/20

Elijo w2

P(x1,w1)

P(x2,w1)

P(x3,w1)

Errores relativos sobre el conjunto de


entrenamiento. Amarillo: Valores mnimos

Probabilidad de error.

Converge a la probabilidad de error. Por tanto en el caso ideal de


un nmero infinito de muestras la relacin entre frecuencias
relativas y probabilidades sugiere utilizar :
Elegir w1 si P(x, w1) > P(x, w2)
Elegir w2 si P(x, w2) > P(x, w1)

La intuicin es buena. La regla anterior es ptima.

Escuela Tcnica Superior de Ingeniera Informtica. Universidad de La Laguna

Fernando Prez Nava

Reconocimiento de Patrones

Tema 2: Reconocimiento Estadstico de Patrones

TDB: Motivacin (4)


La regla:
Elegir w1 si P(x, w1) > P(x, w2)
Elegir w2 si P(x, w2) > P(x, w1)
se puede escribir como (utilizando la regla del producto):
Elegir w1 si P(x |w1) P(w1) > P(x |w2) P(w2)
Elegir w2 si P(x |w2) P(w2) > P(x |w1) P(w1)
P(x |wi) se llama distribucin de la caracterstica en la clase e
indica la probabilidad de los valores de X dentro de la clase wi
P(wi) se llama probabilidad a priori de la clase e indica la
probabilidad de que aparezca un objeto de la clase wi
o dividiendo en ambos miembros por p(x) se obtiene:
Elegir w1 si P(w1 |x) > P(w2 | x)
Elegir w2 si P(w2 |x) > P(w1 | x)
P(wi | x) se llama probabilidad a posteriori de la clase e indica la
probabilidad de la clase tras haber observado la variable X
entonces, la regla ptima consiste en elegir la clase ms probable
tras haber observado el valor x.
Escuela Tcnica Superior de Ingeniera Informtica. Universidad de La Laguna

Fernando Prez Nava

Reconocimiento de Patrones

Tema 2: Reconocimiento Estadstico de Patrones

TDB: Motivacin (5)


Volviendo al problema del pescado cmo interpretamos las
probabilidades P(wi), P(x |wi), P(wi |x)
x1

x2

x3

w1

w1

11/20

w2

w2

9/20

Frecuencias relativa de
cada clase

Frecuencias absolutas

x1
w1

4/11

x2

x3

5/11

2/11

x1
w2

Frecuencias relativa de X en w1

x1
w1

4/5

1/9

x2

x3

6/9

2/9

Frecuencias relativa de X en w2

x2

x3

5/11

2/4

x1
w2

Frecuencias relativa de w1 dado X

x1
Elegir w1

1/5

x2

x3

6/11

2/4

Frecuencias relativa de w2 dado X

x2

x3
Elegir w2

Regiones de decisin: Representacin grfica

Escuela Tcnica Superior de Ingeniera Informtica. Universidad de La Laguna

Fernando Prez Nava

Reconocimiento de Patrones

Tema 2: Reconocimiento Estadstico de Patrones

Recordatorio de Probabilidad (4)

Variables Aleatorias Continuas


Cuando una variable X toma valores reales la probabilidad de
tomar un valor especfico es siempre nula. Por ello se habla de la
probabilidad de que tome valores en un intervalo (a,b) mediante
una funcin de densidad p(x):
b

P( x (a, b )) = p( x )dx
a

En general, todas las definiciones dadas para variables discretas


se pasan a continuas cambiando sumas por integrales. As si X e Y
son continuas las reglas del producto, suma y de Bayes quedan:
p( y ) =

p( x, y )dx

p( x | y ) =

p( y | x )p( x )
p( y )

Cuando se tiene un vector de variables aleatorias X=(X1, X2,... Xn)T


se tiene una funcin de densidad multidimensional p(x)
P( x R ) = p( x )dx
R

Escuela Tcnica Superior de Ingeniera Informtica. Universidad de La Laguna

Fernando Prez Nava

p( x, y ) = p( y | x )p( x )

Reconocimiento de Patrones

Tema 2: Reconocimiento Estadstico de Patrones

La TDB proporciona un marco terico para tomar decisiones en


situaciones de incertidumbre.
En nuestro caso la decisin ser la clasificacin de un patrn en
una determinada clase
La TDB proporciona el clasificador ptimo (clasificador
bayesiano) para un conjunto de caractersticas dadas
En el marco de la TDB un clasificador es ptimo si produce la
mnima probabilidad de error (o el riesgo de la clasificacin).
La TDB necesita que todas las distribuciones de probabilidad de
las caractersticas p(x |wi) en cada clase sean conocidas.En la
prctica esto nunca ocurre, por lo que es necesario inferir (de las
muestras) la forma de las distribuciones de probabilidad. Tambin
es necesario inferir las probabilidades a priori P(wi)

Escuela Tcnica Superior de Ingeniera Informtica. Universidad de La Laguna

Fernando Prez Nava

Teora de la Decisin Bayesiana (TDB)

Reconocimiento de Patrones

Tema 2: Reconocimiento Estadstico de Patrones

TDB: Enfoque formal (1)


Informacin disponible:
Clases: wi, i=1...c
Caractersticas : X variable aleatoria multidimensional.
Probabilidades: P(wi), p(x | wi), i=1...c
Mediante la Regla de Bayes:
p( x | wi ) P( wi )
P( wi | x ) =
, i = 1...c
p( x )

con p( x ) = p( x | wi ) P( wi )
i =1

Ejemplo:

p(x | w2)

p(x | w1)

P(w2|x)

p(x | w3)
p(x | w4)

P(w3 |x)

P(w1| x)

Fernando Prez Nava

P(w4 |x)
Distribucin de X en cada clase
Probabilidades a posteriori
Probabilidades a priori iguales

Escuela Tcnica Superior de Ingeniera Informtica. Universidad de La Laguna

Reconocimiento de Patrones

Tema 2: Reconocimiento Estadstico de Patrones

TDB: Enfoque formal (2)

Probabilidad de error Elegir wi


c

P(Error | x ) =

P( wk | x ) = 1 P( wi | x )
k =1,k i

Regla de decisin Bayesiana (ptima):


Elegir wi si P(wi | x) P(wj | x) ij
p(x | wi)P(wi) p(x | wj)P(wj) ij

P(w2|x)

P(w3 |x)

P(w1| x)

Propiedad:
Hace mnima la probabilidad de error:

Elegir
w1

Elegir Elegir
w2
w4

P(Error ) = P(Error | x )p( x ) dx


Escuela Tcnica Superior de Ingeniera Informtica. Universidad de La Laguna

Elegir
w3

Elegir
w4

Fernando Prez Nava

P(w4 |x)

Reconocimiento de Patrones

Tema 2: Reconocimiento Estadstico de Patrones

Decisin Bayesiana con Riesgo (DBR):


Motivacin (1)

Retomemos el experimento anterior con 2 Clases: salmones y rdalos. (w1 y


w2); una caracterstica: longitud con tres valores x1=corta, x2=media y
x3=larga y el conjunto de entrenamiento:
H={(x1, w2), (x2, w2), (x2, w2), (x2, w2), (x2, w2), (x2, w2), (x2, w2), (x3, w2), (x3, w2), (x1,
w1), (x1, w1), (x1, w1), (x1, w1), (x2, w1), (x2, w1), (x2, w1), (x2, w1), (x2, w1), (x3, w1),
(x3, w1)}

Los errores que aparecen al realizar la clasificacin son:


Elegir w1 (salmn) cuando la clase verdadera es w2 (rdalo)
Elegir w2 (rdalo) cuando la clase verdadera es w1 (salmn)
El salmn es un pescado ms caro que el rdalo. Supongamos que:
Si eliges w1 cuando la clase verdadera es w1 has detectado un salmn. El costo de
procesamiento del sistema es de 11= 1 unidad monetaria
Si eliges w1 cuando la clase verdadera es w2 proporcionas un producto de peor
calidad de la especificada y eso cuesta en sanciones 12= 11 unidades monetarias.
Si eliges w2 cuando la clase verdadera es w1 proporcionas un producto de mayor
calidad de la necesaria y eso cuesta 21= 10 unidades monetarias.
Si eliges w2 cuando la clase verdadera es w2 has detectado un rdalo. El costo de
procesamiento del sistema es de 22=1 unidad monetaria

Qu elegiras ahora w1 o w2 para X=x1, X=x2 y X=x3 ?

Escuela Tcnica Superior de Ingeniera Informtica. Universidad de La Laguna

Fernando Prez Nava

Reconocimiento de Patrones

Tema 2: Reconocimiento Estadstico de Patrones

DBR:Motivacin (2)

Con la notacin utilizada ij es el costo de


elegir la clase wi cuando la verdadera es wj:

Clase Verdadera
w1
w2
w1

11=1

12=11

w2

21=10

22=1

Elijo

Una regla que parece lgica es elegir la clase que produzca el


menor costo
x1

x2

x3

x1

x2

x3

w1

Elijo w1

1
4+11
1=15

1
5+11
6=71

1
2+11
2=24

w2

Elijo w2

1
1+10
4=41

1
6+10
5=56

1
2+10
2=22

Frecuencias absolutas

x1

x2

x3

w1

4/20

5/20

2/20

w2

1/20

6/20

2/20

Costos absolutos. Amarillo: costos mnimos

Frecuencias relativas
Decisin. Naranja:Salmn, Violeta:Rdalo

x2

x3

1
4/20+11
1/20=15/20

1
5/20+11
6/20=71/20

1
2/20+11
2/20=24/20

Elijo w2

1
1/20+10
4/20=41/20

1
6/20+10
5/20=56/20

1
2/20+10
2/20=22/20

Costo relativos: Amarillo: costos mnimos

El costo relativo de esta regla es 93/20 (mnimo sobre H)

Escuela Tcnica Superior de Ingeniera Informtica. Universidad de La Laguna

Fernando Prez Nava

x1
Elijo w1

Reconocimiento de Patrones

Tema 2: Reconocimiento Estadstico de Patrones

DBR:Motivacin (3)

A que se aproxima la tabla de costos relativos cuando el nmero


de muestras tiende a infinito?
x1

x2

x3

Elijo w1

1
4/20+11
1/20=15/20

1
5/20+11
6/20=71/20

1
2/20+11
2/20=24/20

Elijo w2

1
1/20+10
4/20=41/20

1
6/20+10
5/20=56/20

1
2/20+10
2/20=22/20

Costo relativos: Amarillo: costos mnimos

x1

x2

x3

Elijo w1

11P(x1,w1)+12P(x1,w2)

11P(x2,w1)+12P(x2,w2)

11P(x1,w1)+12P(x1,w2)

Elijo w2

21P(x1,w1)+22P(x1,w2)

21P(x1,w1)+22P(x1,w2)

21P(x1,w1)+22P(x1,w2)

Por tanto en el caso ideal de un nmero infinito de muestras la


relacin entre frecuencias relativas y probabilidades sugiere
utilizar:
Elegir w1 si 11 P(x, w1) + 12 P(x, w2) < 21 P(x, w1) + 22 P(x, w2)
Elegir w2 si 21 P(x, w1) + 22 P(x, w2) < 11 P(x, w1) + 12 P(x, w2)

Escuela Tcnica Superior de Ingeniera Informtica. Universidad de La Laguna

Fernando Prez Nava

Costo medio

Reconocimiento de Patrones

Tema 2: Reconocimiento Estadstico de Patrones

DBR: Motivacin (4)

La intuicin es correcta. La regla:


Elegir w1 si 11 P(x, w1) + 12 P(x, w2) < 21 P(x, w1) + 22 P(x, w2)
Elegir w2 si 21 P(x, w1) + 22 P(x, w2) < 11 P(x, w1) + 12 P(x, w2)
es ptima
La regla se puede escribir dividiendo por P(x) como:
Elegir w1 si 11 P(w1|x) + 12 P(w2|x) < 21 P(w1|x) + 22 P(w2|x)
Elegir w2 si 21 P(w1|x) + 22 P(w2|x) < 11 P(w1|x) + 12 P(w2|x)
Se suele escribir:

a R(wi |x) se le llama riesgo de elegir wi dado x e indica el costo de


elegir wi tras haber observado el valor x
entonces, la regla ptima consiste en elegir la clase con menor
costo tras haber observado el valor x
Escuela Tcnica Superior de Ingeniera Informtica. Universidad de La Laguna

Fernando Prez Nava

R(w1 |x)= 11 P(w1|x) + 12 P(w2|x)


R(w2|x)= 21 P(w1|x) + 22 P(w2|x)

Reconocimiento de Patrones

Tema 2: Reconocimiento Estadstico de Patrones

DBR: Enfoque formal (1)

Informacin disponible:
Clases: wi, i=1...c
Caractersticas : X variable aleatoria multidimensional.
Probabilidades: P(wi), p(x | wi), i=1...c
Mediante la Regla de Bayes:
p( x | wi ) P( wi )
P( wi | x ) =
, i = 1...c
p( x )

con p( x ) = p( x | wi ) P( wi )
i =1

Funcin de riesgo dado un valor de x:


c

R( i | x ) = ( i | w j ) P(w j | x )

i = 1,...c

j =1

Escuela Tcnica Superior de Ingeniera Informtica. Universidad de La Laguna

Fernando Prez Nava

Acciones:i, i=1...c; i = Elegir wi


Riesgos: i,j = (i |wj) i=1...c, j=1...c. Indica el riesgo de elegir wi
cuando la verdadera clase es wj

Reconocimiento de Patrones

Tema 2: Reconocimiento Estadstico de Patrones

DBR: Enfoque formal (2)

Regla de decisin bayesiana (ptima):


Elegir i si R(i| x) R(j| x) ij
Esto es, elegir la clase con menor riesgo dado el valor de x

Propiedad:
Hace mnimo el riesgo total:

Fernando Prez Nava

R = R( ( x ) | x ) p( x ) dx

Escuela Tcnica Superior de Ingeniera Informtica. Universidad de La Laguna

Reconocimiento de Patrones

Tema 2: Reconocimiento Estadstico de Patrones

Clasificadores y su Representacin

Definicin formal de Clasificador


Mecanismo de eleccin entre las distintas clases de un problema
de R.P.
Representacin
Se suele representar por medio de un conjunto de funciones
discriminantes gi(x). De esta forma el clasificador asigna el vector
de caractersticas x a la clase wi si gi(x) gj(x) para todo ij.

x1

x
Vector de
Caractersticas

x2
.
.
.

xd
Entrada

g1

g1(x)

g2

g2(x)
.
.
.
gc(x)

.
.
.

max

(x)

gc
Clculo de las Funciones Discriminantes

Selector de Mximo

Esquema de un clasificador genrico

Escuela Tcnica Superior de Ingeniera Informtica. Universidad de La Laguna

Decisin

Fernando Prez Nava

Reconocimiento de Patrones

Tema 2: Reconocimiento Estadstico de Patrones

Funciones Discriminantes y Regiones de


Decisin

Ejemplos de funciones discriminantes:


Caso Bayesiano: gi(x)=P(wi|x)

Regiones de decisin
Todo clasificador divide el espacio de caractersticas en regiones
de decisin Ri donde se elige la clase i. La frontera entre dos
regiones de decisin de llama frontera de decisin.
Utilizando las funciones discriminante las regiones de decisin se
escriben para cada clase wi como Ri={x/gi(x) gj(x) ij}
Si Ri son Rj contiguas entonces la frontera de decisin es la
interseccin de las dos regiones RiRj={x/gi(x)=gj(x)}.

Escuela Tcnica Superior de Ingeniera Informtica. Universidad de La Laguna

Fernando Prez Nava

Caso Bayesiano con riesgo: gi(x)=-R(i|x)


o alguna expresin equivalente como:
gi(x)=ln (p(x|wi) ) + ln (P(wi)) para el caso Bayesiano.

Reconocimiento de Patrones

Tema 2: Reconocimiento Estadstico de Patrones

Recordatorio de Probabilidad (5)


Variable Aleatoria Normal

La normal es la variable aleatoria continua ms importante.


Cuando hay una nica variable se llama normal unidimensional,
cuando hay varias variables que se distribuyen de forma normal a
la distribucin conjunta se la llama normal multidimensional
La normal unidimensional N(,)
1 ( x )2

1
2
e 2 , >0
Funcin de densidad: p( x ) =
2 2
Algunas propiedades
Su valor medio E(X) es igual a

N(-3,2)

N(0,1)
Normal unidimensional. Representacin grfica

Escuela Tcnica Superior de Ingeniera Informtica. Universidad de La Laguna

N(3,0.5)

Fernando Prez Nava

Su varianza es igual a V(X)=

Reconocimiento de Patrones

Tema 2: Reconocimiento Estadstico de Patrones

Recordatorio de Probabilidad (6)

Independencia
Dos variables X e Y son independientes si conocer una no
proporciona informacin sobre la otra, es decir:
p( x | y ) = p( x ) p( x, y ) = p( x )p( y )

Esperanza de una variable aleatoria.


Nos informa del valor medio de la variable: E( X ) =

x p( x )dx

Cov( X ,Y ) =

( x E( X ))( y E(Y ))p( x, y )dxdy

En el caso multidimensional se tiene la matriz de covarianzas:


Cov( X ) = ( x E( x ))( x E( x ))' p( x )dx
Escuela Tcnica Superior de Ingeniera Informtica. Universidad de La Laguna

Fernando Prez Nava

E( X ) = x p( x )dx
En el caso multidimensional es un vector:
Varianza y covarianza de variables aleatorias.

La varianza es una medida de dispersin: V( X ) = ( x E( X ))2 p( x )dx


-
La covarianza es una medida de relacin:

Reconocimiento de Patrones

Tema 2: Reconocimiento Estadstico de Patrones

Recordatorio de Probabilidad (7)

La normal multivariante es la distribucin conjunta de varias variables


normales.
Funcin de densidad N(,)

p( x ) =

1
(2 )

d /2

1/ 2

1
( x )T 1( x )
e 2

x, R d
matriz de dxd elementos,
simtrica y definida positiva (| |> 0)

Propiedades
Su valor medio es ahora un vector E(X)= = ( , ,..., )T con i =E(Xi)
La dispersin y relacin entre las variables se refleja en la matriz de
covarianzas =E( (X- ) (X- )T ) = (ij) con ij = E((Xi- i)(Xj- j))
1

En particular los elementos de la diagonal de la matriz , ii = E((Xi- i)2) son


iguales a la varianza de la variable Xi
Los elementos fuera de la diagonal ij miden la covarianza entre las variables Xi
y Xj
Una covarianza positiva indica que cuando crece Xi crece Xj
Una covarianza cero indica que Xi es independiente de Xj
Una covarianza negativa indica que cuando crece Xi decrece Xj

Escuela Tcnica Superior de Ingeniera Informtica. Universidad de La Laguna

Fernando Prez Nava

Reconocimiento de Patrones

Tema 2: Reconocimiento Estadstico de Patrones

Regiones de Decisin: El caso Normal (1)

Estudiaremos las funciones discriminantes y fronteras de


decisin que aparecen cuando la distribucin de las
caractersticas en cada clase es normal multidimensional, es
decir: p(x|wi)~N(i ,i )
Primer caso:
Las matrices de covarianzas de todas las clases son iguales,
diagonales y todos los elementos de la diagonal son iguales.
i =2I , donde I es la matriz identidad.
Esto significa que dentro de cada clase todas las variables son
independientes y tienen la misma varianza 2
aT ( x x0 ) = 0

g i ( x ) = aiT x + ai 0
ai =

ai 0 =

a = i j

i
1

T i
2 i

+ ln(P( wi ))

1
2 P( wi )
x 0 = ( i + j ) 2 ln
a

2
P(
w
)
a
j

Funcin discriminante

1
R1

R2

= a Ta
Superficie de decisin

Representacin Grfica

La frontera de decisin es lineal y perpendicular a la recta que une


las medias de las dos clases
Escuela Tcnica Superior de Ingeniera Informtica. Universidad de La Laguna

Fernando Prez Nava

Reconocimiento de Patrones

Tema 2: Reconocimiento Estadstico de Patrones

Regiones de Decisin: El caso Normal (2)


Segundo caso:
Las matrices de covarianzas de todas las clases son iguales, esto
es: i = con una matriz comn.
g i ( x ) = aiT x + ai 0

aT ( x x0 ) = 0

ai = 1 i

a = 1d , d = i j

1
ai 0 = iT 1 i + ln(P( wi ))
2

x0 =

1
1
( i + j )
2
d T 1d

Funcin discriminante

R2

P( wi )
d
ln
P( w )
j

R1

Superficie de decisin

2
Representacin Grfica

La frontera de decisin es lineal pero en general no es


perpendicular a la recta que une las medias de las dos clases
Tercer caso:
Las matrices de covarianzas son distintas.
g i ( x ) = x T A i x + a iT x + ai 0
1
A i = i1 , a i = i1 i
2
1
1
ai 0 = i ' i1 i + ln | i1 | + ln(P( wi ))
2
2

R2
R1

R1

R2

R2

R1

R1
R2

RR1 1

R2

Funcin discriminante

Las fronteras de decisin son cudricas


Escuela Tcnica Superior de Ingeniera Informtica. Universidad de La Laguna

R1

R2

R1

Representacin Grfica

Fernando Prez Nava

Reconocimiento de Patrones

Tema 2: Reconocimiento Estadstico de Patrones

Resumiendo...

Las buenas noticias;


Cuando se conoce la estructura de probabilidad del problema:
P(wi), p(x|wi)
siempre se puede encontrar el clasificador ptimo (clasificador
bayesiano):
Elegir wi si P(wi | x) P(wj | x) ij
p(x | wi)P(wi) p(x | wj)P(wj) ij
Las malas noticias:
En prcticamente ningn problema prctico se conoce la estructura
de probabilidad del problema. Qu hacer entonces?
Dos ideas:
Intentar estimar las probabilidades P(wi), p(x|wi) a partir de un conjunto
de entrenamiento. Estimar P(wi) con precisin es fcil. Estimar p(x|wi)
es un problema difcil.
Olvidarnos del clasificador bayesiano e introducir otros criterios (por
ejemplo geomtricos) con la esperanza de obtener un buen clasificador
aunque no sea ptimo.

Escuela Tcnica Superior de Ingeniera Informtica. Universidad de La Laguna

Fernando Prez Nava

Reconocimiento de Patrones

Tema 2: Reconocimiento Estadstico de Patrones

El mapa del RP Estadstico


Tcnicas
Paramtricas

Conocidas

Densidades
condicionales
en cada clase p(x|wi)

Estimacin
Paramtrica
Clsica

Decisin
Bayesiana

Estimacin
Bayesiana

Aprendizaje
Supervisado

TEMA 3

Tcnicas
No Paramtricas

Desconocidas
TEMAS 4,5

Aprendizaje
no Supervisado

Tcnicas
Paramtricas

Estimacin
no
Paramtrica
Clsica

Construccin
de Fronteras
de Decisin

Estimacin en
mezclas
TEMA 8

Tcnicas
No Paramtricas

Escuela Tcnica Superior de Ingeniera Informtica. Universidad de La Laguna

Anlisis de
Agrupamientos

Fernando Prez Nava

TEMA 2

Anda mungkin juga menyukai