Anda di halaman 1dari 7

Introducción

Distribución Normal

En estadística y probabilidad se llama distribución normal, distribución de Gauss o


distribución gaussiana, a una de las distribuciones de probabilidad de variable continua que
con más frecuencia aparece en fenómenos reales. La gráfica de su función de densidad
tiene una forma acampanada y es simétrica respecto de un determinado parámetro. Esta
curva se conoce como campana de Gauss.

La importancia de esta distribución radica en que permite modelar numerosos


fenómenos naturales, sociales y psicológicos. Mientras que los mecanismos que subyacen a
gran parte de este tipo de fenómenos son desconocidos, por la enorme cantidad de variables
incontrolables que en ellos intervienen, el uso del modelo normal puede justificarse
asumiendo que cada observación se obtiene como la suma de unas pocas causas
independientes.

Figura 3. Curva normal estándar

Se dice que una variable aleatoria continua X sigue una distribución normal de
parámetros μ y σ, denotándose por X~N(μ,σ) si su función de densidad de probabilidad está
dada por:
2
1  x −µ 
1 −  
f ( x) = e 2 σ 
, con x ∈ R
σ 2π

donde μ es la media, σ es la desviación estándar o típica y σ2 es la varianza.

Se le llama distribución normal estándar a aquélla en la que los parámetros toman


los valores μ = 0 y σ = 1. En este caso la función de densidad tiene la siguiente expresión:

x2

e 2
, con x ∈ R
f ( x ) = f 0,1 ( x ) =

Teorema de Bayes

El razonamiento bayesiano proporciona un enfoque probabilístico a la inferencia.


Está basado en la suposición de que las cantidades de interés son gobernadas por
distribuciones de probabilidad y que se pueden tomar decisiones óptimas razonando sobre
estas probabilidades junto con los datos conocidos. Este enfoque se utiliza en multitud de
campos de investigación, tales como, robótica móvil, visión computacional, reconocimiento
de patrones, entre otros.

A menudo surgen problemas en los cuales interesa determinar la mejor hipótesis h,


dados los datos observados D. Más formalmente, se desea hallar la hipótesis h más
probable, dados los datos observados D, considerando un conocimiento inicial sobre las
probabilidades a priori de h. Bayes proporciona un método directo para calcular estas
probabilidades.

El teorema de Bayes se formula con la siguiente expresión:

P ( D h) × P ( h )
P(h D) = [1]
P ( D)
donde,
P ( h ) es el conocimiento inicial que se tiene respecto que la hipótesis h sea la
correcta. Se le suele denominar la probabilidad a priori de h.
P ( D ) se define de forma similar, pero esta vez sobre el conjunto de datos D.
P( D h ) denota la probabilidad de observar los datos D dado que se tiene la
hipótesis h. Se le suele denominar verosimilitud.
P ( h D ) es la probabilidad a posteriori que la hipótesis h tiene, dados los datos
observados D.

En la mayoría de problemas donde se plantea la inferencia bayesiana, se parte de un


conjunto de hipótesis H y se trata de encontrar la hipótesis más probable h ∈ H. De esta
forma, a esta hipótesis más probable se le suele denominar hipótesis maximum a posteriori
o MAP. Utilizando el teorema de Bayes, se dice que hMAP es una hipótesis MAP de acuerdo
a:
P ( D h) × P ( h )
hMAP = arg max P (h D) = arg max
h ∈H h ∈H P ( D)
entonces,
hMAP = arg max  P ( D h) × P ( h )  [2]
h ∈H

en el último paso se ha eliminado P(D) dado que es independiente de h.

En algunos casos todas las probabilidades en H son igualmente probables a priori,


es decir,
P ( hi ) = P ( h j ) ∀ hi , h j ∈ H
En este caso sólo se utilizaría el término de verosimilitud, P ( D h ) , y es posible
simplificar la expresión anterior obteniéndose:

hML = arg max P (h D) = arg max P ( D h) [3]


h ∈H h ∈H

donde a la hipótesis hML obtenida de esta forma se suele denominar hipótesis de máxima
verosimilitud o ML (Maximum Likelihood).

En el caso de tener que elegir sólo entre dos hipótesis h1 y h2, dados los datos D. El
criterio de elección para realizar una inferencia adecuada sería seleccionar la hipótesis más
probable. Es decir, se aplicaría lo que se conoce como regla de decisión:

Si P( h1 D ) > P( h2 D ) entonces se elige h1, en caso contrario se elige h2 [4]

Si aplicamos la regla de Bayes a cada término se obtiene:

P( h1 ) P( h2 )
P( D h1 ) > P( D h2 )
P( D ) P( D )

P( D h1 ) P( h2 )
>
P( D h2 ) P( h1 )

aplicando logaritmo a ambas partes:

P( D h1 ) P( h2 )
ln > ln
P( D h2 ) P( h1 )

en ausencia de información a priori todas las hipótesis son igualmente probables y el


término de la derecha es nulo. La regla de decisión en ausencia de información a priori
queda:

P( D h1 )
ln > 0 entonces se elige h1, en caso contrario se elige h2 [5]
P( D h2 )

En el caso particular del reconocimiento de patrones, se desea clasificar un elemento


en una de varias clases existentes, de acuerdo a varias de sus características conocidas. La
asignación de la clase de pertenencia de dicho elemento corresponde a la que posea la
mayor probabilidad a posteriori, de este modo en el Teorema de Bayes (ec. 1) la hipótesis h
pasa a ser la clase Ci y el conjunto de datos D corresponde al vector de características X, así
se tiene:
P ( X Ci ) × P ( Ci )
P (Ci X ) = [6]
P( X )
donde,
P ( Ci ) es la probabilidad a priori de que la clase Ci sea a la que pertenece un
elemento sin importar que características posea.
P ( X ) corresponde a la probabilidad de que un elemento a clasificar posea las
características dadas por X.
P( X Ci ) es la verosimilitud o probabilidad de que un elemento tenga las
características X dado que pertenece a la clase Ci.
P ( Ci X ) es la probabilidad a posteriori, es decir, a probabilidad de que un
elemento pertenezca a la Ci dado que presenta las características X.

Matriz de confusión e indicadores de desempeño

Una matriz de confusión contiene información sobre las clasificaciones reales y la


predicción realizada por un sistema de clasificación. El rendimiento de estos sistemas es
comúnmente evaluada utilizando los datos de la matriz. La siguiente tabla muestra la matriz
de confusión para un clasificador de dos clases.

Matriz de Predicción
Confusión Negativo Positivo
Negativo TN FP
Real
Positivo FN TP
Tabla 1. Matriz de confusión de un clasificador de dos clases

donde las entradas corresponden a

TN: true negative, corresponde al número total de clasificaciones correctas de una


condición negativa, por ejemplo, reconocer correctamente a un falso usuario.

FP: false positive, indica el total de reconocimientos incorrectos de una condición positiva,
por ejemplo, reconocer erróneamente un impostor como si fuera usuario legítimo.

FN: false negative, entrega el valor total de casos incorrectos de clasificación de condición
negativa, por ejemplo, identificar incorrectamente a un usuario como si fuera
impostor.

TP: true positive, indica el total de clasificaciones correctas de una instancia positiva, por
ejemplo, reconocer correctamente un usuario legítimo.

A partir de la matriz es posible definir diversos indicadores para cuantificar el


desempeño de un sistema clasificador de dos clases, algunos de los más utilizados son:
MR: misclassification rate, o tasa de error de clasificación, que indica la proporción de
predicciones incorrectas respecto del total.

FN + FP
MR =
TP + FN + FP + TN

FPR: false positive rate, o tasa de falsos positivos, es la proporción de casos negativos
incorrectamente clasificados como positivos.

FP
FPR =
FP + TN

FNR: false negative rate, o tasa de falsos negativos, que entrega la proporción de
clasificaciones incorrectas de casos positivos como si fueran negativos.

FN
FNR =
FN + TP

TPR: true positive rate, o tasa de verdaderos positivos, es un indicador de la sensibilidad


del sistema reconocedor, corresponde a la proporción de casos positivos
correctamente clasificados.

FP
TPR =
TP + FN

TNR: true negative rate o tasa de verdaderos negativos, se relaciona con la especificidad
del sistema clasificador, indica la fracción de casos negativos que fueron
reconocidos adecuadamente.

FN
TNR =
TN + FP

La determinación del punto de trabajo de un sistema reconocedor se asocia con las


tasas FPR y FNR que a su vez dependen del umbral de decisión, por lo que generalmente se
utilizan dichas curvas como se expone en la figura 4.

El umbral a utilizar se selecciona determinando en nivel de FPR y FNR deseable


para el sistema dependiendo del grado de seguridad deseado, así si se quiere hacer el
sistema más accesible se elige una tasa FPR alta y consecuentemente una FNR baja, y en
caso de requerir mayor seguridad se hace lo contrario, disminuir FPR aumentando FNR.

El punto de cruce de ambas curvas permite determinar el valor de umbral en el cual


ambas tasas son iguales, este punto recibe el nombre de EER, Equal Error Rate.
Usualmente debido a que los datos reales no son continuos, se debe interpolar para
determinar más exactamente el EER.

Figura 4. Ejemplo de curva para determinar el EER

Los gráficos ROC, Receiver Operating Characteristic o característica operativa del


receptor son otra manera, además de las matrices de confusión y la curva para determinar el
EER que permite examinar el desempeño de los clasificadores. Un gráfico ROC es un
gráfico con la tasa de falsos positivos, FPR, en el eje horizontal y la tasa de verdaderos
positivos, TPR, en el eje vertical, tal como se muestra en la figura 5.

El punto (0,1) en el gráfico ROC corresponde al clasificador perfecto: clasifica a


todos los casos positivos y casos negativos correctamente, porque la tasa de falsos positivos
es 0 (ninguno) y la tasa de verdaderos positivos es 1 (todos). El punto (0,0) representa un
clasificador que predice todos los casos como negativas, mientras que el punto (1,1)
corresponde a un clasificador que predice que todos los casos son positivos. El punto (1,0)
es el clasificador que no es correcto en ninguna de las clasificaciones.

Figura 5. Ejemplo de curva ROC


En muchos casos, un clasificador tiene un parámetro que se puede ajustar para
aumentar TP a costa de un aumento o disminución de FP o disminuir FP a costa de una
disminución de la TP. Cada valor de ajuste de este parámetros proporciona un par ordenado
(FP, TP) y una serie de tales pares se puede utilizar para dibujar una curva ROC. Un
clasificador no paramétrico está representado por un sólo punto de la curva correspondiente
justamente al par (FP, TP).

Una curva ROC o un punto en ella, es independiente de la distribución de las clases


o del costo del error.

Un gráfico ROC sintetiza toda la información contenida en la matriz de confusión,


ya que FN es el complemento de TP y TN es el complemento de FP.

Las curvas ROC proporcionan una herramienta visual para examinar el equilibrio
entre la capacidad de un clasificador para identificar correctamente los casos positivos y el
número de casos negativos incorrectamente clasificados.

Recientemente en lugar de la curva ROC, se utiliza más la llamada curva DET


(Detection Error Tradeoff), que representa las tasas FNR en función de FPR pero en este
caso se aplica una transformación logarítmica a los ejes lineales de la del gráfico ROC,
obteniéndose una separación de la curva del vértice del gráfico, pudiendo visualizarse con
mayor precisión los valores.

Figura 6. Ejemplo de curva DET

Si se intersecta la curva DET con una recta de pendiente unitaria, el punto resultante
tiene coordenadas (EER, EER) determinándose en cualquiera de los dos ejes, el valor del
umbral que genera tasas de error iguales.

Anda mungkin juga menyukai