Distribución Normal
Se dice que una variable aleatoria continua X sigue una distribución normal de
parámetros μ y σ, denotándose por X~N(μ,σ) si su función de densidad de probabilidad está
dada por:
2
1 x −µ
1 −
f ( x) = e 2 σ
, con x ∈ R
σ 2π
x2
−
e 2
, con x ∈ R
f ( x ) = f 0,1 ( x ) =
2π
Teorema de Bayes
P ( D h) × P ( h )
P(h D) = [1]
P ( D)
donde,
P ( h ) es el conocimiento inicial que se tiene respecto que la hipótesis h sea la
correcta. Se le suele denominar la probabilidad a priori de h.
P ( D ) se define de forma similar, pero esta vez sobre el conjunto de datos D.
P( D h ) denota la probabilidad de observar los datos D dado que se tiene la
hipótesis h. Se le suele denominar verosimilitud.
P ( h D ) es la probabilidad a posteriori que la hipótesis h tiene, dados los datos
observados D.
donde a la hipótesis hML obtenida de esta forma se suele denominar hipótesis de máxima
verosimilitud o ML (Maximum Likelihood).
En el caso de tener que elegir sólo entre dos hipótesis h1 y h2, dados los datos D. El
criterio de elección para realizar una inferencia adecuada sería seleccionar la hipótesis más
probable. Es decir, se aplicaría lo que se conoce como regla de decisión:
P( h1 ) P( h2 )
P( D h1 ) > P( D h2 )
P( D ) P( D )
P( D h1 ) P( h2 )
>
P( D h2 ) P( h1 )
P( D h1 ) P( h2 )
ln > ln
P( D h2 ) P( h1 )
P( D h1 )
ln > 0 entonces se elige h1, en caso contrario se elige h2 [5]
P( D h2 )
Matriz de Predicción
Confusión Negativo Positivo
Negativo TN FP
Real
Positivo FN TP
Tabla 1. Matriz de confusión de un clasificador de dos clases
FP: false positive, indica el total de reconocimientos incorrectos de una condición positiva,
por ejemplo, reconocer erróneamente un impostor como si fuera usuario legítimo.
FN: false negative, entrega el valor total de casos incorrectos de clasificación de condición
negativa, por ejemplo, identificar incorrectamente a un usuario como si fuera
impostor.
TP: true positive, indica el total de clasificaciones correctas de una instancia positiva, por
ejemplo, reconocer correctamente un usuario legítimo.
FN + FP
MR =
TP + FN + FP + TN
FPR: false positive rate, o tasa de falsos positivos, es la proporción de casos negativos
incorrectamente clasificados como positivos.
FP
FPR =
FP + TN
FNR: false negative rate, o tasa de falsos negativos, que entrega la proporción de
clasificaciones incorrectas de casos positivos como si fueran negativos.
FN
FNR =
FN + TP
FP
TPR =
TP + FN
TNR: true negative rate o tasa de verdaderos negativos, se relaciona con la especificidad
del sistema clasificador, indica la fracción de casos negativos que fueron
reconocidos adecuadamente.
FN
TNR =
TN + FP
Las curvas ROC proporcionan una herramienta visual para examinar el equilibrio
entre la capacidad de un clasificador para identificar correctamente los casos positivos y el
número de casos negativos incorrectamente clasificados.
Si se intersecta la curva DET con una recta de pendiente unitaria, el punto resultante
tiene coordenadas (EER, EER) determinándose en cualquiera de los dos ejes, el valor del
umbral que genera tasas de error iguales.