Artificial Intelligence
(MT-616)
Support Vector Machines & Kernels
● Predicción
○ ¿Por qué podrían estar mal las predicciones?
● Support vector machines
○ Trabajando realmente muy bien con modelos lineales.
● Kernels
○ Convirtiendo lo no lineal a lineal.
2
¿Por qué podrían estar mal las predicciones?
No es determinismo
● Voltear una moneda sesgada
● p (caras) = θ
● Estimar θ
● Si θ > 0.5 predice "caras", de lo contrario "sellos"
Un montón de investigación de ML en problemas como este:
● Aprender un modelo
● Haz lo mejor que puedas con lo que tengas disponible (expectativa)
3
¿Por qué podrían estar mal las predicciones?
● Observabilidad parcial
○ Falta algo para predecir y de la observación x
● Ruido en la observación x
○ Error de medición
○ Limitaciones del instrumento
4
¿Por qué podrían estar mal las predicciones?
● Observabilidad parcial
○ Falta algo para predecir y de la observación x
● Ruido en la observación x
○ Error de medición
○ Limitaciones del instrumento http://www.cs.cmu.edu/~wcohen/10-601/bias-variance.pdf
5
¿Por qué podrían estar mal las predicciones?
● No determinismo
● Observabilidad parcial
○ duro, suave
● Bias representacional
● Bias algorítmico
● Recursos limitados
6
Bias representacional
7
Bias representacional
8
Support Vector Machines
9
Fortalezas de SVMs
1. Buena generalización
a. En teoria
b. en la práctica
2. Funciona bien con pocas instancias de entrenamiento.
3. Encuentra el mejor modelo a nivel global
4. Algoritmos eficientes
5. Truco del kernel.
10
Cambio de notación menor
11
Separadores lineales
● Instancias de entrenamiento
● Hyperplane
● Función de decisión
12
Datos linealmente separables con diferentes líneas de
separación ¿Cuál es la mejor?
Hi Hi Hi
Hi Hi Hi
Dos preguntas:
13
Intuiciones
14
Intuiciones
15
Intuiciones
16
Intuiciones
17
Un buen separador
18
Ruido en las observaciones
19
Descartando algunos separadores
20
Mucho ruido
21
Sólo queda un separador
22
Maximizando el margen
23
¿Recuerdas la clase anterior la función de crecimiento?
24
Dicotomías con margen grande implican menos
dicotomías.
25
¿Por qué maximizar el margen?
26
Separadores “Gordos”
27
Support vectors: margen funcional vs margen geométrico
margin
28
Multiplicadores de lagrange
29
Minimizando ||W||2 sujeto a ….
30
De no lineal (X) a lineal (Z)
1 1
X→Z
0.5
0
0
−1 0 0.5 1
−1 0 1
31
Dos tipos de datos no separable.
32
Support vectors en el espacio X
● El margen se mantiene en el
espacio Z.
33
Medida de error
violación del
margen
34
Repaso de Multiplicadores de lagrange
35
Problema: Multiplicadores de lagrange
36
Multiplicadores KKT
37
multiplicadores KKT
38
39