Anda di halaman 1dari 12

Tcnicas de inteligencia artificial

Aprendizaje:
Arboles de Decisin
Indice

rboles de decisin
Planteamiento del problema
Ejemplo: Concesin de crditos
Entropa y Ganancia de Informacin
Algoritmo ID3
Algoritmo recursivo
Aplicacin al ejemplo
Consideracin de atributos numricos
Atributos con un gran nmero de valores
rboles de decisin

Caractersticas:
Estructura para clasificacin de
vectores de atributos.
Establece en qu orden testar los
atributos para conseguir la
clasificacin del vector de
entrada.
Para componer dicho orden se
eligen primero aquellos atributos
que mejor ganancia de
informacin prometen a efectos
de descubrir la clase del vector de
entrada.
Es interesante aprenderlos a
partir de un conjunto de vectores
Ejemplo Concesin de crditos

no
s

Aprendizaje:
Por qu atributo comenzar primero?
Esquema voraz: Elegir uno y filtrar recursivamente.
Entropa

Definicin:
Medida del grado de incertidumbre
asociado a una distribucin de
probabilidad.
En una distribucin uniforme, todos
los valores son igualmente probables
Pi = 1/N y por tanto la entropa es
si no
-0.5log2(0.5) 0.5log2(0.5) = 1
mxima, lo cual indica mxima
incertidumbre.
Por el contrario, en una distribucin
pico en la que Pi = 1 y Pj=0, para
todo ji la entropa es mnima lo
cual indica mnima incertidumbre o
sea mxima informacin. si
-1.0log2(1.0) 0.0log2(0.0) = 0
Entropa condicionada

Definicin:
Entropa de la distribucin de Y X Y
condicionada a X. Math Yes
Una entropa condicionada menor History No
que E(Y) indica que el conocimiento CS Yes
de X mejora la informacin que se Math No
dispone sobre X Math No
E(Y | X) = j Prob( X= vj) E(Y | X = vj) CS Yes
History No
vj Prob(X = vj) E(Y | X = vj)
Math Yes
Math 0.5 1
History 0.25 0 E(Y) = 1
CS 0.25 0 E(Y|X) = 0.5
E(Y|X) = 0.5*1 + 0.25*0 + 0.25*0
Ganancia de informacin

Definicin: IG(Y | X) = E(Y) E(Y | X)


Medida de cuanto ayuda el
X Y
conocer el valor de una
variable aleatoria X para Math Yes
conocer el verdadero valor de History No
otra Y. CS Yes
En nuestro caso, X es un Math No
atributo de un ejemplo dado
Math No
mientras que Y es la clase a la
que pertenece el ejemplo. CS Yes
Una alta ganancia implica que History No
el atributo X permite reducir Math Yes
la incertidumbre de la E(Y) = 1
clasificacin del ejemplo de
E(Y|X) = 0.5
entrada.
IG(Y | X) = 1 0.5 = 0.5
Algoritmo recursivo
Aplicacin al ejemplo

Entropa inicial:
Aplicando la ecuacin de
entropa a los datos de
entrada del ejemplo
tenemos:
E(S)= -0.4log2(0.4)-
0.6log2(0.6)= 0.971 Prob(S<1)=0.3,Prob(S1-5)=0.4,Prob(S>5)=0.3

E(S<1) = -2/3log2(2/3)1/3log2(1/3)= 0.9183


Para cada atributo E(S1-5)= -1/4log2(1/4)-3/4log2(3/4)= 0.811
E(S>5) = -1/3log2(1/3)-2/3log2(2/3)= 0.9183
(Antigedad, Moroso,
Ingresos, Fijo), calculamos la E(S<1)*0.3 = 0.2755
E(S1-5)*0.4 = 0.3244
ganancia de informacin que E(S>5)*0.3 = 0.2755
obtenemos al seleccionar H(Conceder | Antigedad) =
cada uno de ellos 0.2755 + 0.3244 + 0.2755 = 0.8754
Ganancia = 0.971 0.8754 = 0.09
Aplicacin al ejemplo
Extensiones del algoritmo

Extensiones:
Atributos numricos: ID3 slo trabaja con atributos discretos. Si se
usan atributos continuos hay que descomponerlos en rangos. Para ello
se ordenan los ejemplos segn el valor y se toman como puntos lmite los
puntos medios de aquellos en que se cambie de clase.

825 950 1150


Atributos con gran nmero de valores. Se forman grupos pequeos de
ejemplos que pueden ser homogneos por casualidad. Debe introducirse
un elemento corrector que penalice atributos con un elevado nmero de
valores (ganancia normalizada):

Sobre-entrenamiento. Comprobacin de capacidad de generalizacin.


Bibliografa

Escolano et al. Inteligencia Artificial. Thomson-


Paraninfo 2003. Captulo 4.
Mitchel, Machine Learning. McGraw Hill,
Computer Science Series. 1997
Cover, Thomas, Information Theory. Wiley &
Sons, New York 1991