RBOLES DE DECISIN
Un rbol de decisin tiene unas entradas las cuales pueden ser un objeto
o una situacin descrita por medio de un conjunto de atributos y a partir
de esto devuelve una respuesta la cual en ltimas es una decisin que es
tomada a partir de las entradas.
Los valores que pueden tomar las entradas y las salidas pueden ser
valores discretos o continuos. Se utilizan ms los valores discretos por
simplicidad. Cuando se utilizan valores discretos en las funciones de una
aplicacin se denomina clasificacin y cuando se utilizan los continuos se
denomina regresin.
Y
0 1
X X
0 1 0 1
0 Z 1 Z
0 1 0 1
0 1 0 1
1. Aprendizaje:
2. Clasificacin:
Para este manual slo se tendr en cuenta los algoritmos y/o rboles de
decisin tomados en el software libre WEKA versin 3.4.
El ADTree puede ser visto como una consistencia de una raz nodo de
direccin y cuatro unidades de tres nodos cada uno. Cada unidad es una
regla de decisin y esta compuesta por un nodo splitter y dos nodos de
prediccin que son sus hijos [5].
3
Citado en Proz. rbol de decisin (ptima). Disponible:
http://www.proz.com/kudoz/2311529 [citado en 28 de Febrero de 2008]
14
Figura 3. Ejemplo de un rbol ADTree
15
Funcionan de forma aceptable en problemas de dos clases. No obstante,
para problemas de ms de dos clases es muy difcil encontrar tasas de
error inferiores a 0.5 segn [6].
2.3.3. ID3
Otro concepto dado por [9] que se puede tomar es aquel donde se
describe que el ID3 es un algoritmo iterativo que elige al azar un
subconjunto de datos a partir del conjunto de datos de entrenamiento y
construye un rbol de decisin a partir de ello. El rbol debe clasificar de
forma correcta a todos los casos de entrenamiento. A continuacin y
usando este rbol intenta clasificar a todos los dems casos en el
conjunto completo de datos de entrenamiento. Si el rbol consigue
clasificar el subconjunto, entonces ser correcto para todo el conjunto de
datos, y el proceso termina. En caso contrario, se incorpora al
subconjunto una seleccin de los casos que no ha conseguido clasificar
correctamente, y se repite el proceso. De esta forma se puede hallar el
rbol correcto en unas pocas iteraciones, procesando un conjunto de
datos.
18
REPRESENTACIN TIPO RBOL
19
2.3.5. LMT (Logistic Model Tree)
20
2.3.6. M5P (rbol de regresin)
21
2.3.8. RandomForest
Segn cita Francisco Jos Soltero y Diego Jos Bodas en su artculo [17]
Se basan en el desarrollo de muchos rboles de clasificacin. Para
clasificar un objeto desde un vector de entrada, se pone dicho vector bajo
cada uno de los rboles del bosque. Cada rbol genera una clasificacin,
el bosque escoge la clasificacin teniendo en cuenta el rbol ms votado
sobre todos los del bosque.
Cada rbol se desarrolla como sigue:
Si el nmero de casos en el conjunto de entrenamiento es N,
prueba N casos aleatoriamente, pero con sustitucin, de los datos
originales. Este ser el conjunto de entrenamiento para el
desarrollo del rbol.
Si hay M variables de entrada, un nmero m<<M es especificado
para cada nodo, m variables son seleccionadas aleatoriamente del
conjunto M y la mejor participacin de este m es usada para dividir
el nodo. El valor de m se mantienen constante durante el
crecimiento del bosque.
Cada rbol crece de la forma ms extensa posible, sin ningn tipo
de poda.
2.3.9. RandomTree
2.3.11. UserClassifier
24