Anda di halaman 1dari 17

Árboles de Decisión

Data Mining with Rattle and R

Introducción

Los árboles de decisión son los bloques de construcción tradicionales de la minería de datos y los clásicos algoritmos de las máquinas de aprendizaje.

Se caracteriza por la simplicidad del modelo resultante, donde un árbol de decisión es bastante fácil de ver, comprender, y sobre todo explicar.

La estructura del árbol de decisión puede representar clasificaciones o modelos de regresión.

Representación del conocimiento Algoritmo de búsqueda Medidas Ejemplo Parámetros de ajustes

Representación del Conocimiento

La estructura de un árbol es usada en muchos campos diferentes, como en medicina, lógica, solución de problemas, y ciencia de la administración. También es una estructura tradicional de la informática para organizar datos.

Representación del Conocimiento  La estructura de un árbol es usada en muchos campos diferentes, como

Algoritmos

Identificando Modelos Alternativos

La estructura del árbol de decisión se utiliza para expresar nuestros conocimientos.Una frase (o modelo) en este idioma es un árbol de decisión en particular.Para cualquier conjunto de datos habran mucho o incluso infinitos posibles arboles de decisión (sentencias).

Por lo general, tenemos una coleccion infinita de posibles frases para elegir. Enumerar cada frase sea posible, y probar si es un buen modelo ,en general , será demasiado costoso computacionalmente.

Dividir el conjunto de datos

Dividir el conjunto de datos  El algoritmo se ha desarrollado para la inducción del árbol

El algoritmo se ha desarrollado para la inducción del árbol de decisión se conoce como la inducción de arriba hacia debajo de los arboles de decisión , usando un enfoque divide y venceras ,o particionamiento recursivo.

La distribución de las observaciones, con respecto a la meta RainTomorrow variables, es de particular interés. Hay 66 observaciones que tienen el objetivo como Sí (18%) y 300 observaciones con No (82%).

Ahora tenemos en cuenta las proporciones de Sí y No hay observaciones dentro de los dos nuevos conjuntos de datos. Para el subconjunto de observaciones con sol menor de 9, las proporciones son 28% y 72% Sí No. Para el subconjunto de observaciones con sol mayor o igual a 9 las proporciones son del 5% y el 95% Sí No.

Queremos encontrar cualquier variable de entrada que se puede utilizar para dividir el conjunto de datos en dos conjuntos de datos más pequeños. El objetivo es aumentar la homogeneidad de cada uno de los dos conjuntos de datos con respecto a la variable de destino

La partición recursiva

El proceso se repite de nuevo ahora por separado para los dos nuevo conjunto de datos. Es decir para el conjunto de datos izquierda arriba (observaciones que tienen sol <9), consideramos todas las variables posibles y se divide para particionar ese conjunto de datos en dos conjunto de datos mas pequeños. Independientemente , para el conjunto de datos a la derecha(observaciones teniendo sol>=9) tenemos en cuenta todas las variables posibles y se divide para particionar ese conjunto de datos en dos conjuntos de datos mas pequeños también.En general , podríamos parar cuando se acaben las variables , se queden sin datos o que al particionar el conjunto de datos no mejora la proporciones o el resultado.

La partición recursiva  El proceso se repite de nuevo ahora por separado para los dos

Medidas

Al describir el algoritmo básico anterior , se indico que necesitamos medir lo bien que es una particular partición del conjunto de datos

Ganancia de la información

Rattle utiliza una medida de ganancia de información para decidir entre divisiones alternativas. El concepto viene de teoría de la información y utiliza una formulación del concepto de la entropía de la física (es decir, el concepto de la cantidad de desorden en un sistema). Se discuten los conceptos aquí en términos de una variable objetivo binario, pero el concepto generaliza a múltiples clases e incluso a las variables objetivo numéricos para tareas de regresión

Desde una perspectiva de teoría de la información, interpretamos una medida de 0 (es decir, una entropía de 0) como indicativo de que no necesitamos más información para clasificar una observación específica dentro del conjunto de datos, todas las observaciones pertenecen a la misma clase. Por el contrario, una medida de 1 sugiere que necesitamos la máxima cantidad de información extra para clasificar nuestras observaciones en una de las dos clases disponibles. Si la división entre las observaciones donde llueve mañana y donde no llueve mañana no es 50% / 50%, pero tal vez el 75% / 25%, entonces tenemos menos información adicional con el fin de clasificar nuestras observaciones, el conjunto de datos ya contiene algunos información acerca de qué manera la clasificación se va a ir. Al igual que la entropía, nuestra medida de la "información necesaria" es, pues, entre 0 y 1.

Formula para capturar la entropía de un conjunto de datos

Formula para capturar la entropía de un conjunto de datos

Otras medidas

Existe una variedad de medidas que se puede utilizar como alternativas a la medida de información. La alternativa más común es el índice de Gini de la diversidad.

Este se introdujo en la construcción de árbol de decisión a través de la CART originales (clasificación y el árbol de regresión) algoritmo (Breiman et al.,

1984).

Tutorial

Tutorial

Resumen

Algoritmos de árboles de decisión manejan tipos mixtos de variables y valores perdidos, y son robustos a los valores atípicos y transformaciones monótonas de la entrada y de insumos irrelevantes. El poder predictivo de árboles de decisión tiende a ser más pobres que los de otras técnicas que vamos a introducir. Sin embargo, el algoritmo es generalmente sencillo, y la resultante modelos son generalmente fácilmente interpretable. Esta última característica ha hecho que la decisión del árbol de inducción muy popular durante más de 30 años.

En este capítulo se ha introducido el concepto básico de la representación del conocimiento como un árbol de decisión y presentó una medida para la elección de un buen árbol de decisión y un algoritmo para la construcción de uno.

Resumen de Comandos

Ctree() función Construye una árbol de inferencia condicional

Draw.tree() comando

Grafica un árbol de decisión mejorada

Maptree paquete Proporciona draw.tree()

Party paquete árboles de inferencia condicionales Path.rpart() función Identifica el paquete a través de un árbol de decisión

Plot () comando Plotcp() comando Print () comando Printcp()comando

Gradica el árbol Estructura el parámetro complejo. Versión textual del árbol de decisión Tabla de parámetros complejos

Rattle paquete El conjunto de datos weather y GUI

Rpart()

función Construye un modelo de árbol de decisión predictivo

Rpart paquete Provee funciones del árbol de decisión