Arboles de Decision

Árboles de decisión
Tema 3
Juan A. Botı́a Blaya
juanbot@um.es
Departamento de Ingenierı́a de la Información y las Comunicaciones

Universidad de Murcia
´
Aprendizaje Computacional. Ingenier´ıa Superior en Inform
atica. Tema3. ADs. Juan A. Bot´ıa – p.1/38
Árboles de decisión
1. Introducción
2. Aplicabilidad
3. Algoritmo básico
4. Búsqueda en ID3
5. Sobre-aprendizaje
6. Valores continuos
7. Medidas alternativas para selección de atributos
8. Valores nulos
9. Atributos con costes diferentes
10. Árboles de regresión
´
Introducción [Mit97]
Método para aproximar funciones de valores discretos a la entrada y
a la salida.
La función de salida viene representada por un árbol de decisión
Los nodos representan atributos de entrada, y los arcos los
diferentes valores que éstos pueden tomar.
Las hojas son los valores de salida de la función.
También pueden escribirse en forma de reglas IF-THEN
Aplicación típica: concesión de créditos
´
Ejemplos → Árbol binario
Color=verde
si no
Uva
tamaño=grande color=amarillo
si no si no
Melón tamaño=medio forma=redondeado tamaño=pequeño
si no no
si no si
Manzana Uva Banana Manzana

tamaño=grande sabor=dulce
si no
si no
Pomelo Limón Cereza Uva
´
Ejemplos → Árbol n-ario
Tiempo
Soleado Lluvioso
Nublado
Humedad Si Viento
Normal Alta Fuerte Suave

No Si No Si
(T iempo = Soleado ∧ Humedad = N ormal)

∨ (T iempo = N ublado)
∨ (T iempo = Lluvioso ∧ V iento = Suave)
T HEN JUGAR=Si
´

7
7O K ;9 E7 <; 7 > P ' (
: +* &
H E 9 79 <7 E7
<H -,
C
7 8 I H P # )
F : 8Q 8
= 9 .
E ; :
G = 9 /
EH 9 ; G ; B ; :
7 P
79 E 1 0
2
E7 I #
J= E : <
8= : 9 ; 4 3
5 &
|
<H <H H I 9
T :
: 9 K
I T <F
% 7 )
< H G
R > 9K !76 # &
7
9 K 9
HRG 9 8; E7 7 8
< 8H M = L J; 9
:
> H <H 9 " #
; P 7 O N ; :
I &
O8H = >
9 ; = H M : <=
;9 EH
M N H )
8 ; G > 7 $ #
%
8= 8H &
= 8= !
: <= <
HOE J=
8 S : < ; : >
F : E; H )
7
9 "
G S : < ? <7 ?
9 H P F
> : H A@ I A@
:
E7 <F <7 H K ' (
E <H T 7

; I B C B
D
<H Q8
;9 N9
9 87 7 &
C I ; =
I 8H
; B
K 9 E E
I E7 E = E
9 H G :
9 I # #
HRG 9 H : 8
: 8 E7O F :
E7 9
<F : >
E 9 H G
C ; : ;9 9
H8 8
9
O > : Q P
R E7 #
9 < = &
: ; : ; V ; !
9 M <H
9 9 8HO
; : < ;9 7 G &
H I
M N =
: O9 " # $ #
<
= < 8= ; G
N 7 7 K
L 9 H I L S :
8 H G
R < H U H J=

9K !"


Árboles monotéticos - Espacio de hipótesis
´
Aplicabilidad
Los ejemplos se presentan en forma de pares
< atributo, valor >
Mejor si los atributos tienen un dominio de valores reducido.

La función de salida presenta valores discretos.
Es interesante el tipo de representación con vistas a la explotación posterior del
modelo.
Resulta conveniente una representación del tipo de la disyunción de conjunciones.
Los datos de aprendizaje pueden contener errores.
Los datos de aprendizaje pueden contener valores nulos en algún atributo para algún
ejemplo.
Ejemplos pueden verse en [Mur97]
´
ID3 para clasificación
Los problemas típicos a los que se aplica este tipo de enfoque son
denominados problemas de clasificación [Qui93].
Relación de casos, formados por pares < atributo, valor >, junto
con una etiqueta que informa sobre la clase de concepto a la que
pertenece el ejemplo particular.
Una vez aprendido el árbol, se emplea para clasificar nuevos casos.
Ejemplos
Para diagnosticar enfermedades (i.e. clases), dependiendo de
los síntomas (i.e. atributos de entrada).
Problemas de malfuncionamiento en equipos y
problemas de concesión de préstamos.
´
El algoritmo básico de aprendizaje
Estrategia de búsqueda top-down, del tipo greedy.
El espacio de búsqueda es el formado por todos los árboles de
decisión posibles.
El algoritmo por excelencia es el ID3
Se comienza respondiendo a
¿qué atributo usamos como raíz para el árbol?
Esta cuestión se resuelve aplicando un test estadístico para
averiguar cual de los atributos clasificaría mejor las instancias por sí
solo.
Se desarrolla una rama para cada posible valor.
En los nuevos nodos se vuelve a hacer la misma pregunta
Así hasta desarrollar un árbol completo (en la versión básica)
´
El algoritmo básico de aprendizaje (II)
ID3(Ejemplos, Etiquetas, Atributos)
Paso 0: Definición
Sea Ejemplos el conjunto de ejemplos,
Etiquetas es el conjunto de posibles clases.
Atributos es el cjto. de atributos en los datos.
Paso 1: Crear un nodo raíz para el árbol.
Paso 2: Si todos los ejemplos son positivos, devolver el nodo raíz, con etiqueta +.
Paso 3: si todos los ejemplos son negativos, devolver el nodo raíz, con etiqueta −.
Paso 4: Si Atributos está vacío, devolver el nodo raíz, con el valor de Etiquetas más probable en Ejemplos.
Si no
Inicializar A ← atributo que mejor clasifica Ejemplos.
Hacer que el nodo root tenga como atributo de decisión al atributo A.
Ahora ∀vi ∈ A
Añadir arco bajo raíz, con test A = vi
Sea Ejemplosv el subconjunto de Ejemplos con valor vi en el atributo A.
i
Si Ejemplosv = ∅ añadir un nodo hoja al arco que acabamos de añadir con la etiqueta de Etiquetas más probable en
i
Ejemplos.
Sino añadir al nuevo arco el subárbol generado por ID3(Ejemplosv , Etiquetas, Atributos − {A})
i
Paso 5: Devolver el nodo raíz
´
Encontrando el atributo mejor clasificador
Medida básica → ganancia de información

Basada en la entropı́a
Entropía: la cantidad de bits, en promedio, que harían falta para codificar mensajes
que indicaran las clases de los ejemplos.
Et(S) = −p⊕ log2 p⊕ − p log2 p
Func. Entropia
K
1
0.5
1
0.8
00 0.6
0.2 0.4 0.4 p. ej. -
p. ej. +0.6 0.8 0.2
1 0
´
Encontrando el atributo mejor clasificador (II)
La función de entropía corresponde a los valores

p⊕ + p = 1
Si una clase tiene P = 1 entropía es 0.
Valor máximo → p⊕ = p = 0.5.
Si la etiqueta de los ejemplos puede tomar c valores
diferentes
Xc
Et(S) = −pi log2 pi
i=1
´
Ganancia de información
Informalmente es la reducción en entropía del conjunto, al clasificar
S usando el ejemplo determinado.
Es una medida relativa al conjunto S y a cada atributo.
X |Sv |
Ganancia(S, A) = Et(S) − Et(Sv )
|S|
v∈V alores(A)
V alores(A) es el conjunto de posibles valores del atributo A,

|Sv | es el número de ejemplos en S etiquetados con v,
|S| es el número total de ejemplos y
Et(Sv ) es la entropía de los ejemplos etiquetados con v.
´
Ejemplo
Sea S con atributos V iento = {Suave, F uerte} y Humedad = {Alta, N ormal}.
S tiene 14 ejemplos, 9 de ellos positivos y 5 negativos.
Cuando la humedad es Alta, 3 ejemplos son negativos y 4 positivos.
Cuando es N ormal 6 de los ejemplos son positivos y 1 ejemplo negativo.
Si el viento es Suave se presentan 6 ejemplos positivos y 2 negativos.
Cuando es F uerte se tienen tres positivos y tres negativos.
¿Cuál de ellos sería el que mejor clasifica el conjunto S?
Et(Humedad = Alta) = − 37 × log2 ( 73 ) − 4
7
× log2 ( 74 ) = 0.985
Et(Humedad = N ormal) = − 76 × log2 ( 67 ) − 1
7
× log2 ( 17 ) = 0.592
Ganancia(S, Humedad) = 0.940 − (7/14) × 0.985 − (7/14) × 0.592 = 0.151
Et(V iento = Suave) = − 68 × log2 ( 68 ) − 2
8
× log2 ( 28 ) = 0.811
Et(V iento = F uerte) = − 63 × log2 ( 36 ) − 36 × log2 ( 36 ) = 1.0
Et(S) = 0.940
Ganancia(S, V iento) = 0.940 − (8/14) × 0.811 − (6/14) × 1.00 = 0.048
Más ganancia con el atributo Humedad
´
Otras medidas de calidad para atributos [HTF01]
Sea
1 X
p̂mk = I(yi = k)
Nm
xi ∈Rm
la porporción de la clase k en el nodo m, que representa a una región Rm

con un total de Nm observaciones
Error de clasificación
1 X
I(yi 6= k(m)) = 1 − p̂mk
Nm
i∈Rm
Inidice Gini
X X
K
p̂mk p̂mk0 = (1 − p̂mk )
k6=k0 k=1
´

;
,6 K :@ 1 B
> ;; 7 "!
0.0 0.1 0.2 0.3 0.4 0.5
/ ,1 #$

C 7 EDC: &'%
0.0
6,8 *)(

4 ;:
:F -,+

G
5 0/. in

0.2
ii
nd
; C<
M
321 ex

is
// L @ 7 cl
as
45
si
fic
at
C ,C 1

io
n
6987 1
0.4
:;@ ,
er
ro
/ A 7< 2 r
p
. F /:

,7 /
;5
0.6
:4 46,

las medidas en la figura siguiente
/6
;; 4,
7 67 ;
,< En
tro
0.8
6,5 F ,CG 1 67 py

M ?>=,

JPOF N C 1 :@ A

1.0
RJP QO :@ A ;;
; :@
P Q S JI; H >;A

´

Comparativa de medidas
atica.
Para dos clases, si p es la proporción de la segunda clase,
Tema3. ADs. Juan A. Bot´ıa – p.16/38

Comparativa de medidas (II)
La medida de error de clasificación no es diferenciable
Entropía y Gini son más precisas al reflejar cambios en
probabilidades de nodos
Sea un problema binario con 400 ejemplos en cada
clase (400,400)
Supongamos un par de posibles splits
1. (300,100) y (100,300)
2. (200,400) y (200,0)
Los dos tienen un error de clasificación de 0.25
Entropía y Gini son inferiores en el segundo
´
Búsqueda en árboles de decisión
El espacio de búsqueda de ID3, está formado por todos los posibles árboles de
decisión que clasifican S perfectamente.
El tipo de búsqueda es top-down con estrategia hill-climbing (o greedy)
+ - *
A1 A2
+ - * + - *
A2
A2
+ - * -
A4
+ - * -
A3
-
´
Sobre-aprendizaje
ID3 puede adolecer de overfitting.
El conjunto de ejemplos no es lo suficientemente
representativo
Los ejemplos tienen errores
Definimos sobreaprendizaje.
Definición 1 Dado un espacio de hipótesis H , se dice

que una hipótesis particular h ∈ H sobreajusta los
datos de entrenamiento si existe una hipótesis
alternativa h0 ∈ H , tal que h presenta un error menor
que h0 sobre los ejemplos de entrenamiento, pero h0
presenta un error menor que h sobre el conjunto total
de observaciones.
´
Sobre-aprendizaje (II)
0.9
0.85
0.8
0.75
Accuracy
0.7
0.65
0.6 On training data

On test data
0.55
0.5
0 10 20 30 40 50 60 70 80 90 100
Size of tree (number of nodes)
´
Influencia de errores en el overfitting
Conjunto de ejemplos de la aplicación inicial
Day Outlook Temperature Humidity Wind PlayTennis
D1 Sunny Hot High Weak No
D2 Sunny Hot High Strong No
D3 Overcast Hot High Weak Yes
D4 Rain Mild High Weak Yes
D5 Rain Cool Normal Weak Yes
D6 Rain Cool Normal Strong No
D7 Overcast Cool Normal Strong Yes
D8 Sunny Mild High Weak No
D9 Sunny Cool Normal Weak Yes
D10 Rain Mild Normal Weak Yes
D11 Sunny Mild Normal Strong Yes
D12 Overcast Mild High Strong Yes
D13 Overcast Hot Normal Weak Yes
D14 Rain Mild High Strong No
Introducimos un nuevo ejemplo
< Outlook = Sunny, T emperature = Hot, Humidity = N ormal,

W ind = Strong, P layT ennis = N o >
´
Influencia de errores en el overfitting (II)
Se generará un nuevo nodo en el árbol
Tiempo
Soleado Nublado Lluvioso
Humedad Viento
Si
Normal Alta Fuerte Suave
Si No Si
Temp.
Cal. Media Fria
No Si Si
El nuevo árbol h es más complejo y preciso en el error de

entrenamiento que h0 .
Sin embargo, es de esperar que h se comporte peor con nuevas
observaciones.
´
Influencia de errores en el overfitting (II)
¿Cómo podemos evitarlo? Siguiendo uno de los dos
enfoque siguientes:
Parar de construir el árbol, antes de que este
clasifique perfectamente todos los ejemplos
(pre-prunning).
Se puede construir el árbol y después intentar una
poda (post-prunning).
´
Incorporación de valores continuous
Podemos transformar ID3 para que trabaje con atributos continuos
Transformamos el dominio de los continuos en una serie de intervalos
Sea A un atributo continuo,
El nuevo Ac será true si A < c y false si A ≥ c.
Problema: umbral c.
Nuevo atributo, Temperatura
Temperatura 40 48 60 72 80 90
Jugar Tenis No No Si Si Si No
Usaremos la ganancia de información para decidir entre varios posibles valores para c
1. Candidato: T emp54 = (60 + 48)/2 y
2. Candidado: T emp85 = (80 + 90)/2.
3. Ganancia(T emp54 ) > Ganancia(T emp85 )
´
Otras medidas alternativas para selección de atributos
Ganancia(S, A) favorece a los atributos que tienen más valores.

Ejemplo: atributo fecha.
Solución: nueva medida que tenga en cuenta este hecho
X
c
|Si | |Si |
SplitInf ormation(S, A) = − log2
i=1
|S| |S|
Es, en realidad, la entropía del conjunto S con respecto a los valores

del atributo A.
El ratio de ganancia vendrá dado por la expresión
Ganancia(S, A)
GainRatio(S, A) =
SplitInf ormation(S, A)
Por tanto, se amortigua la elección de atributos con muchos valores,

uniformemente distribuidos.
´
Ejemplos de entrenamiento con valores nulos
Es posible que en S tengamos valores desconocidos

Al calcular Ganancia(S, A), siendo < x, c(x) > un ejemplo de S para el cual el valor
A(x) no se conoce. ¿Cómo damos un valor a A(x)?
Podríamos calcular el valor más probable
Podríamos calcular el valor más probable de entre los ejemplos que pertenecen a
la clase c(x).
Podríamos asignar probabilidades a los distintos valores de un determinado
atributo.
Sea A un atributo booleano.
Se observan en S 6 valores de verdad true y
4 valores de verdad false.
Para nuevos < x, c(x) > con valor nulo para A le asignaremos un true con
probabilidad 0.6 y false con probabilidad 0.4.
´
Atributos con relevancias diferentes
Podemos necesitar diferenciar atributos en términos de
su coste
Ejemplo, diagnóstico médico con atributos
Temperatura, ResultadoBiopsia, Pulso y
ResultadoTestSanguı́neo.
Ejemplos de medidas
Ganancia2 (S, A)
Coste(A)
2Ganancia(S,A) − 1
w
, w ∈ [0, 1]
(Coste(A) + 1)
´
Obtención de un AD con el tamaño adecuado
Motivación
Construimos un conjunto de datos artificialmente con, digamos, 10 atributos,
cada uno de los cuales tomando valores en {0, 1}, con igual probabilidad, dos
clases diferentes, yes con probabilidad 0.25 y no con probabilidad 0.75.
Generamos 1000 ejemplos, y los dividimos aleatoriamente en 500 ejemplos de
test y 500 ejemplos de entrenamiento. Pues bien, el algoritmo básico produce
un árbol de 119 nodos, con un error de clasificación del 35% en los casos de
test. Obsérvese que un árbol con una única hoja etiquetada con la clase no
habría producido un error de clasificación del 25%.
1. Un árbol balanceado, y con un número pequeño de

nodos es más fácil de analizar
2. “pequeños disjuntos” → clasifican pocos casos
3. Ruído nos lleva a la sobreadaptación
´
Técnicas de control de crecimiento [BA97]
Simplificación de árboles de decisión
Control del tamaño Modificación del Modificación de búsqueda Restricciones en los datos Estructuras de datos
espacio de tests de tests Alternativas
Pre-prunning
Dirigida por datos Medidas de selección Selección de casos Grafos de decisión
Post-prunning
Incremental Dirigida por hipotesis Atributos continuos Selección de atributos Reglas
Búsqueda anticipada
´
Técnicas (II)
A continuación comentamos las más importantes:
Control del tamaño: en este enfoque se intenta controlar el tamaño,

bien intentando construir un árbol limitado, podándolo ulteriormente
ó ajustandolo on-line.
Pre-prunning: imposición de un criterio, no trivial, con el que
parar de expandir el árbol.
Post-prunning: eliminación de subárboles después de la
construcción del árbol total.
Reajuste incremental: si se mantienen los casos de
entrenamiento, y se van acumulando los subsiguientes casos
que vayan apareciendo el árbol puede ir actualizándose on-line.
´
Técnicas (III)
Modificación del espacio de los tests
La construcción de test dirigida por datos se basa en construir
nuevos atributos mediante
1. combinación de atributos base mediante operadores numéricos,
2. por combinación de éstos por operadores lógicos
En la construcción de tests dirigida por hipótesis
se almacenan los tests construidos según la forma anterior,
los árboles que van construyéndose influyen en la decisión de si
aplicarlos postreramente o no.
´
Técnicas (IV)
Modificación de la búsqueda de tests: se puede modificar la búsqueda usando una
diferente a la de tipo greedy.
Nuevas medidas de selección: podemos usar medidas alternativas a la ganancia
como por ejemplo la basada en el principio MDL (Minimun Description Length), la
medida de Kolmogorov-Smirnoff, separabilidad de clases, etc.
Uso de atributos continuos: la discretización de atributos continuous se puede
realizar de tal forma que se reduzca el sesgo y la selección de tests en atributos
continuous.
Búsqueda anticipada: en esta, se construyen en forma tentativa subárboles
usando determinados tests, y se evalúan a una profundidad suficiente. Así, se
puede escoger el tests que mejores resultados ha dado con más información que
si se realizara una simple búsqueda greedy.
´
Técnicas (V)
Restricciones en los datos
Podemos eliminar casos o atributos
Estructuras de datos alternativas
Una vez se ha construido el árbol, podemos
convertir este en una estructura diferente, más
compacta
grafos y
reglas de decisión
´
Árboles para regresión
Seguiremos la metodología CART (Classification and Regression
Trees)
Los árboles de regresión son estimadores de funciones de regresión
que tienen la propiedad de ser constantes en rectángulos.
Resultan de utilidad cuando los datos de entrada son una mezcla de
variables continuas y discretas.
La metodología CART para la construcción de árboles de regresión
consiste en las partes
1. Construcción de un árbol de regresión sobreajustado a los datos
de aprendizaje.
2. Poda del árbol usando poda coste-complejidad (i.e.
cost-complexity prunning)
´
Construcción del árbol
Secuencialmente
1. Tomamos como estimador inicial de la función de regresión un valor constante
1 Xn
fˆr (x) = yi
n i=1
2. Dividimos el espacio de muestreo en dos partes escogiendo X j (Ganancia)

Si Xj es una variable continua, se escoge entonces un número real α tal que
se define
R1 = {x ∈ R : xj ≤ α}, R2 = {x ∈ R : xj > α}.
Si Xj es una variable discreta aleatoria, con valores {A 1 , A2 , . . . , Aq } se

escoge un subconjunto I ⊂ {A1 , A2 , . . . , Aq } y se define
R1 {x ∈ R : xj ∈ I}, R2 = {x ∈ R : xj ∈ {A1 , A2 , . . . , Aq } − I}.
´
Construcción del árbol (Cont.)
El estimador de regresión en el segundo paso
ˆ 1 X 1 X
fr (x) = Yi + Yi
|I1 | I |I2 | I
1 2
en donde I1 = {i : Xi ∈ R1 },
|I1 | es el número de elementos en I1 , análogamente para I2 .
La división de R en R1 y R2 se realiza de tal forma que se ha de minimizar
X
n
(Yi − fˆr (Xi ))2 .
i=1
Procedemos igualmente para R1 y R2 .

Seguimos hasta que el número de observaciones es pequeño en cada rectángulo, o
bien la suma de los errores cuadráticos es pequeña.
La división en dos de cada uno de los rectángulos que se van obteniendo se puede
realizar usando cualquier técnica de optimización disponible, como la basada en
gradiente descendiente usando la definición del error de la suma de errores
cuadráticos.
´
Poda del árbol
Sea T ⊂ T0 cualquier árbol que puede obtenerse al podar T 0
Sea |T | el número de nodos terminales en T y
1 X
ĉm = yi
Nm xi ∈Rm
1 X
Qm (T ) = (yi − ĉm )2
Mm xi ∈Rm
Definimos el criterio coste-complejidad como
|T |
X
Cα (T ) = Nm Qm (T ) + α|T |, 0 ≤ α ≤ 1
m=1
Para cada α existe un Tα unico mínimo que minimiza Cα (T )

Se trata de encontrar un buen α y posteriormente T α
´
Referencias
[BA97] L. A. Breslow and D. W. Aha, Simplifying decision trees: a survey, Knowledge
Engineering Review 12 (1997), no. 1, 1–40.
[HTF01] Hastie, Tibshirani, and Friedman, The elements of statistical learning,
Springer-Verlag, 2001.
[Mit97] Tom M. Mitchell, Machine learning, McGraw-Hill, 1997.
[Mur97] Sheerama K. Murthy, Automatic construction of decision trees from data: A
multi-disciplinary survey, Data Mining and Knowledge Discovery (1997).
[Qui93] J. Ross Quinlan, C4.5: Programs for machine learning, The Morgan Kaufmann
series in Machine Learning, Morgan-Kauffman, San Mateo, California, 1993.
´

Arboles de Decision

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Arboles de Decision

Diunggah oleh

Hak Cipta:

Format Tersedia

Árboles de decisión

Departamento de Ingenierı́a de la Información y las Comunicaciones

Melón tamaño=medio forma=redondeado tamaño=pequeño

Manzana Uva Banana Manzana

Pomelo Limón Cereza Uva

Normal Alta Fuerte Suave

(T iempo = Soleado ∧ Humedad = N ormal)

Aprendizaje Computacional. Ingenier´ıa Superior en Inform

< atributo, valor >

Mejor si los atributos tienen un dominio de valores reducido.

ID3(Ejemplos, Etiquetas, Atributos)

Etiquetas es el conjunto de posibles clases.

Atributos es el cjto. de atributos en los datos.

Paso 1: Crear un nodo raíz para el árbol.

Hacer que el nodo root tenga como atributo de decisión al atributo A.

Paso 5: Devolver el nodo raíz

Medida básica → ganancia de información

Et(S) = −p⊕ log2 p⊕ − p log2 p

La función de entropía corresponde a los valores

V alores(A) es el conjunto de posibles valores del atributo A,

la porporción de la clase k en el nodo m, que representa a una región Rm

Tema3. ADs. Juan A. Bot´ıa – p.16/38

Definición 1 Dado un espacio de hipótesis H , se dice

0.6 On training data

Introducimos un nuevo ejemplo

< Outlook = Sunny, T emperature = Hot, Humidity = N ormal,

Soleado Nublado Lluvioso

Normal Alta Fuerte Suave

Cal. Media Fria

El nuevo árbol h es más complejo y preciso en el error de

Ganancia(S, A) favorece a los atributos que tienen más valores.

Es, en realidad, la entropía del conjunto S con respecto a los valores

Por tanto, se amortigua la elección de atributos con muchos valores,

Es posible que en S tengamos valores desconocidos

1. Un árbol balanceado, y con un número pequeño de

Simplificación de árboles de decisión

Control del tamaño: en este enfoque se intenta controlar el tamaño,

2. Dividimos el espacio de muestreo en dos partes escogiendo X j (Ganancia)

Si Xj es una variable discreta aleatoria, con valores {A 1 , A2 , . . . , Aq } se

R1 {x ∈ R : xj ∈ I}, R2 = {x ∈ R : xj ∈ {A1 , A2 , . . . , Aq } − I}.

Procedemos igualmente para R1 y R2 .

Definimos el criterio coste-complejidad como

Para cada α existe un Tα unico mínimo que minimiza Cα (T )

Anda mungkin juga menyukai