Anda di halaman 1dari 2

Minería de Datos

Practica 2 – Arboles
Material de Lectura: Capítulo 11 del Libro Introducción a la Minería de Datos de Hernández Orallo

1) Tal como se describió en la práctica anterior, el archivo SOPAS_EN_LATA.csv contiene la siguiente


información de distintas marcas:
- MARCA: número que identifica la marca.
- PRODUCTO: indica de que sabor es la sopa. CN:fideos de pollo, V=vegetales, T=tomate
- TIPO: puede valer CC=enlatada condensada, CR=enlatada lista para servirse, DC=deshidratada
cocinada, DI=deshidratada instantánea
- COSTO: en centavos de dolar
- CALORIAS : por ración de 8 onzas
- GRASA: en gramos por ración de 8 onzas
- CALORIAS_DE_GRASA como porcentaje de grasa
- SODIO : nivel de sodio en miligramos
a) Utilice esta información para generar un árbol de clasificación para el atributo TIPO utilizando el
método C4.5 (operador J48). Luego, observando la matriz de confusión, analice la precisión del
modelo obtenido al aplicarlo sobre el conjunto de ejemplos completo. Explique.
b) Realice las siguientes transformaciones sobre los ejemplos de la tabla Sopas.csv:
- El atributo TIPO presenta sólo 7 ejemplos con los valores DC y 3 con DI por lo que se decidió
unirlos. Como resultado el atributo TIPO quedó con tres valores posibles: CR (22 casos), CC(15
casos) y OTRO(10 casos). Nota: Puede utilizar el operador MergeTwoValues de Weka
- Usando información de otros modelos se decidió discretizar el atributo COSTO dividiendo su
rango en 4 intervalos por rango.
Luego de realizar las dos transformaciones anteriores, construya un árbol de clasificación para el
atributo COSTO. Analice la precisión del modelo obtenido.
c) Utilizando los ejemplos del archivo SOPAS_EN_LATA.csv originales discretice el atributo SODIO
en tres intervalos de igual frecuencia. Luego construya un árbol de clasificación para predecir los
valores del atributo SODIO discretizado.
En base al árbol obtenido ¿puede afirmar que las marcas de sopa con mayor nivel de sodio son
las de menor costo?

2) Utilizando la información del archivo ZOO.csv utilice un árbol de clasificación para explicar las
características más representativas de cada clase de animal
a) ¿Cuántas características fueron utilizadas para construir el árbol?
b) Observe el árbol e indique las características consideradas para determinar si un animal es
un insecto o no.
c) Indique la precisión del árbol en caso de ser aplicado sobre el conjunto de ejemplos original.
3) Suponga un conjunto de 12 datos formados por tres atributos A, B y C. Cada atributo tiene dos valores
posibles. Además, cada dato posee un atributo CLASE el cual puede tomar dos valores posibles: X o Y.
La siguiente tabla muestra la clase de los ejemplos para cada atributo y valor:

Atributo Valor 1 Valor 2


A XXXYYY XXXYYY
B XXXXXX YYYYYY
C XXXXXY XYYYYY

Ordene los atributos de menor a mayor según su valor de entropía. Observe que no necesita calcular
exactamente la entropía para responder.

Anda mungkin juga menyukai