Preparacin de datos
Contexto y perspectiva
Un caso de estudio nos dar una mejor perspectiva de lo que es la preparacin de
datos en un modelo de minera de datos.
Jerry es un gerente de mercadeo para una firma de diseo y publicidad en internet.
Su jefe le pide desarrollar un conjunto de datos que contenga informacin sobre los
usuarios de internet. La compaa usar estos datos para determinar qu tipo de
personas estn utilizando el internet y cmo la firma puede ofrecer sus servicios a
este grupo de usuarios.
Para completar su tarea, Jerry crea una encuesta en lnea y coloca enlaces de la
encuesta en diversos sitios web populares. En dos semanas, Jerry ha recopilado
suficientes datos para iniciar un anlisis, pero encuentra que los datos necesitan ser
normalizados. l nota tambin que algunas observaciones en el conjunto de datos
han perdido valores o que aparentan tener datos invlidos. Jerry se da cuenta que
es necesario realizar un trabajo adicional en los datos antes de empezar un anlisis.
Comprensin de datos
Preparacin de datos
Preparacin de datos
Supongamos que la base de datos subyacente de la encuesta que Jerry
diseo en lnternet est representada como la captura de pantalla
siguiente (OpenOffice)
Este diseo le permitira a Jerry observar los datos recopilados sobre las
personas en una tabla, y sobre su comportamiento en internet en otra.
RapidMiner se puede conectar a ella con fin de minar las respuestas.
Preparacin de datos
Pero, que pasara si Jerry quiere minar los datos de ambas tablas de
una sola vez? Una forma simple para recopilar datos de mltiples tablas
en una nica ubicacin es crear un visualizador de base de datos
(database view).
Preparacin de datos
Preparacin de datos
Preparacin de datos
Depuracin de datos
Preparando RapidMiner
Ejercicio:
RapidMiner tiene dos reas principales con herramientas muy tiles: Repositorios
(repositories) y Operadores (operators). Se puede acceder a ellos por medio de las
pestaas de la esquina inferior izquierda.
Si das clic a repositorios vers que el primero que aparece es el que creamos (RapidMiner
book)
Como el objetivo principal de este curso es dar una introduccin a la minera de datos, no
veremos todas las herramientas de RapidMiner, slo las que se consideren necesarias para
los ejercicios y casos que se expongan.
Presionamos clic en la opcin Import CSV files y nos aparecer la siguiente ventana
Una vez la vista preliminar muestra columnas para cada atributo, clic en
Next. Nos daremoscuenta que RapidMiner ha tratado a nuestros
nombres de atributos como si ellos son nuestra primera fila de datos, o
en otras palabras, nuestra primera observacin. Para solucionar este
problema, haga clic en el cuadro desplegable de anotacin junto a esta
fila y ponere nombre, y solucin a dicho problema, clic en Next.
RapidMiner tambin indica el rol que juega cada atributo, por defecto todas las columnas
son importadas con el rol de attribute (atributo), sin embargo nosotros podemos cambiar
estos roles aqu si sabemos que un atributo jugar un rol especfico en nuestro modelo de
minera de datos.
Como uno puede cambiar despus los roles de los atributos aceptaremos los que
RapidMiner arroja por defecto. Nota: si nos fijamos uno puede seleccionar atributos que no
quiere importar, esto puede realizarse limpiando el checkbox del atributo, pero de igual
forma esto puede hacerse despus as que aceptaremos las configuraciones por defecto.
Para ejecutar el stream de minera de datos y ver los resultados hay que dar clic en
el botn triangular de Play en la barra de herramientas en la parte de arriba. Esto
cambiara su visualizador a una perspectiva de diseo que es la que vimos en la
captura anterior, en esa perspectiva puedes pasar a otra donde se vea el
visualizador de resultados.
Puedes cambiar de perspectiva con solo dar clic en uno de los botones
que aparecen en la parte superior de la pantalla. Como podemos ver
hay una rica variedad de visualizadores en la perspectiva de resultados.
Metada data view, Data view, Plot view, advanced charts, Annotations.
Por cuestiones de ejemplo, en este caso cambiaremos los valores reconociendo que
lo que estamos por hacer no siempre ser lo correcto para manejar la prdida de
datos.
Damos clic a la perspectiva de diseo para poder cambiar los tres valores faltantes
en el atributo Online_Gaming a N
Reduccin de datos
Cambia la perspectiva a diseo. Los siguientes pasos te ayudar a reducir el
nmero de observaciones en tu conjunto de datos por medio de un proceso
de filtrado.
Busca en la pestaa de operadores, y digita la palabra filtro. Esto te ayudar
a encontrar el operador Filter Example, que es el que utilizaremos en este
caso. Arrastra el operador y conctalo al stream, justo despus del operador
de valores perdidos.
Reduccin de datos
Reduccin de datos
Reduccin de datos
Si corres el modelo (presionando clic al botn play). En la perspectiva
de resultado vers que tu conjunto de datos ha sido reducido de once
observaciones (o ejemplos) a nueve. Esto es porque el atributo
Online_Shopping tena dos valores perdidos y fuero removidos. Puedes
ver que ellos ya no estn eligiendo el botn de radio del Data view. Los
valores no fueron eliminados de su fuente original, simplemente fueron
removidos del conjunto de datos en el stream donde el operador de
filtro est localizado y no volvern a ser considerados en operaciones
de minera de datos.
En algunas instancias es mejor remover la observacin completa, sobre
todo cuando los valores perdidos no puede ser asumidos o estimados.
Reduccin de datos
En los casos donde los atributos tienen una naturaleza numrica,
puede ser aceptable reemplazar los datos, pero no cuando sean datos
subjetivos.
La minera de datos puede ser confusa y abrumadora cuando el
conjunto de datos es bastante grande, pero por eso existen tcnicas
para manejar ese tipo de situaciones.
Reduccin de datos
El ejemplo anterior nos ense como filtrando los datos podemos reducir el tamao
de nuestro conjunto de datos (removiendo datos indeseados o perdidos de un
atributo), pero tambin podemos reducir el tamao del conjunto de datos al probar
un modelo de minera de datos en un subconjunto de datos. Esto reduce
grandemente el tiempo de procesamiento de los datos.
Usaremos un operador llamado Sample, as que lo buscamos y lo agregamos a
nuestro stream de datos, en el panel de parmetros, colocamos relative y luego 0.5
en la cajita de texto que aparece debajo, de esta forma utilizaremos solo el 50% de
nuestro conjunto de datos.
Reduccin de datos
A la hora de correr nuestro modelo veremos que solamente
muestra de cuatro a cinco observaciones elegidas al azar de
las nueve que quedaban en nuestro atributo.
Como podemos ver existen diferentes formas para reducir los
datos de nuestro conjunto y as facilitarnos la minera de datos.
Ahora para pasar al siguiente paso es importante que todo
quede como estuvo en un principio.
Para ello cambiamos a nuestra perspectiva de diseo y
eliminamos el operador de filtros y el sample presionando clic
derecho sobre ellos y eligiendo la opcin eliminar.
Qu hace el 99 ah? Los nicos valores vlidos para ese atributo son N o Y.
Como mineros de datos lo que haremos ser filtrar este atributo as como
hicimos anteriormente, o utilizamos un operador para reemplazar el valor por
uno vlido.
Reduccin de atributos
En muchos conjuntos de datos nos daremos cuenta que
hay atributos que son simplemente irrelevantes para la
minera de datos, por lo que es necesario remover aquellos
que no nos sean significativos para tener un mejor manejo
y una minera ms efectiva.
En captulos posteriores hablaremos de los elementos que
hay que tomar en cuenta para evaluar la importancia de un
atributo en nuestro modelo de minera de datos.
Con los siguientes pasos podemos deshacernos de aquellos
atributos irrelevantes o innecesarios en nuestro modelo.
Reduccin de atributos
Regresamos a la perspectiva de diseo, y en la pestaa de bsqueda elegimos el
operador Select Attribute lo arrastramos a nuestro stream y lo colocamos a modo
que quede entre el operador Replace y el puerto de resultado (Result set port)
Reduccin de atributos
En el panel de parmetros colocamos el filtro de atributos (attribute
filter) a subset y presionamos clic en el botn select
Usando las flechas verdes podemos
elegir los atributos que vamos a dejar
para nuestro modelo. En este caso
estamos
realizando
un
estudio
demogrfico de internet por lo que
elegiremos los atributos: Birth_Year,
Gender,
Marital_Status,
Race
y
posiblemente Years_on_Internet.
Puedes elegir ms de un atributo
sosteniendo la tecla shift.
Luego presionamos clic en OK y vemos
los resultados en el stream de datos.
Resumen
Hemos visto una variedad de elementos interesantes que resumiremos
en lo siguiente:
En RapidMiner podemos crear views que nos permitan ver datos de
tablas diferentes que estn relacionadas.
A la hora de preparar datos es necesario depurar a tal manera que
quedemos solo con lo que se necesita y para ello es necesario
aprender lo siguiente: el manejo de la perdida de datos, reduccin de
datos, reduccin de atributos y el manejo de la inconsistencia de datos
El uso de archivos CSV facilita un poco el trabajo ya que son livianos y
fciles de utilizar.
Las etapas comprensin del negocio y comprensin de los datos son de
alta importancia ya que si no les tomamos el cuidado indicado no
tendremos objetivos fijos para nuestro modelo.
Preguntas
Qu programa utilizamos para los procesos de minera de datos?
Mencione los 4 elementos mencionados para la depuracin de datos.
Qu es la perdida de datos?
De qu forma se le conoce a los datos perdidos?
Qu es la inconsistencia de datos?
En qu se diferencia la prdida de datos con la inconsistencia de datos?
En qu nos beneficia la reduccin de atributos y la reduccin de datos?
Preguntas
Mencione qu herramienta se utiliz para unir las dos tablas relacionadas de la base
de datos.
Qu es el rea de repositorios RapidMiner?
Qu contiene el rea de operadores RapidMiner?
Mencione al menos 3 operadores utilizados en este ejercicio.
Qu hace el operador Replace?
Cules son las tres fases para hacer un modelo de minera de datos?
Para qu nos sirve el filtrado de datos?