AUTORES
Presentado a:
Oscar Morera
UNIVERSIDAD DE CUNDINAMARCA
Facultad de Ingeniería Programa de Ingeniería de Sistemas
Facatativá, noviembre 2017
2
Contenido
INTRODUCCION ................................................................................................................................... 4
OBJETIVO ............................................................................................................................................. 4
APLICACIÓN DE LA METODOLOGIA CRISP-DM al Problema ............................................................... 5
COMPRENSIÓN DEL NEGOCIO ........................................................................................................ 5
Determinar los objetivos del negocio ......................................................................................... 6
Evaluación de la Situación ........................................................................................................... 7
Determinar los objetivos de la minería de datos ........................................................................ 9
Realizar el plan del proyecto ....................................................................................................... 9
Evaluación inicial de herramientas y técnicas ............................................................................. 9
COMPRENSIÓN DE LOS DATOS ..................................................................................................... 11
Recolectar los Datos Iniciales .................................................................................................... 11
Descripción de los Datos ........................................................................................................... 12
Exploración de los datos............................................................................................................ 13
Verificar la Calidad de los Datos ................................................................................................ 20
PREPARACION DE LOS DATOS ....................................................................................................... 21
Seleccionar los Datos................................................................................................................. 21
Limpiar los Datos ....................................................................................................................... 22
Construir los Datos .................................................................................................................... 23
Integrar los Datos ...................................................................................................................... 23
Formateo de Datos .................................................................................................................... 24
MODELADO ................................................................................................................................... 24
Escoger la Técnica de Modelado ............................................................................................... 25
Generar el Plan de Prueba ........................................................................................................ 25
Construir el Modelo .................................................................................................................. 28
....................................................................................................................................................... 29
Evaluar Modelo ......................................................................................................................... 37
EVALUACION ................................................................................................................................. 38
Evaluar los Resultados ............................................................................................................... 38
Revisar el Proceso ..................................................................................................................... 39
Determinar los Próximos Pasos................................................................................................. 39
IMPLANTACION ............................................................................................................................. 40
Planear la implantación ............................................................................................................. 40
3
INTRODUCCION
OBJETIVO
El objetivo principal, es encontrar las zonas más peligrosas del país a la hora de
cometer hurtos. Por lo tanto, en este estudio se utilizan diferentes atributos de la
base de datos, que permiten obtener un resultado para la toma de decisiones y
mejorar la problemática.
5
Esta fase inicial se centra en entender los objetivos y requerimientos del proyecto
desde una perspectiva de negocio, convirtiendo este conocimiento en una definición
del problema de minería de datos y un plan preliminar diseñado para alcanzar los
objetivos (Ncr et al., 2000).
6
Contexto
Evaluación de la Situación
Se cuenta con una base de datos obtenida de datos abiertos proporcionada por el
gobierno de 9 Mg con información detallada de los departamentos, ciudades, fecha,
hora entre otros atributos de hurto de objetos, están información es del 1 de enero
hasta el 31 julio del 2017, con una cantidad de datos de 36770, lo suficiente para
poder hacer la práctica y resolver el problema.
Inventario de recursos
Terminología
posible a otro, y grupos diferentes estén lo "más lejos" posible uno del otro,
donde la distancia está medida con respecto a variable(s) específica(s) las
cuales se están tratando de dar la probabilidad. Por ejemplo, un problema típico
de clasificación es el de dividir una base de datos de compañías en grupos que
son lo más homogéneos posibles con respecto a variables como "posibilidades
de crédito" con valores tales como "Bueno" y "Malo".
Clustering (agrupamiento): Proceso de dividir un conjunto de datos en grupos
mutuamente excluyentes de tal manera que cada miembro de un grupo esté lo
"más cercano" posible a otro, y grupos diferentes estén lo "más lejos" posible
uno del otro, donde la distancia está medida con respecto a todas las variables
disponibles.
Computadoras con multiprocesadores: Una computadora que incluye múltiples
procesadores conectados por una red. Ver procesamiento paralelo.
Data cleansing: Proceso de asegurar que todos los valores en un conjunto de
datos sean consistentes y correctamente registrados.
Data Mining: La extracción de información predecible escondida en grandes
bases de datos.
Data Warehouse: Sistema para el almacenamiento y distribución de cantidades
masivas de datos.
Modelo analítico: Una estructura y proceso para analizar un conjunto de datos.
Por ejemplo, un árbol de decisión es un modelo para la clasificación de un
conjunto de datos.
Modelo lineal: Un modelo analítico que asume relaciones lineales entre una
variable seleccionada (dependiente) y sus predictores (variables
independientes).
Modelo predictivo: Estructura y proceso para dar la probabilidad de los valores
de variables especificadas en un conjunto de datos.
Regresión lineal: Técnica estadística utilizada para encontrar la mejor relación
lineal que encaja entre una variable seleccionada (dependiente) y sus
predicados (variables independientes).
Costes y beneficios
Los datos del proyecto no tienen ningún coste ya que es proporcionado por la página
de datos abiertos por el gobierno en la cual la información es sobre los hurtos que
se han registrado en el primer semestre del año presente.
En cuanto a los beneficios, el proyecto no genera alguno, pero se puede suponer
indirectamente que el objetivo es mejorar la calidad y seguridad de vida de los
ciudadanos de las diferentes ciudades del país y así obtener un buen prestigio de
los entes de seguridad que prestan el servicio para la comunidad.
9
Los programas que se utilizaran para llevar a cabo el proyecto de minería de datos
son RapidMiner y Power BI, en la cual nos permite adaptar la metodología CRISP-
DM, ya que en RapidMiner nos facilita implementar el modelo adecuado para la
base de datos que se está trabajando para el proyecto, en la cual nos ofrece los
siguientes tipos de tareas de minerías de datos:
10
Predictivas
o Clasificación.
o Regresión.
Descriptivas
o Agrupamiento (clustering).
o Reglas de asociación.
Y Power BI nos permite observar los resultados de forma estadística y tener una
mejor comprensión de la información que se quiere establecer.
Se implementan los siguientes algoritmos o modelos de minería de datos en
RapidMiner para poder resolver los problemas: clasificador bayesiano naive,
Regresión Lineal y K-medias.
K- medias es uno de los modelos más utilizados para hacer clustering que se
caracteriza por su facilidad de utilizar. Lo primero que se debe hacer es especificar
con cuantos clusters se van a crear, este es el parámetro k, que permite la selección
de k elementos aleatorios, que permite la representación en el creo o media de cada
cluster.(Molina & García, 2008)
11
Este paso es esencial para evitar problemas inesperados durante la siguiente fase
que suele ser la fase más larga de un proyecto. La comprensión de datos implica
acceder a los datos y explorarlos con la ayuda de tablas y gráficos que se pueden
organizar mediante software, que su principal función sea la minería de datos y nos
permita interactuar con gráficos estadísticos. De tal manera, se podrá determinar la
calidad de los datos.
Recolectar los Datos Iniciales
Como se había mencionado anteriormente, estos son datos que son dados por el
gobierno nacional de Colombia, por lo tanto, es óptimo hacer minería de datos con
estos atributos.
Clase de sitio: Este campo es de tipo Varchar, nos va a permitir saber, los
sitios en donde más se comenten los hurtos (Vías públicas, Local comercial,
Discotecas, Centro de Recreación, Bares, Vehículo, etc.), de igual manera
es un campo que va identificado por un id, con su fila correspondiente.
Arma Empleada: Este campo es de tipo Varchar, nos va a permitir saber,
que clase de arma usan más los agresores a la hora de cometer los hurtos
(Contundentes, Arma de fuego, Arma blanca, Sin empleo de armas, etc.), de
igual manera es un campo que va identificado por un id, con su fila
correspondiente.
Móvil Agresor: Este campo es de tipo Varchar, nos va a permitir saber, en
que se movilizan más los agresores a la hora de cometer los hurtos (A pie,
Conductor vehículo, Bicicleta, Pasajero motocicleta, etc.), de igual manera es
un campo que va identificado por un id, con su fila correspondiente.
Móvil Victima: Este campo es de tipo Varchar, nos va a permitir saber, en
que se movilizan más las victimas cuando son hurtados (A pie, Conductor
vehículo, Bicicleta, Pasajero motocicleta, etc.), de igual manera es un campo
que va identificado por un id, con su fila correspondiente.
Edad: Este campo es de tipo Integer, nos va a permitir saber la edad de la
víctima, de igual manera es un campo que va identificado por un id, con su
fila correspondiente.
Sexo: Este campo es de tipo Varchar, nos va a permitir saber el sexo de la
víctima, de igual manera es un campo que va identificado por un id, con su
fila correspondiente.
País de nacimiento: Este campo es de tipo Varchar, nos va a permitir saber
el país de nacimiento de la víctima, de igual manera es un campo que va
identificado por un id, con su fila correspondiente.
Clase de empleado: Este campo es de tipo Varchar, nos va a permitir saber
el trabajo de la víctima, de igual manera es un campo que va identificado por
un id, con su fila correspondiente.
Marca de celular: Este campo es de tipo Varchar, nos va a permitir saber la
marca de celular, el cual se le fue hurtado, de igual manera es un campo que
va identificado por un id, con su fila correspondiente.
Con respecto a lo anterior, se da una explicación de cada uno de los atributos que
van a ser parte de la minería de datos del proyecto.
se pueden obtener los diferentes datos necesarios para la creación de las gráficas
que se explican a continuación.
Figura 4. Gráfico de torta del porcentaje de población robada dependiendo el tipo de arma.
16
Al hacer la exploración inicial de los datos, se puede decir que los datos son
íntegros, pero de igual manera, hay campos de la base de datos que no están
totalmente completos, y puede que, a la hora de hacer minería de datos, no arroje
los resultados esperados.
Los datos, de todas formas, cumplen con resultados que se esperan para poder
cumplir el objetivo del proyecto. Los datos no contienen errores, pero como se decía
anteriormente hay campos en la base de datos, que no están completos, pero estos
no generan error a la hora de hacer la minería de datos, los campos en los cuales
se evidenciaron que no están completos son: Edad, Profesión, Sexo y País de
nacimiento.
De tal forma, una solución a la hora de realizar minería de datos con estos campos
es no tenerlos en cuenta.
21
Según los registros, se utilizarán todos los registros de la tabla que compone la base
de datos, ya que al ser una base de datos que el gobierno nos facilita en su página
de datos abiertos para poder hacer el estudio del proyecto, el número de registro
que se han insertado, son de los casos que ha ocurrido a lo largo del primer
semestre del 2017. Sin embargo, hay campos dentro de la base de datos que están
registrados que no son necesarios para el objetivo de minería de datos, por lo que
se omiten para ser utilizados en el estudio.
Los campos seleccionados para el análisis son los siguientes:
Tabla Hurtos_celulares
o Row No = ID
o Fecha
o Departamento
o Municipio
o Dia
o Hora
o Barrio
o Zona
o Clase de Sitio
o Arma empleada
o Móvil Agresor
o Móvil Victima
o Edad
o Sexo
o Clase
o Marca
o Línea
22
No es necesario que los campos en los que faltan valores, más allá de los valores
nulos que aparecen cuando la información que se quiere representar no existe, en
la cual no se consideran como datos faltantes, por lo que no es necesario realizar
algún tipo de estimulación de valores faltantes. Según estos valores nulos se irán
tratando en el momento de hacer la minería de datos y poderlos ignorar ya que no
influyen para el análisis del estudio.
Atributos Derivados
Registros Generados
Formateo de Datos
MODELADO
El método que se empleará para dar a conocer la calidad y validez del modelo será
utilizar, el concepto probabilístico, mediante clasificadores, clases, variables
independientes (Teorema de Bayes). Este concepto, se calcula automáticamente
con el software RapidMiner, al ejecutar modelos o técnicas de probabilidad. A
continuación, se explica cómo es la funcionalidad del Teorema de Bayes.
Sea {A1, A2,…, Ai,…, An} un conjunto de sucesos mutuamente excluyentes
y exhaustivos, y tales que la probabilidad de cada uno de ellos es distinta de
cero (0). Sea B un suceso cualquiera del que se conocen las probabilidades
condicionales P (B|Ai). Entonces, la probabilidad P {Ai|B} viene dada por la
expresión: donde: son las probabilidades a priori, es la probabilidad de en la
hipótesis, son las probabilidades a posteriori. (R. R. (n.d.))
Donde:
o P(Ai) son las probabilidades a priori,
o P(B|Ai) es la probabilidad de B en la hipótesis Ai,
26
Formula de Bayes.
Construir el Modelo
Figura 19. Configuración del modelo a evaluar del objetivo 2 del departamento.
31
Figura 22. Configuración del modelo a evaluar del objetivo 2 del día.
34
Evaluar Modelo
EVALUACION
En esta etapa del proyecto se ha construido un modelo que parece tener una alta
calidad desde una perspectiva de análisis de datos. Antes de proceder al despliegue
final del modelo, es importante evaluar más a fondo el modelo y revisar los pasas
ejecutados para construir el modelo para asegurarse de que alcanza correctamente
los objetivos del negocio. Un objetivo clave es determinar si hay algún asunto de
negocio importante que no ha sido suficientemente considerado. Al final de esta
fase, se debe tomar una decisión sobre el uso de los datos que han surgido de los
resultados minados.(Ncr et al., 2000)
Para evaluar los resultados, se había establecido unos criterios de éxito principal
para poder hacer las respectivas clasificaciones y probabilidades con un buen
porcentaje de fiabilidad, este criterio puede ser subjetivo, ya que tiende a ser
inevitable ajustarse en los criterios de éxito desde el punto de vista de la minería de
datos en la cual son más precisos y tienden a ser más específicos. Sin embargo,
para tener una calificación aceptable o no de las clasificaciones y probabilidades
que se realizaran en necesario tener una base objetiva, como son los resultados
estadísticos que se pueden obtener a través de la herramienta Power BI del
respectivo modelo. Basándonos en los indicadores estadísticos podemos hacer una
respectiva evaluación de cada modelo para así descartar que requerimiento cumple
o no con sus condiciones mínimas.
bastante en la cual el proceso hace que las maquinas no resuelvan con satisfacción
y no tener un resultado estable para el análisis de los criterios que se quieren
resolver.
Modelos aprobados
Revisar el Proceso
IMPLANTACION
Planear la implantación
por esta razón se eligió trabajar con algoritmo “Naive Bayes”, ya que permite, hacer
probabilidad con los datos que se tienen.
El volumen de información de la base de datos es mediano, no alcanza niveles muy
altos o exagerados de información. Pero esta base de datos se va actualizando
cada 6 meses, por lo cual en un año se puede encontrar una base de datos, con
ochenta mil registros o más. Por lo que es necesario y se debe tener en cuenta
realizar Backups de los datos explotados en la minería de datos, en periodos de 5
o 6 meses, tiempo que se considera prudente para mantener los datos seguros.
A continuación, se dan a conocer los planes de supervisión y mantenimiento, los
cuales son:
Obtención y almacenamiento en periodos de 5 o 6 meses de los datos,
guardando la información obtenida en la minería de datos, ya sea en hojas
de cálculo, etc.
Distribución de los datos, teniendo en cuenta las técnicas de minería de
datos, que utilicen y sean viables para trabajar.
Los archivos recolectados en la minería de datos se deben guardar en
soporte magnético (Disco Duro, USB, Cintas Magnéticas, etc.) y la
información puede ir almacenada en carpetas organizadas, ya sea por fecha,
tipo, etc.
Los resultados que se extraen de la minería de datos se deben visualizar en
hojas de cálculo y por consiguiente generar gráficas, de distintos tipos,
permitiendo una mejor visualización de los registros por determinado tiempo.
En este paso, se da a conocer los puntos importantes del proyecto y cuál ha sido la
experiencia que se ha adquirido durante el desarrollo del proyecto.
Este informe va dirigido a los entes de la seguridad pública del país, (Policía,
Carabineros, Ejército, etc) y también para el gobierno nacional en general, ya que
el hurto de celulares es un flagelo, que ha sido muy difícil de controlar en el país.
Por esta razón, mostrando el informe estas organizaciones, puedan tomar cartas
sobre el asunto y tomar las respectivas correctivas de este problema a nivel
nacional.
Al hacer uso de la metodología CRISP-DM en este proyecto y teniendo en cuenta,
que es la principal metodología para realizar minería de datos, ha permitido
encontrar comportamientos probabilísticos, en el momento de conocer en cual
departamento del país se cometen la mayoría de hurtos, o conocer en que rango de
edad que se ve más afectado con esta problemática. De tal manera, se ha
42
Revisar el proyecto
POSIBLES PREDICCIONES
Una de las posibles predicciones que se puede obtener al hacer el análisis del
estudio de la base de datos de hurtos de celulares es que a las mujeres tienden
a robarles el celular sin emplear un arma, ya que se puede decir que ellas utilizan
más el celular en la calle y por esta razón los delincuentes tienen mayor facilidad
de robar estos objetos, en la cual se podría hacer campañas en las cuales
enseñarles a las personas especialmente a las mujeres que no transiten en la
calle con uso del celular y así evitar estos hurtos.
También se puede presentar este análisis a las diferentes empresas que realizan
las diversas marcas de celulares y decir que no deberían asegurar los celulares
a las mujeres que transitan o viven por los lugares de alta inseguridad para que
no tengan perdidas.
BIBLIOGRAFIA
Britos, P. V. (2008). Procesos de explotación de información basados en sistemas
inteligentes. Retrieved from http://sedici.unlp.edu.ar/handle/10915/4142
Chapman, P., Clinton, J., Kerber, R., Khabaza, T., Reinartz, T., Shearer, C., &
Wirth, R. (n.d.). Step-by-step data mining guide. Retrieved from http://www-
staff.it.uts.edu.au/~paulk/teaching/dmkdd/ass2/readings/methodology/CRISP
WP-0800.pdf
Herrero, J. G., Manuel, J., & López, M. (n.d.). TÉCNICAS DE ANÁLISIS DE
DATOS APLICACIONES PRÁCTICAS UTILIZANDO MICROSOFT EXCEL Y
WEKA. Retrieved from http://ocw.uc3m.es/ingenieria-informatica/analisis-de-
datos/libroDataMiningv5.pdf
Luque, C. M. (2003). Clasicadores bayesianos. El algoritmo Naïve Bayes.
Retrieved from
https://www.nebrija.es/~cmalagon/inco/Apuntes/bayesian_learning.pdf
Molina, J., & García, J. (2008). Técnicas de Minería de Datos basadas en
Aprendizaje Automático. Técnicas de Análisis de Datos, 96–266.