Mineria de Datos

APLICACIÓN DE MINERIA DE DATOS EN EL HURTO DE CELULARES EN
COLOMBIA EN EL AÑO 2017 APLICANDO LA METODOLOGIA CRISP-DM
AUTORES
JHON FREDY GALLEGO HENAO

EFRAIN ANDRES VERGARA SERRATO
FREDY FABIAN RODRIGUEZ JOYA
Presentado a:
Oscar Morera
UNIVERSIDAD DE CUNDINAMARCA
Facultad de Ingeniería Programa de Ingeniería de Sistemas
Facatativá, noviembre 2017
2
Contenido
INTRODUCCION ................................................................................................................................... 4
OBJETIVO ............................................................................................................................................. 4
APLICACIÓN DE LA METODOLOGIA CRISP-DM al Problema ............................................................... 5
COMPRENSIÓN DEL NEGOCIO ........................................................................................................ 5
Determinar los objetivos del negocio ......................................................................................... 6
Evaluación de la Situación ........................................................................................................... 7
Determinar los objetivos de la minería de datos ........................................................................ 9
Realizar el plan del proyecto ....................................................................................................... 9
Evaluación inicial de herramientas y técnicas ............................................................................. 9
COMPRENSIÓN DE LOS DATOS ..................................................................................................... 11
Recolectar los Datos Iniciales .................................................................................................... 11
Descripción de los Datos ........................................................................................................... 12
Exploración de los datos............................................................................................................ 13
Verificar la Calidad de los Datos ................................................................................................ 20
PREPARACION DE LOS DATOS ....................................................................................................... 21
Seleccionar los Datos................................................................................................................. 21
Limpiar los Datos ....................................................................................................................... 22
Construir los Datos .................................................................................................................... 23
Integrar los Datos ...................................................................................................................... 23
Formateo de Datos .................................................................................................................... 24
MODELADO ................................................................................................................................... 24
Escoger la Técnica de Modelado ............................................................................................... 25
Generar el Plan de Prueba ........................................................................................................ 25
Construir el Modelo .................................................................................................................. 28
....................................................................................................................................................... 29
Evaluar Modelo ......................................................................................................................... 37
EVALUACION ................................................................................................................................. 38
Evaluar los Resultados ............................................................................................................... 38
Revisar el Proceso ..................................................................................................................... 39
Determinar los Próximos Pasos................................................................................................. 39
IMPLANTACION ............................................................................................................................. 40
Planear la implantación ............................................................................................................. 40
3
Planear la Monitorización y Mantenimiento ............................................................................ 40

Producir el Informe Final ........................................................................................................... 41
Revisar el proyecto .................................................................................................................... 42
POSIBLES PREDICCIONES ............................................................................................................... 43
BIBLIOGRAFIA .................................................................................................................................... 44
4
INTRODUCCION
En la actualidad es importante tener cuantificada la información en bases de datos

de las empresas, surgiendo la necesidad de poder tener alguna conclusión a partir
de los datos almacenados. Permitiendo a través de consultas simples, obtener
resultados que puedan ser utilizados para el beneficio de las empresas u otras
organizaciones. Para poder hacer más fácil de utilizar los datos con fines predictivos
nace la minería de datos, que nos permite el estudio de patrones en grandes bases
de datos y poder extraer información e implementarla en resultados para tener algún
beneficio de la información extraída.
En la minería de datos existen diversas metodologías, que pueden ser utilizadas

para poder sacar el mejor resultado en concreto que se necesite según los datos
que se tengan. En el presente documento se hablará de la metodología CRISP-DM
en la cual se especificará a medidas que se coloque en práctica en el caso
planteado: La exploración de los datos contenidos en la base de datos en el hurto
de celulares en Colombia del año 2017.
En este informe se explicará la metodología según sus diferentes etapas aplicada

según en los datos disponibles para lograr una valoración y estudio de esta
información.
OBJETIVO
Implementar las diferentes etapas de la metodología CRISP-DM sobre los datos

previamente establecidos en la base de datos de hurto de celulares en Colombia
del año 2017. Y así obtener resultados que ayuden a mejorar la seguridad en el país
con respecto a este tema. Brindando la respectiva información a los diferentes entes
de seguridad del país.
El objetivo principal, es encontrar las zonas más peligrosas del país a la hora de
cometer hurtos. Por lo tanto, en este estudio se utilizan diferentes atributos de la
base de datos, que permiten obtener un resultado para la toma de decisiones y
mejorar la problemática.
5
APLICACIÓN DE LA METODOLOGIA CRISP-DM al

Problema
La metodología CRISP-DM, permite “la interoperabilidad de las herramientas a

través de todo el proceso de minería de datos, en la cual elimina la experiencia
misteriosa y costosa de las tareas simples de la minería de datos.”(Britos, 2008)
Figura 1. Fases de la metodología CRISP-DM
COMPRENSIÓN DEL NEGOCIO
Esta fase inicial se centra en entender los objetivos y requerimientos del proyecto
desde una perspectiva de negocio, convirtiendo este conocimiento en una definición
del problema de minería de datos y un plan preliminar diseñado para alcanzar los
objetivos (Ncr et al., 2000).
6
Determinar los objetivos del negocio
El objetivo de la minería de datos, en el proyecto es observar en que lugares de

Colombia existen más hurtos, en que días ocurre, fecha, hora, género y arma con
la que más hacen estos crímenes. Para que los diferentes entes de seguridad de
los diversos lugares de Colombia tomen las decisiones adecuadas para combatir
con los hurtos.
Contexto
Se cuenta con una base de datos de hurtos en Colombia en el 2017 permitiendo

conocer los departamentos en los que se lleva más el registro de este antecedente
y poder implementar una mayor seguridad en las zonas con más alto riesgo de estos
incidentes.
Objetivos del negocio
El objetivo del negocio es la predicción de datos de los lugares y horas más

peligrosas en diferentes zonas del país teniendo en cuenta varios atributos de la
base de datos, en el proyecto se han definido los siguientes objetivos:
 Dar a conocer la probabilidad del arma que más se empleada a la hora del
hurto.
 Dar a conocer la probabilidad del departamento y el día en que se cometen
los hurtos.
 Dar a conocer la probabilidad del género que roban más en el acto del hurto.
Criterios de éxito del negocio
Según el criterio que se establece para obtener un éxito de negocio se tiene la

posibilidad de una probabilidad sobre los lugares con mayor alto riesgo de
inseguridad con un porcentaje de fiabilidad, así se puedan dar consejos a las
personas que estén transitando por las diferentes zonas y tengan las precauciones
necesarias.
7
Evaluación de la Situación
Se cuenta con una base de datos obtenida de datos abiertos proporcionada por el
gobierno de 9 Mg con información detallada de los departamentos, ciudades, fecha,
hora entre otros atributos de hurto de objetos, están información es del 1 de enero
hasta el 31 julio del 2017, con una cantidad de datos de 36770, lo suficiente para
poder hacer la práctica y resolver el problema.
Inventario de recursos
En la disposición de recursos de software contamos con el programa de minería de

datos RapidMiner, el cual nos ofrece diferentes herramientas y algoritmos, para
realizar el análisis se trabajará con una base de datos en el gestor MySQL. Otro
programa que se utilizará será Power Bi que nos ofrece diferentes herramientas de
informes de los datos.
En los recursos de hardware se dispone de un ordenador con las siguientes
características:
 Marca: Lenovo
 Procesador: AMD 8
 Memoria RAM: 8 GB
 Capacidad de almacenamiento: 500 GB
 Sistema operativo: Microsoft Windows 10
Terminología
 Algoritmos genéticos: Técnicas de optimización que usan procesos tales como

combinación genética, mutación y selección natural en un diseño basado en los
conceptos de evolución natural.
 Análisis exploratorio de datos: Uso de técnicas estadísticas tanto gráficas como
descriptivas para aprender acerca de la estructura de un conjunto de datos.
 Árbol de decisión: Estructura en forma de árbol que representa un conjunto de
decisiones. Estas decisiones generan reglas para la clasificación de un conjunto
de datos.
 Base de datos multidimensional: Base de datos diseñada para procesamiento
analítico on-line (OLAP). Estructurada como un hipercubo con un eje por
dimensión.
 Clasificación: Proceso de dividir un conjunto de datos en grupos mutuamente
excluyentes de tal manera que cada miembro de un grupo esté lo "más cercano"
8
posible a otro, y grupos diferentes estén lo "más lejos" posible uno del otro,
donde la distancia está medida con respecto a variable(s) específica(s) las
cuales se están tratando de dar la probabilidad. Por ejemplo, un problema típico
de clasificación es el de dividir una base de datos de compañías en grupos que
son lo más homogéneos posibles con respecto a variables como "posibilidades
de crédito" con valores tales como "Bueno" y "Malo".
 Clustering (agrupamiento): Proceso de dividir un conjunto de datos en grupos
mutuamente excluyentes de tal manera que cada miembro de un grupo esté lo
"más cercano" posible a otro, y grupos diferentes estén lo "más lejos" posible
uno del otro, donde la distancia está medida con respecto a todas las variables
disponibles.
 Computadoras con multiprocesadores: Una computadora que incluye múltiples
procesadores conectados por una red. Ver procesamiento paralelo.
 Data cleansing: Proceso de asegurar que todos los valores en un conjunto de
datos sean consistentes y correctamente registrados.
 Data Mining: La extracción de información predecible escondida en grandes
bases de datos.
 Data Warehouse: Sistema para el almacenamiento y distribución de cantidades
masivas de datos.
 Modelo analítico: Una estructura y proceso para analizar un conjunto de datos.
Por ejemplo, un árbol de decisión es un modelo para la clasificación de un
conjunto de datos.
 Modelo lineal: Un modelo analítico que asume relaciones lineales entre una
variable seleccionada (dependiente) y sus predictores (variables
independientes).
 Modelo predictivo: Estructura y proceso para dar la probabilidad de los valores
de variables especificadas en un conjunto de datos.
 Regresión lineal: Técnica estadística utilizada para encontrar la mejor relación
lineal que encaja entre una variable seleccionada (dependiente) y sus
predicados (variables independientes).
Costes y beneficios
Los datos del proyecto no tienen ningún coste ya que es proporcionado por la página
de datos abiertos por el gobierno en la cual la información es sobre los hurtos que
se han registrado en el primer semestre del año presente.
En cuanto a los beneficios, el proyecto no genera alguno, pero se puede suponer
indirectamente que el objetivo es mejorar la calidad y seguridad de vida de los
ciudadanos de las diferentes ciudades del país y así obtener un buen prestigio de
los entes de seguridad que prestan el servicio para la comunidad.
9
Determinar los objetivos de la minería de datos
En términos de minería de datos los objetivos son los siguientes:

 Dar la probabilidad del arma que se utilizara en el hurto en función de su
género, departamento, ciudad, hora, día y el tipo de desplazamiento del
delincuente.
 Dar la probabilidad del género el cual tiene mayor riesgo de que roben su
celular.
 Identificar los departamentos, ciudades y barrios con más alto riesgo de
inseguridad.
Realizar el plan del proyecto
El proyecto se dividirá en las siguientes etapas para facilitar su organización y

estimar el tiempo de realización del mismo:
• Etapa 1: Análisis de la estructura de los datos y la información de la base de datos.
• Etapa 2: Ejecución de consultas para tener muestras representativas de los datos.
• Etapa 3: Preparación de los datos (selección, limpieza, conversión y formateo, si
fuera necesario) para facilitar la minería de datos sobre ellos.
• Etapa 4: Elección de las técnicas de modelado y ejecución de las mismas sobre
los datos.
• Etapa 5: Análisis de los resultados obtenidos en la etapa anterior, si fuera
necesario repetir la etapa 4.
• Etapa 6: Producción de informes con los resultados obtenidos en función de los
objetivos de negocio y los criterios de éxito establecidos.
• Etapa 7: Presentación de los resultados finales.
Evaluación inicial de herramientas y técnicas
Los programas que se utilizaran para llevar a cabo el proyecto de minería de datos
son RapidMiner y Power BI, en la cual nos permite adaptar la metodología CRISP-
DM, ya que en RapidMiner nos facilita implementar el modelo adecuado para la
base de datos que se está trabajando para el proyecto, en la cual nos ofrece los
siguientes tipos de tareas de minerías de datos:
10
 Predictivas
o Clasificación.
o Regresión.
 Descriptivas
o Agrupamiento (clustering).
o Reglas de asociación.
Y Power BI nos permite observar los resultados de forma estadística y tener una
mejor comprensión de la información que se quiere establecer.
Se implementan los siguientes algoritmos o modelos de minería de datos en
RapidMiner para poder resolver los problemas: clasificador bayesiano naive,
Regresión Lineal y K-medias.
El clasificador bayesiano naive, es un método importante porque ofrece el análisis

cualitativo de los atributos y valores que intervienen en el problema, también da la
importancia cuantitativa de los atributos. Según lo cualitativo se puede representar
como la relación de los atributos ya sea de forma casual, o señalando simplemente
de la correlación que existe entre esas variables. Cuantitativamente que es el aporte
más importante del modelo bayesiano, da una medida probabilística de lo
importante de las variables en el problema y la probabilidad explicita de la hipótesis
que se formula.(Luque, 2003)
La regresión lineal identifica las relaciones de las variables numéricas y construye

los modelos de regresión: “1 variable salida y múltiples entradas numéricas. Se
consideran relaciones de una variable de salida (dependiente) con múltiples
variables de entrada (independientes)”.(Herrero, Manuel, & López, n.d.)
K- medias es uno de los modelos más utilizados para hacer clustering que se
caracteriza por su facilidad de utilizar. Lo primero que se debe hacer es especificar
con cuantos clusters se van a crear, este es el parámetro k, que permite la selección
de k elementos aleatorios, que permite la representación en el creo o media de cada
cluster.(Molina & García, 2008)
11
COMPRENSIÓN DE LOS DATOS
Este paso es esencial para evitar problemas inesperados durante la siguiente fase
que suele ser la fase más larga de un proyecto. La comprensión de datos implica
acceder a los datos y explorarlos con la ayuda de tablas y gráficos que se pueden
organizar mediante software, que su principal función sea la minería de datos y nos
permita interactuar con gráficos estadísticos. De tal manera, se podrá determinar la
calidad de los datos.
Recolectar los Datos Iniciales
Los datos a utilizar en el proyecto hacen en referencia a datos en donde se han

presentado, hurtos de celulares en Colombia, los datos más importantes a tener en
cuenta en este proyecto son, Departamento, Municipio, Día, Clase de Sitio, Arma
empleada, Sexo de la víctima y Edad de la víctima. De igual manera, hay datos
secundarios, pero que serán utilizados en el proyecto, como lo son, Zona donde
habita la persona afectada, Clase de sitio, Móvil Victima (A pie, Conduciendo un
vehículo, Conduciendo una motocicleta), Móvil Agresor (A pie, Pasajero
motocicleta, Conductor motocicleta) y Marca de celular.
Por lo tanto, se tiene un total de 36.769 registros en la base de datos, ya que esto,
nos va a permitir cumplir con el objetivo principal propuesto, que en resumen es,
encontrar las zonas más peligrosas del país a la hora de cometer hurtos, teniendo
en cuenta, los registros de la base de datos, y que esto conlleve a tomar decisiones
y dar mejoras a esta problemática.
Por consiguiente, los datos anteriormente nombrados, son datos verídicos, no son
datos conseguidos aleatoriamente ni inventados, son datos que recolecta el
gobierno y se tiene la posibilidad de descargar estas bases de datos.
Debido a la gran cantidad de registros, es posible hacer una buena práctica de
minería de datos para este proyecto.
Los atributos específicos, para hacer la minería de datos son:
 Departamento
 Municipio
 Día
 Hora
 Zona
 Arma empleada
 Edad
 Sexo
 Marca Celular
12
Como se había mencionado anteriormente, estos son datos que son dados por el
gobierno nacional de Colombia, por lo tanto, es óptimo hacer minería de datos con
estos atributos.
Descripción de los Datos
En esta sección se dará a conocer de forma detallada de los atributos de la base de

datos, como lo es su tipo de valor y que hace ese cada atributo.
Con respecto a lo anterior, se dará a conocer los atributos adquiridos para este
proyecto, pero de forma más detallada:
 Fecha: Este campo es de tipo Date, nos va a permitir saber, la fecha en la
que se cometió el hurto, este campo va ligado con el campo Hora, de igual
manera es un campo que va identificado por un id, con su fila
correspondiente.
 Departamento: Este campo es de tipo Varchar, nos va a permitir saber, en
que departamentos de Colombia hay más hurtos, de igual manera es un
campo que va identificado por un id, con su fila correspondiente.
 Municipio: Este campo es de tipo Varchar, va ligado con el campo de
Departamento, el cual nos va a permitir saber, en que municipios de
Colombia hay más hurtos, de igual manera es un campo que va identificado
por un id, con su fila correspondiente.
 Día: Este campo es de tipo Varchar, nos va a permitir saber, en que días de
la semana se cometen la mayoría de los hurtos en Colombia, este es un
campo muy importante, ya que con este se puede hacer minería de datos, y
haciendo referencia a otros campos, de igual manera es un campo que va
identificado por un id, con su fila correspondiente.
 Hora: Este campo es de tipo Time, nos va a permitir saber, la hora en la que
se cometió el hurto, este campo va ligado con el campo Fecha, de igual
manera es un campo que va identificado por un id, con su fila
correspondiente.
 Barrio: Este campo es de tipo Varchar, va ligado con el campo de
Departamento y Municipio, el cual nos va a permitir saber, en que barrios de
Colombia se han cometido la mayoría de hurtos, de igual manera es un
campo que va identificado por un id, con su fila correspondiente.
 Zona: Este campo es de tipo Varchar, va ligado con el campo de Barrio, el
cual nos va a permitir saber, en que zonas de Colombia se han cometido la
mayoría de hurtos (Rural o Urbana), de igual manera es un campo que va
13
 Clase de sitio: Este campo es de tipo Varchar, nos va a permitir saber, los
sitios en donde más se comenten los hurtos (Vías públicas, Local comercial,
Discotecas, Centro de Recreación, Bares, Vehículo, etc.), de igual manera
es un campo que va identificado por un id, con su fila correspondiente.
 Arma Empleada: Este campo es de tipo Varchar, nos va a permitir saber,
que clase de arma usan más los agresores a la hora de cometer los hurtos
(Contundentes, Arma de fuego, Arma blanca, Sin empleo de armas, etc.), de
igual manera es un campo que va identificado por un id, con su fila
correspondiente.
 Móvil Agresor: Este campo es de tipo Varchar, nos va a permitir saber, en
que se movilizan más los agresores a la hora de cometer los hurtos (A pie,
Conductor vehículo, Bicicleta, Pasajero motocicleta, etc.), de igual manera es
un campo que va identificado por un id, con su fila correspondiente.
 Móvil Victima: Este campo es de tipo Varchar, nos va a permitir saber, en
que se movilizan más las victimas cuando son hurtados (A pie, Conductor
vehículo, Bicicleta, Pasajero motocicleta, etc.), de igual manera es un campo
que va identificado por un id, con su fila correspondiente.
 Edad: Este campo es de tipo Integer, nos va a permitir saber la edad de la
víctima, de igual manera es un campo que va identificado por un id, con su
fila correspondiente.
 Sexo: Este campo es de tipo Varchar, nos va a permitir saber el sexo de la
víctima, de igual manera es un campo que va identificado por un id, con su
fila correspondiente.
 País de nacimiento: Este campo es de tipo Varchar, nos va a permitir saber
el país de nacimiento de la víctima, de igual manera es un campo que va
 Clase de empleado: Este campo es de tipo Varchar, nos va a permitir saber
el trabajo de la víctima, de igual manera es un campo que va identificado por
un id, con su fila correspondiente.
 Marca de celular: Este campo es de tipo Varchar, nos va a permitir saber la
marca de celular, el cual se le fue hurtado, de igual manera es un campo que
va identificado por un id, con su fila correspondiente.
Con respecto a lo anterior, se da una explicación de cada uno de los atributos que
van a ser parte de la minería de datos del proyecto.
Exploración de los datos
Cuando se describen los datos el siguiente paso es explorarlos, lo cual implica

realizar pruebas estadísticas básicas que revelan las diferentes propiedades de los
datos, creando así gráficos de distribución de los datos y tablas de frecuencia. A
través de diferentes consultas a la base de datos por medio del software Power BI
14
se pueden obtener los diferentes datos necesarios para la creación de las gráficas
que se explican a continuación.
En la figura 2 muestra la distribución de los tipos de armas empleadas en los robos

de los celulares del total de la población.
Figura 2. Gráfico de barras de la cantidad de población robada dependiendo el tipo de arma.
En la figura 3 y 4 se muestran los porcentajes de la población que fue robada

dependiendo del tipo de arma.
15
Figura 3. Grafico lineal del porcentaje de robos con un tipo de arma.
Figura 4. Gráfico de torta del porcentaje de población robada dependiendo el tipo de arma.
16
En la figura 5 se muestra el porcentaje de la población que le fue robado su celular

dependiendo del sexo (Masculino o Femenino) y el arma empleada. Podemos
observar que el delincuente sin emplear un arma ha robado a más mujeres con 20%
que hombres con 15%.
Figura 5. Porcentaje de población robada dependiendo el sexo y el arma empleada.
En la figura 6 se muestra la cantidad de población robada a una hora específica, en

donde pudimos ver que a las 12:00 am hay una mayor cantidad de personas
robadas en comparación de otras horas.
17
Figura 6. Cantidad de población robada dependiendo de la hora.
En la figura 7 se muestra el porcentaje de los robos realizados en cada

departamento, donde se puede que el departamento de Cundinamarca cuenta con
el porcentaje más alto de los robos de celulares con el 21,9%.
Figura 7. Porcentaje de los robos de celulares en diferentes departamentos

18
En la figura 8 se muestran los porcentajes de los robos de celulares en los diferentes

días de la semana, se puede observar que los días donde más se comenten este
tipo de hurto son: jueves, viernes y sábado.
Figura 8. Porcentaje de robos de celulares según el día de la semana.
En la figura 9 podemos encontrar la marca de celulares los cuales tienen más

porcentaje de ser hurtados, la marca la cual registro el porcentaje más alto es
SAMSUNG con un valor del 36,67%.
Figura 9. Porcentaje de robos de celulares dependiendo la marca.

19
En la figura 10 se muestra la cantidad de personas robadas dependiendo su medio

de transporte, se pudo ver que el gran porcentaje de la población le fue robado su
celular con un medio de transporte a pie el cual corresponde al 86,68%.
Figura 10. Porcentaje de población robada dependiendo su medio de transporte.
En la figura 11 se muestra la cantidad de población robada en un rango de edades,

donde se puede ver que la mayor población se encuentra entre edades de 21 a 30
años con una cantidad de 12303 personas.
Figura 11. Cantidad de robos de celulares por rango de edades.

20
En la figura 12 se muestra el porcentaje de la población hurtada de su celular, donde

se puede apreciar que en las vías públicas es donde se comete más este hecho con
un porcentaje del 77,78%.
Figura 12. Porcentaje de población robada según el lugar de los hechos.
Verificar la Calidad de los Datos
Al hacer la exploración inicial de los datos, se puede decir que los datos son
íntegros, pero de igual manera, hay campos de la base de datos que no están
totalmente completos, y puede que, a la hora de hacer minería de datos, no arroje
los resultados esperados.
Los datos, de todas formas, cumplen con resultados que se esperan para poder
cumplir el objetivo del proyecto. Los datos no contienen errores, pero como se decía
anteriormente hay campos en la base de datos, que no están completos, pero estos
no generan error a la hora de hacer la minería de datos, los campos en los cuales
se evidenciaron que no están completos son: Edad, Profesión, Sexo y País de
nacimiento.
De tal forma, una solución a la hora de realizar minería de datos con estos campos
es no tenerlos en cuenta.
21
PREPARACION DE LOS DATOS
En la etapa de preparación de datos cubre todas las actividades para construir el

DataSet final los datos que se alimentaran en la herramienta de modelado de los
datos RAW iniciales. Tareas de preparación de datos es probable que se realicen
varias veces u no en cualquier orden prescrita. Las tareas incluyen la tabla, la
selección de registros y atributos, así como la transformación y limpieza de datos
para las herramientas de modelado.
Seleccionar los Datos
Según los registros, se utilizarán todos los registros de la tabla que compone la base
de datos, ya que al ser una base de datos que el gobierno nos facilita en su página
de datos abiertos para poder hacer el estudio del proyecto, el número de registro
que se han insertado, son de los casos que ha ocurrido a lo largo del primer
semestre del 2017. Sin embargo, hay campos dentro de la base de datos que están
registrados que no son necesarios para el objetivo de minería de datos, por lo que
se omiten para ser utilizados en el estudio.
Los campos seleccionados para el análisis son los siguientes:
 Tabla Hurtos_celulares
o Row No = ID
o Fecha
o Departamento
o Municipio
o Dia
o Hora
o Barrio
o Zona
o Clase de Sitio
o Arma empleada
o Móvil Agresor
o Móvil Victima
o Edad
o Sexo
o Clase
o Marca
o Línea
22
la causa para la inclusión o exclusión de varios campos es, como se mencionó

anteriormente, por la importancia de los campos en relación con los objetivos de la
minería de datos.
Limpiar los Datos
La base de datos con la que se tiene para el proyecto, contiene la información

adecuada para poder resolver los objetivos de la minería de datos, además estos
datos al ser tomados del gobierno, solo se debe hacer la limpieza de datos del
campo fecha, ya que este almacena la fecha y hora al mismo tiempo y para hacer
el estudio adecuado, en la herramienta Power BI se hace la separación necesaria
para que se almacene la fecha y la hora en diferentes campos y así poder hacer el
análisis necesario.
No es necesario que los campos en los que faltan valores, más allá de los valores
nulos que aparecen cuando la información que se quiere representar no existe, en
la cual no se consideran como datos faltantes, por lo que no es necesario realizar
algún tipo de estimulación de valores faltantes. Según estos valores nulos se irán
tratando en el momento de hacer la minería de datos y poderlos ignorar ya que no
influyen para el análisis del estudio.
El modelo relacionado para la minería de datos, según la predicción de los lugares

con alto riesgo de inseguridad, será necesario utilizar un filtro que proporciona la
herramienta RapidMiner y de este modo permitir seleccionar las columnas
necesarias y tomar los datos necesarios para el análisis. En la figura 13 se puede
observar el sistema que se utiliza en RapidMiner para filtrar las columnas.
23
Figura 13. Filtrado de Columnas
Construir los Datos
Atributos Derivados
A continuación, se puede destacar la transformación del campo fecha de la tabla

hurtos_celulares. Dicha transformación consiste en separar los datos que se
almacenan en este campo de fecha ya que los datos que se están registrando es
fecha y hora en el mismo campo y se requiere que la fecha este en un campo
diferente de la hora. De esta forma se procede hacer esta separación para el análisis
de los datos y obtener un resultado estable para poder generar el modelo.
Registros Generados
Aparte de la transformación que se realizó, no ha sido necesario ingresar nuevos

atributos ni generar nuevos registros a la base de datos ya que está completa y ha
sido creada específicamente para el uso del proyecto.
Integrar los Datos
Fue necesario cambiar a estructura de la base de datos en la tabla hurtos_celulares,

ya que se dividió una columna para que pudiera almacenar la fecha en un campo y
la hora en otro campo de la base de datos, así poder continuar con el análisis del
24
proyecto. Sin embargo, no se hizo ninguna otra modificación ni agregar campos ni

registros ya que la base de datos tiene los datos que se requieren para hacer el
análisis respectivo.
Formateo de Datos
Consiste principalmente en transformar los campos de la base de datos sin

modificar su significado con el fin de permitir o facilitar el empleo de alguna técnica
de minería de datos en particular. Es decir, eliminar comas, tildes, tabuladores,
caracteres especiales, espacios, máximos y mínimos para las cadenas de
caracteres, etc.
Tal es el caso, de campos como, Departamento, Municipio, Día y el Código DANE.
Como, por ejemplo:
 Campo Departamento: “BOLÍVAR como contiene una tilde, esta se puede
eliminar del campo, quedando de la siguiente manera, “BOLIVAR”.
 Campo Municipio: “MAGANGUÉ” como contiene una tilde, esta se puede
eliminar del campo, quedando de la siguiente manera, “MAGANGUE”.
 Campo Día: “miércoles” como contiene una tilde, esta se puede eliminar del
campo, quedando de la siguiente manera, “miércoles”.
 Campo Código DANE: “91, 001,000” como contiene comas, están se pueden
eliminar del campo, quedando de la siguiente manera, “91001000”.
No es necesario cambiar el orden de los campos en la base de datos, de igual
manera no es necesario cambiar el formato de los campos de la base de datos, que
se van a utilizar para la minera de datos, ya que, haciendo las pruebas necesarias,
se puede realizar la minería de datos sin ningún problema.
MODELADO
En esta fase, se dará a conocer la técnica de minería de datos, que permitirá,

cumplir con el objetivo principal del proyecto.
De tal forma, al realizarse las pruebas correspondientes para los modelos
escogidos, se puede aplicar las técnicas de minería sobre los datos para poder
generar el modelo y de tal manera determinar si el modelo cumple o no con los
criterios ya especificados.
25
Escoger la Técnica de Modelado
En el actual proyecto, sé va a utilizar el software RapidMiner, el cual permitirá

realizar la minería de datos. Por ende, se utilizará alguna de las técnicas de
modelado que contiene el software correspondiente.
Por esta razón, el modelo o técnica que se adapta al proyecto es de tipo
probabilístico, y para este caso se utilizara el Algoritmo "Naive Bayes", ya que este
modelo utiliza datos históricos para encontrar asociaciones, relaciones y realizar las
respectivas probabilidades.
También se elige está técnica, porque:
 Es apropiada al problema
 Se dispone de los datos adecuados
 Cumple con los requisitos del problema
 El tiempo es adecuado para obtener un modelo
 Conocimiento previo de la técnica
Generar el Plan de Prueba
El método que se empleará para dar a conocer la calidad y validez del modelo será
utilizar, el concepto probabilístico, mediante clasificadores, clases, variables
independientes (Teorema de Bayes). Este concepto, se calcula automáticamente
con el software RapidMiner, al ejecutar modelos o técnicas de probabilidad. A
continuación, se explica cómo es la funcionalidad del Teorema de Bayes.
 Sea {A1, A2,…, Ai,…, An} un conjunto de sucesos mutuamente excluyentes
y exhaustivos, y tales que la probabilidad de cada uno de ellos es distinta de
cero (0). Sea B un suceso cualquiera del que se conocen las probabilidades
condicionales P (B|Ai). Entonces, la probabilidad P {Ai|B} viene dada por la
expresión: donde: son las probabilidades a priori, es la probabilidad de en la
hipótesis, son las probabilidades a posteriori. (R. R. (n.d.))
Donde:
o P(Ai) son las probabilidades a priori,
o P(B|Ai) es la probabilidad de B en la hipótesis Ai,
26
o P(Ai|B) son las probabilidades posteriori
 Formula de Bayes.
Esta fórmula nos permite calcular la probabilidad condicional P (Ai|B) de

cualquiera de los eventos P (Ai), dado B.
 Concepto probabilístico. El modelo de probabilidad para un clasificador es

p(C|F1,…,Fn). (R. R. (n.d.))
Sobre una variable dependiente C, con un pequeño número de resultados (o

clases). Esta variable está condicionada por varias variables independientes
desde F1 a Fn. El problema es que si el número n de variables
independientes es grande (o cuando éstas pueden tomar muchos valores),
entonces basar este modelo en tablas de probabilidad se vuelve imposible.
(Luque, C. M. 2003)
Por lo tanto el modelo se reformula para hacerlo más manejable:
Usando el teorema de Bayes se escribe:
O para entenderlo mejor seria,
En la práctica sólo importa el numerador, ya que el denominador no depende

de C y los valores de F son datos, por lo que el denominador es, en la
práctica, constante. (Luque, C. M. 2003)
El numerador es equivalente a una probabilidad compuesta:
Pero como puede contener probabilidad condicional, es decir repetida, seria:

27
... y así sucesivamente. Ahora es cuando el supuesto "naïve" de

independencia condicional entra en juego: se asume que cada Fi es
independiente de cualquier otra Fj para j =! i. Esto significa que
Por lo que la probabilidad compuesta puede expresarse como
Esto significa que, haciendo estos supuestos, la distribución condicional

sobre la variable clasificatoria C puede expresarse de la siguiente manera:
Donde Z es un factor que depende solo de F1,…., Fn, es decir, constante si

los valores de Fi son conocidos.
RapidMiner ofrece la opción de interactuar con los diferentes atributos de la base
de datos, es decir, se selecciona el tipo de técnica a utilizar, y después se puede
elegir el tipo de atributo que queremos evaluar, en este caso hacer minería de datos.
Como se puede observar en la figura 14.
Figura 14. Filtrado de Columnas – Atributos

28
Construir el Modelo
A continuación, se ejecutará el modelo elegido sobre los datos de entrenamiento.

En el siguiente apartado se describen cada uno de los objetivos establecidos para
su solución mediante las herramientas descriptas anteriormente.
Figura 15. Configuración de los elementos del algoritmo.
 Objetivo 1. Dar la probabilidad del arma empleada a la hora del hurto.
Figura 16. Configuración del modelo a evaluar del objetivo 1.

29
Figura 17. Resultado de la probabilidad del objetivo 1.
Figura 18. Histograma del resultado del objetivo 1.

30
 En la figura 15, se observa el modelo para dar probabilidad del arma

empleada a la hora del hurto.
 En la figura 16, se observa las configuraciones correspondientes en el
modelo y dar a conocer el campo objetivo “arma_empleada”.
 En la figura 17, el software RapidMiner, da a conocer los resultados de la
probabilidad para el presente objetivo.
 En la figura 18. En la gráfica, se observa el arma empleada a la hora del
hurto, con más probabilidad, en este caso es “Sin empleo de armas”.
 Objetivo 2. Dar a conocer la probabilidad del departamento y el día en que

se cometen los hurtos.
Figura 19. Configuración del modelo a evaluar del objetivo 2 del departamento.
31
Figura 20. Resultado de la probabilidad del objetivo 2 del departamento.
Figura 20.1. Resultado de la probabilidad del objetivo 2 del departamento.

32

33
Figura 21. Histograma del resultado del objetivo 2 del departamento.
Figura 22. Configuración del modelo a evaluar del objetivo 2 del día.
34
Figura 23. Resultado de la probabilidad del objetivo 2 del día.
Figura 24. Histograma del resultado del objetivo 2 del día.

35
 En la figura 18, se observa el modelo para dar probabilidad del departamento

donde se cometen más hurtos.
modelo y dar a conocer el campo objetivo “Departamento”.
probabilidad para el presente objetivo, mediante la confianza y la predicción.
De igual manera, se explica más de los resultados en las figuras 20.1 y 20.2
 En la figura 21. En la gráfica, se observa que el departamento donde hay más
hurtos y con más probabilidad, en este caso es “Cundinamarca”.
 En la figura 22. se observa el modelo para dar probabilidad del día donde se
cometen más hurtos.
modelo y dar a conocer el campo objetivo “Día”.
probabilidad para el presente objetivo en el Día, mediante la confianza y la
predicción.
 En la figura 24. En la gráfica, se observa que el día donde hay más hurtos y
con más probabilidad, en este caso es “viernes”.
 Objetivo 3. Dar a conocer la probabilidad del género que roban más en el

acto del hurto.
Figura 25. Configuración del modelo a evaluar del objetivo 3.

36
Figura 26. Resultado de la probabilidad del objetivo 2.
Figura 27. Histograma del resultado del objetivo 3.

37

modelo y dar a conocer el campo objetivo “Sexo”.
probabilidad para el presente objetivo, mediante la confianza y la predicción.
 En la figura 27. En la gráfica, se observa que al género al cual le cometen
más hurtos y con más probabilidad, en este caso es “Masculino”.
Evaluar Modelo
En esta sección, esta evaluación va mucho más orientada a los objetivos de la

minería de datos, ya que no hay que confundir el siguiente paso con este, ya que el
siguiente paso de la metodología, va orientada más a los objetivos del negocio, si
bien ambos objetivos están muy relacionados entre sí en este proyecto.
Por lo tanto, una manera de evaluar la efectividad de los modelos es usar el
indicador de error cuadrático medio (root mean squared error) y el error absoluto
medio (mean absolute error). Mediante el software RapidMiner, este software arroja
información acerca de los modelos que serán muy útiles a la hora de hacer la
respectiva evaluación para cada una, mediante los valores que se pueden
evidencias en la sección anterior a esta, para así de esta forma hacer una
evaluación al modelo.
En la siguiente tabla, se puede observar los diferentes valores para cada indicador,
mostrándolo de forma comparativa.
Confianza Error Error

Predictiva Absoluto Cuadrático
Medio Medio
Modelo 1 49.23% 0.543 0.656
Departamento 97.58% 0.027 0.150

Modelo 2
Día 19.29% 0.821 0.851
Modelo 3 61% 0.421 0.515

38
EVALUACION
En esta etapa del proyecto se ha construido un modelo que parece tener una alta
calidad desde una perspectiva de análisis de datos. Antes de proceder al despliegue
final del modelo, es importante evaluar más a fondo el modelo y revisar los pasas
ejecutados para construir el modelo para asegurarse de que alcanza correctamente
los objetivos del negocio. Un objetivo clave es determinar si hay algún asunto de
negocio importante que no ha sido suficientemente considerado. Al final de esta
fase, se debe tomar una decisión sobre el uso de los datos que han surgido de los
resultados minados.(Ncr et al., 2000)
Evaluar los Resultados
Para evaluar los resultados, se había establecido unos criterios de éxito principal
para poder hacer las respectivas clasificaciones y probabilidades con un buen
porcentaje de fiabilidad, este criterio puede ser subjetivo, ya que tiende a ser
inevitable ajustarse en los criterios de éxito desde el punto de vista de la minería de
datos en la cual son más precisos y tienden a ser más específicos. Sin embargo,
para tener una calificación aceptable o no de las clasificaciones y probabilidades
que se realizaran en necesario tener una base objetiva, como son los resultados
estadísticos que se pueden obtener a través de la herramienta Power BI del
respectivo modelo. Basándonos en los indicadores estadísticos podemos hacer una
respectiva evaluación de cada modelo para así descartar que requerimiento cumple
o no con sus condiciones mínimas.
Modelo para el objetivo 1
En este modelo es factible ya se puede hacer las clasificaciones y probabilidades

respectivas para poder saber en qué lugares tiene mayor alto nivel de inseguridad
obtenido con certeza el arma que utilizarían, la hora que son más peligrosas y el
género de persona a quien roban más, con un porcentaje de fiabilidad más del 70%,
en la cual este modelo es aceptable para cumplir los objetivos de negocio.
En el segundo modelo al momento de hacer el estudio de minería de datos y poder

hacer las clasificaciones y probabilidades respectivas, el tiempo de ejecución es
39
bastante en la cual el proceso hace que las maquinas no resuelvan con satisfacción
y no tener un resultado estable para el análisis de los criterios que se quieren
resolver.
En el tercer modelo también es factible, aunque tiene un tiempo de ejecución más

corto que del segundo modelo, sin embargo, este modelo solo permite valores
cuantificables y no se puede tener con precisión el estudio requerido para el análisis
correspondiente de los datos, porcentaje de fiabilidad de este modelo es del 40%.
Modelos aprobados
Por razones explicadas en este apartado el modelo que es aprobado es el modelo

1 ya que cumple con los criterios de éxito de negocio, mientras los otros dos
modelos son descartados por no cumplir con satisfacción los requerimientos de
negocio ni de minería de datos.
Revisar el Proceso
Según el proceso que se ha llevado en ejecución del desarrollo del proyecto se

tuvieron algunas pequeñas complicaciones a la hora de hacer el análisis adecuado
de los datos con el modelo. Ya que se tenía un atributo con información inadecuada
y toco hacer la separación de este para hacer el análisis respectivo. Sin embargo,
cuando se hace el estudio de varios atributos al mismo tiempo la información que
se obtiene no es tan viable y no se entiende bien por lo que es necesario hacer el
estudio de ciertos valores y así tener conclusiones y un porcentaje de fiabilidad alto para ser
entregada la información adecuadamente.
Determinar los Próximos Pasos
El siguiente paso a realizar en el proyecto es el de ejecutar la etapa de implantación

para los objetivos establecidos en el desarrollo.
40
IMPLANTACION
la creación del modelo no es generalmente el final del proyecto. Incluso si el

propósito del modelo es aumentar el conocimiento de los datos, los conocimientos
adquiridos deberán ser organizados y presentados de manera que el cliente pueda
usarlo. A menudo implica la aplicación de modelos dentro de los procesos de toma
de decisiones de la organización, por ejemplo, en la personalización en tiempo real
de páginas web o la puntuación repetida de bases de datos de marketing. Sin
embargo, dependiendo de los requisitos, la fase de despliegue puede ser tan simple
como generar un informe o tan complejo como implementar un proceso de minería
de datos repetible a través de la empresa. En muchos casos es el cliente, no el
analista de datos, quien realiza los pasos de implementación de Sin embargo,
incluso si el analista no realiza el esfuerzo de despliegue es importante que el cliente
entienda por adelantado qué acciones deben ser llevadas hacia fuera para
realmente hacer uso de los modelos creados.(Ncr et al., 2000).
Planear la implantación
En la implantación de este proyecto en el negocio real se cuenta en primer lugar

con la base de datos real del negocio, es decir toda la información del hurto de
celulares en Colombia desde el 1 enero hasta el 31 julio del año 2017. Después se
continua con los pasos de la metodología escogida que van desde la compresión
del negocio hasta la implantación. Esta base de datos conto con 36769 registros
donde están contenidos en una tabla con 23 columnas, como sé puede ver a través
del tiempo esta base datos va ir creciendo en registros, esto podría llevar a un nivel
más alto de complejidad a la hora de aplicar diferentes fases de la metodología
aplicada, ya que tardara más tiempo y se podrían encontrar datos erróneos para su
uso.
Será necesario que el negocio en primer lugar utilice una base de datos en el gestor
MySQL ya que este es el más común y fácil de utilizar, de no ser así se pueden
escoger otros gestores de base de datos como PostgreSQL, Oracle, entre otros. Ya
que el software RapidMiner para hacer el estudio de minería de datos cuenta con
gran variedad de conexiones a diferentes gestores de base de datos.
Planear la Monitorización y Mantenimiento
La supervisión y mantenimiento de la implementación del presente proyecto es una

fase importante, ya que en esta se dará a partir si hay o no modificación de los
datos. Los datos que se están manejando en este proyecto, son de tipo histórico,
41
por esta razón se eligió trabajar con algoritmo “Naive Bayes”, ya que permite, hacer
probabilidad con los datos que se tienen.
El volumen de información de la base de datos es mediano, no alcanza niveles muy
altos o exagerados de información. Pero esta base de datos se va actualizando
cada 6 meses, por lo cual en un año se puede encontrar una base de datos, con
ochenta mil registros o más. Por lo que es necesario y se debe tener en cuenta
realizar Backups de los datos explotados en la minería de datos, en periodos de 5
o 6 meses, tiempo que se considera prudente para mantener los datos seguros.
A continuación, se dan a conocer los planes de supervisión y mantenimiento, los
cuales son:
 Obtención y almacenamiento en periodos de 5 o 6 meses de los datos,
guardando la información obtenida en la minería de datos, ya sea en hojas
de cálculo, etc.
 Distribución de los datos, teniendo en cuenta las técnicas de minería de
datos, que utilicen y sean viables para trabajar.
 Los archivos recolectados en la minería de datos se deben guardar en
soporte magnético (Disco Duro, USB, Cintas Magnéticas, etc.) y la
información puede ir almacenada en carpetas organizadas, ya sea por fecha,
tipo, etc.
 Los resultados que se extraen de la minería de datos se deben visualizar en
hojas de cálculo y por consiguiente generar gráficas, de distintos tipos,
permitiendo una mejor visualización de los registros por determinado tiempo.
Producir el Informe Final
En este paso, se da a conocer los puntos importantes del proyecto y cuál ha sido la
experiencia que se ha adquirido durante el desarrollo del proyecto.
Este informe va dirigido a los entes de la seguridad pública del país, (Policía,
Carabineros, Ejército, etc) y también para el gobierno nacional en general, ya que
el hurto de celulares es un flagelo, que ha sido muy difícil de controlar en el país.
Por esta razón, mostrando el informe estas organizaciones, puedan tomar cartas
sobre el asunto y tomar las respectivas correctivas de este problema a nivel
nacional.
Al hacer uso de la metodología CRISP-DM en este proyecto y teniendo en cuenta,
que es la principal metodología para realizar minería de datos, ha permitido
encontrar comportamientos probabilísticos, en el momento de conocer en cual
departamento del país se cometen la mayoría de hurtos, o conocer en que rango de
edad que se ve más afectado con esta problemática. De tal manera, se ha
42
encontrado un plan de extracción, normalización y de codificación de los datos para

poder así realizar el proceso de minería de datos, en periodos de 5 o 6 meses.
De los objetivos que se han planteado se han podido alcanzar el objetivo general y
el objetivo principal. De tal forma, por estos objetivos, se han podido obtener
conclusiones a partir, de los datos analizados en el proyecto, se puede decir, que
se ha identificado, los departamentos con mayor tasa de hurtos en el país.
A continuación, se dará a conocer las etapas que se siguieron en el proyecto, para
poder llegar a cumplir con el objetivo.
La primera etapa se basa en conseguir la base de datos, por lo que acudimos a
ingresar a la página web del gobierno, y encontramos la base de datos de hurtos en
Colombia en el año 2017. Después se hizo un análisis de la misma, en su estructura
de datos y la información contenida.
De igual manera, se realizaron consultas significativas en el gestor de base de datos
MySQL, y de esta manera tener muestras significativas de los datos, y poder dar a
conocer conclusiones, antes de iniciar con la minería de datos.
Pero como la base de datos, fue descargada, hubo que hacer limpieza de los datos,
conversiones y formateo de los mismos. Esto se trabajó en el apartado 1.4 del
proyecto.
Después se realizó la elección de las técnicas del modelado y la ejecución de las
técnicas de minería de datos, con ayuda del software RapidMiner. Esta herramienta
ayudo a realizar la minería de datos de manera muy completa, permitiendo ver de
manera intuitiva y visual, cuál era la técnica más adecuada para la base de datos
de hurtos de celulares.
Por último, una vez que se obtuvieron los modelos, se analizaron, para tener en
cuenta, cual es el más adecuado para el proyecto teniendo en cuenta los objetivos.
En este caso los modelos 1 y 3 son factibles para los objetivos propuestos, y el
modelo 3 se descarta porque no es lo suficiente fiable.
Teniendo en cuenta los pasos anteriores, estos dan a conocer los resultados del
proyecto
Revisar el proyecto
Llegando así a el último punto de la sexta etapa de la metodología aplicada, donde

se evalúan las cosas que se llevaron a cabo correctamente y las que no, también
posibles mejoras para una futura segunda fase del proyecto donde se podrán
corregir diferentes fallos y tener mejores resultados, como también implementar
43
nuevas herramientas de software a la hora de realizar gráficos estadísticos, aplicar

la minería de datos e integrar nuevos algoritmos.
En el proyecto se llevaron a cabo correctamente la exploración de los datos ya que
se pudieron ver estadísticas de prueba correctamente con diferentes combinaciones
de datos, llegando así a una a una aproximación de exactitud a la hora de realizar
las diferentes probabilidades. Un factor positivo es que el estudio realizado no solo
puede ser utilizado para aplicaciones académicas, sino que también puede ser
analizado por diferentes entidades del gobierno para tomar medidas en la
problemática y brindarles una mejor seguridad a las personas. En la aplicación de
otros métodos de la minería de datos no se pudieron llevar a cabo ya que
presentaban problemas como lentitud en el procesamiento y datos incoherentes,
pero a pesar de estos fallos se pudieron encontrar otras soluciones las cuales
llevaron a buenos resultados.
POSIBLES PREDICCIONES
 Una de las posibles predicciones que se puede obtener al hacer el análisis del
estudio de la base de datos de hurtos de celulares es que a las mujeres tienden
a robarles el celular sin emplear un arma, ya que se puede decir que ellas utilizan
más el celular en la calle y por esta razón los delincuentes tienen mayor facilidad
de robar estos objetos, en la cual se podría hacer campañas en las cuales
enseñarles a las personas especialmente a las mujeres que no transiten en la
calle con uso del celular y así evitar estos hurtos.
 También se puede presentar este análisis a las diferentes empresas que realizan
las diversas marcas de celulares y decir que no deberían asegurar los celulares
a las mujeres que transitan o viven por los lugares de alta inseguridad para que
no tengan perdidas.
 Otra predicción que se podría hacer es mirar el nivel de inseguridad que se ha

obtenido a medida del tiempo y predecir que, si el lugar sigue creciendo en forma
de inseguridad, decir que lugares se podrían volver también inseguros y retomar
campañas para las demás personas.
44
BIBLIOGRAFIA
Britos, P. V. (2008). Procesos de explotación de información basados en sistemas
inteligentes. Retrieved from http://sedici.unlp.edu.ar/handle/10915/4142
Chapman, P., Clinton, J., Kerber, R., Khabaza, T., Reinartz, T., Shearer, C., &
Wirth, R. (n.d.). Step-by-step data mining guide. Retrieved from http://www-
staff.it.uts.edu.au/~paulk/teaching/dmkdd/ass2/readings/methodology/CRISP
WP-0800.pdf
Herrero, J. G., Manuel, J., & López, M. (n.d.). TÉCNICAS DE ANÁLISIS DE
DATOS APLICACIONES PRÁCTICAS UTILIZANDO MICROSOFT EXCEL Y
WEKA. Retrieved from http://ocw.uc3m.es/ingenieria-informatica/analisis-de-
datos/libroDataMiningv5.pdf
Luque, C. M. (2003). Clasicadores bayesianos. El algoritmo Naïve Bayes.
Retrieved from
https://www.nebrija.es/~cmalagon/inco/Apuntes/bayesian_learning.pdf
Molina, J., & García, J. (2008). Técnicas de Minería de Datos basadas en
Aprendizaje Automático. Técnicas de Análisis de Datos, 96–266.

Mineria de Datos

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Mineria de Datos

Diunggah oleh

Hak Cipta:

Format Tersedia

APLICACIÓN DE MINERIA DE DATOS EN EL HURTO DE CELULARES EN

COLOMBIA EN EL AÑO 2017 APLICANDO LA METODOLOGIA CRISP-DM

JHON FREDY GALLEGO HENAO

Planear la Monitorización y Mantenimiento ............................................................................ 40

En la actualidad es importante tener cuantificada la información en bases de datos

En la minería de datos existen diversas metodologías, que pueden ser utilizadas

En este informe se explicará la metodología según sus diferentes etapas aplicada

Implementar las diferentes etapas de la metodología CRISP-DM sobre los datos

APLICACIÓN DE LA METODOLOGIA CRISP-DM al

La metodología CRISP-DM, permite “la interoperabilidad de las herramientas a

Figura 1. Fases de la metodología CRISP-DM

COMPRENSIÓN DEL NEGOCIO

Determinar los objetivos del negocio

El objetivo de la minería de datos, en el proyecto es observar en que lugares de

Se cuenta con una base de datos de hurtos en Colombia en el 2017 permitiendo

Objetivos del negocio

El objetivo del negocio es la predicción de datos de los lugares y horas más

Criterios de éxito del negocio

Según el criterio que se establece para obtener un éxito de negocio se tiene la

En la disposición de recursos de software contamos con el programa de minería de

 Algoritmos genéticos: Técnicas de optimización que usan procesos tales como

Determinar los objetivos de la minería de datos

En términos de minería de datos los objetivos son los siguientes:

Realizar el plan del proyecto

El proyecto se dividirá en las siguientes etapas para facilitar su organización y

Evaluación inicial de herramientas y técnicas

El clasificador bayesiano naive, es un método importante porque ofrece el análisis

La regresión lineal identifica las relaciones de las variables numéricas y construye

COMPRENSIÓN DE LOS DATOS

Los datos a utilizar en el proyecto hacen en referencia a datos en donde se han

Descripción de los Datos

En esta sección se dará a conocer de forma detallada de los atributos de la base de

Exploración de los datos

Cuando se describen los datos el siguiente paso es explorarlos, lo cual implica

En la figura 2 muestra la distribución de los tipos de armas empleadas en los robos

Figura 2. Gráfico de barras de la cantidad de población robada dependiendo el tipo de arma.

En la figura 3 y 4 se muestran los porcentajes de la población que fue robada

Figura 3. Grafico lineal del porcentaje de robos con un tipo de arma.

En la figura 5 se muestra el porcentaje de la población que le fue robado su celular

Figura 5. Porcentaje de población robada dependiendo el sexo y el arma empleada.

En la figura 6 se muestra la cantidad de población robada a una hora específica, en

Figura 6. Cantidad de población robada dependiendo de la hora.

En la figura 7 se muestra el porcentaje de los robos realizados en cada

Figura 7. Porcentaje de los robos de celulares en diferentes departamentos

En la figura 8 se muestran los porcentajes de los robos de celulares en los diferentes

Figura 8. Porcentaje de robos de celulares según el día de la semana.

En la figura 9 podemos encontrar la marca de celulares los cuales tienen más

Figura 9. Porcentaje de robos de celulares dependiendo la marca.

En la figura 10 se muestra la cantidad de personas robadas dependiendo su medio

Figura 10. Porcentaje de población robada dependiendo su medio de transporte.

En la figura 11 se muestra la cantidad de población robada en un rango de edades,

Figura 11. Cantidad de robos de celulares por rango de edades.

En la figura 12 se muestra el porcentaje de la población hurtada de su celular, donde

Figura 12. Porcentaje de población robada según el lugar de los hechos.

Verificar la Calidad de los Datos

PREPARACION DE LOS DATOS

En la etapa de preparación de datos cubre todas las actividades para construir el

Seleccionar los Datos

la causa para la inclusión o exclusión de varios campos es, como se mencionó

Limpiar los Datos

La base de datos con la que se tiene para el proyecto, contiene la información

El modelo relacionado para la minería de datos, según la predicción de los lugares

Figura 13. Filtrado de Columnas

Construir los Datos