Anda di halaman 1dari 53

APLICACIN DE LA K-MEANS Y CARTERO CHINO

PARA EL DISEO DE RUTAS DE PATRULLAJE EN EL


DISTRITO DE SANTA ANITA

CURSO: INVESTIGACIN DE OPERACIONES II

PROFESOR: Ing. ULFE VEGA, Luis Alberto

INTEGRANTES:

CAMPOS SUAREZ, Diego

PINEDA SALAS, Jess

SIERRA CUTIPA, Cristhofer

URRUTIA MANCO, Marco

24 de noviembre del 2016


Contenido
OBJETIVOS ................................................................................................................................

2
CAPTULO I .................................................................................................................................

2
1.1.1. INDICADORES ........................................................................................................... 2
1.1.1.1.Tasa bruta de mortalidad ( Mortalidad ) .......................................................... 3
1.1.1.2. Delincuencia ........................................................................................................ 3
1.1.1.3. Densidad Poblacional ........................................................................................ 3
1.1.2. DISTANCIAS EUCLIDIANAS ................................................................................... 4
1.1.3. EL PROBLEMA DEL CARTERO CHINO ............................................................... 4
1.1.3.1.Caminos y circuitos eulerianos ......................................................................... 5
1.1.3.2. Enlaces-T ............................................................................................................. 5
1.1.3.3. Solucin ............................................................................................................... 6
1.1.3.4. Variantes .............................................................................................................. 6
1.1.3.5.Otra descripcin del mtodo de resolucin en el caso general .................. 6
1.1.3.6. Demostracin ...................................................................................................... 7
CAPTULO II ............................................................................................................................... 8
2.1. MINERA DE DATOS (EXPLORACIN DE DATOS) ............................................... 8
Proceso ....................................................................................................................................

8
2.1.1. Tcnicas de minera de datos .............................................................................. 9

2.2. ANLISIS DE CONGLOMERADOS (ANLISIS DE AGRUPAMIENTO O


CLUSTERING)......................................................................................................... 11
2.3. Algoritmos................................................................................................... 13
CAPITULO III............................................................................................................................... 20
3.1. APLICACIN K - MEDIANA.................................................................................. 20
3.2 CARTERO CHINO................................................................................................. 26
CONCLUSIONES........................................................................................................ 28
BIBLIOGRAFIA............................................................................................................ 28
ANEXOS...................................................................................................................... 28
1
OBJETIVOS

1. Aplicar el mtodo de la K-Means, para el agrupamiento de lugares que


presentan un elevado ndice de delincuencia.

2. Aplicar el algoritmo del Cartero Chino, as como la teora de grafos, para el


diseo de rutas.

CAPTULO I
1.1. CONCEPTOS

1.1.1. INDICADORES

Un indicador es una comparacin entre dos o ms tipos de datos que sirve para
elaborar una medida cuantitativa o una observacin cualitativa. Esta comparacin
arroja un valor, una magnitud o un criterio, que tiene significado para quien lo analiza.

Los indicadores se utilizan en diversos mbitos. Un ejemplo bsico de indicador es el


porcentaje. Otros indicadores comunes pueden ser la tasa de empleo, la tasa de
desempleo, la tasa de actividad, la tasa de informalidad, por mencionar algunos.

Los indicadores por lo general, se construyen con informacin cuantitativa, no obstante


y de modo creciente, se usan indicadores cualitativos.

Un indicador debe ser construido con un claro criterio de utilidad, para asegurar la
disponibilidad de los datos y resultados ms relevantes en el menor tiempo posible y
con un menor costo. Tambin es necesario elaborar indicadores que den cuenta de
todas las dimensiones sobre las cuales el programa o las acciones de formacin se
han propuesto intervenir.

2
1.1.1.1. Tasa bruta de mortalidad ( Mortalidad )
Es la proporcin de personas que fallecen respecto al total de la poblacin en un
perodo de tiempo (usualmente expresada en tanto por mil por ao, ), la tasa de
mortalidad particular se refiere a la proporcin de personas con una caracterstica
particular que mueren respecto al total de personas que tienen esa caracterstica (la
tasa de mortalidad por edad, o la tasa de mortalidad por grupo social son ejemplos de
tasas particulares). Ambas tasas de mortalidad se expresan por frmulas de la forma:

La investigacin sobre la mortalidad tiene por objeto establecer la evolucin y


estructura de las defunciones ocurridas en una poblacin y en un espacio geogrfico
determinado a lo largo del tiempo.

1.1.1.2. Delincuencia

Cantidad o proporcin de delitos cometidos en un lugar o en un perodo de tiempo


determinados.

1.1.1.3. Densidad Poblacional

3
La densidad de poblacin es una medida de distribucin de poblacin de un pas o
regin, que es equivalente al nmero de habitantes dividido entre el rea donde
habitan. Indica el nmero de personas que viven en cada unidad de superficie, y
normalmente se expresa en habitantes por km2.

1.1.2. DISTANCIAS EUCLIDIANAS

Distancia euclidiana o eucldea es la distancia "ordinaria" (que se medira con una


regla) entre dos puntos de un espacio eucldeo, la cual se deduce a partir del
teorema de Pitgoras.

Por ejemplo, en un espacio bidimensional, la distancia euclidiana entre dos puntos P1


y P2, de coordenadas cartesianas (x1, y1) y (x2, y2) respectivamente, es:

1.1.3. EL PROBLEMA DEL CARTERO CHINO


En teora de grafos (una rama de la matemtica), el problema del cartero chino (PCC),
o problema del circuito del cartero, o problema de la inspeccin y seleccin de rutas,
consiste en encontrar el camino ms corto o circuito cerrado, que visite cada arista de
un grafo (conectado) no direccionado, o sea, que pase al menos una vez por cada
arista del grafo, volviendo al punto (o nodo) de partida. Cuando el grafo posee un
circuito euleriano (un paseo cerrado que alcance toda arista solamente una vez), ese
circuito es una solucin ptima.

Alan J. Goldman del Instituto Nacional de Estndares y Tecnologa (EEUU), us por


primera vez la denominacin 'problema del cartero chino' para este problema, ya que
originalmente fue estudiado por el matemtico chino Mei-Ko Kuan en 1962, quien
precisamente era cartero.
4
1.1.3.1. Caminos y circuitos eulerianos
Para que un grafo tenga un circuito euleriano, ciertamente tendr que estar conectado.

Supongamos que tenemos un grafo conexo G = (V, E); entonces, las siguientes
declaraciones son equivalentes:

1) Todos los vrtices (nodos) de G tienen grado par.


2) G consiste de las aristas de una unin disjunta de algunos ciclos, y de los
vrtices de esos ciclos.
3) G tiene un circuito euleriano.

1 2 puede ser demostrado por inducin sobre el nmero de ciclos;

2 3 tambin puede ser demostrado por induccin sobre el nmero de ciclos; y

3 1 es inmediata inmediata.

Un camino euleriano (un camino que no es cerrado, pero que utiliza todas las aristas
de G apenas una vez y solamente una vez) existe si y solamente si G es conectado y
tiene dos vrtices de valencia mpar.

1.1.3.2. Enlaces-T
Sea T un subconjunto del conjunto de vrtices de un grafo. El conjunto de aristas
cuyos vrtices de grado impar son los vrtices en T es llamado enlace-T (en un grafo
conexo, un enlace-T existe si y solamente si |T| es par). El problema del enlace-T
consiste en encontrar el menor enlace-T. Y el menor enlace-T necesariamente lleva a
una solucin del problema del cartero chino.

En efecto, un menor enlace-T necesariamente consiste de (1/2)T caminos, no


habiendo dos con una arista en comn, uniendo los vrtices de T en pares. Los
recorridos sern de tal forma que la extensin total de cada uno de ellos es tan
pequea como sea posible. Un enlace-T mnimo puede ser obtenido por un algoritmo
3
de correspondencia ponderada que usa O(n ) pasos computacionales.
5
1.1.3.3. Solucin
Si un grafo tiene un circuito euleriano (o un camino euleriano), entonces un circuito
euleriano (o camino) visita cada arista, y as la solucin resulta ser cualquier circuito
euleriano (o camino).

Y si un grafo no es euleriano, debe contener vrtices de grado impar, y por aplicacin


del lema del apretn de manos, debe haber un nmero par de esos vrtices. Entonces,
para resolver el problema del cartero chino, primero debemos encontrar el menor
enlace-T, y transformamos el grafo original en otro euleriano simplemente duplicando
el enlace-T. Resulta entonces que la solucin al problema del cartero chino en el grafo
original, podr ser obtenida o generada, sobre la base de la determinacin de un
circuito euleriano para el nuevo grafo.

1.1.3.4. Variantes
Pocas variantes del problema del cartero chino han sido estudiadas en forma
exhaustiva.

(Minimizacin) Problema del cartero chino para grafos mixtos - En esta situacin,
algunas de las aristas podran estar direccionadas y solamente podran ser recorridas
en la direccin permitida. El problema transversal mnimo de un digrafo es conocido
como "problema del barrendero callejero de Nueva York".

(Minimizacin) Problema del cartero k-Chino - Encontrar todos los ciclos de k


elementos a partir de un local designado, de tal forma que cada arista sea atravesada
por lo menos por un ciclo. El objetivo es minimizar el costo del ciclo ms caro.

Problema del cartero rural - Dado un subconjunto de aristas, encontrar el ciclo


hamiltoniano ms barato conteniendo una de esas aristas (y posiblemente otras). Este
es un caso especial del problema general del enrutamiento mnimo, que especifica con
precisin los vrtices o ciclos que debe contener.

1.1.3.5. Otra descripcin del mtodo de resolucin en el caso general


El mejor resultado que puede esperarse se obtiene encontrando un camino que pase
exactamente una sola vez por cada arista, es decir, un ciclo euleriano. Tal camino
existe si y solamente si cada nodo del grafo es de grado par.

En caso contrario, un camino optimal pasa al menos dos veces por una misma arista.
En este ltimo caso, es ms simple considerar el problema alternativo siguiente: en
vez de permitir de pasar varias veces por la misma arista, se duplican las aristas del
6
grafo en donde se permite pasar dos veces. Obviamente, el problema planteado
entonces es del mismo tipo, pero ahora aplicado a un grafo diferente.

La idea es naturalmente la de ir ampliando poco a poco el grafo, hasta que el mismo


sea euclidiano, y cuando se obtenga, buscar un circuito euleriano en el grafo completo.

Para mejor comprender el algoritmo propuesto, es til comenzar pensando el caso de


un grafo en donde solamente se tienen dos nodos u y v de grado impar. Entonces, la
solucin ptima consiste en encontrar el camino ms corto del nodo u al nodo v
(utilizando por ejemplo el algoritmo de Dijkstra), completando el grafo con las aristas
de este camino.

1.1.3.6. Demostracin
Despus de haber agregado al grafo las aristas del camino ms corto entre u y v, cada
nodo es de grado par, y por lo tanto el grafo es euleriano, y por lo tanto tiene una
solucin vlida.

En un grafo cualquiera con ms de dos nodos de grado impar, ser siempre par el
nmero de nodos de grado impar, y entonces la solucin ptima podr ser obtenida
con el siguiente algoritmo:

Formar un nuevo grafo G, constituido nicamente por los nodos de grado impar del
grafo inicial G.

Entre dos nodos de G, agregar un arete nuevo con una longitud igual al ms corto
camino entre esos dos nodos en el grafo G.

Establecer la serie de pesos mnimos en G, lo que puede hacerse con un algoritmo de


3
complejidad O(n ).

Aplicar reiteradamente este mismo procedimiento, o sea, para cada par de nodos u y v
en G, agregar las aristas del camino ms corto u a v en G.
7
CAPTULO II

2.1. MINERA DE DATOS (EXPLORACIN DE DATOS)

Es un campo de la estadstica y las ciencias de la computacin referido al proceso que


intenta descubrir patrones en grandes volmenes de conjuntos de datos. Utiliza los
mtodos de la inteligencia artificial, aprendizaje automtico, estadstica y sistemas de
bases de datos.

El objetivo general del proceso de minera de datos consiste en extraer informacin de


un conjunto de datos y transformarla en una estructura comprensible para su uso
posterior. Adems de la etapa de anlisis en bruto, que involucra aspectos de bases
de datos y de gestin de datos, de procesamiento de datos, del modelo y de las
consideraciones de inferencia, de mtricas de Intereses, de consideraciones de la
Teora de la complejidad computacional, de post-procesamiento de las estructuras
descubiertas, de la visualizacin y de la actualizacin en lnea.

La tarea de minera de datos real es el anlisis automtico o semi-automtico de


grandes cantidades de datos para extraer patrones interesantes hasta ahora
desconocidos, como los grupos de registros de datos (anlisis clster), registros
poco usuales (la deteccin de anomalas) y dependencias (minera por reglas de
asociacin).

Los trminos relacionados con la obtencin de datos, la pesca de datos y espionaje de


los datos se refieren a la utilizacin de mtodos de minera de datos a las partes de la
muestra de un conjunto de datos de poblacin ms grandes establecidas que son (o
pueden ser) demasiado pequeas para las inferencias estadsticas fiables que se hizo
acerca de la validez de cualquier patrn descubierto. Estos mtodos pueden, sin
embargo, ser utilizados en la creacin de nuevas hiptesis que se prueban contra
poblaciones de datos ms grandes.

Proceso
Un proceso tpico de minera de datos consta de los siguientes pasos generales:

Seleccin del conjunto de datos, tanto en lo que se refiere a las variables objetivo
(aquellas que se quiere predecir, calcular o inferir), como a las variables
independientes (las que sirven para hacer el clculo o proceso), como posiblemente al
muestreo de los registros disponibles.
8
Anlisis de las propiedades de los datos, en especial los histogramas, diagramas de
dispersin, presencia de valores atpicos y ausencia de datos (valores nulos).

Transformacin del conjunto de datos de entrada, se realizar de diversas formas en


funcin del anlisis previo, con el objetivo de prepararlo para aplicar la tcnica de
minera de datos que mejor se adapte a los datos y al problema, a este paso tambin
se le conoce como preprocesamiento de los datos.

Seleccionar y aplicar la tcnica de minera de datos, se construye el modelo predictivo,


de clasificacin o segmentacin.

Extraccin de conocimiento, mediante una tcnica de minera de datos, se obtiene un


modelo de conocimiento, que representa patrones de comportamiento observados en
los valores de las variables del problema o relaciones de asociacin entre dichas
variables. Tambin pueden usarse varias tcnicas a la vez para generar distintos
modelos, aunque generalmente cada tcnica obliga a un preprocesado diferente de los
datos.

Interpretacin y evaluacin de datos, una vez obtenido el modelo, se debe proceder a


su validacin comprobando que las conclusiones que arroja son vlidas y
suficientemente satisfactorias. En el caso de haber obtenido varios modelos mediante
el uso de distintas tcnicas, se deben comparar los modelos en busca de aquel que se
ajuste mejor al problema. Si ninguno de los modelos alcanza los resultados esperados,
debe alterarse alguno de los pasos anteriores para generar nuevos modelos.

2.1.1. Tcnicas de minera de datos


Como ya se ha comentado, las tcnicas de la minera de datos provienen de la
inteligencia artificial y de la estadstica, dichas tcnicas, no son ms que algoritmos,
ms o menos sofisticados que se aplican sobre un conjunto de datos para obtener
unos resultados.

Las tcnicas ms representativas son:

2.1.2. Redes neuronales

Son un paradigma de aprendizaje y procesamiento automtico inspirado en la forma


en que funciona el sistema nervioso de los animales. Se trata de un sistema de
interconexin de neuronas en una red que colabora para producir un estmulo de
salida. Algunos ejemplos de red neuronal son:

- El perceptrn.
9
- El perceptrn multicapa.
- Los mapas autoorganizados, tambin conocidos como redes de Kohonen.

2.1.3. Regresin lineal

Es la ms utilizada para formar relaciones entre datos. Rpida y eficaz pero


insuficiente en espacios multidimensionales donde puedan relacionarse ms de 2
variables.

2.1.4. rboles de decisin

Un rbol de decisin es un modelo de prediccin utilizado en el mbito de la inteligencia


artificial y el anlisis predictivo, dada una base de datos se construyen estos diagramas de
construcciones lgicas, muy similares a los sistemas de prediccin basados en reglas, que
sirven para representar y categorizar una serie de condiciones que suceden de forma
sucesiva, para la resolucin de un problema. Ejemplos:

- Algoritmo ID3.
- Algoritmo C4.5.
2.1.5. Modelos estadsticos

Es una expresin simblica en forma de igualdad o ecuacin que se emplea en todos


los diseos experimentales y en la regresin para indicar los diferentes factores que
modifican la variable de respuesta.

2.1.6. Agrupamiento o Clustering

Es un procedimiento de agrupacin de una serie de vectores segn criterios


habitualmente de distancia; se tratar de disponer los vectores de entrada de forma
que estn ms cercanos aquellos que tengan caractersticas comunes. Ejemplos:

- Algoritmo K-means.
- Algoritmo K-medoids.

2.1.7. Reglas de asociacin

Se utilizan para descubrir hechos que ocurren en comn dentro de un determinado


conjunto de datos.

Segn el objetivo del anlisis de los datos, los algoritmos utilizados se clasifican
en supervisados y no supervisados (Weiss y Indurkhya, 1998):
10
2.1.8. Algoritmos supervisados (o predictivos

Predicen un dato (o un conjunto de ellos) desconocido a priori, a partir de otros


conocidos.

2.1.9. Algoritmos no supervisados (o del descubrimiento del conocimiento)

Se descubren patrones y tendencias en los datos.

2.2. ANLISIS DE CONGLOMERADOS (ANLISIS DE AGRUPAMIENTO O


CLUSTERING)

Es la tarea de agrupar un conjunto de objetos de tal manera que los objetos en el


mismo grupo (llamado un clster) son ms similares (en un sentido u otro) entre s que
con los de otros grupos (clusters). Es una tarea principal de exploracin de minera de
datos, y una tcnica comn para los estadsticos de anlisis de datos, que se utiliza en
muchos campos, incluyendo el aprendizaje automtico, reconocimiento de patrones,
anlisis de imgenes, recuperacin de informacin, la bioinformtica, la compresin de
datos y grficos por ordenador.

El anlisis de conglomerados en s no es un algoritmo especfico, pero la tarea general


a resolver se puede lograr por diversos algoritmos que difieren significativamente en
su nocin de lo que constituye un clster y cmo encontrar de manera eficiente ellos.

Las nociones populares de grupos incluyen grupos con pequeas distancias entre los
miembros del clster, reas densas del espacio de datos, intervalos o particulares
distribuciones estadsticas. Por lo tanto Clustering puede formularse como un
problema de optimizacin multiobjetivo.

Los valores del algoritmo de agrupamiento y los parmetros apropiados (incluidos los
valores tales como la funcin de distancia a usar, un umbral de densidad o el nmero
de grupos esperados) dependen de una serie de datos individual y el uso previsto de
los resultados.

El anlisis de conglomerados, como tal, no es una tarea automtica, sino un proceso


iterativo de descubrimiento de conocimiento o interactivos optimizacin multi-objetivo
que implica ensayo y error. A menudo es necesario para modificar los parmetros de
preprocesamiento y modelo de datos hasta que el resultado alcanza las propiedades
deseadas.
11
Adems el trmino agrupamiento, hay una serie de trminos con significados
similares, incluyendo automtico de clasificacin, taxonoma numrica y el anlisis
tipolgico. Las diferencias sutiles son a menudo en el uso de los resultados: mientras
que en la minera de datos, los grupos resultantes son el asunto de inters, en la
clasificacin automtica el poder discriminativo resultante es de inters.

La nocin de un "grupo" no puede ser definida con precisin, que es una de las
razones por las que hay tantos algoritmos de agrupamiento. Hay un denominador
comn: un grupo de objetos de datos. Sin embargo, diferentes investigadores emplean
diferentes modelos de clster, y para cada uno de estos modelos de clster se pueden
dar de nuevo diferentes algoritmos.

La nocin de un clster, tal como se encuentra por diferentes algoritmos, vara


significativamente en sus propiedades. La comprensin de estos "modelos de racimo"
es clave para entender las diferencias entre los distintos algoritmos. Modelos de
conglomerado tpicas incluyen:

2.2.1. Modelos de conectividad: por ejemplo, la agrupacin jerrquica construye


modelos basados en la conectividad a distancia.

2.2.2. Modelos Centroide: por ejemplo, el algoritmo de k-medias representa


cada grupo por un nico vector medio.

2.2.3. Modelos de distribucin: las agrupaciones se modelan mediante


distribuciones estadsticas, tales como distribuciones normales
multivariantes utilizados por el algoritmo de expectativa de maximizacin.

2.2.4. Modelos de densidad: por ejemplo, DBSCAN y PTICA define como


agrupaciones densas regiones conectadas en el espacio de datos.

2.2.5. Modelos de subespacios: en Biclustering (tambin conocido como Co-


agrupacin o dos modo de agrupamiento), las agrupaciones se modelan
con ambos miembros del clster y atributos relevantes.

2.2.6. Modelos del Grupo: algunos algoritmos no proporcionan un modelo


refinado para sus resultados y simplemente proporcionan la informacin de
agrupacin.
12
Una "agrupacin" es esencialmente un conjunto de estas agrupaciones, que
normalmente contiene todos los objetos en el conjunto de datos.

Adems, puede especificar la relacin de los grupos entre s, por ejemplo, una
jerarqua de agrupaciones incrustadas en la otra.

Agrupamientos pueden ser ms o menos distinguidos como:

2.2.7. Agrupacin duro: cada objeto pertenece a un clster o no

2.2.8. Agrupacin suave (tambin: agrupamiento difuso): cada objeto


pertenece a cada grupo hasta cierto punto (por ejemplo, una probabilidad
de pertenencia al clster)

Tambin hay distinciones ms finas posibles, por ejemplo:

2.2.9. Agrupacin estricta compartimentacin: aqu cada objeto pertenece


exactamente a un clster

2.2.10. Estricta agrupacin de repartirla con valores atpicos: objetos tambin


puede pertenecer a ningn grupo, y se consideran valores atpicos.

2.2.11. Agrupacin de solapamiento (tambin: agrupacin alternativa, con


mltiples vistas de agrupamiento): mientras que por lo general una
agrupacin duro, los objetos pueden pertenecer a ms de un grupo.

2.2.12. La agrupacin jerrquica: los objetos que pertenecen a un grupo de nios


tambin pertenecen al grupo de los padres

2.2.13. Subespacio agrupacin : mientras que una agrupacin de solapamiento,


dentro de un subespacio definido de forma nica, no se espera que las
agrupaciones a superponerse.

2.3. Algoritmos
Agrupacin de los algoritmos se pueden clasificar en funcin de su modelo de clster,
como se indica anteriormente. El siguiente resumen slo se mostrar una lista de los
ejemplos ms destacados de los algoritmos de agrupacin, ya que hay posiblemente
ms de 100 algoritmos de agrupamiento publicados. No todos proporcionan modelos
13
de sus grupos y por lo tanto no pueden ser categorizados fcilmente. Una visin
general de los algoritmos explicados en Wikipedia se puede encontrar en la lista de
algoritmos de estadsticas.

No hay forma objetiva algoritmo de agrupamiento "correcta", pero, como se seal, "la
agrupacin est en el ojo del espectador." El algoritmo de agrupamiento ms
apropiado para un problema particular menudo tiene que ser elegido de forma
experimental, a menos que exista una razn matemtica a preferir un modelo de
clster sobre otro. Cabe sealar que un algoritmo que est diseado para un tipo de
modelo no tiene ninguna posibilidad en un conjunto de datos que contiene una clase
radicalmente diferente del modelo. Por ejemplo, k-medias no pueden encontrar grupos
no convexos.

2.3.1. Basado en la agrupacin de conectividad (agrupacin jerrquica)

Conectividad basada en la agrupacin, tambin conocida como la agrupacin


jerrquica, se basa en la idea central de los objetos ms relacionadas con los objetos
cercanos que a los objetos ms lejanos. Estos algoritmos se conectan "objetos" para
formar "grupos" en funcin de su distancia. Un grupo puede ser descrito en gran
medida por la distancia mxima necesaria para conectar partes del clster. A
diferentes distancias, diferentes grupos se formarn, que puede representarse
mediante un dendrograma , lo que explica que el nombre comn de "agrupacin
jerrquica" viene de: estos algoritmos no proporcionan una nica particin del conjunto
de datos, pero en lugar de proporcionar una amplia jerarqua de grupos que se unen
entre s a ciertas distancias. En un dendrograma, el eje y marca la distancia a la que
los grupos se fusionan, mientras que los objetos se colocan a lo largo del eje x de tal
manera que los grupos no se mezclan.

Basado en la agrupacin conectividad es una familia completa de mtodos que


difieren en la forma en distancias se calculan. Aparte de la eleccin habitual de
funciones de distancia , el usuario tambin tiene que decidir sobre el criterio de
vinculacin (ya que un clster se compone de varios objetos, hay varios candidatos
para calcular la distancia a) para su uso. Las opciones ms populares son conocidos
como agrupacin solo vnculo (el mnimo de las distancias de objetos), la agrupacin
completa de ligamiento (el mximo de las distancias de objetos) o UPGMA ( "Mtodo
de agrupamiento de pares no ponderados con la media aritmtica", tambin conocida
14
como la agrupacin de vinculacin promedio). Por otra parte, la agrupacin jerrquica
de aglomeracin puede ser (a partir de elementos individuales y su agregacin en
grupos) o de divisin (comenzando con el conjunto completo de datos y lo divide en
particiones).

Estos mtodos no producirn una particin nica del conjunto de datos, pero de una
jerarqua de las que el usuario todava tiene que elegir grupos adecuados. No son muy
robusta hacia valores atpicos, que, o bien aparecer como racimos adicionales o
incluso causar otros grupos se fusionen (conocidos como "encadenamiento
fenmeno", en particular con la agrupacin solo vnculo).

En la minera de datos de la comunidad estos mtodos son reconocidos como


fundamento terico de anlisis de conglomerados, pero a menudo se consideran
anticuados. Lo hicieron sin embargo proporcionan inspiracin para muchos mtodos
posteriores, como la densidad basada en la agrupacin.

2.3.2. Basada en el agrupamiento centroide

En basado en la agrupacin centroide, las agrupaciones estn representadas por un


vector central, que puede no ser necesariamente un miembro del conjunto de datos.
Cuando el nmero de grupos se fija a k, k agrupacin means da una definicin formal
como un problema de optimizacin: encontrar el k centros de los conglomerados y
asignan los objetos a la agrupacin centro ms cercano, de tal manera que las
distancias al cuadrado de la agrupacin se reducen al mnimo.

El mismo problema de optimizacin se sabe que es NP- difcil, y por lo tanto el


enfoque comn es buscar slo soluciones aproximadas. Un mtodo aproximativo
15
particularmente bien conocido es el algoritmo de Lloyd, a menudo se refiere en
realidad a como " algoritmo de k-medias.

Lo hace sin embargo slo se encontr un ptimo local, y es comnmente ejecutar


varias veces con diferentes inicializaciones aleatorias. Las variaciones de k-medias a
menudo incluyen optimizaciones tales como la eleccin de la mejor de las mltiples
carreras, sino tambin la restriccin de los centroides de los miembros del conjunto de
datos (k-medianas ), la eleccin de las medianas ( k-medianas clustering ), la eleccin
de los centros iniciales menos al azar ( K-means ++ ) o permitir una asignacin de
clsters difusa ( fuzzy c-means ).

Por especificar de antemano, que se considera ser uno de los mayores inconvenientes
de estos algoritmos. Por otra parte, los algoritmos prefieren los racimos de tamao
aproximadamente similar, ya que siempre asignar un objeto a la centroide ms
cercano. Esto a menudo conduce a cortar de forma incorrecta en las fronteras entre
las agrupaciones (que no es sorprendente, ya que los centros de los conglomerados
algoritmo optimizado, y no las fronteras del clster).

K-means tiene una serie de propiedades tericas interesantes. En primer lugar, divide
el espacio de datos en una estructura conocida como un diagrama de Voronoi. En
segundo lugar, es conceptualmente cercano a la clasificacin del vecino ms cercano,
y como tal es muy popular en el aprendizaje automtico. En tercer lugar, se puede ver
como una variacin del modelo basado en la clasificacin, y el algoritmo de Lloyd
como una variacin de la expectativa de maximizacin algoritmo para este modelo se
discute a continuacin.

2.3.3. Basada en la distribucin de la agrupacin


16
El modelo de agrupamiento ms estrechamente relacionados con las estadsticas se
basa en los modelos de distribucin. Las agrupaciones pueden ser fcilmente
definidos como pertenecientes ms probable que la misma distribucin de objetos.

Una propiedad conveniente de este enfoque es que esta parece mucho a la forma en
que se generan los conjuntos de datos artificiales: mediante el muestreo de objetos al
azar de una distribucin.

Si bien el fundamento terico de estos mtodos es excelente, sufren de un problema


clave conocida como sobreajuste, a menos que las restricciones se ponen en la
complejidad del modelo. Un modelo ms complejo por lo general ser capaz de
explicar mejor los datos, por lo que elegir el modelo adecuado complejidad de por s
difcil.

Un mtodo prominente se conoce como modelos de mezcla de Gauss (utilizando el


algoritmo de expectativa de maximizacin). En este caso, el conjunto de datos se
suele representar mediante un conjunto fijo (para evitar el sobreajuste) nmero de
distribuciones gaussianas que se inicializan al azar y cuyos parmetros se han
optimizado de forma iterativa para ajustarse mejor al conjunto de datos. Este
converger a un ptimo local, por lo que varias carreras pueden producir resultados
diferentes. Con el fin de obtener una agrupacin duro, los objetos se asignan a
menudo la distribucin gaussiana que lo ms probable pertenecen a; para clusterings
suaves, esto no es necesario.

Basado en la agrupacin de distribucin produce modelos complejos para los clsteres


que pueden capturar correlacin entre los atributos. Sin embargo, estos algoritmos
ponen una carga adicional para el usuario: para muchos conjuntos de datos reales,
puede que no haya definido de forma concisa modelo matemtico (por ejemplo,
suponiendo una distribucin gaussiana es bastante fuerte hiptesis sobre los datos).
17
2.3.4. Basada en la densidad de la agrupacin

En basado en la agrupacin densidad, grupos se definen como reas de densidad


mayor que el resto del conjunto de datos. Los objetos en estas reas escasas - que se
requieren para separar grupos - por lo general se considera que los puntos de ruido y
de frontera.

El ms popular mtodo de densidad basado agrupacin es DBSCAN. En contraste con


muchos mtodos ms nuevos, que cuenta con un modelo de clster bien definido
llamado "densidad de accesibilidad". De manera similar a la vinculacin basada en la
agrupacin, que se basa en la conexin de puntos dentro de ciertos umbrales de
distancia. Sin embargo, slo se conecta puntos que satisfacen un criterio de densidad,
en la variante inicial definido como un nmero mnimo de otros objetos dentro de este
radio.

Un grupo consiste en todos los objetos de densidad conectados (que pueden formar
un grupo de una forma arbitraria, en contraste con muchos otros mtodos), adems de
todos los objetos que estn dentro del alcance de estos objetos. Otra propiedad
interesante de DBSCAN es que su complejidad es bastante bajo - que requiere una
serie lineal de consultas de rango en la base de datos - y que va a descubrir
esencialmente los mismos resultados (es determinista de los puntos centrales y de
ruido, pero no para los puntos de la frontera) en cada serie, por lo tanto, no hay
necesidad de correr varias veces. PTICA es una generalizacin de DBSCAN que
elimina la necesidad de elegir un valor adecuado para el parmetro de rango. Y
produce un resultado jerrquica relacionada con la de vinculacin agrupacin. La

18
agrupacin combina las ideas de la agrupacin solo vnculo y la ptica, eliminando la
parmetro por completo y que ofrece mejoras de rendimiento sobre PTICA mediante
el uso de un rbol R ndice.

El inconveniente fundamental de DBSCAN y PTICA es que esperan algn tipo de


cada de la densidad para detectar las fronteras de racimo. Por otra parte, no pueden
detectar estructuras de grupo intrnsecas que son frecuentes en la mayora de los
datos de la vida real. Una variacin de DBSCAN, En DBSCAN, es capaz de detectar
tales tipos de estructuras. En conjuntos de datos con, por ejemplo, la distribucin
gaussiana superpuestas - un caso de uso comn en los datos artificial - las fronteras
de racimo producidas por estos algoritmos se vern a menudo arbitraria, ya que la
densidad del clster disminuye continuamente. En un conjunto de datos que consta de
mezclas de gaussianas, estos algoritmos son casi siempre superaron por mtodos
tales como EM agrupacin que son capaces de modelar precisamente este tipo de
datos.

Medio de cambio es un enfoque de agrupacin donde cada objeto se desplaza a la


zona ms densa en sus proximidades, en base a la estimacin de la densidad del
ncleo. Con el tiempo, los objetos que convergen los mximos locales de la densidad.
Al igual que en k-means clustering, estos atractores "densidad" pueden servir como
representantes para el conjunto de datos, pero significa turnos puede detectar grupos
de forma arbitraria similares a DBSCAN. Debido al costoso procedimiento de
estimacin iterativa y la densidad, media-cambio es por lo general ms lento que
DBSCAN o k-medias.
19
CAPITULO III

3.1. APLICACIN K - MEDIANA


LUGAR DE INDICE DE DELINCUENCIA Variable 1 Variable 2
(X) (Y)
OVALO DE SANTA ANITA 11.2 2.6
CENTRO BANCARIO 9.2 1.8
AV. SANTA ROSA Y CARRETERA CENTRAL. 12.7 3.8
MERCADO MAYORISTA 18.2 10.1
MERCADO DE PRODUCTORES 17.8 9
MERCADO LAMPA DE ORO 10.1 9.8
MERCADO UNIVERSAL 4.9 7.5
MERCADO MODELO LOS FICUS 8.3 5.6
MERCADO MIGUEL GRAU 13.2 6.1
MERCADO VIA SAN FRANCISCO 17.2 12.9
MZ. O LOTE 05 URB. PUPULAR HUASCAR 5.3 7.8
UNIVERSIDAD SAN MARTIN DE PORRES 9.6 6.3
FARMACIA NIO JESUS 9.1 6.3
PUENTES PERALES 4 5.9
PUENTES AZUL 5.7 4.3
PUENTE NOCHETO 2.6 7.3
PUENTE ATARJEA 1.4 8.4
AV. LOS CHANCAS Y LA ENCALADA 11.9 10.4
PUENTE SANTA ANITA 7.4 1
ZONA DEL GRAN CHAPARRAL 8.3 7.5
AV.CULTURA/ CARRETERA CENTRAL 19.7 6.3
AV. 7 DE JUNIO Y MANUEL C. DE LA TORRE 8.8 5.7
PARQUE SAN MARTIN LOS FICUS 8.8 4.7
HOSPITAL DE ESSALUD VOTO BERNALES 18.5 6

Observaciones: Lugar de ndice de delincuencia

20
Variables:

1.- Eje X- Variable 1

2.- Eje Y- Variable 2

Aplicacin del Algoritmo de la K-Median:

1.-El nmero de centroides es 3, ya que es el nmero de vehculos que posee la


comisaria de Santa Anita.

C1= (15; 8)

C2= (5; 7)

C3= (10; 4)

2.- Hallamos las distancias del centroide a cada lugar.

3.- Se elige la mnima distancia entre el lugar y cada centroide, y se le asigna el


centroide ms cercano al punto.

CUADRO N1

Centroide 1 Centroide 2 Centroide 3 Distancia Min. Centroide Asig.


6.60 7.60 1.84 1.84 3
8.49 6.68 2.34 2.34 3
4.79 8.34 2.71 2.71 3
3.83 13.56 10.22 3.83 1
2.97 12.96 9.26 2.97 1
5.22 5.82 5.80 5.22 1
10.11 0.51 6.19 0.51 2
7.12 3.58 2.33 2.33 3
2.62 8.25 3.83 2.62 1
5.37 13.55 11.45 5.37 1
9.70 0.85 6.04 0.85 2
5.66 4.65 2.33 2.33 3
6.14 4.16 2.47 2.47 3
11.20 1.49 6.29 1.49 2
10.01 2.79 4.31 2.79 2
12.42 2.42 8.10 2.42 2
13.61 3.86 9.66 3.86 2
3.92 7.69 6.68 3.92 1
10.33 6.46 3.97 3.97 3
6.72 3.34 3.89 3.34 2
5.00 14.72 9.97 5.00 1
6.61 4.02 2.08 2.08 3
7.02 4.44 1.39 1.39 3
4.03 13.54 8.73 4.03 1
21
4.- Luego se procede hallar la mediana de las variables que tengan el mismo centroide
designado, estas medianas, sern los nuevos centroides.

C1= (15.825; 8.825)

C2= (4.6; 6.96)

C3= (9.46; 4.2)

5.- Se repite el paso 2, 3 y 4 hasta que centroides asignados a cada lugar no varen.

CUADRO N 2

Centroide 1 Centroide 2 Centroide 3 Distancia Centroide Asig.


Min. Asig. Anterior
7.76 7.91 2.36 2.36 3 3
9.66 6.91 2.41 2.41 3 3
5.92 8.69 3.26 3.26 3 3
2.70 13.96 10.55 2.70 1 1
1.98 13.36 9.62 1.98 1 1
5.81 6.19 5.64 5.64 2 1
11.01 0.62 5.63 0.62 2 2
8.19 3.94 1.82 1.82 2 3
3.78 8.64 4.19 3.78 1 1
4.3 13.93 11.64 4.3 1 1
10.57 1.09 5.50 1.09 2 2
6.72 5.04 2.10 2.1 3 3
7.18 4.55 2.13 2.13 3 3
12.18 1.22 5.72 1.22 2 2
11.09 2.88 3.76 2.88 2 2
13.31 2.03 7.53 2.03 2 2
14.43 3.51 9.09 3.51 2 2
4.23 8.07 6.66 4.23 1 1
11.50 6.58 3.81 3.81 3 3
7.64 3.74 3.50 3.5 3 2
4.63 15.11 10.45 4.63 1 1
7.69 4.38 1.64 1.64 3 3
8.15 4.77 0.83 0.83 3 3
3.89 13.93 9.22 3.89 1 1

Se presenta una variacin de las asignaciones a comparacin del cuadro 1

Se repite el paso 2, 3 y 4

C1= (16.64; 8. 69)

C2= (5.29; 7.08)

C3= (9.46; 4.41)


22
CUADRO N 3

Centroide 1 Centroide 2 Centroide 3 Distancia Centroide Asig.


Min. Asig. Anterior
8.17 7.42 2.59 2.59 3 3
10.14 6.57 2.61 2.61 3 3
6.28 8.10 3.41 3.41 3 3
2.10 13.26 10.52 2.10 1 1
1.20 12.66 9.62 1.20 1 1
6.63 5.53 5.44 5.44 3 2
11.80 0.57 5.41 0.57 2 2
8.89 3.35 1.58 1.58 3 2
4.31 7.97 4.21 4.21 3 1
4.25 13.26 11.57 4.25 1 1
11.37 0.72 5.28 0.72 2 2
7.43 4.38 1.91 1.91 3 3
7.91 3.89 1.91 1.91 3 3
12.94 1.75 5.55 1.75 2 2
11.79 2.81 3.65 2.81 2 2
14.11 2.7 7.34 2.7 2 2
15.24 4.11 8.89 4.11 2 2
5.04 7.4 6.51 5.04 1 1
12.02 6.44 3.93 3.93 3 3
8.42 3.04 3.26 3.04 2 3
3.88 14.43 10.53 3.88 1 1
8.39 3.77 1.4 1.4 3 3
8.80 4.24 0.62 0.62 3 3
3.27 13.25 9.29 3.27 1 1

Se presenta una variacin de las asignaciones a comparacin del cuadro 2

Se repite el paso 2, 3 y 4

C1= (17.22; 9.12)

C2= (4.6; 6.96)

C3= (9.86; 4.88)


23
CUADRO N 4

Centroide 1 Centroide 2 Centroide 3 Distancia Centroide Asig.


Min. Asig. Anterior
8.87 7.91 2.64 2.64 3 3
10.86 6.91 3.15 3.15 3 3
6.98 8.69 3.04 3.04 3 3
1.39 13.96 9.84 1.39 1 1
0.59 13.36 8.95 0.59 1 1
7.15 6.19 4.93 4.93 3 3
12.43 0.62 5.61 0.62 2 2
9.59 3.94 1.72 1.72 3 3
5.03 8.64 3.56 3.56 3 3
3.78 13.93 10.87 3.78 1 1
11.99 1.09 5.41 1.09 2 2
8.13 5.04 1.44 1.44 3 3
8.60 4.55 1.61 1.61 3 3
13.61 1.22 5.95 1.22 2 2
12.49 2.88 4.20 2.88 2 2
14.73 2.03 7.65 2.03 2 2
15.84 3.51 9.16 3.51 2 2
5.47 8.07 5.88 5.47 1 1
12.74 6.58 4.59 4.59 3 3
9.07 3.74 3.05 3.05 3 2
3.76 15.11 9.94 3.76 1 1
9.09 4.38 1.34 1.34 3 3
9.51 4.77 1.08 1.08 3 3
3.37 13.93 8.71 3.37 1 1

Se presenta una variacin de las asignaciones a comparacin del cuadro 3

Se repite el paso 2, 3 y 4

C1= (17.22; 9.12)

C2= (3.98; 6.87)

C3= (9.73; 5.1)

CUADRO N 5

24
Centroide 1 Centroide 2 Centroide 3 Distancia Centroide Asig.
Min. Asig. Anterior
8.87 8.39 2.90 2.90 3 3
10.86 7.28 3.34 3.34 3 3
6.98 9.24 3.24 3.24 3 3
1.39 14.58 9.84 1.39 1 1
0.59 13.98 8.96 0.59 1 1
7.15 6.79 4.71 4.71 3 3
12.43 1.12 5.39 1.12 2 2
9.59 4.50 1.51 1.51 3 3
5.03 9.25 3.61 3.61 3 3
3.78 14.53 10.80 3.78 1 1
11.99 1.61 5.19 1.61 2 2
8.13 5.65 1.21 1.21 3 3
8.60 5.15 1.36 1.36 3 3
13.61 0.97 5.79 0.97 2 2
12.49 3.09 4.11 3.09 2 2
14.73 1.45 7.46 1.45 2 2
15.84 3.00 8.96 3.00 2 2
5.47 8.67 5.73 5.47 1 1
12.74 6.79 4.72 4.72 3 3
9.07 4.37 2.79 2.79 3 3
3.76 15.73 10.04 3.76 1 1
9.09 4.96 1.11 1.11 3 3
9.51 5.29 1.01 1.01 3 3
3.37 14.55 8.82 3.37 1 1

Las asignaciones no varan con el cuadro anterior, por lo cual se termina el algoritmo
de k-median, por lo tanto los centroides seran:

C1= (17.22; 9.12)

C2= (3.98; 6.87)

C3= (9.73; 5.1)


25
3.2 CARTERO CHINO
CLUSTER 1

LUGAR DE INDICE DE DELINCUENCIA Variable 1 Variable 2


(X) (Y)
MERCADO MAYORISTA(Punto C) 18.2 10.1
MERCADO DE PRODUCTORES (Punto D) 17.8 9
MERCADO VIA SAN FRANCISCO (Punto B) 17.2 12.9
AV. LOS CHANCAS Y LA ENCALADA (Punto A) 11.9 10.4
AV.CULTURA/ CARRETERA CENTRAL (Punto E) 19.7 6.3
HOSPITAL DE ESSALUD VOTO BERNALES (Punto F) 18.5 6
B
5.86 2.97
X Y
A 11.9 10.4
3.95 B 17.2 12.9
A 6.31 C C 18.2 10.1
D 17.8 9
D 1.17 E 19.7 6.3
6.06 4.09
F 18.5 6
3.30
3.08 E

F
1.24
Distancias

Aristas Distancias
A-B 5.86
A-C 6.31
A-D 6.06
B-C 2.97
B-D 3.95
C-D 1.17
C-E 4.09
D-E 3.30
D-F 3.08
E-F 1.24
Puntos Impares:
26
A=3

B=3

D=5

E=3

Distancia nodos impares:

Aristas Distancias

A-B 5.86
A-D 6.06
B-D 3.95
D-E 3.30

La distancia mnima recorrida de las patrullas usando el cartero chino y pasando


por todas las calles es:

Distancia mnima= 47.19

Escala 1/500

Distancia Real a Recorrer: 23 595m = 23.6 Km


27
CONCLUSIONES

1. La aplicacin de la tcnica de la K-Means (minera de datos), nos permiti


asignar la ubicacin ptima de los puestos de vigilancia con respecto al ndice
de delincuencia y su distancia entre ellos.
2. El algoritmo del cartero chino, permiti asignar el mejor recorrido para el
patrullaje de la zona C1.
3. La ubicacin del lugar en el plano cartesiano, se toma como variables en 2
ejes, X y Y.

BIBLIOGRAFIA
https://msdn.microsoft.com/es-es/library/ms174949.aspx

http://eio.usc.es/pub/mte/descargas/ProyectosFinMaster/Proyecto_1257.pdf: Problema
Fin de Maste El problema del cartero Chino

ANEXOS

MAPA GEOGRAFICO DE INDICES DE CRIMINALIDAD

PUNTOS CRITICOS DIVTER ESTE 2 AO-2015

28

Anda mungkin juga menyukai