INTEGRANTES:
2
CAPTULO I .................................................................................................................................
2
1.1.1. INDICADORES ........................................................................................................... 2
1.1.1.1.Tasa bruta de mortalidad ( Mortalidad ) .......................................................... 3
1.1.1.2. Delincuencia ........................................................................................................ 3
1.1.1.3. Densidad Poblacional ........................................................................................ 3
1.1.2. DISTANCIAS EUCLIDIANAS ................................................................................... 4
1.1.3. EL PROBLEMA DEL CARTERO CHINO ............................................................... 4
1.1.3.1.Caminos y circuitos eulerianos ......................................................................... 5
1.1.3.2. Enlaces-T ............................................................................................................. 5
1.1.3.3. Solucin ............................................................................................................... 6
1.1.3.4. Variantes .............................................................................................................. 6
1.1.3.5.Otra descripcin del mtodo de resolucin en el caso general .................. 6
1.1.3.6. Demostracin ...................................................................................................... 7
CAPTULO II ............................................................................................................................... 8
2.1. MINERA DE DATOS (EXPLORACIN DE DATOS) ............................................... 8
Proceso ....................................................................................................................................
8
2.1.1. Tcnicas de minera de datos .............................................................................. 9
CAPTULO I
1.1. CONCEPTOS
1.1.1. INDICADORES
Un indicador es una comparacin entre dos o ms tipos de datos que sirve para
elaborar una medida cuantitativa o una observacin cualitativa. Esta comparacin
arroja un valor, una magnitud o un criterio, que tiene significado para quien lo analiza.
Un indicador debe ser construido con un claro criterio de utilidad, para asegurar la
disponibilidad de los datos y resultados ms relevantes en el menor tiempo posible y
con un menor costo. Tambin es necesario elaborar indicadores que den cuenta de
todas las dimensiones sobre las cuales el programa o las acciones de formacin se
han propuesto intervenir.
2
1.1.1.1. Tasa bruta de mortalidad ( Mortalidad )
Es la proporcin de personas que fallecen respecto al total de la poblacin en un
perodo de tiempo (usualmente expresada en tanto por mil por ao, ), la tasa de
mortalidad particular se refiere a la proporcin de personas con una caracterstica
particular que mueren respecto al total de personas que tienen esa caracterstica (la
tasa de mortalidad por edad, o la tasa de mortalidad por grupo social son ejemplos de
tasas particulares). Ambas tasas de mortalidad se expresan por frmulas de la forma:
1.1.1.2. Delincuencia
3
La densidad de poblacin es una medida de distribucin de poblacin de un pas o
regin, que es equivalente al nmero de habitantes dividido entre el rea donde
habitan. Indica el nmero de personas que viven en cada unidad de superficie, y
normalmente se expresa en habitantes por km2.
Supongamos que tenemos un grafo conexo G = (V, E); entonces, las siguientes
declaraciones son equivalentes:
3 1 es inmediata inmediata.
Un camino euleriano (un camino que no es cerrado, pero que utiliza todas las aristas
de G apenas una vez y solamente una vez) existe si y solamente si G es conectado y
tiene dos vrtices de valencia mpar.
1.1.3.2. Enlaces-T
Sea T un subconjunto del conjunto de vrtices de un grafo. El conjunto de aristas
cuyos vrtices de grado impar son los vrtices en T es llamado enlace-T (en un grafo
conexo, un enlace-T existe si y solamente si |T| es par). El problema del enlace-T
consiste en encontrar el menor enlace-T. Y el menor enlace-T necesariamente lleva a
una solucin del problema del cartero chino.
1.1.3.4. Variantes
Pocas variantes del problema del cartero chino han sido estudiadas en forma
exhaustiva.
(Minimizacin) Problema del cartero chino para grafos mixtos - En esta situacin,
algunas de las aristas podran estar direccionadas y solamente podran ser recorridas
en la direccin permitida. El problema transversal mnimo de un digrafo es conocido
como "problema del barrendero callejero de Nueva York".
En caso contrario, un camino optimal pasa al menos dos veces por una misma arista.
En este ltimo caso, es ms simple considerar el problema alternativo siguiente: en
vez de permitir de pasar varias veces por la misma arista, se duplican las aristas del
6
grafo en donde se permite pasar dos veces. Obviamente, el problema planteado
entonces es del mismo tipo, pero ahora aplicado a un grafo diferente.
1.1.3.6. Demostracin
Despus de haber agregado al grafo las aristas del camino ms corto entre u y v, cada
nodo es de grado par, y por lo tanto el grafo es euleriano, y por lo tanto tiene una
solucin vlida.
En un grafo cualquiera con ms de dos nodos de grado impar, ser siempre par el
nmero de nodos de grado impar, y entonces la solucin ptima podr ser obtenida
con el siguiente algoritmo:
Formar un nuevo grafo G, constituido nicamente por los nodos de grado impar del
grafo inicial G.
Entre dos nodos de G, agregar un arete nuevo con una longitud igual al ms corto
camino entre esos dos nodos en el grafo G.
Aplicar reiteradamente este mismo procedimiento, o sea, para cada par de nodos u y v
en G, agregar las aristas del camino ms corto u a v en G.
7
CAPTULO II
Proceso
Un proceso tpico de minera de datos consta de los siguientes pasos generales:
Seleccin del conjunto de datos, tanto en lo que se refiere a las variables objetivo
(aquellas que se quiere predecir, calcular o inferir), como a las variables
independientes (las que sirven para hacer el clculo o proceso), como posiblemente al
muestreo de los registros disponibles.
8
Anlisis de las propiedades de los datos, en especial los histogramas, diagramas de
dispersin, presencia de valores atpicos y ausencia de datos (valores nulos).
- El perceptrn.
9
- El perceptrn multicapa.
- Los mapas autoorganizados, tambin conocidos como redes de Kohonen.
- Algoritmo ID3.
- Algoritmo C4.5.
2.1.5. Modelos estadsticos
- Algoritmo K-means.
- Algoritmo K-medoids.
Segn el objetivo del anlisis de los datos, los algoritmos utilizados se clasifican
en supervisados y no supervisados (Weiss y Indurkhya, 1998):
10
2.1.8. Algoritmos supervisados (o predictivos
Las nociones populares de grupos incluyen grupos con pequeas distancias entre los
miembros del clster, reas densas del espacio de datos, intervalos o particulares
distribuciones estadsticas. Por lo tanto Clustering puede formularse como un
problema de optimizacin multiobjetivo.
Los valores del algoritmo de agrupamiento y los parmetros apropiados (incluidos los
valores tales como la funcin de distancia a usar, un umbral de densidad o el nmero
de grupos esperados) dependen de una serie de datos individual y el uso previsto de
los resultados.
La nocin de un "grupo" no puede ser definida con precisin, que es una de las
razones por las que hay tantos algoritmos de agrupamiento. Hay un denominador
comn: un grupo de objetos de datos. Sin embargo, diferentes investigadores emplean
diferentes modelos de clster, y para cada uno de estos modelos de clster se pueden
dar de nuevo diferentes algoritmos.
Adems, puede especificar la relacin de los grupos entre s, por ejemplo, una
jerarqua de agrupaciones incrustadas en la otra.
2.3. Algoritmos
Agrupacin de los algoritmos se pueden clasificar en funcin de su modelo de clster,
como se indica anteriormente. El siguiente resumen slo se mostrar una lista de los
ejemplos ms destacados de los algoritmos de agrupacin, ya que hay posiblemente
ms de 100 algoritmos de agrupamiento publicados. No todos proporcionan modelos
13
de sus grupos y por lo tanto no pueden ser categorizados fcilmente. Una visin
general de los algoritmos explicados en Wikipedia se puede encontrar en la lista de
algoritmos de estadsticas.
No hay forma objetiva algoritmo de agrupamiento "correcta", pero, como se seal, "la
agrupacin est en el ojo del espectador." El algoritmo de agrupamiento ms
apropiado para un problema particular menudo tiene que ser elegido de forma
experimental, a menos que exista una razn matemtica a preferir un modelo de
clster sobre otro. Cabe sealar que un algoritmo que est diseado para un tipo de
modelo no tiene ninguna posibilidad en un conjunto de datos que contiene una clase
radicalmente diferente del modelo. Por ejemplo, k-medias no pueden encontrar grupos
no convexos.
Estos mtodos no producirn una particin nica del conjunto de datos, pero de una
jerarqua de las que el usuario todava tiene que elegir grupos adecuados. No son muy
robusta hacia valores atpicos, que, o bien aparecer como racimos adicionales o
incluso causar otros grupos se fusionen (conocidos como "encadenamiento
fenmeno", en particular con la agrupacin solo vnculo).
Por especificar de antemano, que se considera ser uno de los mayores inconvenientes
de estos algoritmos. Por otra parte, los algoritmos prefieren los racimos de tamao
aproximadamente similar, ya que siempre asignar un objeto a la centroide ms
cercano. Esto a menudo conduce a cortar de forma incorrecta en las fronteras entre
las agrupaciones (que no es sorprendente, ya que los centros de los conglomerados
algoritmo optimizado, y no las fronteras del clster).
K-means tiene una serie de propiedades tericas interesantes. En primer lugar, divide
el espacio de datos en una estructura conocida como un diagrama de Voronoi. En
segundo lugar, es conceptualmente cercano a la clasificacin del vecino ms cercano,
y como tal es muy popular en el aprendizaje automtico. En tercer lugar, se puede ver
como una variacin del modelo basado en la clasificacin, y el algoritmo de Lloyd
como una variacin de la expectativa de maximizacin algoritmo para este modelo se
discute a continuacin.
Una propiedad conveniente de este enfoque es que esta parece mucho a la forma en
que se generan los conjuntos de datos artificiales: mediante el muestreo de objetos al
azar de una distribucin.
Un grupo consiste en todos los objetos de densidad conectados (que pueden formar
un grupo de una forma arbitraria, en contraste con muchos otros mtodos), adems de
todos los objetos que estn dentro del alcance de estos objetos. Otra propiedad
interesante de DBSCAN es que su complejidad es bastante bajo - que requiere una
serie lineal de consultas de rango en la base de datos - y que va a descubrir
esencialmente los mismos resultados (es determinista de los puntos centrales y de
ruido, pero no para los puntos de la frontera) en cada serie, por lo tanto, no hay
necesidad de correr varias veces. PTICA es una generalizacin de DBSCAN que
elimina la necesidad de elegir un valor adecuado para el parmetro de rango. Y
produce un resultado jerrquica relacionada con la de vinculacin agrupacin. La
18
agrupacin combina las ideas de la agrupacin solo vnculo y la ptica, eliminando la
parmetro por completo y que ofrece mejoras de rendimiento sobre PTICA mediante
el uso de un rbol R ndice.
20
Variables:
C1= (15; 8)
C2= (5; 7)
C3= (10; 4)
CUADRO N1
5.- Se repite el paso 2, 3 y 4 hasta que centroides asignados a cada lugar no varen.
CUADRO N 2
Se repite el paso 2, 3 y 4
Se repite el paso 2, 3 y 4
Se repite el paso 2, 3 y 4
CUADRO N 5
24
Centroide 1 Centroide 2 Centroide 3 Distancia Centroide Asig.
Min. Asig. Anterior
8.87 8.39 2.90 2.90 3 3
10.86 7.28 3.34 3.34 3 3
6.98 9.24 3.24 3.24 3 3
1.39 14.58 9.84 1.39 1 1
0.59 13.98 8.96 0.59 1 1
7.15 6.79 4.71 4.71 3 3
12.43 1.12 5.39 1.12 2 2
9.59 4.50 1.51 1.51 3 3
5.03 9.25 3.61 3.61 3 3
3.78 14.53 10.80 3.78 1 1
11.99 1.61 5.19 1.61 2 2
8.13 5.65 1.21 1.21 3 3
8.60 5.15 1.36 1.36 3 3
13.61 0.97 5.79 0.97 2 2
12.49 3.09 4.11 3.09 2 2
14.73 1.45 7.46 1.45 2 2
15.84 3.00 8.96 3.00 2 2
5.47 8.67 5.73 5.47 1 1
12.74 6.79 4.72 4.72 3 3
9.07 4.37 2.79 2.79 3 3
3.76 15.73 10.04 3.76 1 1
9.09 4.96 1.11 1.11 3 3
9.51 5.29 1.01 1.01 3 3
3.37 14.55 8.82 3.37 1 1
Las asignaciones no varan con el cuadro anterior, por lo cual se termina el algoritmo
de k-median, por lo tanto los centroides seran:
F
1.24
Distancias
Aristas Distancias
A-B 5.86
A-C 6.31
A-D 6.06
B-C 2.97
B-D 3.95
C-D 1.17
C-E 4.09
D-E 3.30
D-F 3.08
E-F 1.24
Puntos Impares:
26
A=3
B=3
D=5
E=3
Aristas Distancias
A-B 5.86
A-D 6.06
B-D 3.95
D-E 3.30
Escala 1/500
BIBLIOGRAFIA
https://msdn.microsoft.com/es-es/library/ms174949.aspx
http://eio.usc.es/pub/mte/descargas/ProyectosFinMaster/Proyecto_1257.pdf: Problema
Fin de Maste El problema del cartero Chino
ANEXOS
28