Anda di halaman 1dari 55

UNIVERSIDAD DE CHILE

FACULTAD DE CIENCIAS FÍSICAS Y MATEMÁTICAS


DEPARTAMENTO DE INGENIERÍA MECÁNICA

MODELAMIENTO DE CONFIABILIDAD Y ANÁLISIS PARA FLOTAS: UN ENFOQUE


BASADO EN CLUSTERING PARA MANEJO DE DATOS NO HOMOGÉNEOS

MEMORIA PARA OPTAR AL TÍTULO DE INGENIERO CIVIL MECÁNICO

IGNACIO NICOLÁS MARTÍNEZ SALAZAR

PROFESOR GUÍA:
ENRIQUE LÓPEZ DROGUETT

MIEMBROS DE LA COMISIÓN:
VIVIANA MERUANE NARANJO
EDUARDO SALAMANCA HENRÍQUEZ

SANTIAGO DE CHILE
2017
RESUMEN DE LA MEMORIA PARA OPTAR
AL TÍTULO DE INGENIERO CIVIL MECÁNICO
POR: IGNACIO NICOLÁS MARTÍNEZ SALAZAR
FECHA: 30/01/2017
PROF. GUÍA:ENRIQUE LÓPEZ DROGUETT

MODELAMIENTO DE CONFIABILIDAD Y ANÁLISIS PARA FLOTAS: UN ENFOQUE


BASADO EN CLUSTERING PARA MANEJO DE DATOS NO HOMOGÉNEOS

En gestión de activos físicos, el cálculo actual de la confiabilidad de un equipo es realizado sobre


una muestra de datos no homogénea, lo que significa que existen una o más características que no
son la misma para todos los componentes de la población. Debido a ello el análisis de confiabilidad
resulta ser poco preciso, obteniéndose de esta manera, resultados que son poco representativos
de la realidad operacional de los equipos. Es por ello que, mediante técnicas de aprendizaje no
supervisado, en particular clustering, se pretenden identificar las sub poblaciones existentes en la
muestra que tienen como principal característica ser un conjunto homogéneo de datos y a partir de
éstas calcular la confiabilidad para la flota.

La metodología a seguir consta de tres etapas principales, la primera consiste en el análisis del
conjunto de datos, en donde se desarrollarán los algoritmos Principle Component Analysis y Spec-
tral feature selection mediante el software MATLAB. La segunda etapa consiste en identificar los
clusters dentro del conjunto de datos mediante el desarrollo de los algoritmos k-means y DBSCAN.
Por último se analizará y calculará la confiabilidad para cada cluster (sub-población homogénea) y
para la flota en base a los modelos encontrados para los clusters (población no homogénea).

En cuanto a los resultados obtenidos, se tiene que se redujeron las dimensiones de los datos de
5 a 3 covariables por medio de los algoritmos PCA y SPEC. Luego a través de k-means y DBSCAN
se identificaron los clusters del conjunto reducido de datos. El análisis de confiabilidad realizado a
cada cluster muestra métricas de confiabilidad muy distintas entre ellos, con hasta una diferencia
de aproximadamente el 87 %.

La automatización en la lectura y procesamiento de datos mediante las técnicas de aprendiza-


je no supervisado, en concreto clustering, son una gran herramienta para identificar, etiquetar y
clasificar las características que representan a cada conjunto de datos, permitiendo desarrollar un
análisis de confiabilidad más representativo de la realidad operacional de los equipos. A través de
los clusters es posible llevar a cabo un estudio enfocado a los equipos que comparten las mismas
condiciones de operaciones dentro de una misma flota. Lo que nos permite tener un mejor pronós-
tico de los tiempos de falla de los equipos y una mejor administración de los recursos destinados a
la mantención.

i
Tabla de Contenido

Resumen i

Lista de Tablas iv

Lista de Figuras v

1. Introducción 1

1.1. Objetivo General . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1.2. Objetivos Específicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1.3. Alcances . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

2. Metodología 3

3. Antecedentes 5

3.1. Reducción de dimensionalidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

3.1.1. Análisis de componentes principales . . . . . . . . . . . . . . . . . . . . . 6

3.1.2. Selección de características espectrales . . . . . . . . . . . . . . . . . . . 9

3.2. Agrupamiento de Datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

3.2.1. K-medias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

3.2.2. DBSCAN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

4. Resultados 16

4.1. Desarrollo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

4.1.1. Descripción del conjunto de datos . . . . . . . . . . . . . . . . . . . . . . 16

ii
4.1.2. Desarrollo del algoritmo PCA . . . . . . . . . . . . . . . . . . . . . . . . 16

4.1.3. Desarrollo del algoritmo SPEC . . . . . . . . . . . . . . . . . . . . . . . . 19

4.1.4. Desarrollo del algoritmo k-means . . . . . . . . . . . . . . . . . . . . . . 21

4.1.5. Desarrollo del algoritmo DBSCAN . . . . . . . . . . . . . . . . . . . . . 23

4.1.6. Modelos de confiabilidad para clusters . . . . . . . . . . . . . . . . . . . . 24

4.2. Presentación de los resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

4.2.1. Resultados obtenidos mediante PCA . . . . . . . . . . . . . . . . . . . . . 25

4.2.2. Resultados obtenidos mediante SPEC . . . . . . . . . . . . . . . . . . . . 26

4.2.3. Resultados obtenidos mediante k-means . . . . . . . . . . . . . . . . . . . 27

4.2.4. Resultados obtenidos mediante DBSCAN . . . . . . . . . . . . . . . . . . 28

4.2.5. Modelamiento de confiabilidad para clusters . . . . . . . . . . . . . . . . 29

4.2.6. Modelamiento de confiabilidad para toda la flota . . . . . . . . . . . . . . 37

4.3. Análisis e interpretación de los resultados . . . . . . . . . . . . . . . . . . . . . . 39

5. Conclusiones 45

Bibliografía 47

iii
Índice de tablas

3.1. Algoritmo Spectral Feature Selection. . . . . . . . . . . . . . . . . . . . . . . . . 12

3.2. Algoritmo DBSCAN. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

4.1. Varianza retenida para distintos valores del parámetro k. . . . . . . . . . . . . . . 18

4.2. Características relevantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

4.3. Prueba de bondad de ajuste para el conjunto 1 . . . . . . . . . . . . . . . . . . . . 30

4.4. Prueba de bondad de ajuste para el conjunto 2 . . . . . . . . . . . . . . . . . . . . 31

4.5. Prueba de bondad de ajuste para el conjunto 3 . . . . . . . . . . . . . . . . . . . . 31

4.6. Prueba de bondad de ajuste para el conjunto 4 . . . . . . . . . . . . . . . . . . . . 31

4.7. Parámetros de escala y forma de la distribución de Weibull para cada cluster . . . . 31

4.8. Análisis de confiabilidad para conjunto 1. . . . . . . . . . . . . . . . . . . . . . . 32

4.9. Análisis de confiabilidad para conjunto 2. . . . . . . . . . . . . . . . . . . . . . . 33

4.10. Análisis de confiabilidad para conjunto 3. . . . . . . . . . . . . . . . . . . . . . . 34

4.11. Análisis de confiabilidad para conjunto 4. . . . . . . . . . . . . . . . . . . . . . . 35

4.12. Parámetros de confiabilidad para cada conjunto. . . . . . . . . . . . . . . . . . . . 36

4.13. Parámetros de la distribución Weibull para población no homogénea. . . . . . . . . 37

4.14. Prueba de bondad de ajuste para datos no homogéneos. . . . . . . . . . . . . . . . 37

4.15. Parámetros de confiabilidad para población no homogenea. . . . . . . . . . . . . . 37

iv
Índice de figuras

3.1. Vectores unitarios principales. Fuente: [10]. . . . . . . . . . . . . . . . . . . . . . 8

3.2. k-means con k=3 sobre un espacio 2D de datos. Fuente: [1]. . . . . . . . . . . . . 14

4.1. Diagrama lógico de algoritmo PCA . . . . . . . . . . . . . . . . . . . . . . . . . 17

4.2. Grafica de las dos primeras variables del conjunto de datos. . . . . . . . . . . . . . 17

4.3. Representación grafica de los vectores u sobre el conjunto de datos. . . . . . . . . 18

4.4. Diagrama lógico de algoritmo SPEC . . . . . . . . . . . . . . . . . . . . . . . . . 19

4.5. Clusters identificados por medio de SPEC. . . . . . . . . . . . . . . . . . . . . . . 20

4.6. Diagrama lógico de algoritmo k-means. . . . . . . . . . . . . . . . . . . . . . . . 21

4.7. Iteración de algoritmo k-means. . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

4.8. Diagrama lógico de algoritmo DBSCAN. . . . . . . . . . . . . . . . . . . . . . . 23

4.9. Distribuciones empíricas de cada cluster aplicadas a distintos métodos de aprendizaje. 25

4.10. Resultado obtenido tras implementar PCA sobre el conjunto de datos principal. . . 26

4.11. Resultado obtenido tras implementar SPEC sobre el conjunto de datos principal. . . 27

4.12. Resultado obtenido tras implementar k-means sobre el conjunto de datos prove-
niente de PCA. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

4.13. Resultado obtenido tras implementar k-means sobre el conjunto de datos prove-
niente de SPEC. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

4.14. Implementación de DBSCAN sobre el conjunto de datos proveniente de PCA. . . . 28

4.15. Implementación de DBSCAN sobre el conjunto de datos proveniente de SPEC. . . 29

4.16. Dispersión de los distintos conjuntos de datos. . . . . . . . . . . . . . . . . . . . . 30

4.17. Confiabilidad clusters pertenecientes al conjunto 1. . . . . . . . . . . . . . . . . . 32

4.18. Confiabilidad clusters pertenecientes al conjunto 2. . . . . . . . . . . . . . . . . . 33

v
4.19. Confiabilidad clusters pertenecientes al conjunto 3. . . . . . . . . . . . . . . . . . 34

4.20. Confiabilidad clusters pertenecientes al conjunto 4. . . . . . . . . . . . . . . . . . 35

4.21. Confiabilidad de la flota según cada conjunto . . . . . . . . . . . . . . . . . . . . 36

4.22. Confiabilidad del conjunto de datos no homogéneo. . . . . . . . . . . . . . . . . . 38

vi
1. Introducción

A medida que transcurren los años en cualquier tipo de planta se hace cada vez más necesario
y accesible realizar mediciones sobre la condición de los equipos. A raíz de esto, se ha incurrido
en una constante innovación en las tecnologías diseñadas para ello. Como consecuencia, hoy en
día se recolectan una gran cantidad de datos los cuales tienen relación con la condición en la que
se encuentra un equipo cualquiera. El análisis posterior de éstos debe ser realizado por un experto
el cual debe analizar uno a uno los distintos parámetros para diagnosticar así la causa de la falla y
luego poder realizar un análisis de confiabilidad.

Todo lo mencionado anteriormente es muy poco eficaz por el tiempo que conlleva realizar el
análisis manual de los datos, además al ser de grandes dimensiones y espacios es muy fácil pasar
por alto características relevantes o bien considerar características que no influyeron en la falla del
equipo. Luego, al momento de realizar un análisis de confiabilidad de dichos equipos, éstos resultan
ser poco precisos debido a lo nombrado y a que principalmente los datos no son homogéneos.

Una base de datos es no homogénea cuando hay una o más características o métricas de con-
fiabilidad que no son la misma para todos los componentes de la población. La métrica de confia-
bilidad cambia dentro de la población, es intrínsecamente variable. La base de datos no solamente
es no homogénea, lo cual es muy común en flotas, también posee covariables. En confiabilidad la
variable principal domina la degradación del equipo, dicha variable puede ser impactada por otras
variables en base a los mecanismos de falla que se saben que afectan la degradación del equipo,
éstas son denominadas covariables.

Generalmente en confiabilidad o en gestión de activos físicos cuando hay problemas de no ho-


mogeneidad, se suele utilizar una distribución de probabilidad para toda la población o una mezcla
de distribuciones. Sin embargo, esta no es la mejor manera, no es precisa ya que no se tiene una
buena representación ni precisión para las sub poblaciones o clusters.

Debido a esto es que se propone automatizar la lectura de datos provenientes de equipos de


medición utilizando técnicas de aprendizaje no supervisado, en particular clustering, para así poder
clasificar, etiquetar y reconocer patrones de los distintos subconjuntos existentes dentro del con-
junto principal de manera automática y eficiente. Todo esto con la expectativa de que sean más
homogéneos que el conjunto total.

Lo anterior, permite realizar un análisis de confiabilidad más preciso sobre los clusters de los
datos, ya que la incertidumbre en las métricas de confiabilidad de los clusters será menor que la
obtenidas a partir de todos los datos no homogéneos. Esto resulta, ya que una vez que los datos son
segregados en agrupaciones, éstos poseen la característica de ser más homogéneos que los datos de
toda la flota. Lo cual significa que están más cercanos de la verdadera realidad operacional de los
equipos. Por ende, se podrá modelar y analizar la confiabilidad de la flota partiendo de los clusters.

1
1.1. Objetivo General

El objetivo general de este trabajo es desarrollar un modelamiento de análisis de confiabilidad


para flotas de equipos en base a técnicas de clustering para poblaciones de datos no homogéneas.

1.2. Objetivos Específicos

Los objetivos específicos son:

• Reducir la dimensionalidad de los datos mediante los métodos de Principle Component


Analysis y Spectral feature selection.

• Identificar las sub poblaciones o clusters existentes en el conjunto de datos por medio de
técnicas de aprendizaje no supervisado.

• Desarrollar el modelo de confiabilidad para cada cluster.

• Desarrollar el modelo de confiabilidad para la flota en base a los modelos de confiabilidad


desarrollados para cada uno de los clusters.

1.3. Alcances

En el presente trabajo de memoria se pretenden identificar agrupaciones de equipos dentro de un


conjunto principal de datos provenientes de una flota de camiones. De igual manera se determinará
la confiabilidad de cada una de estas agrupaciones, así como sus métricas de confiabilidad.

Para el desarrollo de esta propuesta de investigación, se implementarán técnicas de aprendizaje


no supervisado, en particular técnicas de clustering. Las cuales clasificaran, etiquetaran y recono-
cerán las distintas agrupaciones de datos. Lo que permitirá reflejar las ventajas de aplicar modelos
de confiabilidad a clusters en vez de aplicarlos al conjunto en su totalidad.

Los datos utilizados para el análisis serán aportados por el Profesor Guía del presente trabajo
de memoria, por ende, el alumno no realizará ningún tipo de medición, sino que solo procesará y
analizará los datos otorgados.

2
2. Metodología

Con el objetivo de realizar un estudio de confiabilidad se debe analizar un conjunto de datos


heterogéneos de gran dimensión cuya particularidad es la distribución espacial que éstos poseen, es
decir, el agrupamiento de datos dentro del conjunto principal. Es por ello que se le aplicarán técnicas
de clustering a los datos con el fin de segregar y diferenciar el conjunto de datos en subconjuntos
existentes dentro de éste, para así posteriormente realizar un análisis de confiabilidad para cada sub
población y para la flota a partir del análisis realizado sobre los clusters. Además, se compararán
entre sí los resultados obtenidos de los distintos métodos a utilizar en el desarrollo de la presente
memoria, contrastándolos con la manera tradicional de obtener la confiabilidad de los equipos, en la
cual se aplica una distribución de probabilidad para la flota en su totalidad. Para el desarrollo de los
distintos algoritmos a implementar se utilizará el software MATLAB, mientras que para desarrollar
los modelos de confiabilidad se utilizará el software R.

A continuación se detallan los distintos pasos a seguir para el desarrollo del presente trabajo de
memoria:

I. Análisis del conjunto de datos, lo que contempla:

i. Compresión de los datos entregados y de sus covariables que afectan a la degradación del
equipo.
ii. Desarrollar los algoritmos Principle Component Analysis y Spectral feature selection
mediante el software MATLAB
iii. Reducir la dimensión de los datos mediante las técnicas Principle Component Analysis y
Spectral feature selection.

II. Agrupar los datos resultantes de la primera etapa en clusters, lo que incluye:

i. Desarrollar el algoritmo k-means a través del software MATLAB e implementarlo en el


conjunto de datos con el fin de segregarlos en clusters.
ii. Desarrollar el algoritmo DBSCAN por medio del software MATLAB e implementarlo en
el conjunto de datos y obtener de forma más autómata los clusters.
iii. Comparar los resultados de ambos métodos de clustering, señalando las ventajas y des-
ventajas entre ellos.

III. Analizar y calcular la confiabilidad para cada cluster (sub población homogénea) y para la
flota en su totalidad (población no homogénea), esto comprende:

i. Analizar la dispersión de datos en cada cluster utilizando el software R, con el fin de


estudiar la dependencia entre ellos.

3
ii. Aplicar una distribución empírica a los clusters obtenidos mediante k-means a través del
software R.
iii. Aplicar una distribución empírica a los clusters obtenidos mediante DBSCAN mediante
el software R.
iv. Estimar las métricas de confiabilidad para cada cluster y para la flota.
v. Comparar los resultados obtenidos mediante los métodos utilizados en la presente me-
moria entre sí y versus la que se utiliza normalmente, que es ajustar una distribución a la
población no homogénea de datos.

4
3. Antecedentes

3.1. Reducción de dimensionalidad

La constante innovación en tecnologías como lo son los equipos de medición de alto rendimien-
to ha provocado un crecimiento exponencial en la recolección de datos con respecto al tamaño de
la muestra y sus dimensiones, lo cual hace poco práctico y efectivo el procesamiento manual de
dichos datos. Por lo tanto, se han propuesto las herramientas de data mining y machine learning
para la automatización en el reconocimiento de patrones. Sin embargo, el uso de técnicas de data
mining sobre el conjunto de datos es deficiente debido al alto nivel de ruido asociado a la muestra.
Usualmente los ruidos existentes en los datos son causados por imperfecciones en los equipos que
recolectan los datos o también por la naturaleza de la fuente de éstos [1].

Se tiene que la reducción de dimensionalidad es una técnica conocida para eliminar el ruido y
la redundancia de los datos [2, 3]. Esto último se refiere a que, si dos covariables dentro de una
muestra de datos tienen el mismo significado, una puede ser eliminada de la muestra sin afectar al
posterior análisis de éstos. Por ejemplo, supongamos una situación bastante sencilla en la cual se
cuentan con los datos de venta de automóviles y los parámetros a considerar son el precio, el año,
el modelo y la marca del vehículo, además de la distancia recorrida por éste. Luego consideremos
que la distancia recorrida está representada en dos covariables una que la exprese en kilómetros y
otra en metros, teniendo así redundancia en dicho parámetro. Por lo tanto, al eliminar una de las
dos unidades de medida no se está incurriendo en ninguna falta, más aún se estaría reduciendo la
dimensión de los datos para un análisis más eficaz.

Las técnicas asociadas a la reducción de dimensionalidad son clasificadas principalmente en


dos categorías: feature extraction y feature selection [1]. En cuanto a feature extraction el enfoque
es proyectar los parámetros o covariables dentro de un nuevo espacio con una dimensión más baja
que la original. Por otra parte, el enfoque de feature selection tiene como objetivo seleccionar
un pequeño grupo de características o covariables tales que reduzcan al mínimo la redundancia y
maximicen la relevancia.

Ambos métodos de reducción de dimensionalidad son capaces de mejorar el rendimiento en


el aprendizaje disminuyendo la complejidad computacional y el almacenamiento requerido. Sin
embargo, feature selection es superior en términos de una mejor legibilidad e interpretación de los
datos ya que mantiene los valores de las características originales en el espacio reducido, mientras
que feature extraction transforma los datos del espacio original a un nuevo espacio de menor di-
mensión en el cual las características no están vinculadas a la muestra original, lo que hace que las
covariables transformadas pierdan su significado físico [1].

Los métodos de reducción de dimensionalidad pueden ser aplicados a dos tipos de aprendizaje,

5
el llamado aprendizaje supervisado (supervised learning) y el aprendizaje no supervisado (unsu-
pervised learning) [4]. En el caso del aprendizaje supervisado el conjunto de datos se encuentra
etiquetado por lo cual es fácil definir lo que significa la variable relevante, en otras palabras, sim-
plemente se refiere a la característica que es capaz de distinguir entre las diferentes clases [5].
Mientras que para el aprendizaje no supervisado a diferencia del supervisado no hay conocimiento
a priori de la estructura de los datos o sobre la diferenciación entre sus clases, lo cual plantea un
reto en la selección de características. Sin embargo, existe una técnica que nos permite clasificar
los datos dentro de grupos, dicha técnica es data clustering la que tiene por objetivo agrupar los
conjuntos de datos dentro de muestras similares llamadas cluster, cada cluster tiene una máxima
similitud dentro de sí mismo y una mínima similitud entre clusters [6].

A continuación, se detalla un método utilizado para la reducción de dimensionalidad pertene-


ciente a la categoría de feature extraction .

3.1.1. Análisis de componentes principales

Análisis de componentes principales (PCA) es un algoritmo de reducción de dimensionalidad


el cual es útil implementar para aumentar significativamente la velocidad de algún algoritmo de
aprendizaje no supervisado y además para la compresión de datos y así ocupar menos memoria de
una computadora [7, 8].

El algoritmo reduce un conjunto de datos de la forma {x(1) , x(2) , . . . , x(m) } con x(i) ∈ Rn de
n-dimensiones a k-dimensiones. Se tiene que x(i) debe ser previamente procesado, en donde lo que
se busca es realizar una normalización media y un escalamiento de sus variables [9].

La normalización media se expresa en la ecuación 3.1, la cual es utilizada para reemplazar cada
(i)
xj por xj − µj , lo que hace que cada variable ahora tanga exactamente una media igual a cero.

m
1 X i
µj = x (3.1)
m i=1 j

Si las diferentes variables tienen escalas muy distintas hay que realizar un escalamiento a cada
variable para tener un conjunto de datos comparables entre sus distintos puntos, por ende se debe
realizar dicho escalamiento mediante la ecuación 3.2, cuya ecuación va actualizando cada valor de
(i)
xj por el valor anterior dividido la desviación estándar.

(i)
(i) xj
xj = (3.2)
σj

6
Ambos pasos realizados en las ecuaciones 3.1 y 3.2 se resumen en la siguiente expresión:

(i)
(i) xj − µ j
xj ←
σj

Posterior al pre-procesamiento de los datos, se lleva a cabo la reducción de dimensionalidad


en donde primero se debe calcular la matriz de covarianza del conjunto de datos [10], la cual es
denotada por la letra Σ como se ilustra en la ecuación 3.3.

n
1 X (i) (i) T
Σ= (x )(x ) (3.3)
m i=1

Luego se deben encontrar los vectores unitarios → −


u que representan las direcciones a las cuales
tienden los datos y en donde la proyección de los distintos puntos maximiza la varianza. Lo dicho
anteriormente se puede ejemplificar en la figura 3.1 [10].en donde el conjunto de datos es de dos di-
mensiones y se aprecian los dos vectores ortogonales → −
u1 y →

u2 los cuales representan las direcciones
principales de la variación de los datos [10].

u esta dada por xT →


La longitud de la proyección del conjunto de datos x(i) sobre →
− −
u [10]. Por


lo tanto, para maximizar la varianza de las proyecciones debemos elegir un vector u con el fin de
maximizar la ecuación 3.4.

n
!
1 X (i) (i) T
máx uT (x )(x ) u (3.4)
m i=1

Concretamente se calculan los vectores propios de Σ, en donde de manera más general si se


considera reducir la dimensión a un sub espacio de k-dimensiones con k < n, se deben escoger los
primeros k vectores propios de Σ los cuales son representados como Ured = {u(1) , u(2) , . . . , u(k) }.

Por lo tanto, el nuevo espacio reducido en donde los datos originales son proyectados se calcula
según la ecuación 3.5, la cual se ilustra a continuación [9, 10].

Z i = (Ured. )T · x(i) (3.5)

7
Figura 3.1: Vectores unitarios principales. Fuente: [10].

Para elegir el número de componentes principales k usualmente se utiliza el porcentaje de


varianza retenida para diferentes valores de k. Si k = n, se tiene una aproximación exacta de los
datos en donde se dice que el 100 % de la varianza es retenida. Si k = 0, entonces todos los datos
fueron aproximados con el vector cero y en este caso el 0 % de la varianza es retenida.

De manera más general para seleccionar el valor de k se deben minimizar los errores de pro-
yección al cuadrado sobre la variación total de la longitud promedio al cuadrado de x(i) [9], lo cual
se traduce en la ecuación 3.6.

Pm 2
(i) (i)
x − x

i=1 approx
Pm (i)
(3.6)
i=1 kx k

Donde Xapprox se define en la ecuación 3.7:

Xapprox = Ured · Z (3.7)

Luego una heurística común es elegir k con el 99 % de la varianza retenida [10], en otras pala-
bras, se toma el valor más pequeño de k que satisface la ecuación 3.6 de la siguiente manera:

Pm 2
(i) (i)
i=1 x − xapprox

Pm (i)
≤ 0, 01
i=1 kx k

8
A continuación, se detalla otro método utilizado para la reducción de dimensionalidad pertene-
ciente a la categoría de “feature selection”.

3.1.2. Selección de características espectrales

El presente método asigna un valor o peso a cada característica presente en el conjunto de datos
con el fin de identificar cuales son las más relevantes dentro de dicho conjunto.

Spectral feature selection (SPEC) [11] estima la característica relevante mediante la caracterís-
tica consistente con el espectro de una matriz derivada de una matriz de similitud S, es decir, dado
un conjunto de similitudes S, la separabilidad puede ser medida mediante el espectro del grafo
inducido de S [12].

Se define el conjunto de datos como X = (x1 , x2 , ..., xn ) con xi ∈ Rm , las m características


se denotan mediante F1 , F2 , ..., Fm y además se identifican los vectores de características como
f = (f1 , f2 , ..., fm ), los cuales básicamente representan cada xi del conjunto principal de datos.

Una popular medida de similitud [11] es la función Radial-Basis (RBF), la cual describe la
similitud entre dos muestras xi y xj , definiendo la matriz S como se ilustra en la ecuación 3.8. A
partir de la matriz S se construye el grafo G, y a su vez la matriz de adyacencia W se construye a
partir de G. Una característica que es consistente con la estructura del grafo asigna valores similares
a instancias que están cerca unos de los otros en el grafo.


kxi −xj k
Sij = e 2σ 2 (3.8)

El parámetro σ determina qué tan rápido la similitud Sij decae con la distancia entre los puntos
(i, j), definiendo así la cercanía o lejanía de éstos en el grafo. Por ende puede ser considerado como
un factor de escala que define el tamaño de la vecindad de cada nodo, estableciendo de esta manera
las particiones existentes en el conjunto de datos.

Si el conjunto de datos posee k clusters se tiene que para determinar un valor adecuado para
σ [13] los componentes de los vectores propios del laplaciano tenderán a formar k clusters “apre-
tados”. A partir de ello se propone buscar distintos valores para σ y elegir aquel que produzca los
clusters más concentrados en el espacio de vectores propios.

Una vez obtenido el grafo y la matriz de adyacencia, se calcula la matriz de grado D a partir
de W [11]. D es una matriz diagonal la cual se obtiene tal como se muestra en la ecuación 3.9 y
puede ser interpretada como una estimación de la densidad alrededor de un nodo, ya que entre más
puntos esten cerca de éste, más grande será el valor de Dii .

9
n
X
Dii = Wij (3.9)
j=1

Obtenidas las matrices D y W , la matriz laplaciana L y la matriz laplaciana normalizada L se


calculan como se ilustra en las ecuaciones 3.10 y 3.11 [1].

L=D−W (3.10)

(−1/2) (−1/2)
L=D ·L·D (3.11)

Una vez definida la matriz laplaciana normalizada L se calcula su descomposición espectral


(λi , ξi ) en donde λi y ξi representan a los valores y vectores propios de L respectivamente[11].
Luego, el puntaje de la característica Fi puede ser evaluado por la ecuación 3.12, como se muestra
a continuación:

n−1
X
ψ1 (Fi ) = αj2 λj (3.12)
j=0

En donde n−1 2
P
j=0 αj = 1 y αj = cos(θj ) con θj como el ángulo entre fi y ξi . Por lo tan-
to el puntaje de Fi es calculado por la combinación de los valores propios de L, mientras que
cos(θ1 ), ..., cos(θn−1 ) es el coeficiente de combinación el cual mide la similitud entre el vector de
características y el vector propio.

De acuerdo con la teoría de agrupamiento espectral [13], los valores propios de L miden la
separabilidad de los componentes del grafo y los vectores propios corresponden a indicadores de
clusters suaves [14]. El valor de ψ1 (Fi ) mide la separabilidad del grafo mediante el uso del vector
de características normalizado, denotado por f̂i . La separabilidad es estimada por la medición de la
similaridad entre f̂i y los vectores propios no triviales de L .

Un pequeño valor de ψ1 (Fi ) puede no ser un buen o el mejor indicador de separabilidad, ya que
el vector propio trivial solo lleva información de la densidad alrededor de las distintas instancias
y no determina la separabilidad. En este sentido se define la función 3.13 como una función de
ranking para complementar a la ya definida.

Pn−1 2
j=1 αj λj
ψ2 (Fi ) = Pn−1 2 (3.13)
j=1 αj

10
Luego un pequeño valor de ψ2 (Fi ) indica que f̂i alinea estrechamente a los vectores propios no
triviales con pequeños valores propios, proporcionando así una buena separabilidad [11].

Existe una última función para determinar la relevancia de una característica dentro del conjunto
de datos. De acuerdo a la teoría de agrupamiento espectral [13] los primeros k vectores propios de
L forman óptimos indicadores de clusters suaves que separan G en k partes. Entonces, si k es
conocido se puede utilizar la función 3.14 como indicador de peso.

k−1
X
ψ3 (Fi ) = (2 − λj )αj2 (3.14)
j=1

A diferencia de las otras dos funciones de ranking, ψ3 (Fi ) asigna grandes valores a caracterís-
ticas que ofrecen mejor separabilidad, además al centrarse en solo los primeros k vectores propios
de L logra un efecto de reducción de ruido.

La figura 3.1 [1], resume los pasos que hay que llevar a cabo para desarrollar el algoritmo.

3.2. Agrupamiento de Datos

El etiquetado o agrupamiento automático de datos se ha convertido en un elemento indispen-


sable en data mining [1]. Data clustering es una de las técnicas de agrupamiento de datos más
populares, en ella se nos proporcionan datos no etiquetados, es decir, que no existe diferenciación
alguna entre las distintas clases dentro del conjunto de datos, pero mediante ésta técnica es posi-
ble agrupar y diferenciar las distintas clases en conjuntos llamados clusters, lo cual es muy útil en
tareas de reconocimiento y clasificación de patrones, entre otros.

Los métodos de clustering pueden ser catalogados principalmente en métodos de partición,


métodos jerárquicos y los métodos basados en la densidad [1]. Los métodos de partición utilizan
una métrica basada en la distancia para agrupar los distintos clusters en base de sus funciones de
similaridad. El método jerárquico, por otra parte, divide los datos en diferentes niveles los cuales
asimilan una jerarquía que permite visualizarlos de mejor manera. Los métodos basados en la
densidad pueden capturar agrupaciones de datos de forma arbitraria, los puntos de datos en las
regiones densas formarán un cluster, mientras que los puntos de datos de diferentes clusters serán
separados por regiones de baja densidad.

11
Tabla 3.1: Algoritmo Spectral Feature Selection.
Algoritmo Selección de características espectrales (SPEC)
Input:
D: Conjunto de Datos
ψ ∈ {ψ1 , ψ2 , ψ3 }: Funciones de ponderación de características
n: Número de muestras

Output:
F: Ranking de características

1: Construir la matriz de similitud S a partir de D.


2: Construir el grado G a partir de S.
3: Construir W a partir S.
4: Construir D a partir W.
5: Definir L y L según las ecuaciones 3.10 y 3.11.
6: Para cada vector de características fi realizar:
(−1/2)
7: fˆi ← D(−1/2) ·fi
D ·fi

8: Fi ← ψ(fˆi )
9: Termino
10: Ranking F basado en ψ.

A continuación, se detallará un algoritmo perteneciente al método de partición.

3.2.1. K-medias

El agrupamiento K-means es el método de partición más utilizado [15], el primer paso es la


elección de k puntos de forma aleatoria dentro del conjunto de datos los cuales son llamados cen-
troides de agrupamiento [16, 17]. Después se le asigna a cada punto de la muestra el centroide más
cercano basado en alguna medida particular de proximidad elegida, como por ejemplo la distancia
euclidiana[18]. Una vez que se forman los clusters el segundo paso es el movimiento de los cen-
troides, los cuales se mueven al promedio de los puntos pertenecientes a dicho cluster. El algoritmo
se repite iterativamente hasta que los centroides no cambien más de posición o hasta que se cumple
algún otro criterio de convergencia aplicado al método [19].

K-means al igual que en el aprendizaje supervisado también tiene una función objetivo de
optimización [1], en donde conocerla nos ayuda a limpiar el algoritmo de aprendizaje y asegurarnos
que se esté ejecutando correctamente, también ayuda a buscar mejores agrupamientos de datos y
evitar así los óptimos locales.

12
Definamos el conjunto de datos de la siguiente manera: {x(1) , x(2) , . . . , x(m) } con x(i) ∈ Rn ,
además representemos el índice de los clusters como C (i) = {C (1) , C (2) , . . . , C (k) } en donde los
x(i) son asignados temporalmente. Luego definamos µk y µc(i) , el primero representa la ubicación
espacial de los centroides de cada cluster con µk ∈ Rn , mientras que el segundo término representa
la ubicación del centroide al cual se le asignó el dato x(i) .

La función objetivo utilizada para asignar los puntos del conjunto de dato a algún centroide es
llamada Sum of squared Errors (SSE) [1] la cual se ilustra en la ecuación 3.15. Se busca minimizar
dicha función dado un conjunto de centroides lo que se muestra en la ecuación 3.16 y con ello se
logra asignar algún punto x(i) a su centroide más cercano.

m
x − µC i 2
X (i)
SEE(C (1) , C (2) , ..., C (m) , µ1 , ..., µk ) = (3.15)
i=1

mı́n SEE(C (1) , C (2) , ...C (m) , µ1 , ..., µk ) (3.16)


C (1) ,C (2) ,...,C (m) µ1 ,µ2 ,...,µk

Como ya se mencionó anteriormente una vez calculadas todas las distancias entre los puntos y
los centroides, la asignación del conjunto de datos a los clusters es de forma automática. Luego se
procede a recalcular la variable µk de cada centroide mediante el promedio de la ubicación de los
puntos asignados al centroide k, para luego volver a repetir el método hasta que la variación de la
ubicación de los centroides sea mínima.

Los algoritmos como k-means producen clusters esféricos debido a que el agrupamiento se
basa en el supuesto de que los datos se generan a partir de una distribución de probabilidad deter-
minada. Debido a esto no se pueden tratar de buena manera los conjuntos de datos en los cuales
los agrupamientos no sean esféricos [1]. En el mundo real los datos espaciales incluyen puntos,
líneas y polígonos y soportan una amplia gama de aplicaciones, con ello los clusters en el espacio
de los datos pueden tener formas arbitrarias, luego algoritmos como k-means son insuficientes para
segregar las distintas categorías, tal como se aprecia en la figura 3.2.

El paradigma de la densidad basada en los clusters ha sido propuesto para hacer frente a todos
estos requisitos, siendo considerado como un método no paramétrico ya que no hace suposiciones
sobre el número de clusters o de su distribución [1].

13
Figura 3.2: k-means con k=3 sobre un espacio 2D de datos. Fuente: [1].

El siguiente algoritmo a detallar en los párrafos próximos pertenece al método basado en la


densidad.

3.2.2. DBSCAN

La idea clave detrás de DBSCAN [20] es que para cada punto de un cluster la vecindad de un
determinado radio tiene que contener al menos un número mínimo de puntos, es decir, la densidad
de la vecindad tiene que exceder cierto límite. La forma de una vecindad es determinada por la
elección de alguna función distancia para dos puntos p y q, denotada por dist(p, q) [1, 20].

Definamos D como el conjunto de datos y asumamos una función distancia dist(p, q) para
un par de puntos pertenecientes a D, también consideremos los parámetros Eps y M inP ts lo
cuales representan el radio de una vecindad y la cantidad de puntos mínimos que ésta contiene
respectivamente. Ahora bien, precisemos que un core points son los puntos con mayor densidad
dentro de un radio Eps que la constante M inP ts, los border points son los puntos que no son
un core points, pero son vecinos de éstos, mientras que los noise points son los puntos que no
pertenecen ni a los border ni a los core points [1, 20].

A continuación, realizaremos una serie de definiciones las cuales nos permitirán desarrollar el
algoritmo DBSCAN [20]:

• La vecindad-Eps de un punto p, se denota por N Eps(p) y se define como:


N Eps(p) = {q ∈ D |dist(p, q) ≤ Eps}

• Un punto p se dice directly density-reachable desde un punto q con respecto a Eps, M inP ts
si:
(1) p ∈ N Eps(q)

14
(2) |N Eps(p)| ≥ M inP ts

• Un punto p es density-reachable desde un punto q con respecto a Eps y M inP ts si hay una
cadena de puntos p1 , . . . , pn , p1 = q, pn = q de tal manera que p(i+1) es directly density-
reachable desde pi .

• Un punto p es density-connected a un punto q con respecto a Epsy M inP ts si hay un punto


o de tal manera que ambos puntos p y q sean density-reachable desde o con respecto a Eps y
M inP ts.

Luego con lo nombrado anteriormente podemos definir un cluster bajo el método DBSCAN. Un
cluster C con respecto a Eps y M inpts es un subconjunto no vacío de D si satisface las siguientes
condiciones:

(1) ∀ p, q: Si p ∈ C y q es density-reachable desde p con respecto a Eps y M inP ts, entonces


se tiene que q ∈ C.

(2) ∀ p, q ∈ C: p es density-connected a q con respecto a Eps y M inP ts.

El algoritmo [20] para desarrollar el presente método se detalla en la figura 3.2.

Tabla 3.2: Algoritmo DBSCAN.


Algoritmo agrupamiento espacial basado en densidad de aplicaciones con ruido (DBSCAN)
1: Etiquetar cada punto como core, border o noise.
2: Eliminar todos los puntos noise.
3: Poner una arista entre cada par de puntos core que son vecinos entre sí.
4: Cada componente conexa corresponde a un cluster.
5: Asignar los puntos border a uno de los clusters vecinos.

15
4. Resultados

En la presente sección se presentará el desarrollo de los distintos algoritmos a utilizar, para


luego dar paso a los resultados y su posterior análisis.

4.1. Desarrollo

De acuerdo a la metodología planteada en la sección 2, se comenzó con el desarrollo de los


algoritmos de reducción de dimensionalidad.

4.1.1. Descripción del conjunto de datos

El conjunto de datos a utilizar es proveniente de una flota de camiones del ejercito, consiste en
el tiempo de falla de cada equipo con sus respectivas covariables que afectaron a la degradación
de éstos. El tamaño de la muestra es de 1150 mediciones, dentro de las cuales se consideran 5
covariables y una variable principal que corresponde al tiempo de falla. Por lo tanto el conjunto de
datos se representa mediante una matriz de orden de 1150 x 6 elementos.

4.1.2. Desarrollo del algoritmo PCA

El código del algoritmo PCA se desarrolló en el software MATLAB, el proceder del algoritmo
se ilustra en la figura 4.1, la cual representa el diagrama lógico tras el funcionamiento del código
implementado, el cual fue desarrollado por el alumno.

Tal como se ilustra en la figura 4.1 el algoritmo comienza realizando un pre-procesamiento


de los datos, el cual consta de una normalización y un escalamiento de sus variables mediante
las ecuaciones 3.1 y 3.2 respectivamente. Con el fin de verificar que los datos no cambiaron su
estructura al aplicarle el pre-procesamiento, se grafican las dos primeras variables del conjunto
original de datos y las dos primeras variables del conjunto pre-procesado, lo cual se ilustra en la
figura 4.2 a) y b) respectivamente. Se aprecia que efectivamente la distribución espacial de los
distintos puntos es la misma para ambos casos, es decir, en ambas imágenes se logran identificar la
existencia de 4 clusters.

Luego a través de la ecuación 3.3 se calcula la matriz de covarianza de los datos, para luego
ser utilizada en la ecuación 3.4 y así poder encontrar los vectores unitarios →

u en los cuales la
proyección de los distintos puntos maximiza la varianza.

16
Figura 4.1: Diagrama lógico de algoritmo PCA

(a) Datos originales (b) Datos escalonados

Figura 4.2: Grafica de las dos primeras variables del conjunto de datos.

17
Una vez encontrados los vectores ortogonales → −u se deben elegir los k primeros con el objetivo
de proyectar los distintos puntos en ellos. Nuevamente con el fin de ver que los vectores encontrados
efectivamente son los que la proyección de los puntos sobre éstos maximiza la varianza, se grafican
las dos primeras dimensiones del conjunto de datos y además se grafican los dos vectores unitarios


u1 y →

u2 relacionados a éstas. Lo dicho anteriormente se ilustra en la imagen 4.3, en la cual se aprecia
que efectivamente los vectores → −
u1 y →−
u2 representan las direcciones principales de la variación de
los datos.

Figura 4.3: Representación grafica de los vectores u sobre el conjunto de datos.

Para elegir los primeros k vectores unitarios →



u se utiliza la ecuación 3.6, la cual representa la
varianza retenida del conjunto de datos a proyectar, un rango aceptable para ésta es entre 95 a 99 %.
En la tabla 4.1 se muestran los distintos valores de la varianza retenida según el número de los k
primeros vectores → −
u escogidos.

Tabla 4.1: Varianza retenida para distintos valores del parámetro k.


Varianza
k
Retenida ( %)
1 71,3
2 89,5
3 95,1
4 98,5
5 100,0
Fuente: Elaboración propia

18
Se aprecia en la tabla 4.1 que para k = 3 la varianza retenida es levemente mayor al 95 %,
por lo tanto, el conjunto de datos se reduce de 5 a 3 variables. Para llevar a cabo la proyección de
los datos y hacer efectivo el método finalmente se aplica la ecuación 3.5, obteniendo así el nuevo
espacio reducido del conjunto de datos original.

4.1.3. Desarrollo del algoritmo SPEC

El código del algoritmo SPEC al igual que el algoritmo PCA se desarrolló en el software
MATLAB, en la figura 4.4 se ilustra el diagrama lógico por el cual el algoritmo programado se
rige.

Figura 4.4: Diagrama lógico de algoritmo SPEC

El algoritmo SPEC inicia con el cálculo de la distancia entre los puntos del conjunto, tal como
se ilustra en la figura 4.4. Luego se calcula la matriz de similitud mediante la ecuación 3.8, a priori
el valor del parámetro σ es incierto, sólo podemos ver si es correcto una vez que el método se

19
desarrolle por completo y entregue como resultado que los clusters formados son lo más “apreta-
dos” posible. A pesar de ello, se puede estimar un rango de posibles valores para σ calculando la
mediana de la distancia del conjunto de datos, una buena aproximación es tomar un rango entre
cero y la mediana dividida en dos.

Una vez obtenida la matriz de similitud se calcula la matriz de adyacencia W , la matriz lapla-
ciana L y la matriz laplaciana normalizada L. Mediante las funciones integradas en MATLAB se
cálculan los vectores y valores propios de la matriz laplaciana normalizada, luego con la ayuda de
la función “evalclusters” de MATLAB se estima el posible número de clusters existentes dentro
del conjunto de datos. Dicha función entrega como resultado que existen cuatro clusters dentro del
conjunto, con esta información se eligen la misma cantidad de vectores propios como de posibles
clusters para un posterior análisis.

Mediante k-means se agrupan e identifican los clusters existentes dentro del espacio de vectores
propios de la matriz normalizada (4 primeros, ya que se tienen 4 clusters), los cuales tienen una
relación directa con los clusters existentes en el espacio original de datos, por ende, identificando y
etiquetando los clusters de los vectores propios encontraremos los clusters en el conjunto principal
de datos.

Luego de una serie de iteraciones para el valor de σ se llega a la conclusión que el valor adecua-
do es de diez. Para representar que los clusters encontrados son correctos, nuevamente se grafican
las primeras dos dimensiones del conjunto de datos original tal como se ilustra en la figura 4.5.
Cabe destacar que son los vectores propios los que se etiquetaron según el agrupamiento en su
espacio y luego dicho etiquetamiento se traspasó de forma directa al conjunto de datos original,
permitiendo el reconocimiento de clusters.

Figura 4.5: Clusters identificados por medio de SPEC.

20
Una vez calculada correctamente la matriz de similitud, se procede a estimar el peso o relevancia
de las características del conjunto de datos por medio de las ecuaciones 3.12, 3.13 o 3.14.

4.1.4. Desarrollo del algoritmo k-means

El código del algoritmo k-means al igual que el algoritmo PCA y SPEC, se desarrolló en el soft-
ware MATLAB. En la figura 4.6 se ilustra el diagrama lógico, el cual nos dicta el funcionamiento
del código desarrollado.

Figura 4.6: Diagrama lógico de algoritmo k-means.

El algoritmo k-means prácticamente se divide en dos pasos fundamentales, uno es la asigna-


ción de cada punto a los centroides más cercanos (previamente definidos), y el otro paso es el
movimiento de dichos centroides al promedio de la distancia de cada elemento que les pertenece.

El primer paso lo define la ecuación 3.16, en el cual se calculó la distancia entre los k centroides
y todos los puntos del conjunto de datos. Luego la ecuación toma un punto y busca la mínima
distancia entre dicho punto y los centroides definidos, el centroide que se encuentre más cerca del
punto en cuestión, es al que se le asigna dicho punto. Este procedimiento se repite para todos los
puntos del conjunto de datos, por lo tanto, una vez completada la primera etapa todos los puntos
tienen asignado un centroide. Posterior a la asignación de datos se procede a recalcular la ubicación
de los centroides por medio de alguna función distancia, en este caso en particular se utilizó la

21
distancia Euclidiana. La nueva ubicación de un centroide i es el promedio de la distancia de todos
los puntos pertenecientes a dicho centroide con respecto al origen, una vez recalculada la ubicación
se vuelve a realizar el paso uno y así, el algoritmo va iterando hasta que los centroides no cambien
más de posición, definiendo de esta manera los clusters existentes.

Nuevamente con el fin de ver el funcionamiento del método entre sus distintas iteraciones, se
toman las primeras dos variables y se les aplica el algoritmo k-means para identificar los clusters
existentes. Lo anterior se ilustra en la figura 4.7, en donde, se observa claramente como se van
moviendo los centroides de posición y en compañía a ello también los datos pertenecientes a cada
centroide en particular.

(a) (b)

(c) (d)

(e) (f)

Figura 4.7: Iteración de algoritmo k-means.

22
4.1.5. Desarrollo del algoritmo DBSCAN

Por último, al igual que en los algoritmos anteriores se utiliza MATLAB para desarrollar el
código del algoritmo DBSCAN. En la figura 4.8, se ilustra el diagrama lógico del algoritmo en
cuestión.

Figura 4.8: Diagrama lógico de algoritmo DBSCAN.

El algoritmo, tal como se muestra en la figura 4.8, comienza con la identificación de los core
points. La principal característica de dicho conjunto es que son los puntos con mayor densidad
dentro de un radio específico. Una vez identificados los core points, se identifican los border points
como los puntos que son vecinos a los core points y que están contenidos dentro de la vecindad de
éstos.

Los border points permiten conectar las diferentes vecindades existentes en el espacio de datos,
si un border point se encuentra contenido entre dos o más vecindades, quiere decir que éstas perte-
necen a un mismo cluster. De esta manera se logran reconocer los distintos patrones existentes en
el conjunto de datos.

Los puntos que no son etiquetados como ninguno de los dos mencionados, son clasificados
como noise points y simplemente no son considerados dentro de ningún cluster, por lo cual, son
omitidos de la muestra.

23
4.1.6. Modelos de confiabilidad para clusters

Se desarrolló un modelo de confiabilidad para cada cluster encontrado por medio de las técnicas
de agrupamiento utilizadas. Cabe destacar que son cuatro los análisis que hay que llevar a cabo,
los cuales corresponden a los análisis provenientes de los clusters encontrados por medio de la
aplicación de las técnicas de k-means y DBSCAN a los conjuntos de datos provenientes de los
algoritmos PCA y SPEC, obteniendo así cuatro conjuntos de datos con cuatro clusters cada uno.

El software a utilizar para el análisis de confiabilidad es R, con el cual se programó un código


genérico para todos los clusters a analizar. Se comienza con un análisis de dispersión de los datos,
con el fin de verificar que cada covariable efectivamente afecte a la degradación de los equipos.
Luego se grafica la distribución de probabilidades de cada cluster, para ello se utiliza la librería
ggplot2 de R. Las distribuciones encontradas son distribuciones empíricas, las cuales son útiles
para identificar visualmente a que tipo de distribución teórica podrían corresponder los datos. En la
figura 4.9 se aprecian las distribuciones empíricas realizadas a cada conjunto de datos.

La figura 4.9 a) corresponde a las distribuciones empíricas aplicadas a los clusters provenientes
del conjunto de datos procesados mediante los algoritmos PCA y k-means, mientras que la figura
4.9 b) corresponde a los clusters resultantes tras aplicar PCA y DBSCAN. Por otra parte las figuras
4.9 c) y 4.9 d) provienen de los agrupamientos encontrados mediante la implementación de los
métodos k-means y DBSCAN respectivamente, en ambos casos el conjunto de datos proviene de
la reducción de dimensionalidad aplicada por el algoritmo SPEC.

Una vez identificadas las posibles distribuciones teóricas, se procede a realizar un test de hi-
pótesis de éstas sobre las diferentes agrupaciones de datos y así, confirmar que efectivamente las
distribuciones de probabilidades de los datos se rigen por una en particular, ya sea por una distri-
bución de Weibull, normal, chi-cuadrado, entre otras. Los test de hipótesis se realizaron por medio
de la librería goftest de R, utilizando las pruebas de Kolmogorov-Smirnov y Anderson-Darling.

Posterior al ajuste de bondad realizado, se cuenta con una distribución teórica para cada cluster
proveniente de los distintos algoritmos, a las cuales se les calcula la media, la mediana, la varianza,
el mttf y la confiabilidad. En cuanto al calculo de este último, se tiene que es calculado según el mttf
de la flota en su totalidad, que no es otra cosa que la mezcla de los mttf de cada cluster dentro del
conjunto. En otras palabras, el mttf de la flota se calcula a través de la mezcla de las distribuciones
de probabilidades que representan a cada cluster.

Además, a partir de la distribución de cada cluster se construye la confiabilidad para la flota sim-
plemente sumando la confiabilidad de cada cluster por un ponderador que representa la relevancia
de cada agrupamiento sobre el conjunto principal.

24
(a) PCA + k-means (b) PCA + DBSCAN

(c) SPEC + k-means (d) SPEC + DBSCAN

Figura 4.9: Distribuciones empíricas de cada cluster aplicadas a distintos métodos de aprendizaje.

4.2. Presentación de los resultados

En la presente sección se expondrán los resultados obtenidos.

4.2.1. Resultados obtenidos mediante PCA

El nuevo conjunto reducido de datos ahora posee 3 dimensiones con un 95 % de la varianza


retenida, en la figura 4.10 se ilustra el gráfico en 3 dimensiones del nuevo conjunto de datos.

25
Figura 4.10: Resultado obtenido tras implementar PCA sobre el conjunto de datos principal.

4.2.2. Resultados obtenidos mediante SPEC

La relevancia de cada característica o covariable del conjunto de datos se ilustra en la tabla 4.2.

Tabla 4.2: Características relevantes


Número de
1 2 3 4 5
característica
Relevancia de
0,86 0,86 0,73 0,73 0,86
cada variable
Fuente: Elaboración propia

Luego seleccionamos las 3 características más relevantes, las cuales corresponden a la primera,
la segunda y la quinta. En la figura 4.11 se muestra el nuevo conjunto reducido en una gráfica de 3
dimensiones.

26
Figura 4.11: Resultado obtenido tras implementar SPEC sobre el conjunto de datos principal.

4.2.3. Resultados obtenidos mediante k-means

El conjunto de datos proveniente de la reducción de dimensionalidad por medio de PCA se


ilustra en la figura 4.12, donde la agrupación de datos o clusters fueron obtenidos por medio del
algoritmo k-means y se representan mediante los distintos colores existentes en dicha figura.

Figura 4.12: Resultado obtenido tras implementar k-means sobre el conjunto de datos proveniente
de PCA.

Mientras tanto, los datos provenientes del algoritmo SPEC se muestran en la figura 4.13, en

27
donde al igual que en el caso interior, los clusters fueron identificados por medio del algoritmo
k-means.

Figura 4.13: Resultado obtenido tras implementar k-means sobre el conjunto de datos proveniente
de SPEC.

4.2.4. Resultados obtenidos mediante DBSCAN

El algoritmo DBSCAN se aplica a los conjuntos de datos provenientes de PCA y SPEC. En


cuanto a los datos procedentes de PCA, el resultado tras la implementación del algoritmo DBSCAN
se aprecia en la figura 4.14. Se observan los cuatro clusters y el ruido asociado a la muestra mediante
los puntos azules.

Figura 4.14: Implementación de DBSCAN sobre el conjunto de datos proveniente de PCA.

28
Por otra parte, el conjunto de datos al cual se le redujeron las dimensiones tras la implementa-
ción de SPEC, también se le aplica el algoritmo DBSCAN. En la figura 4.15 se aprecian los clusters
y el ruido correspondiente (color azul).

Figura 4.15: Implementación de DBSCAN sobre el conjunto de datos proveniente de SPEC.

4.2.5. Modelamiento de confiabilidad para clusters

A continuación, con el fin de identificar y etiquetar de forma más rápida cada conjunto de
datos, llamaremos a éstos como conjunto 1, conjunto 2, conjunto 3 y conjunto 4. En donde, los
datos reducidos por PCA y procesados posteriormente por k-means serán el conjunto 1. Los datos
reducidos por PCA y procesados posteriormente por DBSCAN serán el conjunto 2. Por otra parte,
los conjuntos 3 y 4 serán los datos provenientes de SPEC y procesados por k-means y DBSCAN
respectivamente.

El análisis de dispersión de los distintos conjuntos de datos, se ilustra en la figura 4.16. En


donde las figuras 4.16 a) y b) corresponden al conjunto 1 y 2 respectivamente, mientras que las
figuras 4.16 c) y d) corresponden al conjunto 3 y al 4 respectivamente.

A continuación, se muestran las pruebas de bondad de ajuste realizadas sobre las distribuciones
correspondientes a la figura 4.9, se aproximan todas las curvas mediante una distribución de Wei-
bull. La tabla 4.3 ilustra los resultados del test de hipótesis planteado para el conjunto 1, en donde
el valor de significancia mínimo para aceptar dicha hipótesis debe ser de 0, 05.

29
(a) Dispersión de datos del conjunto 1 (b) Dispersión de datos del conjunto 2

(c) Dispersión de datos del conjunto 3 (d) Dispersión de datos del conjunto 4

Figura 4.16: Dispersión de los distintos conjuntos de datos.

Tabla 4.3: Prueba de bondad de ajuste para el conjunto 1


Kolmogorov-Smirnov Anderson-Darling
Cluster
(p-valor) (p-valor)
1 0,94 0,88
2 0,91 0,89
3 0,89 0,84
4 0,42 0,66
Fuente: Elaboración propia

Para el conjunto 2, los resultados obtenidos se muestran en la tabla 4.4.

30
Tabla 4.4: Prueba de bondad de ajuste para el conjunto 2
Kolmogorov-Smirnov Anderson-Darling
Cluster
(p-valor) (p-valor)
1 0,89 0,84
2 0,62 0,69
3 0,95 0,89
4 0,91 0,89
Fuente: Elaboración propia

Por otra parte, la tabla 4.5 muestra los valores del test de hipótesis para el conjunto 3.

Tabla 4.5: Prueba de bondad de ajuste para el conjunto 3


Kolmogorov-Smirnov Anderson-Darling
Cluster
(p-valor) (p-valor)
1 0,94 0,88
2 0,89 0,84
3 0,42 0,66
4 0,91 0,89
Fuente: Elaboración propia

La última prueba de bondad corresponde al conjunto 4 y se resume en la tabla 4.6.

Tabla 4.6: Prueba de bondad de ajuste para el conjunto 4


Kolmogorov-Smirnov Anderson-Darling
Cluster
(p-valor) (p-valor)
1 0,88 0,82
2 0,67 0,66
3 0,95 0,86
4 0,90 0,88
Fuente: Elaboración propia

De forma simultanea se calculan los parámetros de la distribución de Weibull de cada conjunto,


tanto el parámetro de forma como el de escala. En la tabla 4.7 se ilustran dichos valores.

Tabla 4.7: Parámetros de escala y forma de la distribución de Weibull para cada cluster
Conjunto 1 Conjunto 2 Conjunto 3 Conjunto 4
Parámetro de Parámetro de Parámetro de Parámetro de Parámetro de Parámetro de Parámetro de Parámetro de
Cluster
Escala Forma Escala Forma Escala Forma Escala Forma
1 20,69 6,44 14,87 3,39 20,69 6,44 14,45 3,37
2 27,46 8,14 3,38 1,09 14,39 3,39 3,33 1,06
3 14,39 3,39 20,68 6,43 3,50 1,10 20,67 6,40
4 3,50 1,10 27,46 8,14 27,46 8,14 27,44 8,10
Fuente: Elaboración propia

31
A partir de las distribuciones ajustadas anteriormente, se calcula la media, la mediana, la va-
rianza, la desviación estándar, el MTTF y la confiabilidad para cada uno de los clusters. La tabla
4.8 ilustra los valores para el conjunto 1, mientras que la figura 4.17 representa la confiabilidad del
mismo conjunto.

Tabla 4.8: Análisis de confiabilidad para conjunto 1.


Tiempo Tiempo
Media Mediana Desviación MTTF Confiabilidad
Cluster Varianza conf. 5 % conf. 95 %
[meses] [meses] Estandar [meses] para mttf
[meses] [meses]
1 19,27 19,54 12,24 3,50 19,27 0,90 24,53 13,04
2 25,88 26,25 14,29 3,78 25,88 0,99 31,42 19,06
3 12,92 12,91 17,72 4,21 12,92 0,35 19,89 5,99
4 3,38 2,50 9,54 3,09 3,38 0,01 9,52 0,23
Fuente: Elaboración propia

(a) Confiabilidad Cluster 1, conjunto 1 (b) Confiabilidad Cluster 2, conjunto 1

(c) Confiabilidad Cluster 3, conjunto 1 (d) Confiabilidad Cluster 4, conjunto 1

Figura 4.17: Confiabilidad clusters pertenecientes al conjunto 1.

32
La tabla 4.9 muestra los valores de los distintos parámetros a analizar para el conjunto 2 y la
figura 4.18 representa la confiabilidad de dicho conjunto.

Tabla 4.9: Análisis de confiabilidad para conjunto 2.


Tiempo Tiempo
Media Mediana Desviación MTTF Confiabilidad
Cluster Varianza conf. 5 % conf. 95 %
[meses] [meses] Estandar [meses] para mttf
[meses] [meses]
1 12,92 12,91 17,72 4,21 13,36 0,36 20,55 6,19
2 3,27 2,41 9,01 3,00 3,27 0,01 9,24 0,22
3 19,25 19,53 12,26 3,50 19,25 0,88 24,52 13,03
4 25,88 26,25 14,29 3,78 25,88 0,99 31,42 19,06
Fuente: Elaboración propia

(a) Confiabilidad Cluster 1, conjunto 2 (b) Confiabilidad Cluster 2, conjunto 2

(c) Confiabilidad Cluster 3, conjunto 2 (d) Confiabilidad Cluster 4, conjunto 2


Figura 4.18: Confiabilidad clusters pertenecientes al conjunto 2.

33
La tabla 4.10 ilustra los distintos parámetros de confiabilidad para el conjunto 3, mientras que
en la figura 4.19 se gráfica la confiabilidad del mismo conjunto.

Tabla 4.10: Análisis de confiabilidad para conjunto 3.


Tiempo Tiempo
Media Mediana Desviación MTTF Confiabilidad
Cluster Varianza conf. 5 % conf. 95 %
[meses] [meses] Estandar [meses] para mttf
[meses] [meses]
1 19,27 19,54 12,24 3,50 19,27 0,90 24,53 13,04
2 12,92 12,91 17,72 4,21 12,92 0,35 19,89 5,99
3 3,38 2,50 9,54 3,09 3,38 0,01 9,52 0,23
4 25,88 26,25 14,29 3,78 25,88 0,99 31,42 19,06
Fuente: Elaboración propia

(a) Confiabilidad Cluster 1, conjunto 3 (b) Confiabilidad Cluster 2, conjunto 3

(c) Confiabilidad Cluster 3, conjunto 3 (d) Confiabilidad Cluster 4, conjunto 3


Figura 4.19: Confiabilidad clusters pertenecientes al conjunto 3.

34
Para el último conjunto de datos, correspondiente al conjunto 4, los parámetros de confiabilidad
se muestran en la tabla 4.11, mientras que en la figura 4.20 se grafica la confiabilidad del mismo
conjunto.

Tabla 4.11: Análisis de confiabilidad para conjunto 4.


Tiempo Tiempo
Media Mediana Desviación MTTF Confiabilidad
Cluster Varianza conf. 5 % conf. 95 %
[meses] [meses] Estandar [meses] para mttf
[meses] [meses]
1 12,97 12,96 18,06 4,25 12,97 0,33 20,01 5,98
2 3,26 2,35 9,50 3,08 3,26 0,01 9,40 0,20
3 19,24 19,52 12,33 3,51 19,24 0,89 24,53 12,99
4 25,86 26,23 14,38 3,79 25,86 0,99 31,42 19,02
Fuente: Elaboración propia

(a) Confiabilidad Cluster 1, conjunto 4 (b) Confiabilidad Cluster 2, conjunto 4

(c) Confiabilidad Cluster 3, conjunto 4 (d) Confiabilidad Cluster 4, conjunto 4

Figura 4.20: Confiabilidad clusters pertenecientes al conjunto 4.

A partir de los análisis realizados a los clusters, se calcula la confiabilidad para toda la flota,

35
además de la media, la mediana, la varianza, la desviación estándar y el MTTF. Todo lo anterior se
realiza para cada uno de los cuatro conjuntos definidos, tal como se ilustra en la tabla 4.12.

Tabla 4.12: Parámetros de confiabilidad para cada conjunto.


Tiempo Tiempo
Media Mediana Desviación MTTF Confiabilidad
Conjunto Varianza conf. 5 % conf. 95 %
[meses] [meses] Estandar [meses] para mttf
[meses] [meses]
1 14,61 14,57 14,42 3,80 14,61 0,52 20,32 8,07
2 14,73 14,71 14,41 3,80 14,92 0,53 20,73 8,30
3 14,61 14,57 14,42 3,80 14,61 0,52 20,32 8,07
4 14,86 14,83 14,74 3,84 14,86 0,52 20,63 8,27
Fuente: Elaboración propia

En la figura 4.21, se muestra la gráfica de la confiabilidad para toda la flota, la cual se obtuvo
por medio de la mezcla de los clusters de cada conjunto.

(a) Confiabilidad conjunto 1 (b) Confiabilidad conjunto 2

(c) Confiabilidad conjunto 3 (d) Confiabilidad conjunto 4

Figura 4.21: Confiabilidad de la flota según cada conjunto

36
4.2.6. Modelamiento de confiabilidad para toda la flota

A continuación, se presentan los resultados del análisis de confiabilidad para toda la flota sin
discriminar entre clusters, es decir, tras el ajuste de una distribución Weibull directamente a los
datos no homogéneos. En la tabla 4.13 se aprecian los parámetros correspondientes a la distribución
Weibull.

Tabla 4.13: Parámetros de la distribución Weibull para población no homogénea.


Parámetro de Parámetro de
Escala Forma
16,16 1,77
Fuente: Elaboración Propia

A la distribución ajustada a los datos se le realiza una prueba de bondad de ajuste, en particular,
las pruebas de Kolmogorov-Smirnov y Anderson Darling. En la tabla 4.14 se ilustran los valores
obtenidos.

Tabla 4.14: Prueba de bondad de ajuste para datos no homogéneos.


Kolmogorov-Smirnov Anderson Darling
(p-valor) (p-valor)
−08
9,25 ·10 5,22 ·10−04
Fuente: Elaboración Propia

Una vez obtenida la distribución de los datos, se calcula la confiabilidad, la media, la mediana,
la varianza y desviación estándar. Dichos valores se presentan en la tabla 4.15.

Tabla 4.15: Parámetros de confiabilidad para población no homogenea.


Tiempo Tiempo
Media Mediana Desviación MTTF Confiabilidad
Varianza conf. 5 % conf. 95 %
[meses] [meses] Estandar [meses] para mttf
[meses] [meses]
14,38 13,13 70,52 8,40 14,38 0,52 30,04 3,02
Fuente: Elaboración propia

Por último se gráfica la confiabilidad de la población de datos no homogénea, lo cual se ilustra


en la figura 4.22.

37
Figura 4.22: Confiabilidad del conjunto de datos no homogéneo.

38
4.3. Análisis e interpretación de los resultados

En cuanto a la primera etapa del presente trabajo de memoria, la cual consistía en reducir la
dimensionalidad del conjunto de datos, se obtuvo que en ambos casos los conjuntos derivados
de los dos métodos de reducción de dimensiones redujeron el número de variables de 5 a 3. La
importancia del resultado obtenido radica principalmente en el costo computacional requerido, ya
que al disminuir en 2.300 mediciones la cantidad de datos (lo equivalente a dos vectores de largo
1150 datos) el procesamiento se realiza de forma más rápida y eficiente al no perder la distribución
original de los datos. Además hay que recalcar que dicha reducción de dimensionalidad va de la
mano con disminuir el tamaño de la muestra, con lo cual el espacio de almacenamiento de ésta
también se ve reducido.

De manera más particular, los datos obtenidos mediante el algoritmo PCA pierden su significa-
do físico, debido a la normalización, escalamiento y proyección de los datos originales a un nuevo
plano, formando así un nuevo conjunto. En dicho proceso se pierde información de la estructura
original de las muestras, por ende, no es posible recuperar dicha estructura una vez aplicado el al-
goritmo. A pesar de ello, la distribución de los puntos en cierto modo conserva el formato original,
lo cual se logra ver en las figuras 4.2 y 4.10, en donde es claro que los clusters existentes dentro de
las dos imágenes son cuatro. Debido a esto es que se nos permite realizar un análisis de clustering
y aplicar modelos de distinta índole a dichos datos con la expectativa de que dicho análisis sea
correcto.

Por el contrario del algoritmo PCA, SPEC conserva el significado físico de sus variables, ya
que lo único que hace es dejar fuera las variables menos relevantes dentro del conjunto de datos. El
algoritmo determina que dichas variables no son representativas en la degradación de los equipos,
por lo tanto al eliminarlas de las muestras, el conjunto resultante sigue teniendo un set de variables
originales con las cuales es posible realizar una buena predicción a futuro y además permite realizar
una interpretación física de los datos.

En cuanto al parámetro σ hay que tener en consideración que es un parámetro fundamental para
la obtención correcta de los agrupamientos dentro del espectro de la matriz derivada de la matriz
de similitud del conjunto de datos, un incorrecto valor de sigma produce una mala agrupación de
datos. Es por ello, que hay que dedicarle tiempo en encontrarlo y no dejar definido su valor por
azar, de todas formas su valor no es exacto, permite una pequeña holgura a la hora de definirlo, esto
es ya que, para valores similares de σ las agrupaciones de datos no varían significativamente, lo
cual se comprobó al momento de iterar su valor con el fin de encontrar los clusters más apretados
o concentrados.

El método SPEC no sólo es un método de reducción de dimensionalidad, ya que para definir el


peso o relevancia de una característica, implícitamente se están determinado los clusters existentes
dentro del conjunto principal de datos, y es a raíz de ello que se puede discernir que variable es

39
relevante o no. Por lo tanto, en comparación con el algoritmo PCA, con SPEC se puede reducir la
dimensión de los datos y además de forma paralela encontrar los clusters del conjunto reducido.

En lo que al algoritmo k-means concierne, no hubo mayores complicaciones a la hora de identi-


ficar los clusters por medio de este método. Se puede observar en las imágenes 4.12 y 4.13, que las
aglomeraciones de datos siguen una distribución espacial esférica, luego al estar k-means basado
en el supuesto de que los datos se generan a partir de una distribución de probabilidad determinada,
lo que produce clusters esféricos, la distribución dada en el conjunto de datos es precisamente en
donde el algoritmo se desenvuelve de mejor manera. Luego hay que tener en consideración cuando
las aglomeraciones de datos no sigan una distribución esférica, ya que puede significar una mala
agrupación de datos por parte de k-means.

Por otra parte, como se aprecia en las figuras 4.14 y 4.15, el algoritmo DBSCAN logro iden-
tificar de manera correcta los clusters existentes dentro de los conjuntos de datos analizados. A
diferencia del algoritmo k-means, DBSCAN identifica el ruido dentro de la muestra, lo que per-
mite realizar un análisis de confiabilidad más preciso, ya que la dispersión de datos dentro de los
clusters es menor. Luego, los datos procesados en el presente trabajo de titulo son simétricos y
claramente segregados, siguiendo patrones esféricos en cada uno de sus clusters. Por lo tanto, iden-
tificar que puntos son ruido dentro de la muestra podría ser no del todo preciso, tal y como se
aprecia en las figuras 4.14 y 4.15. En ambas imágenes si bien los puntos azules (ruido) se encuen-
tran en la periferia de los clusters, perfectamente podrían pertenecer al cluster más cercano, no es
del todo evidente que representen ruido o no.

Además, se tiene que DBSCAN necesita iterar el valor del radio épsilon para poder definir una
vecindad alrededor de un punto y así poder también identificar los clusters dentro del conjunto
de datos. Un valor adecuado para dicho parámetro, al igual que en el caso de SPEC, tiene que
producir los clusters más concentrados dentro del espacio. Por ende, la elección de éste tiene que
ser minuciosa y con dedicación, es útil automatizar su búsqueda mediante un índice de validación
como lo es el promedio de las distancias al centro del cluster. Luego de calcular dicho índice para
los distintos valores propuestos del parámetro épsilon, se elije el índice que tenga el menor valor,
dando paso al agrupamiento más concentrado de los clusters.

Tanto el algoritmo k-means, como DBSCAN encontraron los clusters de forma adecuada. En
las imágenes 4.12, 4.13, 4.14 y 4.15 se aprecia que los clusters encontrados son muy similares para
todos los casos, esto es debido a que la distribución espacial de los datos no era muy compleja,
por lo tanto, no existió mayor complicación por parte de los algoritmos para encontrar las distintas
agrupaciones de los distintos conjuntos. Por lo mismo se debe esperar que el posterior análisis de
confiabilidad sea muy similar para los cuatro conjuntos.

En cuanto al análisis de dispersión aplicado a los clusters encontrados, según la imagen 4.16
se puede apreciar tanto en las figuras a), b), c) y d) que cada cluster tiene valores de dispersión

40
diferentes en comparación con los cluster de su mismo conjunto. Es por ello que se puede afirmar
que cada cluster compuesto de las variables del espacio reducido de datos, esta afectando a la
degradación del equipo, en otras palabras, todos los clusters son relevantes para realizar el estudio
de confiabilidad, no hay dos o más cluster que tengan los mismos valores en cuanto a media,
mediana y varianza con tal de que afecten de igual forma a algún modo de falla.

Una vez listas las distintas agrupaciones de datos, se estiman las distribuciones que tienen cada
una de ellas. En la figura 4.9, se muestran las distribuciones empíricas de cada cluster en su respec-
tivo conjunto. Como se logra apreciar entre los distintos conjuntos, las gráficas expuestas no varían
significativamente, esto es debido a que los clusters encontrados por k-means y DBSCAN son prác-
ticamente los mismos. Si analizamos la figura 4.9 a) se identifican claramente dos distribuciones,
la número 1 y 3, que se pueden aproximar mediante una distribución de Weibull.

Existe una tercera distribución muy similar a las dos nombradas recientemente, la número 2. Se
puede apreciar que posee dos picos en la cima de ésta, lo cual podría significar que no es posible
aproximarla mediante una sola distribución, sino que representaría una distribución bimodal en la
cual hay que ajustar dos curvas para poder obtener la distribución empírica mostrada en la gráfica.
No obstante, se aproxima por sólo una distribución de Weibull con la esperanza de que tras el ajuste
de bondad a realizar, este acepte la hipótesis y así poder aproximarla por sólo una curva.

Que el cluster número 2 de la figura 4.9 a) tenga dicha forma, significa que los equipos corres-
pondientes a éste presentan dos modos de falla asociados. Lo cual hubiese sido imposible de ver
si no se hubiesen segregado los equipos por agrupaciones o clusters. En cuanto a la curva número
4 de la misma figura mencionada anteriormente, se podría aproximar mediante una chi-cuadrado,
pero de todas formas se realizó un test de hipotesis para una distribución de Weibull.

A los tres conjuntos restantes de la figura 4.9, se les aplica el mismo razonamiento que para el
conjunto uno, ya que como se menciono, sus gráficas no varían de manera significativa entre ellos.

La tabla 4.3, muestra la prueba de bondad de ajuste realizada para el conjunto uno, dicha prueba
se realizó a las posibles distribuciones Weibull’s a las cuales se ajustaran los cluster del conjunto.
Las pruebas a realizar son las de Kolmogorov-Smirnov y la de Anderson Darling, justamente como
lo expone dicha tabla. El valor que indica si la curva es aceptada o no por los distintos criterios
corresponde al valor p, el cual representa el nivel de significancia.

Un valor de significancia aceptable es uno mayor a 0, 05, luego los valores expuestos en la
tabla son todos cercanos a 0, 9 a excepción del cluster 4, que tiene los valores de 0, 4229 para
Kolmogorov-Smirnov y 0, 66 para Anderson Darling. Estos valores son más bajos en compara-
ción con los otros clusters debido a que la distribución teórica es más similar a una distribución
Chi-Cuadrado que a una Weibull. Pero a pesar de ello la prueba de ajuste de bondad acepta a la
distribución Weibull como su distribución representativa.

41
En todos los conjuntos la distribución Weibull fue aceptada como la distribución representativa
de cada cluster, tal como se aprecia en las tablas 4.4, 4.5 y 4.6. Es por ello, que en la tabla 4.7 se
resumen los parámetros de escala y de forma de cada distribución de Weibull para cada cluster en
el conjunto pertinente.

El parámetro de forma de la distribución Weibull se relaciona con la degradación que tiene el


equipo. Al mirar el conjunto 1 de la tabla 4.7 se observa que los clusters 1 y 2 tienen un valor muy
alto de dicho parámetro. Luego la degradación debería ser alta para los equipos que conforman
dichos clusters, pero no es así, ya que se ve compensado también por un alto parámetro de escala,
el cual tiene relación directa con la desviación estándar y el mttf de la muestra. Lo mismo ocurre
para los demás conjuntos al tener todos clusters muy similares.

Lo anterior se ve reflejado en la tabla 4.8, en donde, se puede ver que el mttf de los cluster 1
y 2 del conjunto 1, son los más altos de la muestra. Mientras que el cluster número 4 tiene una
confiabilidad y un mttf bastante bajo en comparación al resto. En las tablas 4.8, 4.9, 4.10 y 4.11 se
ilustran distintos parámetros relacionados a la confiabilidad, los cuales tienen la cualidad de estar
separados por cluster, representando así de forma independiente cada sub-población de equipos.

Cabe destacar que en las tablas 4.8, 4.9, 4.10 y 4.11 la confiabilidad para el mttf es calculada
según el mttf de la flota en su totalidad. Dicho mttf de la flota se calcula a través de la mezcla de
distribuciones de Weibull de los cuatro clusters correspondientes a cada conjunto. Los parámetros
como lo son la media, la mediana, la varianza, el mttf y la confiabilidad para cada conjunto (mezcla
de distribuciones) se ilustran en la tabla 4.12.

Luego, para la flota según el conjunto uno se tiene un mttf de aproximadamente 14,6 meses, es
decir, que en general los equipos tienen un tiempo promedio de fallas de 14,6 meses. Entonces para
el conjunto uno se utiliza dicho valor para estimar la confiabilidad de cada cluster con respecto al
mttf de toda la flota. Por lo tanto, en la tabla 4.8 se tiene que para el cluster 1 la confiabilidad de
que el equipo opere durante 14,6 meses es de un 89,9 %, mientras que para el cluster 2 es de un
99,4 %, para el cluster 3 es de 34,89 % y por último para el cluster 4 es de tan sólo un 0,83 %.

He aquí donde radica la relevancia de separar por agrupaciones y segregar distintos equipos
con similares características dentro de clusters, ya que si se realiza un enfoque como flota, las
mantenciones estarán programadas en base al mttf de la flota, ignorando que existen grupos de
equipos que fallan mucho antes que el promedio estipulado. En el caso particular del conjunto 1 de
la tabla 4.12, las mantenciones se llevarían a cabo según el tiempo de operación que correspondería
a los 14,6 meses. Luego, los equipos pertenecientes al cluster número 4 del conjunto uno estarían
fallando aproximadamente 4 veces antes de llegar a los 14,6 meses de operación.

Lo anterior produce que existan muchas fallas inesperadas dentro del periodo estipulado, lo
cual significa ocupar recursos los cuales no estaban destinados para realizar la labor de reparación.

42
En las figuras 4.17, 4.18, 4.19 y 4.20 se muestran las gráficas de confiabilidad para los distintos
cluster de los diferentes conjuntos. En cuanto al conjunto 1 se aprecia que en la figura 4.17 a)
correspondiente al cluster 1 la confiabilidad es bastante alta hasta aproximadamente los 14 meses de
operación, mientras que para el cluster 2 la confiabilidad se mantiene alta hasta aproximadamente
los 20 meses.

En cuanto a los clusters tres y cuatro, para el primero la confiabilidad empieza a decaer cercano
a los primeros 5 meses de operación, mientras que para el segundo prácticamente decae de forma
inmediata al ponerse a operar. La figura 4.17 d) muestra la importancia de haber segregado los datos
en cluster, ya que el cluster cuatro en este caso afecta de manera significativa a la flota al decaer de
manera tan rápida su confiabilidad. El mismo análisis se lleva a cabo para las gráficas 4.18, 4.19 y
4.20.

Al realizar la mezcla de distribuciones para cada uno de los conjuntos definidos en base a sus
clusters, en todos los casos la confiabilidad ilustrada para cada conjunto en la figura 4.21, tiene un
decaimiento rápido viéndose afectada claramente por el cluster que tiene un mttf de aproximada-
mene 3,5 meses.

Con el objetivo de comparar el enfoque típico adoptado por los profesionales de la confiabilidad
se aproxima una distribución de Weibull al conjunto de datos no homogéneos, los parámetros de
ésta distribución se muestran en la tabla 4.13 y el resultado de la prueba de ajuste de bondad se
ilustra en la tabla 4.14. El valor del ajuste esta muy por debajo del nivel de significancia aceptable
que es 0,05. Es claro que no se pueden aproximar los datos mediante una Weibull, pero en algunas
compañías hoy en día lo hacen de todas formas sin siquiera estimar si la curva se adapta o no a los
datos, obteniendo así resultados como los ilustrados en la tabla 4.15.

El mttf de la tabla 4.15 y la confiabilidad, son bastantes similares a los expuestos en la tabla
4.12. La gran diferencia es la desviación estándar de ambos, en donde, para el caso de los datos
no segregados en cluster es de 8,39 y para el caso de la mezcla de clusters es de 3,79. Siendo
mucho más confiable y con menos incertidumbre la que tiene una menor desviación estándar, osea,
la obtenida por medio de la mezcla de los clusters.

Además, la curva de confiabilidad de la figura 4.22 decae más rápido que la curva de con-
fiabilidad de los clusters 1, 2 y 3 del conjunto uno, representados en la imagen 4.17. Siendo de
ésta manera poco representativo para dichos equipos, ya que esta diciendo que hay que realizar la
mantención mucho antes de lo que realmente corresponde.

Cabe destacar que el análisis de confiabilidad por clusters es mucho más preciso y mejor que
la confiabilidad de la flota a partir de la mezcla de las distribuciones de los clusters. Esto es por-
que el modelamiento de la confiabilidad enfocada a cada clusters, da como resultado un análisis
más cercano a la realidad operativa y de mantenimiento de los equipos, experimentada para cada
subconjunto o grupo de estos.

43
La confiabilidad de la flota calculada a partir de la mezcla de las distribuciones de cada cluster
se estima con el fin de poder compararla de forma directa con la confiabilidad obtenida por medio
de un análisis de confiabilidad sobre la flota sin discriminar entre sus variables, es decir, sobre
el conjunto de datos no homogéneos. Luego, como se menciono anteriormente la varianza para
la confiabilidad proveniente de la mezcla de los cluster es mucho más pequeña que la varianza
de la confiabilidad de los datos no homogéneos, lo que da entender que efectivamente los datos
agrupados en clusters son más homogéneos que el conjunto total.

Recapitulando lo expresado en párrafos anteriores, analizar los equipos pertenecientes a una


flota mediante clustering, es importante y relevante en el sentido de que es posible identificar que
existen grupos de equipos, en este caso camiones, que están sometidos a condiciones de operaciones
distintas. Por lo cual, sus tiempos de falla son muy diferentes unos de otros, es por ello que a través
de las técnicas de clustering, el análisis se vuelve más focalizado y nos permite separar los distintos
equipos existentes quizás dentro de la misma faena pero sometidos a condiciones de operaciones
distintas, en sub-poblaciones o agrupaciones que tengan similares características, en particular,
similares parámetros de medición los cuales se relacionan de forma directa con un tiempo de falla
representativo. Lo anterior permite planificar de forma segregada los planes de mantención de cada
grupo de camiones, independientemente de que pertenezcan a la misma flota o no, permitiendo así
tener un mayor control sobre las fallas de los distintos equipos.

En el caso particular del conjunto de camiones que fallan a los tres meses de operación, el estu-
diante desconoce las condiciones en las cuales operan o en las condiciones en la que se encuentran
dichos equipos. El alumno no cuenta con un seguimiento del camión como para ver el historial
de trabajo y mantenciones que estos han tenido, por lo tanto, no es posible dar un diagnostico del
porque su degradación tan rápida.

44
5. Conclusiones

En el presente trabajo se desarrollaron diversos métodos de machine learning, en particular, se


utilizaron algoritmos como análisis de componentes principales (PCA) y agrupamiento espacial
basado en densidad de aplicaciones con ruido (DBSCAN) para la reducción de la dimensionali-
dad del conjunto de datos. Se aplicaron algoritmos de clustering, como k-means y DBSCAN, al
conjunto de datos reducido en tamaño y dimensiones, con el fin de identificar las sub-poblaciones
o agrupaciones internas dentro del éste. La automatización en la lectura y procesamiento de datos
mediante las técnicas de aprendizaje no supervisado, en concreto clustering, son una gran herra-
mienta para identificar, etiquetar y clasificar las características que representan a cada conjunto de
datos. Permitiendo así, realizar un análisis de cualquier tipo (para efectos del presente trabajo de
memoria un análisis de confiabilidad), de manera más precisa y efectiva tras la previa segregación
de los datos.

El procesamiento de los datos con el fin de reducir el número de variables existentes, es muy
útil para disminuir el tiempo de ejecución de los algoritmos de clustering, además la reducción de
dimensionalidad es efectiva para filtrar y limpiar los datos de los posibles ruidos o malas mediciones
provenientes tanto de fallas humanas como de los equipos de medición. Es por ello que es altamente
recomendable aplicar este tipo de algoritmos.

Se logró desarrollar satisfactoriamente la primera etapa del presente trabajo de memoria, la


cual correspondía a la reducción de dimensionalidad. Esto, ya que tanto el desarrollo como los
resultados expuestos en la sección 4 son coherentes con lo esperado mediante la teoría expuesta en
la sección 3 de antecedentes.

En cuanto al parámetro σ correspondiente al algoritmo SPEC, se puede decir que posee un


efecto indirecto sobre la elección de una partición o agrupación de datos propuesta por el método.
Un problema en la selección de este parámetro, es que además de afectar en la construcción de
la matriz de similitud, también afecta a la hora de decidir cuando dejar de iterar, por lo tanto, un
trabajo a futuro sería desacoplar σ de los dos puntos nombrados o sustituir el criterio de parada
para la iteración por otro que no incluya al parámetro en cuestión y así desarrollar el algoritmo
de forma más autónoma, para luego no tener que desarrollarlo de manera completa una y otra vez
hasta ajustar σ.

Los clusters identificados por el algoritmo k-means como se aprecia en la sección de resultados,
fueron identificados de buena forma. Siendo un éxito la implementación del método, representando
una buena autonomía para trabajar con datos que tengan distribuciones esféricas. Por otra parte,
el algoritmo DBSCAN también identifico de manera correcta las agrupaciones de datos existentes
dentro de la muestra principal. Un trabajo a futuro es ver como se comporta k-means con datos que
tienen distribuciones espaciales de lineas, polígonos, entre otras. De esta manera se podrá notar la
precisión entre k-means y DBSCAN para identificar las distintas aglomeraciones en el conjunto de

45
datos.

En cuanto al análisis de confiabilidad, se logró ajustar de manera existosa un modelo de con-


fiabilidad a cada cluster, con el cual se identificaron los distintos comportamientos de los equipos
pertenecientes a un cluster u otro. Además, a partir de éstos se construyo un modelo de confiabilidad
para la flota en general.

El agrupamiento de los datos en clusters, permite que el análisis de confiabilidad realizado sea
mucho más focalizado y especifico que un análisis de confiabilidad para toda la flota sin discriminar
entre sus variables. Queda expuesto en el caso del conjunto de datos pertenecientes a una flota de
camiones, que existen sub-poblaciones que tienen un tiempo de falla muy distinto al de la flota en
general, lo cual significa que no sería correcto aplicarles planes de mantención como a un conjunto
único, si no que sería más preciso enfocarse en cada agrupación de camiones que comparten las
mismas características y así evitar fallas inesperadas para dichos equipos que tienen una vida de
operación más corta que de la flota, o en el caso contrario evitar realizar mantenciones a equipos
que aún les quedan muchas horas de operación para que se presente alguna falla.

Lo anterior permite realizar planes de mantención segregados en grupos de equipos pertene-


cientes a la misma flota pero con características muy distintas, las cuales se ven condicionadas por
las condiciones de operación de cada equipo. Disminuyendo así la incertidumbre que existe hoy en
día al momento de realizar los análisis de confiabilidad.

Por lo tanto, utilizar técnicas de clustering para el procesamiento previo a un análisis de confia-
bilidad de los datos es muy recomendable, ya que permite identificar el comportamiento que tienen
grupos de equipos dentro de una flota y además las sub-poblaciones encontradas efectivamente de-
muestran ser un conjunto más homogéneo que el conjunto total. Lo cual permite tener más control y
precisión para definir los futuros planes de mantenciones asociados y la destinación de los distintos
recursos pertinentes.

Un trabajo a futuro sería utilizar un conjunto de datos más complejos para ver cual es la preci-
sión de los distintos métodos ocupados en el presente trabajo de titulo, y así poder contrastarlos de
mejor manera con el fin de estimar la confiabilidad para la flota en base a la de los clusters.

46
Bibliografía
[1] Aggarwal, C. and Reddy, C. (2014). Data clustering.

[2] Wold, S., Esbensen, K. and Geladi, P. (1987). Principal component analysis. Chemometrics
and Intelligent Laboratory Systems, 2(1-3), pp.37-52.

[3] I. Guyon and A. Elisseeff. An introduction to variable and feature selection. Journal of Ma-
chine Learning Research, 3:1157–1182, 2003.

[4] Dy, J., Brodley, C. E. Feature selection for unsupervised learning.JMLR., 5, 845-889, 2004.

[5] L. Song, A. Smola, A. Gretton, K. Borgwardt, and J. Bedo. Supervised feature selection via
dependence estimation. In International Conference on Machine Learning, 2007.

[6] P. Mitra, C. A. Murthy, and S. K. Pal. Unsupervised feature selection using feature similarity.
IEEE Transactions on Pattern Analysis and Machine Intelligence, 24:301–312, 2002.

[7] Kambhatla, N. and Leen, T. (1997). Dimension Reduction by Local Principal Component
Analysis. Neural Computation, 9(7), pp.1493-1516.

[8] Ding, C. and He X. K-means Clustering via Principal Component Analysis. ICML Procee-
dings of the twenty-first international conference on Machine learning, 29-37, 2004.

[9] Jolliffe, I. (2002). Principal component analysis. New York: Springer-Verlag.

[10] Ng, A., Principle Component Analysis, Lecture Notes(Stanford Univ.), 2014.

[11] Z. Zhao and H. Liu. Spectral feature selection for supervised and unsupervised learning. In
ICML ’07: Proceedings of the 24th International Conference on Machine Learning, pages
1151–1157, New York, 2007. ACM.

[12] Chung, F. (1997). Spectral graph theory. AMS.

[13] Andrew Y. Ng, Michael I. Jordan, and Yair Weiss. On spectral clustering: Analysis and an
algorithm. In Avances in Neural information Processing Systems, pages 849-856. MIT Press,
2001.

[14] Shi, J., and Malik, J. (1997). Normalized cuts and image segmentation. CVPR.

[15] S. Lloyd. Least squares quantization in PCM. IEEE Transactions on Information Theory,
28(2):129–137, 1982.

[16] Boutsidis, C., Drineas, P. and Mahoney, M. Unsupervised Feature Selection for the k-means
Clustering Problem. Advances in Neural Information Processing Systems 22, 2009.

47
[17] J. MacQueen. Some methods for classification and analysis of multivariate observations. In
proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability,
volume 1, pages 281–297, Berkeley, CA, USA, 1967.

[18] Manning, C., Raghavan, P. and Schutze, H. (2008). Introduction to information retrieval. New
York: Cambridge University Press.

[19] A. K. Jain, M. N. Murty, and P. J. Flynn. Data clustering: A review. ACM Computing Surveys
(CSUR), 31(3):264–323, 1999.

[20] Ester, M., Kriegel, H.-P., Sander, J., and Xu, X. 1996. A density-based algorithm for dis-
covering clusters in large spatial databases with noise. Proc. 2nd Int. Conf. on Knowledge
Discovery and Data Mining. Portland, OR, pp. 226-231.

48

Anda mungkin juga menyukai