1
)
2
+ (1
2
1
2
)
2
+ + (1
M
1
M
)
2
(4)
donde - es el porcentaje de error medido sobre ' datos de validacin,
1
i
son los resultados obtenidos con el modelo y 1
i
son los resultados
esperados, tomados del conjunto de datos de validacin. En ambos casos,
se espera un valor de - cercano a cero.
Es tambin importante evaluar la calidad y validez del modelo dentro del
contexto en el que se va a utilizar. Para el caso del presente trabajo se pueden
utilizar las siguientes tcnicas de evaluacin e interpretacin del modelo:
Matriz de Confusin: Es una matriz en la cual aparecen en los en-
cabezados de la y de columna, cada una de las clases consideradas. La
matriz relaciona los casos en que se ha predicho una clase y se ha obtenido
bien sea la clase correcta u otra clase. Se espera por ejemplo en el caso de
una clasicacin perfecta, que los valores se encuentren nicamente sobre
la diagonal de la matriz de confusin.
Matriz de Costes: Es una matriz de confusin donde se dispone adems
del costo de cada error de clasicacin y de cada acierto.
El modelo obtenido debe cumplir las caractersticas indicadas al comienzo
de la seccin 1.3.
Fase 4: Aplicacin del modelo obtenido. El trabajo de obtener el modelo
se ve justicado nalmente si ste de aplica en la solucin de problemas. Se
requiere o bien que un analista haga las recomendaciones necesarias segn los
datos obtenidos a partir del modelo, o para ser incorporado en otras herramien-
tas, tales como las herramientas de BI.
26
Figura 5: Fases de la metodologa CRISP-DM (tomado de [15])
1.3.2. Metodologas para Realizar MD
Con el pasar del tiempo la MD toma bastante fuerza y son muchas las
personas que cada da investigan y tratan de implementar nuevas herramientas,
metodologas y tcnicas de MD en diversos campos. Es por sto que actualmente
se dispone de diferentes metodologas que orientan y guan los pasos para realizar
MD.
Dentro de las principales metodologas se encuentran principalmente:
SEMMA (Sample, Explore, Modify, Model, Assess),
DMAMC (Denir, Medir, Analizar, Mejorar, Controlar) y
CRISP-DM (Cross Industry Standard Process for Data Mining).
Para muchas aplicaciones se considera que CRISP-DM es una buena metodologa,
que adems es la ms usada actualmente [14]. Esta metodologa consiste en una
serie de pasos iterativos que se observan en la gura 5.
El xito de aplicar esta metodologa est en comprender todas sus fases y
etapas, con el n de que sean utilizadas de manera natural durante el desarrollo
de un proyecto.
1. Comprensin del negocio (Business Understanding)
En esta fase se identica el problema a resolver, y se debe justicar el uso
de MD para resolverlo. Tambin se hace una evaluacin de la situacin,
27
tanto en trminos del negocio como de MD, se jan los objetivos y se
genera un plan del proyecto. Se enumeran a continuacin:
a) Se establecen los objetivos del negocio (Contexto inicial, objetivos y
criterios de xito).
b) Se evala la situacin (Inventario de recursos, requerimientos, supuestos,
terminologas propias del negocio,. . . )
c) Se establecen los objetivos de la MD (tanto los objetivos como los
criterios de xito)
d) Se genera del plan del proyecto (determinacin del plan, la herra-
mientas, el equipo y las tcnicas)
2. Comprensin de los datos (Data Understanding)
En esta fase se busca la familiaridad y conocimiento de los datos teniendo
en cuenta los objetivos del negocio. Las actividades que se realizan son:
a) Recopilacin inicial de datos.
b) Descripcin de los datos.
c) Exploracin de los datos.
d) Vericacin de calidad de los datos.
3. Preparacin de los datos (Data Preparation)
Esta fase deja los datos listos para la aplicacin de DM, es decir se limpian,
se transforman y dependiendo de los requerimientos de la herramienta a
utilizar, se escalan, normalizan o estandarizan. La mayora de los autores
coinciden en describir esta fase con las siguientes actividades:
a) Seleccionar
b) Limpiar
c) Estructurar
d) Integrar
e) Formatear.
4. Modelado (Modelling)
En esta fase primero se selecciona la tcnica de MD ms adecuada para los
datos preparados en la fase anterior. Una parte importante es disear un
plan para probar la calidad y validez del modelo construido, para esto se
dividen los datos en dos conjuntos, uno de entrenamiento y otro de prueba
o validacin. Luego de esto se construye el modelo y se evala de acuerdo
a los criterios de xito preestablecidos para el problema particular que se
est resolviendo. Las actividades son las siguientes:
a) Seleccin de la tcnica de modelado.
28
b) Diseo de la evaluacin.
c) Construccin del modelo.
d) Evaluacin del modelo.
5. Evaluacin (Evaluation)
En esta fase se hace la evaluacin del modelo en relacin a los objetivos del
negocio y busca determinar si es aconsejable probar el modelo o determinar
si hay alguna razn de negocio para el cual, el modelo es deciente, se
revisa el modelo completo para identicar cualquier elemento que pueda
ser mejorado y se determinan los prximos pasos para mejorar.
a) Evaluacin de resultados.
b) Revisar el proceso.
c) Establecimiento de los siguientes pasos o acciones.
6. Despliegue o Implementacin (deployment).
Por ltimo en esta fase se planica la estrategia para la implementacin
de los resultados, integrandolos en los procesos de toma de decisiones de la
organizacin, se debe monitorear la aplicacin de los modelos. Por ltimo
se debe generar un informe de los resultados del proyecto y se revisa para
corregir y repontenciar el proyecto.
a) Planicacin de despliegue
b) Planicacin de la monitorizacin y del mantenimiento
c) Generacin de informe nal
d) Revisin del proyecto
Como muchas metodologas de desarrollo de productos o de software, estos
pasos no son lineales, sino conforman ciclos en los cuales se puede evolucionar
y mejoerar con base en las experiencias aprendidas, tal como se observa en la
gura 6.
1.4. Inteligencia Articial (IA)
La Inteligencia Articial requiere una presentacin ms extensa. Las mlti-
ples aplicaciones de la inteligencia articial (IA) hacen que por s misma sea un
tema fundamental para abordar desde cualquier campo de las ciencias. Desde
el punto de vista tecnolgico la IA ha demostrado que las posibilidades de uti-
lizacin en la solucin de diversos problemas son casi innitas. El procesamiento
de seales, anlisis de imagen, MD y muchas otras nuevas ramas donde se ge-
nera conocimiento ponen en prctica y aprovechan todas las herramientas de
la IA.
Existen maneras muy distintas de entender y denir la IA, de aqui que no
exista un consenso que permita una denicin nica de lo que es IA. Es claro que
29
Figura 6: Iteraciones en el proceso de extraccin de conocimiento en una Orga-
nizacin. (tomado de [15])
diversas ramas han aportado a su desarrollo. Por ejemplo, la losofa plantea el
funcionamiento de la mente humana para determinar una accin, la psicologa
describe al humano como una mquina que procesa informacin, las matemti-
cas aportan un sistema lgico y una algoritmia que permite manipular la infor-
macin. Asi que la IA eclecticamente tiene bastantes aproximaciones tericas
para realizar sus labores prcticas, que son a la nal las que ms interesan a la
persona comn.
Cuando alguien se pregunta Qu es la IA? la mayoria de autores concuerda
en dividir los enfoques de IA en cuatro grandes grupos. Revisando una de la
obras mas importantes que se han escrito sobre IA [5] se tiene que la IA trata
de:
1. Sistemas que actan como humanos.
2. Sistemas que actan racionalmente.
3. Sistemas que piensan como humanos.
4. Sistemas que piensan racionalmente.
Con la implementacin de los transistores, esta tecnologa ha permitido la
creacin de mquinas que sorprenderan al mismo Julio Verne, por su capacidad
de desarrollar tareas y su velocidad al ejecutarlas. Pero es aqu justo donde est
trazada esta franja de separacin entre las mquinas y los humanos, donde se ob-
servan todos los esfuerzos de los fabricantes y diseadores computacionales que
30
apuntan a desarrollar mquinas capaces de igualar el proceso de funcionamien-
to humano, no solo en la parte fsica sino a nivel intelectual. La IA se base
en el concepto de agente inteligente, que es una entidad capaz de percibir su
entorno, procesar tales percepciones y responder o actuar en su entorno de ma-
nera racional, es decir, de manera correcta y tendiendo a maximizar un resultado
esperado. Este campo de desarrollo se denomina Inteligencia Articial (IA).
Los sistemas basados en IA deben tener si no todas, la mayora de las si-
guientes caractersticas [3]:
1. Capacidad para aprender nuevos problemas e incrementar normas de solu-
cin.
2. Capacidad de adaptacin en lnea y en tiempo real.
3. Ser capaz de analizar condiciones en trminos de comportamiento, el error
y el xito.
4. Aprender y mejorar a travs de la interaccin con el medio ambiente (rea-
lizacin).
5. Aprender rpidamente de grandes cantidades de datos.
6. Preferiblemente deben estas basados en memoria de almacenamiento ma-
sivo y la recuperacin de dicha capacidad.
Las herramientas que utilizan IA son muy variadas. Se clasican de manera
general en:
1. Herramientas de IA de aprendizaje subsimblico (o de seales).
Este tipo de herramientas de IA aprenden a partir de seales, no de infor-
macin estructurada de manera compleja. La herramienta recibe seales o
valores numricos de entrada, a las cuales les realiza algn procedimiento
computacional y matemtico de transformacin, para obtener la respues-
ta deseada. Dentro de este grupo se encuentran por ejemplo las Redes
Neuronales Articiales (RNA).
2. Herramientas de IA de aprendizaje simblico (o basado en el conocimien-
to).
Este tipo de herramientas de IA aprenden con base en informacin estruc-
turada, conocida como base de conocimientos y base de reglas. Mediante
la combinacin de ambas y mediante la aplicacin de reglas de inferencia,
se deducen las conclusiones buscadas.
1.4.1. La Neurona Articial
Uno de los retos ms importantes a los que se enfrenta el ser humano de
nuestra generacin es el de la construccin de sistemas inteligentes, en su afn
de conseguir este propsito aparecen las redes neuronales articiales. Desde el
31
Figura 7: Neurona biolgica simplicada (Tomado de [16])
punto de vista biolgico las RNA son un modelo matemtico acerca del fun-
cionamiento del cerebro. "Los sencillos elementos de clculo aritmtico equiva-
len a las neuronas -clulas que procesan la informacin en el cerebro- y la red
en general equivale a un conjunto de neuronas conectadas entre s"[5].
Para la raza humana sigue siendo un misterio el funcionamiento del cerebro
humano y como se genera el pensamiento, sin embargo aos y aos de inves-
tigacin han dado ideas sobre el accionar del mismo. Si se quieren reproducir
las acciones del cerebro humano, se debe tener la idea de como funciona. Una
explicacin sencilla y clara se encuentra en [5]:
"Sabemos que la neurona, o clula nerviosa, es la unidad fun-
cional bsica de los tejidos del sistema nervioso, incluido el cerebro.
Las neuronas estn formadas por el cuerpo de la clula, o soma,
en donde se aloja el ncleo de la clula. Del cuerpo de la clula
salen ramicaciones de diversas bras conocidas como dendritas y
sale tambin una bra ms larga denominada axn. Las dendritas se
ramican tejiendo una tupida red alrededor de la clula, mientras el
axn se extiende un buen tramo: por lo general, un centmetro (100
veces el dimetro del cuerpo de la clula) y, en casos extremos, hasta
un metro. nalmente, el axn tambin se ramica en lamentos y
sublamentos mediante los que establece conexin con las dendritas
y los cuerpos de las clulas de otras neuronas. A la unin o conexin
se le conoce como sinapsis. Cada neurona establece sinapsis desde
con una docena de otras neuronas hasta con cientos de miles de otras
de ellas"
2
.
En la gura 7 se muestran las partes de una neurona biolgica.
2
Isasi, P.; Galvn, I. M. Redes de Neuronas Articiales. Pearson Educacin, 2004.
32
Figura 8: Neurona Articial tpica.
La neurona articial se ha diseado como una abstraccin de la neurona
biolgica y se muestra en la gura 8. La gura representa la neurona i que
recibe entradas Sus partes principales son:
1. Las entradas r
i
, que son puntos por los que se reciben los datos prove-
nientes del entorno o bien de otras neuronas. En una neurona biolgica
corresponden a las dendritas. En el modelo se considera el vector de :
entradas
x = (r
1
, r
2
, ...r
n
)
2. La salida j
i
. En la neurona biolgica corresponde al axn.
3. Al igual que en una neurona biolgica, la neurona articial debe permitir
establecer conexiones (sinpsis) entre las entradas (dendritas) de una neu-
rona y la salida (axn) de otra. Esta conexin se representa con una lnea
que tiene asociado un valor llamado peso sinpticos n
ij
. Ntese que el
primer subndice indica la neurona a la que llega la conexin, mientras que
el segundo subndice indica de donde viene la conexin. El peso representa
el factor de importancia de la conexin en la determinacin del valor de
salida. El valor n
ij
, que es un nmero real, se modica durante el entre-
namiento de la red neuronal y es la variable que almacenar la infomacin
que indicar que la red ha aprendido algo y por tanto que sirva para un
propsito u otro.
4. En la gura 8 tambin se observa una entrada especial, llamada umbral,
con un valor jo que puede ser 1 o 1, y con un peso asociado llamado
n
0
o 0
i
dependiendo del autor. El valor del umbral se ajusta igual que
cualquier otro peso durante el proceso de entrenamiento.
33
5. Una regla de propagacin. Para un cierto valor de las entradas r
i
y
los pesos sinpticos asociados n
ij
, se raliza algun tipo de operacin para
obtener el valor del potencial post-sinptico. Este valor es funcin de las
entradas y los pesos. Una de las operaciones mas comunes es realizar la
suma ponderada, que no es otra cosa que la sumatoria de las entradas,
pero teniendo en cuenta la importancia de cada una (el peso sinptico
asociado). Luego:
/
i
=
j
n
ij
r
j
+n
0
(5)
donde t indica que es la salida de la regla de propagacin en un instante
determinado t.
6. Una funcin de activacin o: Luego de realizar la suma ponderada, se
aplica al resultado la funcin de activacin, que se escoge de tal manera
que permita obtener la forma deseada para el valor de salida.
A partir de la gura 8 se observa que
j
i
= o(/
i
)
= o
_
_
j
n
ij
r
j
+n
0
_
_
(6)
= o (w x) (7)
= o
_
w
T
x
_
(8)
donde las ltimas dos ecuaciones estn en notacin vectorial.
El aprendizaje de una red neuronal consiste en el ajuste del vector de
pesos w de acuerdo con las salidas deseadas.
Es necesario especicar la funcin de activacin o. Las funciones ms
usuales se observan en la gura 9.
Son de especial importancia el conjunto de funciones llamado funciones sig-
moideas. En general tienen la forma de S indicada en el rengln correspondiente
de la gura 9, donde la grca corresponde a la funcin tanh (r). Las funciones
sigmoideas comprenden la tangente hiperblica, la funcin logstica, la arcotan-
gente, la funcin error, la funcin de Gompertz, y ciertas funciones algebraicas.
Dentro de las sigmoideas es justamente la funcin sigmoide una de las ms
importantes, por su rango (0, 1) , y se observa en la gura 10.
Con estas especicaciones, se puede ahora explicar cmo funciona la neurona.
Se supone en el modelo de neurona ms simple, que corresponde a la funcin
de activacin escaln, tambin llamada limitador duro. En este caso, la salida
puede tomar solo dos valores 1 y +1 donde la salida viene determinada por
o(/
i
) =
_
1
+1
si /
i
< n
0
si /
i
_ n
0
con n
0
= 0 (9)
34
Figura 9: Funciones de activacin ms importantes.
Entonces, para la funcin sigmoidea, se tiene que
j
i
=
_
1
1 +c
hi
_
con (10)
/
i
=
j
n
ij
r
j
+n
0
y para el segundo caso de la funcin sigmoidea
j
i
= tanh(/
i
) =
_
c
hi
c
hi
c
hi
+c
hi
_
con (11)
/
i
=
j
n
ij
r
j
+n
0
La expresin de la ecuacin que almacena la neurona en virtud del vector de
35
Figura 10: Funcin sigmoide
pesos wes el modelo que representa en mayor o menor grado el comportamiento
del vector de salida y con respecto al vector de entradas x.
Entonces, una neurona articial es un procesador elemental. Se encarga de
procesar un vector de : entradas para producir un nico valor de salida j. El
nivel de activacin depende de las entradas recibidas y de los valores sinpticos.
Para calcular el estado de activacin se ha de calcular en primer lugar la entrada
total a la clula. Este valor se clcula como la suma de todas las entradas
ponderadas por ciertos valores dados a la entrada.
1.4.2. Redes Neuronales Articiales (RNA) y Algoritmo de Apren-
dizaje
La capacidad de modelar funciones ms complejas aumenta grandemente
cuando la neurona no trabaja sola, sino interconectada con otras neuronas,
formando Redes Neuronales Articiales (RNA), tal como se observa de manera
simplicada en la gura 11.
La red ms simple se llama perceptron multicapa. Esta red dene una
relacin entre las variables de entrada y las variables de salida. Esta relacin
se obtiene propagando hacia adelante los valores de las variables de entrada.
Cada neurona procesa la informacin recibida por sus entradas y produce una
respuesta o activacin que se propaga, a travs de las conexiones correspondien-
tes, hacia las neuronas de la siguiente capa.
Sea un perceptron multicapa con C capas, de las cuales una es la capa de
entrada, una la capa de salida y C 2 capas ocultas. Se tienen :
c
neuronas en
la capa c, con c = 1, 2, 3, ..., C. Sea \
c
= (n
c
ij
) la matriz de pesos asociada a
las conexiones de la capa c a la capa c + 1 para c = 1, 2, 3, ..., C 1, donde n
c
ij
representa el peso de la conexin de la neurona i de la capa c a la neurona , de
la capa c + 1. Sea l
c
= (n
c
i
) el vector de umbrales de las neuronas de la capa
c para c = 2, 3, ..., C. Se denota a
c
i
a la activacin de la neurona i de la capa c;
estas activaciones se calculan del siguiente modo:
36
Figura 11: Esquema simplicado de una RNA (Tomado de [17])
1. Entrada (a
1
i
). Estas neuronas transmiten hacia la red las seales recibidas
del exterior
a
1
i
= r
i
jara i = 1, 2, 3, ..:
1
(12)
Donde A = (r
1
, r
2
, ..., r
n
) representa el vector de enntrada a la red.
2. Activacin de las neuronas de la capa oculta c (a
c
i
) : Las neuronas ocultas
procesan la informacin recibida aplicando la funcin de activacin o a
la suma de los producto de las activaciones que recibe por sus correspon-
dientes pesos:
a
c
i
= o
_
_
nc1
j=1
n
c1
ji
a
c1
j
+n
c
i
_
_
(13)
Para i = 1, 2, 3, ..., :
c
y c = 2, 3, ..., C 1
3. Salida (a
C
i
) : Al igual que en las capas ocultas, la activacin de estas
neuronas viene dada por la funcin de activacin )
j
i
= a
C
i
= o
_
_
n
C1
j=1
n
C1
ji
a
C1
j
+n
C
i
_
_
(14)
para i = 1, 2, 3, ..., :
c
donde 1 = (j
1
, j
2
, j
3
, ..., j
n
C
) es el vector salida de la
red.
Para el perceptron multicapa las funciones de activacin mas usadas son la
funcin sigmoidal:
o(/) =
1
1 +c
h
(15)
y la funcin tangente hiperblica:
o(/) =
1 c
h
1 +c
h
(16)
37
Estas funciones tienen una forma similar pero se diferencian en que la sigmoidal
tiene un rango continuo de valores dentro de los intervalos [0, 1] mientras que la
tangente hiperblica tiene un rango contnuo en el intervalo [1, 1].
Ahora se necesita examinar cmo funciona el perceptron multicapa en sus
capas ocultas, es decir lo interesante de la red neuronal es que dado un conjunto
de datos ella puede aprender a tratarlos, esto es comunmente llamado regla o
algoritmo de aprendizaje. Como el objetivo es que la salida de la red sea lo ms
prximo posible a la salida deseada, el aprendizaje de la red se formula como
un problema de minimizacin:
'i:
w
1 (17)
1 =
1
n=1
c(:) (18)
c(:) =
1
2
nc
i=1
(:
i
(:) j
i
(:))
2
(19)
Donde 1 es la funcin de error que evala las salidas de la red y las detec-
tadas, \ es el conjunto de parametros de la red, es el nmero de patrones o
muestras y c(:) es el error cometido por la red para el patron :. Adems
1 (:) = (j
1
(:), j
2
(:), j
3
(:), ..., j
n
C
(:)) (20)
es el vector de salida obtenida mediante la red y
o(:) = (:
1
(:), :
2
(:), :
3
(:), ..., :
n
C
(:)) (21)
es el vector de salida deseada, segn los dato originales. Entonces si \ es
un mnimo de la funcin error 1, en este punto el error es lo ms prximo a
cero, alcanzado la meta de aprendizaje.
Se sabe que la red debe entrenarse para minimizar el error total, segn la
ecuacion 18. Para esto el procedimiento mas usado se basa en mtodos del
gradiente estocstico, los cuales se basan en una sucesiva minimizacin de los
errores para cada patrn c(:), en lugar de minimizar el error total
n(:) = n(: 1) c
0c(:)
0n
(22)
donde c como la razn o tasa de aprendizaje, y determina qu tan grande es la
variacin en cada paso de entrenamiento.
Para el aprendizaje de la red existen varios algoritmos que segn la he-
rramienta computacional que se utilice varian, ademas de existir diversas varia-
ciones, en la implementacin que se realiz se utiliz el algoritmo RPROP(Resilient
backPROPagation).
El algoritmo RPROP clcula el cambio de los pesos en forma separada, es
guiado por la primera derivada de ), en este caso; ) es una medida de la dife-
rencia entre la salida arrojada por la red neuronal y el valor esperado. RPROP
38
utiliza parmetros independientes que controlan la velocidad con que se recorre
la funcin objetivo para cada uno de los pesos de la red neuronal, al no verse
afectado por la saturacin de la red neuronal converge mas rpidamente que
otros algoritmos.
Un perceptrn multicapa busca una funcin j
t
que se construye en funcin
de sus valores pasados, j
t1
, j
t2
, ..., j
tP
j
t
= ,
+
H
h=1
,
h
q
_
1
2o
1
y
_
c
;h
+
P
p=1
c
p;h
j
tp
__
+-
t
(23)
Donde los parmetros = [,
, ,
h
, c
;h
, c
p;h
] , / = 1...H, j = 1...1 son
estimados usando el principio de mxima verosimilitud de los residuales, el cual
equivale a la minimizacin de una funcin de costo que es denida usualmente
como error cuadrtico medio. Esta ecuacin equivale a un modelo estadstico no
paramtrico de regresin no lineal, -
t
sigue una distribucin normal con media
cero y varianza desconocida o
2
, H representa el nmero de neuronas en la capa
oculta, 1 es el nmero de rezagos de la variable dependiente y q es la funcin
de activacin de las neuronas de la capa oculta.
El algoritmo RPROP busca encontrar los valores del vector de parmetros
, de forma que se minimice la diferencia entre los valores reales j
t
y los valores
j
t
.
La actualizacin de los pesos, viene dada por
n
ij
(t) = c(t):iq:o(\
wi;j(t)
1) (24)
La utilizacin del signo del gradiente en la actualizacin de los pesos supone
un ahorro en la carga computacional. Por otro lado, la constante de adaptacin
viene dada por
c(t) =
_
mn(c(t)n, c
max
) (\
wi;j(t)
1)(\
wi;j(t1)
1) 0
max(c(t)d, c
mn
) (\
wi;j(t)
1)(\
wi;j(t1)
1) < 0
(25)
con n 1 y d < 1.
1.4.3. Series de Tiempo
Para predecir el valor de un indicador se realiza una inferencia, a partir de
ciertos datos para obtener un valor de lo que ocurrir en el futuro, este pronstico
dependera de las variables tanto internas como externas. Actualmente existen
diversas tcnicas para predecir, entre las que se encuentran: Los modelos de
pronstico causales y los modelos de series de tiempo.
Los modelos de pronstico causales parten del supuesto de que el grado de in-
uencia de las variables que afectan al comportamiento del mercado permanece
estable, para luego construir un modelo que relacione ese comportamiento con
39
las variables que se estima que son las causantes de los cambios que se observan
en el mercado
3
.
Los modelos de series de tiempo se reeren a la medicin de valores de una
variable en el tiempo a intervalos espaciados uniformemente. El objetivo de la
identicacin de la informacin histrica es determinar un patrn bsico en su
comportamiento, que posibilite la proyeccin futura de la variable deseada
4
.
La series temporales tratan de modelar el comportamiento de un conjunto
de datos a travs del tiempo, con el objeto de predecir estos valores, teniendo
gran utilidad en los indicadores econmicos. El modelo se puede plantear como
1
t
= )(1
t1
, 1
t2
, ...)
donde 1
t
es el comportamiento de la variable temporal.
Si se graca en un plano cartesiano este comportamiento respecto al tiempo,
se encuentran 4 componentes principales:
1. Tendencia (T
t
): Es la direccin que toma la curva en un intervalo de
tiempo y se representa por la funcin que mejor se adecue a dicha curva.
2. Estacional (o
t
): Sucesos recurrentes en un determinado periodo de tiem-
po.
3. Cclica (C
t
): Se reere a oscilaciones de larga duracin, por ejemplo pe-
riodos mayores a un ao, segn nuestro objeto de estudio.
4. Aleatoria (1
t
): Movimientos de la serie de tiempo por causa externas.
El modelo en que se apoya el anlisis clsico de serie de tiempo se basa
en el supuesto de que, el valor de la variable esta determinado por los cuatro
componentes tienen una relacin multiplicativa. Entonces el valor de serie de
tiempo observado est dado por:
1
t
= T
t
C
t
o
t
1
t
(26)
En la realizacin del presente proyecto se utilizar el anlisis de series de
tiempo clsico y se contrastar con el modelo obtenido con herramientas de MD
que generan modelos de pronstico causales, apoyadas por tcnicas de IA.
3
Operations Management. Derevitsiotis, Kostas. Mc-Graw Hill, 1981.
4
http://www.itba.edu.ar/nuevo/archivos/secciones/art_revistas_22.pdf
40
2. Prediccin de Indicadores de Gestin
En este captulo se presentar la aplicacin de este conjunto de tcnicas y
conceptos matemticos en la solucin de un problema empresarial: cmo predecir
el comportamiento de un indicador de gestin?
En la seccin 1.2 se haba hablado de la importancia de la prediccin para
determinar cursos de accin en la direccin de una empresa. Una herramienta
clsica que se dispone es el anlisis de series de tiempo. Las herramientas ms
recientes incluyen tcnicas propias de la MD basadas en IA. En la primera parte
de este captulo se presenta primero la prediccin de indicadores utilizando la
tcnica clsica de series de tiempo. En la seccin siguiente se presenta la solucin
utilizando Minera de Datos basada en Redes Neuronales Articiales. Luego se
comparan los resultados obtenidos mediante la aplicacin de estas dos tcnicas.
2.1. Prediccin con Series de Tiempo
Para le prediccin utilizando series de tiempo, se tiene en cuenta primordial-
mente el atributo que se desea predecir, que es el EBIT. Los atributos Perodo
y Mes se utilizan como ndices para relacionar el tiempo.
El comportamiento del EBIT se observa en la gura 12, que incluye la tenden-
cia, la componente estacional, la componente cclica y la componente aleatoria.
Figura 12: Comportamiento temporal del EBIT.
41
2.1.1. Componente de Tendencia
La componente de tendencia
T
t
= /
1
t +/
0
(27)
donde T
t
es la tendencia en el valor del EBIT, t es el perodo en el cual se desea
conocer la tendencia y /
1
, /
0
don los parmetros de la recta correspondientes a
pendiente e intercepto respectivamente. De acuerdo con la notacin especca
que se ha adoptado para este problema, los parmetros se calculan con las
siguientes expresiones:
/
1
=
t1
t
(
1
t
)
:
t
2
(
t)
2
:
(28)
/
0
=
1 /
1
t (29)
donde:
t : Perodo
1
t
: Valor del EBIT en el perodo t
: : nmero de perodos.
t : Promedio de valores de t
La expresin para la lnea de tendencia obtenida segn los datos iniciales
del EBIT se observa en la gura 13 y corresponde por tanto a la expresin:
T(t) = 2561,94t + 242417,04 (30)
2.1.2. Componente Estacional y Aleatoria
Para calcular la componente estacional y aleatoria se requieren los clculos.
Para el caso presente se calcula con base en 1 entrada mensual. Por tanto se
toman 12 valores para cada clculo. sto corresponde a la expresin:
1'
j
=
j+5
i=j6
1
i
12
para 7 _ , _ 12 (31)
Lo cual permite obtener 3812 = 26 promedios mviles, mientras que el prome-
dio mvil centrado se obtiene con la expresin:
1'C
k
=
1'
j
+1'
j+1
2
para / = , + 1 (32)
con lo que se obtienen 25 promedios mviles centrados, y su grca se observa
en la gura 13.
42
Figura 13: Tendencia y Promedios mviles centrados para el EBIT.
Con base en estos datos se puede calcular ahora el ndice de estacionalidad
o
t
para cada mes:
o
t
= Pr o:cdio(
1
p
1'C
) (33)
teniendo en cuenta utilizar los valores de los respectivos meses, es decir, si se
calcula para el mes 5, se utilizan los 1
p
y 1'C de los meses 5 en los periodos
que se tengan.
Donde los valores obtenidos para cada mes se encuentran en la gura 14.
Con base en estos valores se puede calcular el EBIT desestacionalizado 1
t
,.
Cada entrada se calcula mediante la siguiente expresin:
1
t
=
1
t
o
t
2.1.3. Pronstico del EBIT mediante la Tendencia y el ndice de
Estacionalidad
El pronstico del EBIT se realiza mediante la siguiente expresin:
1
p
= T
t
o
t
1
t
= (/
1
t +/
0
) o
t
= (1755,70t + 261713, 80) o
t
43
Figura 14: Valores de o
t
para cada mes.
donde t es el perodo en el cual se desea predecir el EBIT y o
t
es el ndice
estacional correspondiente al mes en este caso.
Los valores que se pueden predecir para los meses 39 al 48 son:
En la anterior tabla se muestran los resultados originales del EBIT y la
prediccin obtenida con el modelo de series de tiempo.
El comportamiento de la prediccin se muestran en la gura 15.
El coeciente de correlacin para este ajuste es de r
2
= 0, 4868. Este no es
un valor aceptable, que no permite precedir adecuadamente valores futuros de la
variable, tal como se observa en la gura 16. El valor de r
2
puede mejorarse cal-
culando el componente cclico del pronstico, pero no se realizar en el presente
trabajo.
44
Figura 15: EBIT vs Prediccin Series
45
Figura 16: Valores para EBIT y Prediccin EBIT (series)
2.2. Modelo de Prediccin con Redes Neuronales
A continuacin se buscar la obtencin de un buen modelo que permita
predecir el conmportamiento de los Indicadores de Gestin. La metodologa a
utilizar ser la metodologa CRISP-DM, que se especic en la seccin 1.3.2.
2.2.1. Comprensin del Negocio
La fase de comprensin del negocio coincide con buena parte de los que se
ha expuesto en las secciones 1.1 y 1.2. Adems, se ha planteado ya desde la
introduccin, que el objetivo del negocio es el de la prediccin de un indicador
de gestin de inters para la Organizacin que suminstr los datos, que es el
EBIT y que ha sido descrito con anterioridad.
2.2.2. Preparacin de los Datos (Preprocesamiento)
Esta parte del proyecto se encarga de tomar los datos y generar una vista
minable, es decir el grupo de datos a los cuales se les va a aplicar las tcnicas de
MD, para esto como se vio en el anterior apartado se sigue un estricto proceso
bajo la metodologa CRISP-DM.
En la terminologa de la Ingeniera de Sistemas es comn el uso de la expre-
sin preparacin de datos para estas actividades, mientras que en la terminologa
matemtica es ms utilizado el trmino preprocesamiento, que enfatiza en las
acciones de transformacin de valores nominales o numricos.
Extraccin y Limpieza de Datos Se dispone de una BD correspondiente
a la empresa y se procede a un examen previo de los datos. Se examinan los
46
atributos, y guiados por un experto en la operacin de la empresa se determi-
na cuales son los atributos relevantes para el problema en cuestin. Luego se
procede a realizar las siguientes actividades:
1. Se interpreta el nombre de los atributos, con el n de lograr una compresin
de su signicado y por tanto de su posible relevancia o irrelevancia para
el problema.
Una vez se han descrito los atributos, se han organizado en dos grupos(ver
gura 17):
a) Variables que representan gastos o egresos.
b) Variables que representan ganancias o ingresos.
2. Se determina el tipo de cada uno de los atributos.
a) En general se encontr que la mayora de los datos se pueden repre-
sentar con variables de tipo numrico y contnuo, representando
cantidades de dinero que entran o salen de las cuentas de la empresa.
b) La variable que representa el perodo examinado es de tipo entero
c) Tan solo las variables que representan el mes son de tipo nominal,
y como se ver luego, sern numerizadas para que sean fcilmente
utilizadas por la herramienta de MD.
3. Se determina el rango de valores aceptable para cada atributo.
a) El experto determin que para las variables continuas consideradas,
no es posible un valor negativo y por lo general el valor 0 no tendra
sentido dentro de la operacin normal de la empresa, luego en general
las variables continuas tienen asignado un valor R
+
.
b) La variable entera que representa el perodo es de tipo ndice y por
tanto es un entero positivo.
c) La variable mes que es de tipo nominal, sufrir un proceso de nume-
rizacin, con valores obviamente entre 1 y 12.
4. Se determina el tipo de unidades de medicin para cada atributo.
a) En general todas las variables aqu presentadas y que miden la ope-
racin de la Organizacin vienen en miles$.
b) La variable perodo y mes tienen obviamente la unidad mes.
5. Eliminacin de Atributos no relevantes.
La BD queda con 28 campos o atributos. Aunque la BD original contaba
con 38 campos, algunos de ellos mostraron ser claramente irrelevantes para
el problema segn el experto de la empresa. El resultado de este examen se
encuentra en la tabla de la gura 17. En esta tabla se observa el resumen
de las conclusiones de los pasos anteriores.
47
6. Seleccin de Registros tiles.
Con base en los resultados de los pasos anteriores, se tiene un primer
criterio para examinar la utilidad y validez de los registros disponibles.
El examen de la BD muestra que no todos los registros son tiles, por
diferentes causas:
a) Contienen valores inconsistentes: Al aplicar la lgica del negocio,
se encuentra que el valor del registro particular es claramente errado
y su valor es inaceptable.
b) Contienen valores nulos (NULL): Son registros que no se llenaron por
algn motivo. Si es posible llenarlos con el valor correcto, se puede
actualizar. Pero en muchos casos es necesario eliminarlos de la vista
minable.
c) Contienen valores fuera de rango: El valor de un registro particular
excede el los valores usuales permisibles determinados por el experto.
Desde el punto de vista de la estadstica puede corresponder a datos
atpicos.
Despus del anlisis de la BD se tiene que originalmente se disponen de
60 registros, pero de ellos es necesario descartar 12 por contener valores
nulos e inconsistentes.
Una vez se ha examinado la base de datos original, se procede a realizar cada
uno de los siguientes clculos para cada atributo:
Valor mnimo de cada atributo i:
\ a|_'i:
i
= mnA
i
(34)
Valor mximo de cada atributo A
i
:
\ a|_'ar
i
= max A
i
(35)
Promedio de cada atributo A
i
:
j
i
=
m
i=1
A
i
:
(36)
donde : es la cantidad de registros para el atributo.
Desviacin estndar de cada atributo A
i
:
o
i
=
_
m
j=1
(A
ij
j
i
)
2
:
(37)
donde :es la cantidad de datos, j
i
es la media correspondiente al ic:i:o
atributo y A
ij
es el valor del registro , del atributo i.
48
Figura 17: Atributos y alguna informacin relevante suminstrada por el experto.
El resultado de estos clculos se encuentra en la tabla de la gura 18. El
conocimiento del tipo de atributo, su rango aceptable de valores y las medidas
estadsticas mencionadas, permite identicar problemas potenciales tales como:
Datos atpicos con valores incorrectos en los registros.
Deciente distribucin de la variable objetivo.
Si se trata de un problema de clasicacin, se debe vericar la distribucin
de cada clase dentro del conjunto total de datos. Una distribucin muy
desigual genera problemas si la cantidad de patrones de entrenamiento y
vericacin es pequea, por cuanto el sistema no puede aprender correc-
tamente las diferencias de clase.
La informacin que se observa en la gura 18 corresponde a los valores
estadsticos de los datos originales, sin efectuar ninguna correccin (en caso
de que sea posible) a los registros con entradas nulas, vlidas o inconsistentes.
49
Figura 18: Informacin estadstica bsica acerca de los atributos y datos origi-
nales.
Limpieza y Construccin de Datos Se detectaron los siguientes problemas
en el conjunto original de datos:
Valores fuera de rango.
Se encontraron valores negativos en algunos atributos. Para cada atribu-
to i donde se encontraron estos valores, y de acuerdo con la recomendacin
del experto, fueron reemplazados o bien por el valor j
i
correspondiente al
atributo, segn la gura 18 o bien por el valor mnimo considerado de
la gura 17. Obviamente no se reemplazan por el valor mn(A
i
) porque
conducira al mismo u otro valor negativo.
Valores nulos o errados.
Donde se present claridad por parte del experto para llenar estos datos
con algn valor aceptable, se actualiz. Para ello se tom informacin
adicional de la misma empresa.
50
En otros registros no fue posible conseguir esa informacin, por lo cual
fueron eliminados de la vista minable.
Despus de estas actividades se obtiene que:
: = 28 (Nmero de atributos aceptados)
: = 48 (Nmero de registros vlidos)
Normalizacin Se puede llamar vista minable a los datos ya completamente
listos para aplicar la tcnica de MD escogida. El proceso de normalizacin se
realiza a la vista minable, y tiene como objetivo ubicar cada uno de los datos en
una escala adecuada. En este caso los datos estan en su mayoria expresados en
miles de pesos y alcanzan cifras relativamente grandes al comparase con otras.
Para el manejo de datos en la herramientas de IA se hace necesario que los datos
estn en un rango comn determinado.
Para el problema actual, se ha seleccionado la normalizacin mnmax,
que realiza un escalamiento lineal de los datos para que coincidan en el rango
max mn determinado. Se ha seleccionado:
mn = 0; max = 1
lo que se logra aplicando la frmula:
.
i
=
A
i
mnA
(max A mnA)
donde A
i
cada uno de los : valores de un atributo, mnA es el valor mnimo
de los A
i
correspondiente a un atributo, max A es el valor mximo de los A
i
correspondiente al mismo atributo.
Al normalizar los datos, se logra que cada una de las variables tenga la misma
ponderacin inicial al ser evaluado por la RNA.
La Vista Minable Despus del proceso de limpieza y normalizacin se
tienen : = 28 campos y : = 48 periodos, con datos normalizados dentro el
intervalo [0, 1] . Estos datos normalizados son descriptivos del negocio, tal como
lo son los dator originales.
2.2.3. Obtencin del Modelo
Para obtener un modelo del problema plantedo, de tal manera que se pueda
realizar una prediccin adecuada, se propone suministrar los datos a una red
neuronal, entrenarla con estos datos y con base en el modelo obtenido, realizar
la prediccin. La rede neuronal se implementar en una herramienta computa-
cional de tipo grco llamada KNIME, que permite una fcil implementacin
de las redes neuronales y variar los parmetros con el n de obtener el resultado
esperado.
51
Figura 19: Perceptrn multicapa en KNIME
Entonces, a la vista minable se le aplica un perceptrn multicapa (seccin
1.4.2) implementado en KNIME. Como se mencion anteriormente, la potencia
de KNIME radica en el entorno grco. En la gura 19 se ve la implementacin
del modelo de perceptron multicapa usado. Cada herramienta tiene una funcin
especica de vital importancia para el xito del modelo.
Los mdulos que se han utilizado se describen a continuacin.
Database Reader. Con esta herramienta se importa la base de datos, ya
preparada, es decir la minable, sin embargo es de resaltar que tiene herramientas
estadsticas como el mnimo, mximo, que permiten detectar problemas con los
datos y asi optimizar la obtencin de la vista minable.
Normalizer. Como su nombre lo dice es un normalizador de datos, de vital
importancia, ya que el perceptron solo admite valor en ciertos rangos, de este
modo aqui se puede realizar este proceso de transformacin de datos. La he-
rramienta tiene diferentes tipos de normalizacin y tiene la opcin de escoger a
52
cuales campos realizarlo. Como se puede observar en la gura tiene dos salidas,
una al partitioning y otra al denormalizer.
Partitioning: Lo que hace es dividir el conjunto de datos en dos; una parte
para el aprendizaje RProp MLP Learner, y otra parte se utiliza en la validacin
de resultados para la prediccin Multilayer Perceptron Predictor. Se puede ma-
nipular la cantidad de datos y la forma de elegirlos.
Perceptron Learner. Es la herramienta donde esta implementado el percep-
tron, se puede manipular el nmero de neuronas, el nmero de capas ocultas y
el nmero de iteraciones, claro esta que todo dependiendo de la mquina que
se disponga para este n y del volumen de datos. El perceptron utiliza el algo-
ritmo RPROP el cual se decribe en la seccin 1.4.2 y utiliza como funcin de
activacin la funcin lineal.
Perceptron Predictor . Recibe el modelo del RProp MLP Learner y con los
datos de validacin entrega una prediccin sobre el campo seleccionado. Esta
informacin se utiliza usualmente para vericar qu tan bueno es el modelo.
Si el comportamiento del predictor es bastante menor que el comportamiento
de la red en modo aprendizaje, entonces se dice que la red memoriza y no
generaliza. Este error es importante y se debe detectar y corregir antes de aplicar
el modelo en la realidad.
53
En la ejecucin se present el fenomeno de la memorizacin. Para corregir
este fenmeno se requiere:
Aumentar el nmero de datos, o bien
Reducir el nmero de atributos predictores.
Para el problema que se trabaj no era fcil ninguna de las dos opciones. Por
tanto se opt por ajustar parmetros de la red y realizar mltiples ejecuciones
hasta lograr el resultado mostrado, que es relativamente satisfactorio.
Desnormalizador. Los datos de prediccin que entrega el perceptron estn
normalizados. Si se quieren utilizar los datos en la prctica, se deben regresar
a su escala natural. Por esta razn se utiliza el mdulo denormalizer. ste est
conectado con el mdulo normalizer, para que aplique el mismo modelo de
normalizacin a los datos desnormalizados.
Para el caso del presente problema se aplic la expresin:
A
i
= .
i
(max A mnA + mnA) (38)
CSV Writer. El mdulo tipo Writer es una importante herramienta que
toma los datos y devuelve un archivo del tipo requerido. Para el caso de las
ejecuciones de prueba se utilizaron archivos de tipo CSV, el cual se puede ma-
nipular fcilmente para extraer la informacin.
54
KNIME permite realizar diferentes tipos de ejecuciones permitiendo la op-
cin de variar la cantidad de iteraciones y, en este caso, diferentes capas ocultas.
Para el caso de 100 iteraciones y una capa oculta, arroja los resultados que se
exponen a continuacin.
Al ejecutar la conguracin de la gura 20 junto con los datos de entre-
namiento suministrados por la empresa para los primeros 38 meses, el aplicati-
vo Knime genera un modelo a partir de dichos datos. Para generar el modelo,
Knime ejecuta el algoritmo RPROP denido anteriormente hasta que se cumpla
alguna de las condiciones de parada de la mayora de los programas de este tipo:
Que el error obtenido en la validacin del modelo sea inferior a un valor
umbral mnimo.
Que se alcance el nmero mximo de iteraciones predenidas.
En el proceso de entrenamiento es de vital importancia la particin del con-
junto de datos. Es claro que la red neuronal crea un modelo a partir de unos
datos, el cual lo debe validar, es decir, calcular el error que obtiene con el mo-
delo actual. Para ello es necesario comparar la informacin de salida con datos
reales. Las diferencias encontradas guan la direccin de los ajustes por parte
del algoritmo.
Por estas razones para poder monitorear la exactitud del modelo de la red
neuronal se implemento el perceptron que se muestra en la gura 20. KNIME
puede calcular la correlacin lineal entre las variables, en este caso EBIT y la
prediccin del EBIT que sale del perceptrn.
En cuanto al ajuste de los parmetros de la red, para el presente problema
se observ que el resultado obtenido no mejor al aumentar el nmero de capas
ocultas ni variar el nmero de neuronas por capa. Se utiliz tan solo una sola
capa oculta y una neurona por cada variable predictora.
Se calculan las correlaciones para todo el conjunto de datos (se ven en la
parte inferior de la gura 20) y para los datos de validacin (parte superior
de la misma). En otras palabras, la ejecucin de entrenamiento, junto con los
datos de entrenamiento y validacin obteniendo los siguientes resultados; para
el predictor (mdulo de correlacion lineal superior) se observa el coeciente de
correlacin r
2
= 0, 928 y para los datos totales se observa un coeciente de
correlacin r
2
= 0, 973. Como es de esperarse usualmente, el desempeo de la
red disminuye cuando se consideran solo los datos de validacin.
La red neuronal funciona como una suma de las variables por sus respectivos
pesos. Se ha congurado con diferentes capas dentro de las cuales cada neurona
tiene funcin de activacin lineal. Entonces el modelo para obtener el valor del
EBIT est dado por la ecuacin 39:
55
Figura 20: Modelo en KNIME para hallar correlaciones.
111T = 0, 8815 + 1criod 0, 1553 + 'o:t/ (39)
0, 6268 + Tra::j\Co:t + 0, 2019 + 'atcria|Co:t
+0, 8680 + 1rocc:i:qCo:t + 0,7453 + Tot'a:n)acCo:t
0, 1417 + d'/t1c:carc/ 0, 9511 + oc||i:q1rj1ic|d
+0, 7833 + oc||i:q1rjO))icc + 0, 3897 + oc||i:q1rjOt/cr
+1, 4982 + jrod1cc|oj 0, 5412 + 1rjd:i:
+0, 1748 + 1rj1nsinc:: 1, 0555 + 'a:aq&d:i:
0, 4020 + Totoc||Tcc/d:+ 0, 9033 + OjC/arg c:
0, 2449 + lti|\ aria:cc: 0, 7922 + Co::i::io::
0, 6175 + Pr o)itCo:tri/ 0, 2342 + Pr odnctCo:tri/
+0, 3408 + Oj1:co:c 0, 5774 + Gro::1rtoa|c:
0, 9633 + ct1rtoa|c: 0, 2830 + Gro::Totoa|c:
+0, 9112 + oa|c: Pr o Re /atc: + 0, 5259 + ctTotoa|c:
1, 6314 + Gro:: Pr o)it1 0, 7830 + Gro:: Pr o)it2
56
Con este modelo obtenido de la red neuronal implementada en KNIME, se
obtiene una prediccin basada en el perceptron multicapa. la siguiente tabla
muestra la comparacin entre la prediccin realizada por el modelo de Knime y
los datos originales.
57
EBIT y su prediccin con el modelo generado basado en RNA.
58
Figura 21: EBIT vs Prediccin EBIT
Para entender mejor el comportamiento del modelo, la gura 21 muestra la
tendencia de los datos.
La escala est en miles de pesos. Los datos de la correlacin muestran una
tendencia lineal, no se encuentran datos demasiado dispersos lo que se traduce
en un ajuste relativamente bueno del modelo, dada la complejidad del problema,
en el sentido que no todos los posibles factores que inuyen en el EBIT estn
all calculados.
La gura 2.2.3 muestra una comparacin de los valores, claramente se ven
las variaciones entre los datos reales y la prediccin, y que la prediccin trata
de seguir de alguna manera el comportamiento de EBIT.
59
Valores para EBIT y Prediccin EBIT (Red Neuronal) para los 48 perodos
analizados.
2.2.4. Comparacin de los Modelos RNA y Series
La importancia de todo este proceso, radica en la informacin que se pue-
da obtener a partir del modelo generado. La precisin en la prediccin de un
resultado puede generar la diferencia que hace efectivo un plan de negocios de
la organizacin. El anlisis de resultados y la interpretacin permite tomar las
decisiones adecuadas para optimizar los procesos de la organizacin.
Luego de aplicar las dos tcnicas, series de tiempo y redes neuronales, se
obtienen diferentes resultados, con los cuales se valida la veracidad y utilidad de
cada uno de los modelos comparando las predicciones obtenidas con los datos
suministrados por la organizacin.
En la gura 22 se encuentran los valores reales para el EBIT y los valo-
res obtenidos con las predicciones. En la gura se ve la precisin del modelo
utilizando perceptron multicapa, frente al clsico series de tiempo.
Los diagramas de dispersin (guras 15 y 21) muestran grcamente el com-
portamiento de cada modelo. Pero el valor numrico que mejor indica qu tan
bueno es el modelo es el coecientes de correlacin r
2
. Knime arroja resultados
para el valor
r
2
= 0, 928 (modelo RNA de Knime)
para el modelo con redes neuronales. Para la prediccin con series tempo-
rales, sin considerar el componente cclico, se obtiene:
r
2
= 0, 4868 (modelo con series de tiempo sin comp. cclico)
lo cual muestra claramente la utilidad del modelo de red. An cuando otras
medidas de error son usuales para el trabajo con series de tiempo, el uso del valor
r
2
permite comparar efectivamente el resultado de los dos modelos obtenidos.
60
Figura 22: Comparacin de valores para EBIT (Real), Prediccin EBIT (Red
Neuronal) y prediccin EBIT con series de tiempo.
61
[
62
3. Conclusiones
El desarrollo de las matemticas y de algoritmos ecientes, la evolucin de la
tecnologa en lo referente a la facilidad, costo y rapidez de la computacin, y la
disponibilidad de enormes cantidades de datos que se procesan y almacenan en
los sistemas de informacin, ha permitido el crecimiento de la MD en la ltima
dcada. Los xitos obtenidos en esta disciplina han demostrado la necesidad de
investigacin en este campos, debido a su importancia. La aplicacin de herra-
mientas matemticas en las organizaciones, conduce a optimizar los procesos en
todos los niveles, esto se traduce en un claro mejoramiento de las utilidades, de
aqui la importancia del estudio de las matemticas aplicadas.
Pero es preciso aclarar que para aplicar MD se necesita tambin un completo
conocimiento de la organizacin y, en terminos de sta, se evaluan los costos y
benecios que representa su implementacin.
En general, cuando se habla de MD se hace alusin a un procedimiento
automtico o semiautomtico, en el cual la intervencin del usuario es mnima,
y por tanto el auxilio de paquetes computacionales es vital. Se di preferencia
al uso de herramientas libres. En el presente proyecto se utiliz KNIME pero
se puede desarrollar con muy pocas variaciones utilizando otras herramientas
incluso ms utilizadas tales como WEKA y R.
Poder manejar grandes cantidades de variables y establecer correlaciones
ocultas es sin duda un xito de la MD, que puede conducir a una correcta toma
de decisiones. La MD se utiz en este proyecto para extraer conocimiento de los
datos suministrados por una Organizacin, utilizando como herramienta princi-
pal las Redes Neuronales, realizando la solucin del mismo problema mediante
las series de tiempo.
Como en todo proceso complejo, el desarrollo eciente de la MD requiere
de una metodologa clara que debe guiar los pasos a seguir. En este sentido
la metodologa CRISP-DM proporcion un conjunto de indicaciones apropiadas
para el desarrollo de este proyecto. La sola metodologa es sucientemente exten-
sa para haber sido descrita aqu en todos sus detalles, que se pueden encontrar
en la bibliografa suministrada, pero en todo caso es recomendable su estudio
detenido antes de iniciar un proyecto de MD.
El proceso de extraccin, anlisis y transformacin de datos fue un proceso
que consumi buena parte del tiempo disponible para el proyecto, y sus resulta-
dos son aparentemente muy modestos: una tabla de datos llamada vista minable.
Sin embargo, la calidad de la vista minable determina en buena parte el xito
del proyecto, y si sta es deciente el proyecto en general tendr igualmente un
resultado deciente, sin importar el esfuerzo o las herramientas que se utilicen
para la MD.
La MD apoyada en herramientas de IA permite estimar o predecir cualquier
variable que est presente en la vista minable, siempre y cuando exista una
relacin de dependencia natural con algunas de las variables restantes, sin necesi-
dad de que el investigador asuma ninguna hiptesis: este es uno de los motivos
por los cuales se eligi utilizar la Inteligencia Articial y en particular las Redes
Neuronales en la generacin del modelo. An cuando el trabajo se centr en
63
pronosticar el valor EBIT, la misma arquitectura de red permite hallar un mo-
delo para predecir cualquier otra variable disponible en la vista minable; tan solo
hay que nombrar a la variable deseada como variable objetivo o clase, siguiendo
el proceso requerido por el paquete computacional utilizado.
La segunda razn por la cual se eligi la Red Neuronal (RN) como herramien-
ta es que sta permite fcilmente hallar modelos tanto lineales como no lineales
para representar el problema. Adems, eligiendo entre diferentes funciones de
activacin es posible obtener diferentes modelos y comparar los resultados.
La tercera razn por la cual se eligi utilizar la IA y las RN es que liberan
al investigador de largos y engorrosos procedimientos, por cuanto el proceso de
entrenamiento, mediante el cual la red aprende el modelo que permite genera-
lizar, es un proceso automtico. Basta comparar el procedimiento de hallar el
modelo mediante la RN vs el procedimiento mediante series de tiempo. En RN,
la atencin del investigador se basa en el diseo de la red y la seleccin de los
parmetros.
La utilizacin adecuada de las RN requiere que el usuario experimente con-
tnuamente, para obtener los mejores resultados. Si bien hay recomendaciones a
seguir en el caso de encontrar problemas, tales como mal ajuste o memorizacin,
no hay reglas exactas que permitan ajustar los parmetros y obtener el mejor
resultado en todos los casos.
En el desarrollo del proyecto se implementaron varios modelos de perceptron
multicapa, en los cuales se vari el nmero de capas ocultas y el nmero de
iteraciones. La efectividad del modelo para el presente problema no aument
al aumentar el nmero de capas ocultas, que fue de una capa oculta. Tampoco
aument la efectidad del modelo al variar el nmero de neuronas por capa. Y
dado que el tiempo de entrenamiento y la complejidad del modelo obtenido por
la red aumenta proporcionalmente al nmero de neuronas y de capas, se ha
preferido mantener el modelo lo ms pequeo posible, siguiendo el principio de
economa o de parsimonia.
Un aspecto importante del entrenamiento de las redes neuronales es que se
debe buscar la generalizacin y evitar la memorizacin. La generalizacin se
logra cuando se tiene un buen resultado en el entrenamiento y un resultado
similar en la validacin. Se dice que hay memorizacin cuando los resultados
son buenos en entranamiento pero muy pobres en validacin, esto es, el modelo
obtenido no permite generalizar el resultado a nuevos valores no considerados
anteriormente. Para el problema considerado se observ que la red neuronal,
compuesta por tres capas, una de entrada, una capa oculta y una capa de salida,
llegaba rpidamente a la memorizacin de los datos de entrenamiento.
Para solucionar este problema se observ que era prctico realizar un cuadro
del valor de r
2
obtenido despus del entrenamiento de la RN y calculado con los
datos de validacin, para diferente cantidad de iteraciones, tal como se observa
en la tabla de la gura 23, y donde la grca 24 permite visualizar esta variacin,
observandose la no linealidad de la relacin.
Por otra parte, el anlisis de series de tiempo se queda bastante corto al
analizar el indicador y su comportamiento en el tiempo; sin embargo existe
el atenuante que para ste modelo no se calcul la componente cclica, por
64
Figura 23: Variacin del coeciente de correlacin segn las iteraciones reali-
zadas para entrenar la RN. Se presenta el logaritmo natural para gracarlo
adecuadaente.
Figura 24: Grca del coeciente de correlacin vs iteraciones (log natural).
65
consideraciones de tiempo y espacio.
Bajo estas consideraciones, la tcnica de prediccin con series de tiempo
puede ser una herramienta util para una organizacin que tenga un desempeo
uniforme, esto es, sin componente cclica. Es entonces importante notar que un
estudio ms detallado de su aplicacin, as como un contraste ms justo con las
redes neuronales implicara realizar el anlisis completo de la serie de tiempo,
incluyendo la componente cclica.
Mientras que las series de tiempo requieren largos clculos, el comportamien-
tos de los componentes de tendencia, cclico y estacional fueron detectados au-
tomticamente por la red, caracterstica que convierte a esta herramienta en
una potente fuente de informacin.
La red neuronal aprende el comportamiento de la variable dependiente con
relacin al comportamiento de las variables independientes con un porcentade
error de 10, 47 %. Este es considerado por los expertos como un buen resultado.
Frente al estudio clsico de series de tiempo, el modelo de IA es ms eciente
viendo los resultados de las correlaciones, ya que muestran un r
2
de 0, 928 del
perceptrn multicapa contra un r
2
de 0, 4868 de las series de tiempo sin com-
ponente cclico.
66
Referencias
[1] Clark, P.; Boswell, R. Data Mining. Practical Machine Learning Tools
and Techniques with Java Implementations, Morgan Kaufmann Publish-
ers, 2000.
[2] Mario, H. Gerencia de Procesos, Alfaomega S.A, Mxico (2001).
[3] Hernndez, J.; Ramrez, M. J.; Ferri, C. Introducin a la Minera de datos,
Pearson Prentice Hall, 2004.
[4] Larose, D. Data Minning Methods and Models, John Wiley & Sons, Inc,
2006.
[5] Russell, S.J.; Norvig, P. Inteligencia Articial. Prentice Hall Hispanoame-
rica, 1996.
[6] Sanz, A.; Del Bro, B. Redes Neuronales y Sistemas Difusos. Alfaomega
Grupo Editor, 2002.
[7] Isasi, P.; Galvn, I. M. Redes de Neuronas Articiales. Pearson Educacin,
2004.
[8] H. Mintzberg. The Structuring of Organizations: A Synthesis of the Re-
search (1979)
[9] H. Mintzberg. Diseo de las organizaciones efectivas (2000)
[10] I. Chiavenato, Introduccin a la Teora General de la Administracin,
Mc. Graw Hill, Mxico D.F. (2000).
[11] M. Hitt, R. Ireland, R. Duane, R. Hoskisson, Administracin Estratgica.
Competitividad y Globalizacin. Conceptos y Casos. Ed. Thomson. 7 Ed.
(2008)
Referencias de Internet:
Referencias
[1] http://www.monograas.com/trabajos55/mineria-de-datos/mineria-de-
datos.shtml
[2] http://es.wikipedia.org/wiki/Sistema_experto
[3] http://www.monograas.com/trabajos10/intelart/intelart.shtml
[4] http://www.monograas.com/trabajos35/redes-neuronales/redes-
neuronales.shtml
[5] http://www.disa.bi.ehu.es/spanish/profesores-etsi-
bilbo/~jtpcaaxi/PFC/wwwANN/la_neurona_articial.htm
67
[6] http://yoshibauco.wordpress.com/2011/04/27/empezando-con-las-etapas-
de-crisp-dm/
[7] http://investigacionsimulacion.blogspot.com/2010/11/representacion-del-
conocimiento.html
[8] http://campusvirtual.unex.es/cala/epistemowikia/index.php?title=El_dominio_de_las_Redes_N
[9] http://www.monograas.com/trabajos55/indicadores-de-
gestion/indicadores-de-gestion2.shtml
[10] http://ingenieria.udea.edu.co/grupos/revista/revistas/nro050/Articulo %2017.pdf
[11] http://pisis.unalmed.edu.co/avances/archivos/ediciones/Edicion %20Avances %202007 %202/15.pdf
[12] http://ocw.uv.es/ingenieria-y-arquitectura/1-
2/libro_ocw_libro_de_redes.pdf
[13] http://abriaqui-antioquia.gov.co
[14] http://oldemarrodriguez.com/yahoo_site_admin/assets/docs/Documento_CRISP-
DM.2385037.pdf
[15] http://users.dsic.upv.es/~jorallo/master/dm5.pdf
[16] http://commons.wikimedia.org/wiki/File:Neurona.svg
[17] http://commons.wikimedia.org/wiki/File:RedNeuronalArticial.pn
68