TRABAJODEGRADO

Aplicacin de Herramientas Matemticas
en la Determinacin de Indicadores de Gestin

Empresarial:
Solucin Mediante Minera de Datos
Manuel Currea
macur82@hotmail.com
Trabajo de Grado para Optar por
el Ttulo de Matemtico
Director: Leonardo Jimnez Moscovitz
Matemtico Fundacin Universitaria Konrad Lorenz
Esp. en Informtica y Ciencias de la Computacin
Fundacin Universitaria Konrad Lorenz
Facultad de Matemticas e Ingenieras
27 de junio de 2012
1
Resumen
El presente trabajo muestra una aplicacin de la matemtica en uno
de los campos de desarrollo ms reciente y de mayor atencin en la actua-
lidad como lo es la Minera de Datos. Se desarrolla un modelo matemtico
basado en Redes Neuronales (RNA) para predecir indicadores de gestin
organizacional, utilizando tcnicas apropiadas de Minera de Datos (MD).
Se aplica el modelo CRISP-DM para guiar los pasos de todo el procedi-
miento realizado.
Se congura y aplica un perceptrn multicapa y de su aplicacin al
problema se obtiene un modelo con un buen comportamiento que per-
mite realizar pronsticos adecuados. El trabajo tambin introduce al lec-
tor matemtico en temas que pueden ser de su inters aplicado como la
estructura empresarial, algunos de sus conceptos elementales y la cuanti-
cacin de sus procesos con el n de aplicar herramientas de optimizacin.
Application of Mathematical Tools in Determining Business Management
Indicators, Using Data Mining Solution:
This paper shows an application of mathematics in one of the more
recently developed elds and more attention today as it is the Data Mining.
We develop a mathematical model based on Neuronal Networks (ANN) to
predict organizational performance indicators, using appropriate techniques
of data mining (DM). Is applied CRISP-DM model to guide the steps of
the procedure performed.
Is congured and applied a multilayer perceptron and its application to
the problem gives a good behavior model that allows adequate predictions.
The work also introduces the reader to mathematical topics that may be
of interest applied as business structure, some of its basic concepts and
measurement of its processes in order to apply optimization tools.
ndice
Introduccin 7
1. Conceptos Preliminares 9
1.1. Estructura Organizacional . . . . . . . . . . . . . . . . . . . . . . 9
1.1.1. Enfoque Clsico . . . . . . . . . . . . . . . . . . . . . . . 9
1.1.2. Enfoque por Procesos . . . . . . . . . . . . . . . . . . . . 14
1.2. Indicadores de Gestin . . . . . . . . . . . . . . . . . . . . . . . . 15
1.3. Mineria de Datos (MD) . . . . . . . . . . . . . . . . . . . . . . . 20
1.3.1. Etapas de la Minera de Datos . . . . . . . . . . . . . . . 21
1.3.2. Metodologas para Realizar MD . . . . . . . . . . . . . . . 27
1.4. Inteligencia Articial (IA) . . . . . . . . . . . . . . . . . . . . . . 29
1.4.1. La Neurona Articial . . . . . . . . . . . . . . . . . . 31
1.4.2. Redes Neuronales Articiales (RNA) y Algoritmo de Apren-
dizaje . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
1.4.3. Series de Tiempo . . . . . . . . . . . . . . . . . . . . . . . 39
2. Prediccin de Indicadores de Gestin 41
2.1. Prediccin con Series de Tiempo . . . . . . . . . . . . . . . . . . 41
2.1.1. Componente de Tendencia . . . . . . . . . . . . . . . . . . 42
2.1.2. Componente Estacional y Aleatoria . . . . . . . . . . . . 42
2.1.3. Pronstico del EBIT mediante la Tendencia y el ndice de
Estacionalidad . . . . . . . . . . . . . . . . . . . . . . . . 43
2.2. Modelo de Prediccin con Redes Neuronales . . . . . . . . . . . . 46
2.2.1. Comprensin del Negocio . . . . . . . . . . . . . . . . . . 46
2.2.2. Preparacin de los Datos (Preprocesamiento) . . . . . . . 46
2.2.3. Obtencin del Modelo . . . . . . . . . . . . . . . . . . . . 51
2.2.4. Comparacin de los Modelos RNA y Series . . . . . . . . 60
3. Conclusiones 63
[
[
Trabajo de Grado ledo y aceptado por los jurados;
Jairo Alfonso Vargas Bonilla
Ingeniero Industrial
Universidad Javeriana
Especializacin en la Metodologa Six Sigma
Escuela Colombiana de Ingeniera Julio Garavito
Antonio Velasco Muoz
Licenciado en Matemticas
Universidad Nacional de Colombia
Magster en Estadstica Matemtica
Universidad de Chile
[
Introduccin
En tiempos actuales uno de los conceptos ms familiares, es el concepto de
globalizacin. Las organizaciones da a da quieren llegar a tanto pblico como
sea posible. Actualmente es clara la necesidad de estar siempre mejorando y para
esto se deben establecer polticas organizacionales que permitan tanto innovar
como optimizar en todas las labores diarias de la empresa, y que permitan el
cumplimiento de los objetivos.
Algunos de los procesos al interior de una empresa requieren de una actividad
especca para obtener un modelo matemtico que lo logre abstraer adecuada-
mente y con base en el, establecer la simulacin de diferentes escenarios que
permitan predecir eventos importantes para el desarrollo de la empresa y de
esta manera actuar anticipadamente para obtener mejores resultados. Esta es
la actividad que se desarrolla dentro de lo que se conoce como investigacin de
operaciones.
El presente trabajo busca establecer un modelo matemtico que permita
simular y predecir el comportamiento de un tipo de variable que describe un
aspecto importante de la operacin de una empresa: el indicador de gestin.
En este trabajo se aborda la obtencin del modelo de prediccin del indicador
utilizando las tcnicas propias de la Minera de Datos (MD).
En la primera parte se exponen los principales referentes tericos utilizados,
empezando en las estructuras mismas de la organizacin ya que es muy impor-
tante tener un conocimiento completo de la forma de operar de esta. Seguido
a esto se encuentran las metodologas propias de la minera de datos haciendo
nfasis en la ms adecuada para la organizacin objeto de estudio. Por ltimo
se exponen las matemticas involucradas en un modelo de red neuronal y su
funcionamiento como herramienta de modelamiento.
La segunda parte se reere a la utilizacin de estas tcnicas en la informacin
de la Organizacin que amablemente facilit los datos. Esta seccin es el ncleo
del trabajo. Es aqu donde se analiza en detalle el comportamiento de los datos,
se explica el preprocesamiento utilizado en la preparacin de la vista minable,
y luego el proceso para la obtencin de un modelo matemtico ptimo que
ajuste los mismos. El manejo de estos datos y la aplicacin de herramientas
de Inteligencia Articial (IA) llevan a obtener varios modelos que al comparar
permiten establecer un nivel de error.
Debido a la condencialidad que exigi la Organizacin que suministr los
datos, la utilizacin de los mismos es con nes totalmente acadmicos; adems
los valores de los datos se sometieron a un ajuste que no los altera para el objeto
de estudio, pero si protege la informacin privada.
7
[
8
1. Conceptos Preliminares
En esta seccin se presentarn los conceptos bsicos en los que se enmarca el
proyecto. Se comenzar indicando conceptos y estructura bsica de una organi-
zacin empresarial, para luego revisar algunos de los indicadores de gestin que
se utilizan actualmente. Luego se introducen los conceptos tericos de Minera
de Datos (MD) y las herramientas de Inteligencia Articial (IA) ms usadas,
en particular las Redes Neuronales Articiales (RNA).
1.1. Estructura Organizacional
1.1.1. Enfoque Clsico
Una empresa es el conjunto de personas, recursos materiales y tecnolgicos
organizados para lograr un objetivo previamente determinado. Las empresas
pueden ser de varios tipos, pero uno de ellos juego un papel muy importante en
el mundo moderno, que es la empresa privada [10].
La empresa privada se basa en la iniciativa individual para su creacin y
puesta en funcionamiento, que busca una mayor independencia y autonoma,
un deseo de liderazgo e inuencia, as como de mejoramiento de su nivel de
ingresos.
El benecio econmico del empresario se extiende de cierta manera a la
sociedad, ya que la empresa es generadora de empleo. Adems, la produccin de
bienes o servicios por parte de la empresa satisfacen determinadas necesidades
de la comunidad.
La organizacin es el arreglo ordenado de recursos y de las funciones que
deben desarrollar todos los miembros de una empresa para lograr sus metas
y objetivos. Cada empresa puede tener su estructura particular, y sta la que
hace parte de su esencia. Sin embargo, las empresas comparten elementos es-
tructurales comunes entre s. Segn Henry Mintzberg [9][8] la estructura or-
ganizacional es el conjunto de todas las formas en que se divide el
trabajo en tareas distintas y la posterior coordinacin de las mismas.
Esto es, Mintzberg da una divisin de la empresa segn reas funcionales, per-
mitiendo considerar la empresa como un conjunto de reas de actividad. Una
versin simplicada se observa en la gura 1.
En el rea de Produccin se agrupan las actividades que tienen que ver
con la elaboracin de nuevos productos y servicios. Se encarga por tanto de
la transformacin de materias primas en productos terminados, mediante la
utilizacin tanto de hombres como de mquinas. Algunas de sus funciones son:
Diseo del producto y su mtodo de fabricacin, desarrollo de servicios
(Ingeniera de Producto)
Planeacin, formulando y desarrollando los mtodos ms adecuados posi-
bles, de acuerdo con el producto (Planeacin).
Organizacin del espacio fsico dedicado a la produccin (Ingeniera de
Planta).
9
Pro
rea de Mercadeo
y Ventas
Area
Financiera
rea de
Produccin
rea
Administrativa y
de Personal
GERENCIA
Procesos
Procesos
Procesos
Procesos
Figura 1: Modelo clsico de organizacion empresarial. En la perspectiva moder-
na, las reas son consideradas como reas funcionales.
Seleccin de mquinas y equipos adecuados para la produccin (Planeacin).
Suministro y coordinacin de uso de mano de obra, equipos, materiales, he-
rramientas e instalaciones (Control de la Produccin y Fabricacin).
Control de Calidad.
El rea de Produccin realiza sus actividades segn los requerimientos es-
peccos de las reas de Mercadotecnia. El rea de Mercadotecnia se encarga
de las tareas de planeacin de precios, promocin y distribucin de productos
e ideas para ser intercambiados por dinero o por otros productos o servicios
que satisfagan el objetivo de la organizacin. Para ello reune informacin sobre
los factores que inuyen en el mercado, con el objetivo de determinar lo que
el consumidor desea o necesita; y debe planear la distribucin del producto o
servicio de manera tal que est a disposicin del consumidor en el momento y
lugar oportuno y a un precio conveniente.
El rea de Mercadotecnia realiza las siguientes actividades principales:
Investigacin de mercados.
Decisiones sobre el producto: diseo, estilo, empaque y precio.
Planeacin de la distribucin.
Promocin y publicidad del producto.
Planeacin de Venta y Posventa.
Servicio de Venta y Posventa.
10
El rea de Ventas es muy importante, y trabaja en estrecha coordinacin con
el rea de Mercadotecnica. Se encarga de las actividades tendientes a impulsar
el cliente hacia la adquisicin nal del producto o servicio:
Desarrollo y manipulacin del producto: Busca introducir nuevos pro-
ductos o modicar los productos existentes, amplir sus aplicaciones, mo-
dicar sus caractersticas distintivas o sus accesorios, entre otros.
Distribucin fsica de los productos.
Estrategias de ventas.
Promocin de ventas y publicidad del producto.
El rea Administrativa y de Personal se encarga de todas las actividades ten-
dientes a mantener la operacin normal de la empresa en su operacin cotidiana.
Sus reas de accin son muy diversas y son principalmente:
Recursos humanos: Contratacin y empleo.
Recursos humanos: Capacitacin y desarrollo de personal.
Sueldos, salarios, servicios y prestaciones.
Seguridad industrial.
El rea Financiera es de vital importancia en la operacin de la empresa, por
cuanto sta trabaja con base en constantes movimientos de dinero. Se encarga
del manejo ptimo de los recursos econmicos de la empresa. El rea nanciera
se encarga de la obtencin de fondos econmicos y del suministro de capital
para que la empresa pueda funcionar debidamente. Sus actividades son:
Proyecciones nancieras a corto, mediano y largo plazo.
Obtencin de recursos nancieros tanto internos como externos, requeri-
dos para el cunplimiento de los planes jados por la empresa.
Control de cartera y cobranzas.
Organizacin del sistema contable.
Tesorera, donde se controla el efectivo, se formulan planes para menejo
de cartera de inversiones, direccin de crditos, etc.
Contralora, donde se realizan actividades como vericacin de impuestos,
auditora interna, revisiones contables, etc.
Las cuatro reas mencionadas se integran en un todo a travs del proceso
administrativo. En este se distribuyen y asignan correctamente los recursos y
actividades de la empresa, con el n de alzanzar una mayor eciencia en el logro
de los objetivo. Existe un proceso administrativo que sirve de gua al empresario
para conseguir los resultados que se ha propuesto. El proceso se puede resumir
en cuatro fases:
11
1. Planeacin: Es la fase en la cual se jan los objetivos y metas de la
empresa, as como de los medios ms adecuados para conseguirlo.
2. Organizacin: Es la fase en la cual se dene y realiza el arreglo ordenado
de los recursos y de las funciones que deben desarrollar los miembros de
la empresa, con el n de lograr las metas y los objetivos establecidos en
la planeacin.
3. Direccin: Es la fase en la cual se instruye y gua al personal con el n
de que realice su trabajo adecuadamente.
4. Control: Es el examen de las actividades desarrolladas por la empresa en
un determinado periodo de tiempo, con el objetivo de vericar si se estn
cumpliendo de acuerdo con lo establecido en la planeacin.
Como se mencion anteriormente, uno de los objetivos de la empresa es
la de ser econmicamente rentable. El rea nanciera es por tanto de vital
importancia, y debe dotar a la gerencia de informacin con base en la cual se
tomen decisiones correctas.
Es necesario que la informacin sobre las nanzas de la empresa estn de-
talladas en la mxima extensin posible, no solo porque as se pueda necesitar
en algn momento dado, sino porque la reglamentacin contable de los paises
usualmente lo exigen as. Pero para tomar ciertas decisiones, se necesita que la
informacin est resumida en un nmero pequeo de variables, que representen
en estado general de la empresa.
Entonces, un resultado nal muy importante de la accin contable es el
informe de estados nancieros, que consta de el balance general y el estado de
prdidas y ganancias. El balance general es un resumen, para un momento dado
de tiempo, de los activos (lo que la empresa tiene), de los pasivos (lo que la
empresa debe) y del patrimonio (la participacin del propietario o propietario
en la empresa). Con mayor detalle se tiene la siguiente lista:
1. Activos:
a) Activos Corrientes:
1) Dinero en caja.
2) Dinero en bancos.
3) Cuentas por cobrar.
4) Materias primas.
b) Activos Fijos:
1) Maquinaria.
2) Vehculos.
3) Muebles.
4) Construcciones y Terrenos
12
2. Pasivos:
a) Pasivos Corrientes:
1) Sobregiros bancarios.
2) Obligaciones bancarias.
3) Cuentas por pagar.
4) Prestaciones y cesantas.
5) Impuestos.
b) Pasivos a Largo Plazo:
1) Prstamos a ms de un ao.
2) Cuentas por pagar a ms de un ao.
3. Patrimonio:
a) Capital de la empresa.
b) Utilidades retenidas.
c) Utilidades del perodo anterior.
Se puede decir que el estado de prdidas y ganancias de una empresa reeja
el balance entre dos aspectos fundamentales de cualquier empresa:
Las ventas.
Los costos de produccin y gastos de administracin.
Esto es esencialmente lo que se indica en el estado de prdidas y ganan-
cias de una empresa. Resume el movimiento econmico de la empresa en un
perodo de tiempo determinado, con el objetivo de conocer si se obtuvieron
utilidades o prdidas.
Tanto los costos de produccin como los gastos operativos se pueden detallar
en mayor extensin, a continuacin.
1. Costos de Produccin: Este valor indica los costos en los que se ha
incurrido para producir los bienes o servicios por parte de la empresa.
Los costos de produccin son principalmente:
a) Costo de materias primas.
b) Costo de mano de obra.
c) Gastos generales de fabricacin.
2. Gastos de Administracin: Son aquellos gastos diferentes a los de pro-
duccin, tales como:
a) Sueldos
13
b) Comisiones
c) Intereses
d) Gastos de transporte
e) Gastos de publicidad
f ) Gastos de ventas
g) Gastos varios de funcionamiento: transportes, gasolina, papelera y
tiles de ocina, etc.
1.1.2. Enfoque por Procesos
La estructura organizacional careceria de sentido sin los procesos que lleva
a cabo. El n mismo de la organizacin es optimizar los procesos que en ella
se desarrollan. Por esta razn hoy en dia es de vital importancia la gerencia de
procesos. Segn [2] "El enfoque de gerencia de procesos se basa en entender y
analizar los diferentes procesos y las actividades que lo conforman, para efectos
de poderlos mejorar sistemticamente, estableciendo un esquema sencillo pero
efectivo de lo que una organizacin hace. Sin lugar a dudas, la gerencia de
procesos es uno de los elementos esenciales de la administracin exitosa de la
organizaciones".
Cualquier tipo de organizacin desarrolla actividades que de manera natural
se compone de procesos; el problema se presenta cuando estos procesos se es-
conden detrs de las estructuras organizacionales vistas en la seccin 1.1.1. Para
lograr una optimizacin de dichos procesos, las organizaciones consideran que
se deben tener en cuenta varios aspectos como son:
Identicacin de Procesos: El horizonte institucional es claramente
una guia de los procesos a seguir, sin embargo este examen no completa el
cuadro de procesos por s solo. La identicacin de los procesos requiere
un entendimiento de los procesos generales de la organizacin. Algunas
formas de hacerlo son:
Analizando cmo se maneja el cliente desde que entra hasta que sale
en sus interacciones con la organizacin
Cmo se disean, elaboran, distibuyen y entregan los productos -
nalmente al consumidor
Cmo se presta el servicio al cliente.
Clasicacin de los Procesos: Se identican los procesos principales,
se clasican y se detallan en subprocesos especcos.
Procesos Organizacionales: Los procesos organizacionales son aque-
llos que involucran toda la organizacin.
14
Figura 2: Enfoque por procesos del modelo de una organizacin empresarial.
Procesos Funcionales: Los procesos funcionales generalmente son
actividades ejecutadas al interior de una misma rea funcional de la
organizacin.
Procesos Gerenciales: Los procesos gerenciales son responsabili-
dad de la alta gerencia y se ejecutan bajo su gua y liderazgo, con
el n de orientar la accin global de la empresa y dar directrices de
operacin a todos los dems procesos, de la manera como la gerencia
considera que se cumplen las metas de la empresa, segn la visin de
la misma.
Procesos Operativos: Los procesos operativos son todos aquellos
que se realizan para agregar valor al producto o servicio que se entrega
al cliente.
Procesos de Apoyo: Los procesos de apoyo ayudan al desarrollo de
las tareas esenciales de la organizacin, pero que no tienen que ver
con el negocio mismo.
Para controlar, mejorar o comparar el desempeo en un proceso, se deben
generar indicadores apropiados que permitan primero que todo medir o cuan-
ticar el desarrollo del proceso, identicar las variables que intervienen en la
medida de dicho proceso y nalmente administrarlo, con el n de optimizarlo
(ver seccin 1.2)
La gura 2 ilustra el enfoque por procesos dentro de una organizacin, donde
todas las reas de la compaia se involucran para optimizar el producto o ser-
vicio, siempre generando la satisfacin del cliente para bien de la organizacin.
1.2. Indicadores de Gestin
En general la consolidacin de esta informacin tiene objetivos importantes.
Sin embargo, existen otras variables cuyo conocimiento permite mejorar la ca-
pacidad de toma de decisiones correctas acerca de la direccin de la empresa.
15
Figura 3: Planeacin Estratgica. (Tomado de [13])
Se encontr una frase interesante que resume la justicacin de analizar
los indicadores de gestin. Dice que "Todo lo que se hace se puede medir, slo
si se mide se puede controlar, slo si se controla se puede dirigir y slo si se
dirige se puede mejorar"
1
. Esta frase resume la importancia que tiene para las
organizaciones lo que hoy se conoce como planeacin estratgica
La Planeacin estratgica es un proceso sistemtico y organizado, conduci-
do sobre la base de una realidad que permite decidir anticipadamente: Qu
tipo de esfuerzos de planicacin deben hacerse?Cundo y cmo deben rea-
lizarse?Quin los llevar a cabo?Qu se har con los resultados? Bajo los
preceptos de la planeacin estratgica, siempre se deben optimizar los recursos
que se dispongan para que la organizacion sea ecaz y eciente.
La efectividad se reere a la consecucin de los objetivos. Se es eciente
en la medida en que se logren los objetivos. La eciencia por otra parte, es
lograr el mximo de las metas trazadas, con la utilizacin mnima de recursos,
en el menor tiempo posible. Para mejorar estas caractersticas, se hace necesario
crear diferentes tipos de indicadores que suministren informacin especica del
desempeo en determinado proceso. stos se llaman indicadores de gestin,
y su diseo es una labor muy importante para la organizacin.
El desempeo de una organizacin, grupo o persona, esta denido por una
integracin sistmica de lo que debi lograrse en el pasado, debe lograr en el pre-
sente y podra lograrse en el futuro. Las organizaciones deben medirlo, manejar-
lo, planearlo y mejorarlo de manera iterativa. Para esto son diversas las acciones
que pueden encarar las organizaciones para manejar el fenmeno del desempeo.
1
http://www.odontomarketing.com/frasedelmes.htm
16
La Administracin del Desempeo (Performance Management) "es un sis-
tema complejo de elementos de la gestin organizacional que acopla la adminis-
tracin por objetivos con la gestin por competencias, permitiendo especicar,
revisar y mejorar de manera continua los desempeos organizacionales, grupales
e individuales conducentes al logro de la misin empresarial [9]". Los indicadores
de gestin aportan igualmente informacin sobre el desempeo.
En general, desde el punto de vista de la gestin empresarial, se puede decir
que un indicador es una expresin matemtica que permite cuanticar alguna
dimensin conceptual que se desea medir, con base en factores o variables clave
y que produce como resultado un nmero. El indicador debe tener un objetivo
claramente denido para que pueda considerarse til.
Para comprender un poco mejor los indicadores, se pueden dividir en dife-
rentes categorias que muestran distintos aspectos de la organizacin:
1. Indicadores de cumplimiento: El cumplimiento tiene que ver con la
conclusin de una tarea. Los indicadores de cumplimiento estn relaciona-
dos con las razones que indican el grado de consecucin de tareas y/o
trabajos. Por ejemplo: cumplimiento del programa de pedidos.
2. Indicadores de evaluacin: La evaluacin tiene que ver con el rendimien-
to que se obtiene de una tarea, trabajo o proceso. Los indicadores de eva-
luacin estn relacionados con las razones y/o los mtodos que ayudan a
identicar nuestras fortalezas, debilidades y oportunidades de mejora. Por
ejemplo: evaluacin del proceso de gestin de pedidos.
3. Indicadores de eciencia: teniendo en cuenta que eciencia tiene que
ver con la actitud y la capacidad para llevar a cabo un trabajo o una tarea
con el mnimo de recursos. Los indicadores de eciencia estn relacionados
con las razones que indican los recursos invertidos en la consecucin de
tareas y/o trabajos. Por ejemplo: Tiempo fabricacin de un producto,
razn de piezas / hora, rotacin de inventarios.
4. Indicadores de ecacia: ecaz tiene que ver con hacer efectivo un in-
tento o propsito. Los indicadores de ecacia estn relacionados con las
razones que indican capacidad o acierto en la consecucin de tareas y/o
trabajos. Por ejemplo: grado de satisfaccin de los clientes con relacin a
los pedidos.
5. Indicadores de gestin: La gestin tiene que ver con administrar y/o
establecer acciones concretas para hacer realidad las tareas y/o trabajos
programados y planicados. Los indicadores de gestin estn relacionados
con las razones que permiten administrar realmente un proceso. Por ejem-
plo: administracin y/o gestin de los almacenes de productos en proceso
de fabricacin y de los cuellos de botella.
En una organizacin se deben tomar decisiones para orientar la direccin
de la misma. Esta es una razn de por qu medir. Si no se conoce la ecien-
cia con la que se realiza una labor, se pueden estar tomando decisiones con
17
base a supuestos e intuiciones, sin una base real para orientar las acciones. Las
mediciones permiten detectar reas especcas donde se debe mejorar, permiten
conocer lo que esta pasando en la organizacion. La tecnologa actual permite
tomar buenas mediciones en tiempo real, que permiten interpretar lo que esta
ocurriendo y controlar cuando las variables se salgan de los lmites previamente
establecidos, analizar tendencias histricas y establecer relaciones entre produc-
tividad y rentabilidad.
Revisando en particular los indicadores de gestin, se tiene que los ms
utilizados son:
1. Indicadores de Gestin Financiera: Estn basado en datos sobre los
estados nancieros y contables de la empresa. Algunos de los indicadores
que se han utilizado ms ampliamente son:
Incremento en ventas,
Disminucin de costos,
Tasa de retorno de inversin,
Ganancia neta,
Ganancia por empleado,
Incremento de la ganancia neta,
Valor agregado en capital humano.
2. Indicadores de Gestin en Mercadeo: Estn basados en datos con
informacin global acerca de los clientes y la competencia. Algunos de
estos indicadores ms utilizados son:
Tasa de participacin en el mercado,
Crecimiento del mercado,
Ventas por canal de distribucin,
Posicin de la pgina en los motores de bsqueda,
Reputacin de la empresa.
3. Indicadores de Gestin en Operaciones: Se basa en datos sobre la
operacin interna productiva de la empresa. Algunos de estos indicadores
son:
Porcentaje de gastos operativos.
Categora Six Sigma.
Porcentaje de reduccin de inventario.
Porcentaje de utilizacin de capacidad de produccin, ndice de re-
solucin de incidentes, consumo de energa, consumo de energa vs
produccin. huella de carbn, tasa de reduccin de desperdicios, tasa
de reutilizacin de desperdicios.
18
En muchas empresas, los indicadores de gestin reales se calculan cada deter-
minado tiempo, evalundose cual fue el comportamiento real durante un pero-
do determinado, para lo cual se necesita que el perodo haya terminado. Esta
aproximacin no se enfoca en realizar algn tipo de prediccin.
Al interior de la empresa se disponen de muchos y variados datos (variables)
que han permitido ya no solo leer (medir) sino adems:
1. Estimar y predecir cada uno de estos indicadores, con el n de poder
concer anticipadamente su comportamiento.
2. Determinar las variables que inciden en estos indicadores con el n
de poder realizar su estimacin dadas unas condiciones particulares en la
empresa.
Predecir el comportamiento de los indicadores y las variables que inciden en
l permite tomar acciones necesarias para mejorarlo, que es el inters esencial
al interior de la empresa.
El indicador que se desea registrar se llamar variable objetivo. A las
variables que permiten predecir el comportamiento de la variable objetivo se les
llama variables predictoras.
Un aspecto importante respecto del comportamiento de los indicadores, es
que no solo depende de las variables predictoras internas a la empresa, como
por ejemplo: porcentaje de inversin en publicidad, nmero de empleados, valor
de la nmina, costo materias primas, etc. sino que adems, puede depender
de variables externas como: ndice de inacin, valor del dlar/euro, por
ejemplo, y de factores propios de la competencia, tales como cuanto invierten
ellos en publicidad, costo de los productos de la competencia, entre otros.
Mientras ms variables predictoras tanto de la propia empresa como de los
competidores se conozca, con mayor precisin se espera determinar cada uno de
los indicadores. Un nmero insuciente de variables predictoras puede conducir
a un modelo simple o incluso trivial, con un alto porcentaje de error.
Criterios para establecer Indicadores de Gestin
Para que un indicador de gestin sea til y efectivo, tiene que cumplir con
una serie de caractersticas, entre las que destacan:
1. Relevante: que el indicador tenga que ver con los objetivos estratgicos de
la organizacin.
2. Claramente Denido: que el indicador asegure su correcta recopilacin y
justa comparacin.
3. Fcil de Comprender y Usar.
4. Comparable: que el indicador se pueda comparar entre organizaciones, y
en la misma organizacin a lo largo del tiempo.
5. Vericable: que exista una manera de vericar el valor del indicador.
6. Buena relacin Costo-Benecio: que no haya que incurrir en costos exce-
sivos para obtener el indicador.
19
1.3. Mineria de Datos (MD)
En la prctica se observa que para obtener algunos indicadores de gestin,
muchas organizaciones utilizan herramientas muy importantes y actuales tales
como la Inteligencia de Negocios (Bussiness Intelligence: BI ), que si bien dan
informacin muy valiosa, por su enfoque no informan de nuevas relaciones entre
variables, y aunque da a da se est integrando con nuevas herramientas de
Minera de Datos como de Inteligencia Articial, es necesaria otra aproximacin
para buscar un mejor modelo que permita predecir los indicadores.
Al pensar en la palabra minera se viene a la mente la extraccin de algn
mineral de la tierra, a partir de esta denicin se tratar de darle sentido a la
Mineroa de Datos (MD o DM por su sigla en ngles: Data Mining). Efectiva-
mente lo que se busca es extraer informacin en un grupo de datos. En [1] se
dene la Minera de Datos como el proceso de extraer conocimiento til y
comprensible, previamente desconocido, desde grandes cantidades de
datos almacenadas en distintos formatos. Es decir, la tarea fundamental
de la minera de datos es encontrar modelos inteligibles a partir de los datos.
Para que este proceso sea efectivo debera ser automtico o semi-automtico y el
uso de los patrones descubiertos debera ayudar a tomar decisiones ms seguras
que reporten, por tanto, algn benecio a la organizacin.
En MD es muy importante la calidad del conocimiento extraido. Segn [3]
las propiedades deseables del conocimiento extraido mediante la MD son :
1. Que sea vlido: Los patrones deben seguir siendo precisos para datos
nuevos (con cierto grado de certidumbre), y no slo para aquellos que han
sido usados en su obtencin.
2. Que sea novedoso: Que el conocimiento sea hasta el momento descono-
cido tanto para el sistema como para el usuario.
3. Que sea potencialmente til: La informacin debe conducir a acciones
que reporten algn tipo de benecio para el usuario.
4. Que sea comprensible: la extraccin de modelos y valores poco com-
prensibles diculta o imposibilita su interpretacin, revisin, validacin
y uso en la toma de decisiones. De hecho, una informacin incomprensi-
ble no proporciona conocimiento (al menos desde el punto de vista de su
utilidad).
Como se ver en la seccin siguiente, la esencia de la informacin obtenida
mediante la MD es lo que se llama un modelo. Se ver que existen diferentes
tipos de modelos y que cada uno de ellos tiene sus reas de aplicacin, con sus
ventajas y desventajas particulares.
El trmino Minera de Datos no es un trmino denido de manera nica
y estricta. Segn diferentes autores puede tener algunas variaciones o incluso
otro tipo de nombre. Una de estas aproximaciones es llamada "Descubimiento
de Conocimiento en bases de datos"(KDD del ingls Knowledge Discovery in
Databases). La gura 4 puede ayudar a comprender esta aproximacin.
20
Figura 4: Proceso KDD: Knowledge Data Discovery (tomada de [3])
Dentro de la aproximacin KDD, la Minera de Datos se reere exclusiva-
mente a la aplicacin de la herramienta al conjunto de datos para la obtencin
del modelo.
1.3.1. Etapas de la Minera de Datos
En general, se puede considerar que la MD tiene varias etapas, cada una con
sus actividades propias.
Fase 1: Extraccin, Transformacin y Limpieza de Datos. El objetivo
de esta fase es el de leer las bases de datos disponibles y generar lo que se llamar
una vista minable.
La primera actividad a realizar es la extraccin. Se sabe que el objetivo
de la MD es el descubrimiento de conocimiento a partir de una Base de Datos
(BD) [3]. Para ello se debe leer primero la informacin conveniente a partir de
las BD disponibles.
Las BD pueden ser de cualquier tipo. Sin embargo, son ms utilizadas las
BD de tipo relacional, que tienen asociado un lenguaje de consulta estructurado
de alto nivel, llamado Lenguaje SQL (del ingls: Structured Query Language).
Luego un sistema til de MD lleva incorporado la facilidad de conexin con
bases de datos relacionales operando bajo SQL. Sin embargo, se pueden obte-
ner datos en formatos muy diferentes, tales como archivos tipo hoja de clculo
(OpenOce, Excel ), archivos de texto, archivos html de pginas web, archivos
tipo CSV (valores separados por coma) y muchos otros.
Una vez se han extraido los datos, se realiza un proceso de integracin de
valores de las diferentes tablas y de las diferentes bases de datos. Esto requiere
un proceso de transformacin inicial, en el cual los datos de cada columna deben
estar en un formato comn. Esto constituye lo que se llama un Almacn de
Datos (Data WareHouse).
En general, los datos en un Almacn de Datos sern de alguno de los si-
guientes tipos:
21
1. Datos tipo Real, esto es, representan valores de tipo contnuo.
2. Datos de tipo Entero, representando valores de tipo discreto.
3. Datos de tipo Nominal o Categrico, representanto valores que se iden-
tican por un nombre llamado etiqueta.
El tipo de datos es importante en el momento de realizar la preparacin de
los datos.
El paso siguiente en esta fase consiste en la seleccin de los atributos de
inters para el problema. En esta seleccin realmente lo que se hace es eliminar
los atributos (columnas de la base de datos o variables) que evidentemente
e indiscutiblemente no afectan el valor de la variable objetivo que se desea
predecir.
Una vez se conocen los atributos que posiblemente permiten predecir la
variable objetivo, se realiza el proceso de limpieza de los datos. En este proceso
se examinan los datos que se disponen buscando:
1. Valores faltantes (missing values), esto es, valores que aparecen como
nulos en la base de datos o simplemente no tienen ningn valor ingresado,
bien sea por error o por que en el momento de llenar la base de datos se
desconoca este valor.
2. Valores duplicados (duplicate values), ya que como los datos se pueden
tomar a partir de la integracin de diferentes bases de datos, es posible que
aparezca la misma entrada ms de una vez. Ocasionalmente este problema
puede ser difcil de detectar, ya que las tablas originales pueden tener
diferentes ndices, lo que hace que al integrar los datos no sea fcil observar
la duplicidad.
3. Valores inconsistentes, esto es, valores fuera de los rangos posibles, con
tipo de datos equivocado o que son contradictorios con otra informacin
que posee la BD.
Decidir qu se hace con las entradas que tienen valores faltantes o incon-
sistentes no es una cuestin trivial, para lo cual los investigadores han tomado
diferentes aproximaciones, cada una con sus ventajas y desventajas. Por ejem-
plo:
Eliminar los valores faltantes o inconsistentes. Esta aproximacin tiene
problemas cuando se dispone de poca cantidad de datos para un determi-
nado problema.
Reemplazar el valor faltante o inconsistente por el valor medio de los datos.
Si un valor se excede numricamente del valor mximo usual, se reemplaza
por el valor mximo (recorte).
22
Los resultados obtenidos mediante los dos ltimos mtodos depende del pro-
blema particular, y requiere un examen detenido.
Una vez que la informacin en el almacn de datos se han limpiado de va-
lores faltantes, duplicados o inconsistentes, se requiere un cuidadoso proceso de
transformacin de los mismos. Los procesos de transformacin pueden ser:
1. Construccin de nuevos atributos, a partir de atributos disponibles
en el almacn de datos y que sean poco descriptivos.
2. Numerizacin de atributos, que consiste en transformar datos de tipo
nominal (categrico) en datos numricos (reales o enteros).
3. Discretizacin de atributos, que consiste en transformar datos numricos
continuos en valores de tipo nominal o de tipo discreto.
4. Normalizacin mnmax o Escalamiento de datos: transformar sus
valores para que caigan dentro de un rango deseado. Usualmente es un
proceso lineal:
. =
A mnA
(max A mnA)
(1)
5. Normalizacin Gaussiana o Estandarizacin:
. =
A j
o
(2)
donde . es la variable estandarizada, A indica los valores originales, j
indica la media y o indica la desviacin estandar. El resultado es un nuevo
conjunto de datos con j = 0 y o = 1.
Despus de aplicar correctamente todas las acciones descritas en este aparta-
do, se obtiene como resultado la vista minable, que es usualmente una nica
tabla que incluye todos los atributos de inters y todas los datos de entrada que
se van a considerar. Y como su nombre lo indica, la vista minable es una tabla
a la cual se le pueden aplicar los procedimientos para la obtencin del modelo.
Fase 2: Obtencin del Modelo. Es la fase central del proceso de minera
de datos. Un modelo es una expresin o un programa que permite expresar
relaciones, proposiciones sustantivas de hechos, variables, parmetros, entidades
y relaciones entre variables y/o entidades u operaciones, con el n de estudiar,
comprender o simular el comportamiento de sistemas complejos.
Los modelos pueden ser de diferente tipo:
1. Modelos Predictivos.
Son modelos cuyo objetivo es la determinacin de valores desconocidos
o futuros de las variables objetivo, a partir de las variables predictoras.
Dentro de los modelos predictivos se encuentran:
23
a) Modelos de Clasicacin.
En los modelos de clasicacin se considera que cada dato pertenece
a una categora o clase particular. El objetivo del modelo es predecir
la categora de nuevos datos, clasicandolo correctamente.
b) Modelos de Regresin.
Al construir un modelo de regresin se pretende obtener una fun-
cin que asigna a cada conjunto de valores de variables predictivas
(llamada instancia o patrn) su valor correspondiente.
2. Modelos Descriptivos.
Son modelos cuyo objetivo es explicar o resumir los datos, proporcionando
una descripcin de los mismos. Estos modelos no tienen como objetivo
predecir nuevos valores, sino conocer caractersticas ocultas.
a) Agrupamiento (Clustering).
Es una tcnica que permite analizar grupos de datos y agruparlos por
caractersticas comunes, basado en la similitud entre los elementos.
Los grupos se forman de tal manera que los objetos agrupados en el
mismo grupo deben ser similares entre s, y claramente diferentes a
los objetos de otros grupos.
b) Reglas de asociacin.
Es una tcnica que permite descubrir relaciones entre atributos categri-
cos.
c) Correlaciones.
Es una tcnica que permite descubrir relaciones entre atributos no-
minales.
3. Modelos Mixtos.
Son modelos que se pueden utilizar bien sea para actividades predictivas
como descriptivas. Tal es el caso de los rboles de Decisin. stos son en
s una serie de condiciones organizadas jerrquicamente, que permiten ya
sea clasicar datos correctamente, en los llamados rboles de clasicacin,
o predecir el valor que corresponde a un conjunto de variables de entrada,
en los llamados rboles de regresin.
Para obtener el modelo se debe examinar primero el problema particular que
se desea resolver en un momento dado, y realizar un examen de las tcnicas y
herramientas disponibles que lo pueden resolver correcta y ecientemente. Las
tcnicas disponibles que puede utilizar la MD son muy variadas. Van desde la
estadstica clsica hasta tcnicas modernas como la Inteligencia Artical (IA).
En cuanto a la estadstica clsica las tcnicas son principalmente, la que se
encuentran en [3] :
1. Regresin Lineal.
24
2. Regresin no Lineal.
3. Tcnicas paramtricas: Discriminantes lineales de Fisher para clasicacion.
4. Tcnicas no paramtricas: Mtodos Kernel para regresin y clasicacin.
5. Redes Bayesianas para clasicacin.
En cuanto a la Inteligencia Articial, se describir con ms detalle adelante.
Sin embargo las tcnicas ms usuales son las siguientes.
1. Redes Neuronales.
2. Clasicacin Difusa.
3. Regresin Difusa.
4. Algoritmos y Programas Evolutivos.
El presente trabajo se ha centrado en modelos obtenidos mediante RNA.
Ms adelante se describen las RNA y cmo son los modelos obtenidos mediante
ellas.
Desde otra perspectiva, la construccin de un buen modelo consta de dos
fases bien diferenciadas: entrenamiento y validacin. Para desarrollar correcta-
mente cada una de estas etapas, se requiere que el conjunto de datos de la vista
minable se particione en dos:
1. Datos de entrenamiento: conjunto de datos que sirven para generar el
modelo. Usualmente se toma del 60 % al 90 % para entrenamiento.
2. Datos de validacin: conjunto de datos con los cuales se verica qu
tan correcto es el modelo.
Una vez se ha realizado la particin del conjunto de datos en datos de en-
trenamiento y datos de validacin, se procede a realizar de manera iterativa.
1. Fase en entrenamiento.
Es un procedimiento computacional con fuerte contenido algoritmico, que
permite realizar una serie de pasos iterativos que conducen a la obtencin
de un modelo cada vez mejor. Para ello se apoya en la fase de validacin.
Se examinar con ms detalle en la seccin [6].
2. Fase de validacin.
Es un procedimiento computacional en el cual el modelo se corre con los
datos de validacin, comparando la salida obtenida con la salida deseada.
Los dos pasos anteriores se ejecutan de manera repetida hasta que se cumplan
ciertas condiciones. Esta fase se examinar con ms detalle a continuacin.
25
Fase 3: Evaluacin e interpretacin del modelo. Suponiendo que se ha
obtenido un modelo como resultado de la fase anterior, se procede a medir la
calidad del modelo obtenido. En el caso que se desarrolla en el presente trabajo,
que implica el uso de Redes Neuronales, se utiliza el mtodo de validacin o
vericacin siguiente:
1. La relacin entre el nmero de errores en relacin con el nmero de datos,
si el problema es de clasicacin. Esto es:
- =
_
'
errados
'
100
_
% (3)
donde - es el porcentaje de error, '
errados
es la cantidad de datos mal
clasicados y ' es la cantidad de datos de validacin.
2. Alguna medida de la distancia entre cada uno de los datos obtenidos y los
datos esperados, si el problema es de regresin. Por ejemplo:
- =
_
(1
1
1
1
)
2
+ (1
2
1
2
)
2
+ + (1
M
1
M
)
2
(4)
donde - es el porcentaje de error medido sobre ' datos de validacin,
1
i
son los resultados obtenidos con el modelo y 1
i
son los resultados
esperados, tomados del conjunto de datos de validacin. En ambos casos,
se espera un valor de - cercano a cero.
Es tambin importante evaluar la calidad y validez del modelo dentro del
contexto en el que se va a utilizar. Para el caso del presente trabajo se pueden
utilizar las siguientes tcnicas de evaluacin e interpretacin del modelo:
Matriz de Confusin: Es una matriz en la cual aparecen en los en-
cabezados de la y de columna, cada una de las clases consideradas. La
matriz relaciona los casos en que se ha predicho una clase y se ha obtenido
bien sea la clase correcta u otra clase. Se espera por ejemplo en el caso de
una clasicacin perfecta, que los valores se encuentren nicamente sobre
la diagonal de la matriz de confusin.
Matriz de Costes: Es una matriz de confusin donde se dispone adems
del costo de cada error de clasicacin y de cada acierto.
El modelo obtenido debe cumplir las caractersticas indicadas al comienzo
de la seccin 1.3.
Fase 4: Aplicacin del modelo obtenido. El trabajo de obtener el modelo
se ve justicado nalmente si ste de aplica en la solucin de problemas. Se
requiere o bien que un analista haga las recomendaciones necesarias segn los
datos obtenidos a partir del modelo, o para ser incorporado en otras herramien-
tas, tales como las herramientas de BI.
26
Figura 5: Fases de la metodologa CRISP-DM (tomado de [15])
1.3.2. Metodologas para Realizar MD
Con el pasar del tiempo la MD toma bastante fuerza y son muchas las
personas que cada da investigan y tratan de implementar nuevas herramientas,
metodologas y tcnicas de MD en diversos campos. Es por sto que actualmente
se dispone de diferentes metodologas que orientan y guan los pasos para realizar
MD.
Dentro de las principales metodologas se encuentran principalmente:
SEMMA (Sample, Explore, Modify, Model, Assess),
DMAMC (Denir, Medir, Analizar, Mejorar, Controlar) y
CRISP-DM (Cross Industry Standard Process for Data Mining).
Para muchas aplicaciones se considera que CRISP-DM es una buena metodologa,
que adems es la ms usada actualmente [14]. Esta metodologa consiste en una
serie de pasos iterativos que se observan en la gura 5.
El xito de aplicar esta metodologa est en comprender todas sus fases y
etapas, con el n de que sean utilizadas de manera natural durante el desarrollo
de un proyecto.
1. Comprensin del negocio (Business Understanding)
En esta fase se identica el problema a resolver, y se debe justicar el uso
de MD para resolverlo. Tambin se hace una evaluacin de la situacin,
27
tanto en trminos del negocio como de MD, se jan los objetivos y se
genera un plan del proyecto. Se enumeran a continuacin:
a) Se establecen los objetivos del negocio (Contexto inicial, objetivos y
criterios de xito).
b) Se evala la situacin (Inventario de recursos, requerimientos, supuestos,
terminologas propias del negocio,. . . )
c) Se establecen los objetivos de la MD (tanto los objetivos como los
criterios de xito)
d) Se genera del plan del proyecto (determinacin del plan, la herra-
mientas, el equipo y las tcnicas)
2. Comprensin de los datos (Data Understanding)
En esta fase se busca la familiaridad y conocimiento de los datos teniendo
en cuenta los objetivos del negocio. Las actividades que se realizan son:
a) Recopilacin inicial de datos.
b) Descripcin de los datos.
c) Exploracin de los datos.
d) Vericacin de calidad de los datos.
3. Preparacin de los datos (Data Preparation)
Esta fase deja los datos listos para la aplicacin de DM, es decir se limpian,
se transforman y dependiendo de los requerimientos de la herramienta a
utilizar, se escalan, normalizan o estandarizan. La mayora de los autores
coinciden en describir esta fase con las siguientes actividades:
a) Seleccionar
b) Limpiar
c) Estructurar
d) Integrar
e) Formatear.
4. Modelado (Modelling)
En esta fase primero se selecciona la tcnica de MD ms adecuada para los
datos preparados en la fase anterior. Una parte importante es disear un
plan para probar la calidad y validez del modelo construido, para esto se
dividen los datos en dos conjuntos, uno de entrenamiento y otro de prueba
o validacin. Luego de esto se construye el modelo y se evala de acuerdo
a los criterios de xito preestablecidos para el problema particular que se
est resolviendo. Las actividades son las siguientes:
a) Seleccin de la tcnica de modelado.
28
b) Diseo de la evaluacin.
c) Construccin del modelo.
d) Evaluacin del modelo.
5. Evaluacin (Evaluation)
En esta fase se hace la evaluacin del modelo en relacin a los objetivos del
negocio y busca determinar si es aconsejable probar el modelo o determinar
si hay alguna razn de negocio para el cual, el modelo es deciente, se
revisa el modelo completo para identicar cualquier elemento que pueda
ser mejorado y se determinan los prximos pasos para mejorar.
a) Evaluacin de resultados.
b) Revisar el proceso.
c) Establecimiento de los siguientes pasos o acciones.
6. Despliegue o Implementacin (deployment).
Por ltimo en esta fase se planica la estrategia para la implementacin
de los resultados, integrandolos en los procesos de toma de decisiones de la
organizacin, se debe monitorear la aplicacin de los modelos. Por ltimo
se debe generar un informe de los resultados del proyecto y se revisa para
corregir y repontenciar el proyecto.
a) Planicacin de despliegue
b) Planicacin de la monitorizacin y del mantenimiento
c) Generacin de informe nal
d) Revisin del proyecto
Como muchas metodologas de desarrollo de productos o de software, estos
pasos no son lineales, sino conforman ciclos en los cuales se puede evolucionar
y mejoerar con base en las experiencias aprendidas, tal como se observa en la
gura 6.
1.4. Inteligencia Articial (IA)
La Inteligencia Articial requiere una presentacin ms extensa. Las mlti-
ples aplicaciones de la inteligencia articial (IA) hacen que por s misma sea un
tema fundamental para abordar desde cualquier campo de las ciencias. Desde
el punto de vista tecnolgico la IA ha demostrado que las posibilidades de uti-
lizacin en la solucin de diversos problemas son casi innitas. El procesamiento
de seales, anlisis de imagen, MD y muchas otras nuevas ramas donde se ge-
nera conocimiento ponen en prctica y aprovechan todas las herramientas de
la IA.
Existen maneras muy distintas de entender y denir la IA, de aqui que no
exista un consenso que permita una denicin nica de lo que es IA. Es claro que
29
Figura 6: Iteraciones en el proceso de extraccin de conocimiento en una Orga-
nizacin. (tomado de [15])
diversas ramas han aportado a su desarrollo. Por ejemplo, la losofa plantea el
funcionamiento de la mente humana para determinar una accin, la psicologa
describe al humano como una mquina que procesa informacin, las matemti-
cas aportan un sistema lgico y una algoritmia que permite manipular la infor-
macin. Asi que la IA eclecticamente tiene bastantes aproximaciones tericas
para realizar sus labores prcticas, que son a la nal las que ms interesan a la
persona comn.
Cuando alguien se pregunta Qu es la IA? la mayoria de autores concuerda
en dividir los enfoques de IA en cuatro grandes grupos. Revisando una de la
obras mas importantes que se han escrito sobre IA [5] se tiene que la IA trata
de:
1. Sistemas que actan como humanos.
2. Sistemas que actan racionalmente.
3. Sistemas que piensan como humanos.
4. Sistemas que piensan racionalmente.
Con la implementacin de los transistores, esta tecnologa ha permitido la
creacin de mquinas que sorprenderan al mismo Julio Verne, por su capacidad
de desarrollar tareas y su velocidad al ejecutarlas. Pero es aqu justo donde est
trazada esta franja de separacin entre las mquinas y los humanos, donde se ob-
servan todos los esfuerzos de los fabricantes y diseadores computacionales que
30
apuntan a desarrollar mquinas capaces de igualar el proceso de funcionamien-
to humano, no solo en la parte fsica sino a nivel intelectual. La IA se base
en el concepto de agente inteligente, que es una entidad capaz de percibir su
entorno, procesar tales percepciones y responder o actuar en su entorno de ma-
nera racional, es decir, de manera correcta y tendiendo a maximizar un resultado
esperado. Este campo de desarrollo se denomina Inteligencia Articial (IA).
Los sistemas basados en IA deben tener si no todas, la mayora de las si-
guientes caractersticas [3]:
1. Capacidad para aprender nuevos problemas e incrementar normas de solu-
cin.
2. Capacidad de adaptacin en lnea y en tiempo real.
3. Ser capaz de analizar condiciones en trminos de comportamiento, el error
y el xito.
4. Aprender y mejorar a travs de la interaccin con el medio ambiente (rea-
lizacin).
5. Aprender rpidamente de grandes cantidades de datos.
6. Preferiblemente deben estas basados en memoria de almacenamiento ma-
sivo y la recuperacin de dicha capacidad.
Las herramientas que utilizan IA son muy variadas. Se clasican de manera
general en:
1. Herramientas de IA de aprendizaje subsimblico (o de seales).
Este tipo de herramientas de IA aprenden a partir de seales, no de infor-
macin estructurada de manera compleja. La herramienta recibe seales o
valores numricos de entrada, a las cuales les realiza algn procedimiento
computacional y matemtico de transformacin, para obtener la respues-
ta deseada. Dentro de este grupo se encuentran por ejemplo las Redes
Neuronales Articiales (RNA).
2. Herramientas de IA de aprendizaje simblico (o basado en el conocimien-
to).
Este tipo de herramientas de IA aprenden con base en informacin estruc-
turada, conocida como base de conocimientos y base de reglas. Mediante
la combinacin de ambas y mediante la aplicacin de reglas de inferencia,
se deducen las conclusiones buscadas.
1.4.1. La Neurona Articial
Uno de los retos ms importantes a los que se enfrenta el ser humano de
nuestra generacin es el de la construccin de sistemas inteligentes, en su afn
de conseguir este propsito aparecen las redes neuronales articiales. Desde el
31
Figura 7: Neurona biolgica simplicada (Tomado de [16])
punto de vista biolgico las RNA son un modelo matemtico acerca del fun-
cionamiento del cerebro. "Los sencillos elementos de clculo aritmtico equiva-
len a las neuronas -clulas que procesan la informacin en el cerebro- y la red
en general equivale a un conjunto de neuronas conectadas entre s"[5].
Para la raza humana sigue siendo un misterio el funcionamiento del cerebro
humano y como se genera el pensamiento, sin embargo aos y aos de inves-
tigacin han dado ideas sobre el accionar del mismo. Si se quieren reproducir
las acciones del cerebro humano, se debe tener la idea de como funciona. Una
explicacin sencilla y clara se encuentra en [5]:
"Sabemos que la neurona, o clula nerviosa, es la unidad fun-
cional bsica de los tejidos del sistema nervioso, incluido el cerebro.
Las neuronas estn formadas por el cuerpo de la clula, o soma,
en donde se aloja el ncleo de la clula. Del cuerpo de la clula
salen ramicaciones de diversas bras conocidas como dendritas y
sale tambin una bra ms larga denominada axn. Las dendritas se
ramican tejiendo una tupida red alrededor de la clula, mientras el
axn se extiende un buen tramo: por lo general, un centmetro (100
veces el dimetro del cuerpo de la clula) y, en casos extremos, hasta
un metro. nalmente, el axn tambin se ramica en lamentos y
sublamentos mediante los que establece conexin con las dendritas
y los cuerpos de las clulas de otras neuronas. A la unin o conexin
se le conoce como sinapsis. Cada neurona establece sinapsis desde
con una docena de otras neuronas hasta con cientos de miles de otras
de ellas"
2
.
En la gura 7 se muestran las partes de una neurona biolgica.
2
Isasi, P.; Galvn, I. M. Redes de Neuronas Articiales. Pearson Educacin, 2004.
32
Figura 8: Neurona Articial tpica.
La neurona articial se ha diseado como una abstraccin de la neurona
biolgica y se muestra en la gura 8. La gura representa la neurona i que
recibe entradas Sus partes principales son:
1. Las entradas r
i
, que son puntos por los que se reciben los datos prove-
nientes del entorno o bien de otras neuronas. En una neurona biolgica
corresponden a las dendritas. En el modelo se considera el vector de :
entradas
x = (r
1
, r
2
, ...r
n
)
2. La salida j
i
. En la neurona biolgica corresponde al axn.
3. Al igual que en una neurona biolgica, la neurona articial debe permitir
establecer conexiones (sinpsis) entre las entradas (dendritas) de una neu-
rona y la salida (axn) de otra. Esta conexin se representa con una lnea
que tiene asociado un valor llamado peso sinpticos n
ij
. Ntese que el
primer subndice indica la neurona a la que llega la conexin, mientras que
el segundo subndice indica de donde viene la conexin. El peso representa
el factor de importancia de la conexin en la determinacin del valor de
salida. El valor n
ij
, que es un nmero real, se modica durante el entre-
namiento de la red neuronal y es la variable que almacenar la infomacin
que indicar que la red ha aprendido algo y por tanto que sirva para un
propsito u otro.
4. En la gura 8 tambin se observa una entrada especial, llamada umbral,
con un valor jo que puede ser 1 o 1, y con un peso asociado llamado
n
0
o 0
i
dependiendo del autor. El valor del umbral se ajusta igual que
cualquier otro peso durante el proceso de entrenamiento.
33
5. Una regla de propagacin. Para un cierto valor de las entradas r
i
y
los pesos sinpticos asociados n
ij
, se raliza algun tipo de operacin para
obtener el valor del potencial post-sinptico. Este valor es funcin de las
entradas y los pesos. Una de las operaciones mas comunes es realizar la
suma ponderada, que no es otra cosa que la sumatoria de las entradas,
pero teniendo en cuenta la importancia de cada una (el peso sinptico
asociado). Luego:
/
i
=
j
n
ij
r
j
+n
0
(5)
donde t indica que es la salida de la regla de propagacin en un instante
determinado t.
6. Una funcin de activacin o: Luego de realizar la suma ponderada, se
aplica al resultado la funcin de activacin, que se escoge de tal manera
que permita obtener la forma deseada para el valor de salida.
A partir de la gura 8 se observa que
j
i
= o(/
i
)
= o
_
_
j
n
ij
r
j
+n
0
_
_
(6)
= o (w x) (7)
= o
_
w
T
x
_
(8)
donde las ltimas dos ecuaciones estn en notacin vectorial.
El aprendizaje de una red neuronal consiste en el ajuste del vector de
pesos w de acuerdo con las salidas deseadas.
Es necesario especicar la funcin de activacin o. Las funciones ms
usuales se observan en la gura 9.
Son de especial importancia el conjunto de funciones llamado funciones sig-
moideas. En general tienen la forma de S indicada en el rengln correspondiente
de la gura 9, donde la grca corresponde a la funcin tanh (r). Las funciones
sigmoideas comprenden la tangente hiperblica, la funcin logstica, la arcotan-
gente, la funcin error, la funcin de Gompertz, y ciertas funciones algebraicas.
Dentro de las sigmoideas es justamente la funcin sigmoide una de las ms
importantes, por su rango (0, 1) , y se observa en la gura 10.
Con estas especicaciones, se puede ahora explicar cmo funciona la neurona.
Se supone en el modelo de neurona ms simple, que corresponde a la funcin
de activacin escaln, tambin llamada limitador duro. En este caso, la salida
puede tomar solo dos valores 1 y +1 donde la salida viene determinada por
o(/
i
) =
_
1
+1
si /
i
< n
0
si /
i
_ n
0
con n
0
= 0 (9)
34
Figura 9: Funciones de activacin ms importantes.
Entonces, para la funcin sigmoidea, se tiene que
j
i
=
_
1
1 +c
hi
_
con (10)
/
i
=

j
n
ij
r
j
+n
0
y para el segundo caso de la funcin sigmoidea
j
i
= tanh(/
i
) =
_
c
hi
c
hi
c
hi
+c
hi
_
con (11)
/
i
=

j
n
ij
r
j
+n
0
La expresin de la ecuacin que almacena la neurona en virtud del vector de
35
Figura 10: Funcin sigmoide
pesos wes el modelo que representa en mayor o menor grado el comportamiento
del vector de salida y con respecto al vector de entradas x.
Entonces, una neurona articial es un procesador elemental. Se encarga de
procesar un vector de : entradas para producir un nico valor de salida j. El
nivel de activacin depende de las entradas recibidas y de los valores sinpticos.
Para calcular el estado de activacin se ha de calcular en primer lugar la entrada
total a la clula. Este valor se clcula como la suma de todas las entradas
ponderadas por ciertos valores dados a la entrada.
1.4.2. Redes Neuronales Articiales (RNA) y Algoritmo de Apren-
dizaje
La capacidad de modelar funciones ms complejas aumenta grandemente
cuando la neurona no trabaja sola, sino interconectada con otras neuronas,
formando Redes Neuronales Articiales (RNA), tal como se observa de manera
simplicada en la gura 11.
La red ms simple se llama perceptron multicapa. Esta red dene una
relacin entre las variables de entrada y las variables de salida. Esta relacin
se obtiene propagando hacia adelante los valores de las variables de entrada.
Cada neurona procesa la informacin recibida por sus entradas y produce una
respuesta o activacin que se propaga, a travs de las conexiones correspondien-
tes, hacia las neuronas de la siguiente capa.
Sea un perceptron multicapa con C capas, de las cuales una es la capa de
entrada, una la capa de salida y C 2 capas ocultas. Se tienen :
c
neuronas en
la capa c, con c = 1, 2, 3, ..., C. Sea \
c
= (n
c
ij
) la matriz de pesos asociada a
las conexiones de la capa c a la capa c + 1 para c = 1, 2, 3, ..., C 1, donde n
c
ij
representa el peso de la conexin de la neurona i de la capa c a la neurona , de
la capa c + 1. Sea l
c
= (n
c
i
) el vector de umbrales de las neuronas de la capa
c para c = 2, 3, ..., C. Se denota a
c
i
a la activacin de la neurona i de la capa c;
estas activaciones se calculan del siguiente modo:
36
Figura 11: Esquema simplicado de una RNA (Tomado de [17])
1. Entrada (a
1
i
). Estas neuronas transmiten hacia la red las seales recibidas
del exterior
a
1
i
= r
i
jara i = 1, 2, 3, ..:
1
(12)
Donde A = (r
1
, r
2
, ..., r
n
) representa el vector de enntrada a la red.
2. Activacin de las neuronas de la capa oculta c (a
c
i
) : Las neuronas ocultas
procesan la informacin recibida aplicando la funcin de activacin o a
la suma de los producto de las activaciones que recibe por sus correspon-
dientes pesos:
a
c
i
= o
_
_
nc1
j=1
n
c1
ji
a
c1
j
+n
c
i
_
_
(13)
Para i = 1, 2, 3, ..., :
c
y c = 2, 3, ..., C 1
3. Salida (a
C
i
) : Al igual que en las capas ocultas, la activacin de estas
neuronas viene dada por la funcin de activacin )
j
i
= a
C
i
= o
_
_
n
C1
j=1
n
C1
ji
a
C1
j
+n
C
i
_
_
(14)
para i = 1, 2, 3, ..., :
c
donde 1 = (j
1
, j
2
, j
3
, ..., j
n
C
) es el vector salida de la
red.
Para el perceptron multicapa las funciones de activacin mas usadas son la
funcin sigmoidal:
o(/) =
1
1 +c
h
(15)
y la funcin tangente hiperblica:
o(/) =
1 c
h
1 +c
h
(16)
37
Estas funciones tienen una forma similar pero se diferencian en que la sigmoidal
tiene un rango continuo de valores dentro de los intervalos [0, 1] mientras que la
tangente hiperblica tiene un rango contnuo en el intervalo [1, 1].
Ahora se necesita examinar cmo funciona el perceptron multicapa en sus
capas ocultas, es decir lo interesante de la red neuronal es que dado un conjunto
de datos ella puede aprender a tratarlos, esto es comunmente llamado regla o
algoritmo de aprendizaje. Como el objetivo es que la salida de la red sea lo ms
prximo posible a la salida deseada, el aprendizaje de la red se formula como
un problema de minimizacin:
'i:
w
1 (17)
1 =
1
n=1
c(:) (18)
c(:) =
1
2
nc
i=1
(:
i
(:) j
i
(:))
2
(19)
Donde 1 es la funcin de error que evala las salidas de la red y las detec-
tadas, \ es el conjunto de parametros de la red, es el nmero de patrones o
muestras y c(:) es el error cometido por la red para el patron :. Adems
1 (:) = (j
1
(:), j
2
(:), j
3
(:), ..., j
n
C
(:)) (20)
es el vector de salida obtenida mediante la red y
o(:) = (:
1
(:), :
2
(:), :
3
(:), ..., :
n
C
(:)) (21)
es el vector de salida deseada, segn los dato originales. Entonces si \ es
un mnimo de la funcin error 1, en este punto el error es lo ms prximo a
cero, alcanzado la meta de aprendizaje.
Se sabe que la red debe entrenarse para minimizar el error total, segn la
ecuacion 18. Para esto el procedimiento mas usado se basa en mtodos del
gradiente estocstico, los cuales se basan en una sucesiva minimizacin de los
errores para cada patrn c(:), en lugar de minimizar el error total
n(:) = n(: 1) c
0c(:)
0n
(22)
donde c como la razn o tasa de aprendizaje, y determina qu tan grande es la
variacin en cada paso de entrenamiento.
Para el aprendizaje de la red existen varios algoritmos que segn la he-
rramienta computacional que se utilice varian, ademas de existir diversas varia-
ciones, en la implementacin que se realiz se utiliz el algoritmo RPROP(Resilient
backPROPagation).
El algoritmo RPROP clcula el cambio de los pesos en forma separada, es
guiado por la primera derivada de ), en este caso; ) es una medida de la dife-
rencia entre la salida arrojada por la red neuronal y el valor esperado. RPROP
38
utiliza parmetros independientes que controlan la velocidad con que se recorre
la funcin objetivo para cada uno de los pesos de la red neuronal, al no verse
afectado por la saturacin de la red neuronal converge mas rpidamente que
otros algoritmos.
Un perceptrn multicapa busca una funcin j
t
que se construye en funcin
de sus valores pasados, j
t1
, j
t2
, ..., j
tP
j
t
= ,
+
H
h=1
,
h
q
_
1
2o
1
y
_
c
;h
+
P
p=1
c
p;h
j
tp
__
+-
t
(23)
Donde los parmetros = [,
, ,
h
, c
;h
, c
p;h
] , / = 1...H, j = 1...1 son
estimados usando el principio de mxima verosimilitud de los residuales, el cual
equivale a la minimizacin de una funcin de costo que es denida usualmente
como error cuadrtico medio. Esta ecuacin equivale a un modelo estadstico no
paramtrico de regresin no lineal, -
t
sigue una distribucin normal con media
cero y varianza desconocida o
2
, H representa el nmero de neuronas en la capa
oculta, 1 es el nmero de rezagos de la variable dependiente y q es la funcin
de activacin de las neuronas de la capa oculta.
El algoritmo RPROP busca encontrar los valores del vector de parmetros
, de forma que se minimice la diferencia entre los valores reales j
t
y los valores
j
t
.
La actualizacin de los pesos, viene dada por
n
ij
(t) = c(t):iq:o(\
wi;j(t)
1) (24)
La utilizacin del signo del gradiente en la actualizacin de los pesos supone
un ahorro en la carga computacional. Por otro lado, la constante de adaptacin
viene dada por
c(t) =
_
mn(c(t)n, c
max
) (\
wi;j(t)
1)(\
wi;j(t1)
1) 0
max(c(t)d, c
mn
) (\
wi;j(t)
1)(\
wi;j(t1)
1) < 0
(25)
con n 1 y d < 1.
1.4.3. Series de Tiempo
Para predecir el valor de un indicador se realiza una inferencia, a partir de
ciertos datos para obtener un valor de lo que ocurrir en el futuro, este pronstico
dependera de las variables tanto internas como externas. Actualmente existen
diversas tcnicas para predecir, entre las que se encuentran: Los modelos de
pronstico causales y los modelos de series de tiempo.
Los modelos de pronstico causales parten del supuesto de que el grado de in-
uencia de las variables que afectan al comportamiento del mercado permanece
estable, para luego construir un modelo que relacione ese comportamiento con
39
las variables que se estima que son las causantes de los cambios que se observan
en el mercado
3
.
Los modelos de series de tiempo se reeren a la medicin de valores de una
variable en el tiempo a intervalos espaciados uniformemente. El objetivo de la
identicacin de la informacin histrica es determinar un patrn bsico en su
comportamiento, que posibilite la proyeccin futura de la variable deseada
4
.
La series temporales tratan de modelar el comportamiento de un conjunto
de datos a travs del tiempo, con el objeto de predecir estos valores, teniendo
gran utilidad en los indicadores econmicos. El modelo se puede plantear como
1
t
= )(1
t1
, 1
t2
, ...)
donde 1
t
es el comportamiento de la variable temporal.
Si se graca en un plano cartesiano este comportamiento respecto al tiempo,
se encuentran 4 componentes principales:
1. Tendencia (T
t
): Es la direccin que toma la curva en un intervalo de
tiempo y se representa por la funcin que mejor se adecue a dicha curva.
2. Estacional (o
t
): Sucesos recurrentes en un determinado periodo de tiem-
po.
3. Cclica (C
t
): Se reere a oscilaciones de larga duracin, por ejemplo pe-
riodos mayores a un ao, segn nuestro objeto de estudio.
4. Aleatoria (1
t
): Movimientos de la serie de tiempo por causa externas.
El modelo en que se apoya el anlisis clsico de serie de tiempo se basa
en el supuesto de que, el valor de la variable esta determinado por los cuatro
componentes tienen una relacin multiplicativa. Entonces el valor de serie de
tiempo observado est dado por:
1
t
= T
t
C
t
o
t
1
t
(26)
En la realizacin del presente proyecto se utilizar el anlisis de series de
tiempo clsico y se contrastar con el modelo obtenido con herramientas de MD
que generan modelos de pronstico causales, apoyadas por tcnicas de IA.
3
Operations Management. Derevitsiotis, Kostas. Mc-Graw Hill, 1981.
4
http://www.itba.edu.ar/nuevo/archivos/secciones/art_revistas_22.pdf
40
2. Prediccin de Indicadores de Gestin
En este captulo se presentar la aplicacin de este conjunto de tcnicas y
conceptos matemticos en la solucin de un problema empresarial: cmo predecir
el comportamiento de un indicador de gestin?
En la seccin 1.2 se haba hablado de la importancia de la prediccin para
determinar cursos de accin en la direccin de una empresa. Una herramienta
clsica que se dispone es el anlisis de series de tiempo. Las herramientas ms
recientes incluyen tcnicas propias de la MD basadas en IA. En la primera parte
de este captulo se presenta primero la prediccin de indicadores utilizando la
tcnica clsica de series de tiempo. En la seccin siguiente se presenta la solucin
utilizando Minera de Datos basada en Redes Neuronales Articiales. Luego se
comparan los resultados obtenidos mediante la aplicacin de estas dos tcnicas.
2.1. Prediccin con Series de Tiempo
Para le prediccin utilizando series de tiempo, se tiene en cuenta primordial-
mente el atributo que se desea predecir, que es el EBIT. Los atributos Perodo
y Mes se utilizan como ndices para relacionar el tiempo.
El comportamiento del EBIT se observa en la gura 12, que incluye la tenden-
cia, la componente estacional, la componente cclica y la componente aleatoria.
Figura 12: Comportamiento temporal del EBIT.
41
2.1.1. Componente de Tendencia
La componente de tendencia
T
t
= /
1
t +/
0
(27)
donde T
t
es la tendencia en el valor del EBIT, t es el perodo en el cual se desea
conocer la tendencia y /
1
, /
0
don los parmetros de la recta correspondientes a
pendiente e intercepto respectivamente. De acuerdo con la notacin especca
que se ha adoptado para este problema, los parmetros se calculan con las
siguientes expresiones:
/
1
=
t1
t

(
1
t
)
:
t
2

(
t)
2
:
(28)
/
0
=

1 /
1
t (29)
donde:
t : Perodo
1
t
: Valor del EBIT en el perodo t
: : nmero de perodos.
1 : Promedio de valores del EBIT.
t : Promedio de valores de t
La expresin para la lnea de tendencia obtenida segn los datos iniciales
del EBIT se observa en la gura 13 y corresponde por tanto a la expresin:
T(t) = 2561,94t + 242417,04 (30)
2.1.2. Componente Estacional y Aleatoria
Para calcular la componente estacional y aleatoria se requieren los clculos.
Para el caso presente se calcula con base en 1 entrada mensual. Por tanto se
toman 12 valores para cada clculo. sto corresponde a la expresin:
1'
j
=
j+5
i=j6
1
i
12
para 7 _ , _ 12 (31)
Lo cual permite obtener 3812 = 26 promedios mviles, mientras que el prome-
dio mvil centrado se obtiene con la expresin:
1'C
k
=
1'
j
+1'
j+1
2
para / = , + 1 (32)
con lo que se obtienen 25 promedios mviles centrados, y su grca se observa
en la gura 13.
42
Figura 13: Tendencia y Promedios mviles centrados para el EBIT.
Con base en estos datos se puede calcular ahora el ndice de estacionalidad
o
t
para cada mes:
o
t
= Pr o:cdio(
1
p
1'C
) (33)
teniendo en cuenta utilizar los valores de los respectivos meses, es decir, si se
calcula para el mes 5, se utilizan los 1
p
y 1'C de los meses 5 en los periodos
que se tengan.
Donde los valores obtenidos para cada mes se encuentran en la gura 14.
Con base en estos valores se puede calcular el EBIT desestacionalizado 1
t
,.
Cada entrada se calcula mediante la siguiente expresin:
1
t
=
1
t
o
t
2.1.3. Pronstico del EBIT mediante la Tendencia y el ndice de
Estacionalidad
El pronstico del EBIT se realiza mediante la siguiente expresin:
1
p
= T
t
o
t
1
t
= (/
1
t +/
0
) o
t
= (1755,70t + 261713, 80) o
t
43
Figura 14: Valores de o
t
para cada mes.
donde t es el perodo en el cual se desea predecir el EBIT y o
t
es el ndice
estacional correspondiente al mes en este caso.
Los valores que se pueden predecir para los meses 39 al 48 son:
En la anterior tabla se muestran los resultados originales del EBIT y la
prediccin obtenida con el modelo de series de tiempo.
El comportamiento de la prediccin se muestran en la gura 15.
El coeciente de correlacin para este ajuste es de r
2
= 0, 4868. Este no es
un valor aceptable, que no permite precedir adecuadamente valores futuros de la
variable, tal como se observa en la gura 16. El valor de r
2
puede mejorarse cal-
culando el componente cclico del pronstico, pero no se realizar en el presente
trabajo.
44
Figura 15: EBIT vs Prediccin Series
45
Figura 16: Valores para EBIT y Prediccin EBIT (series)
2.2. Modelo de Prediccin con Redes Neuronales
A continuacin se buscar la obtencin de un buen modelo que permita
predecir el conmportamiento de los Indicadores de Gestin. La metodologa a
utilizar ser la metodologa CRISP-DM, que se especic en la seccin 1.3.2.
2.2.1. Comprensin del Negocio
La fase de comprensin del negocio coincide con buena parte de los que se
ha expuesto en las secciones 1.1 y 1.2. Adems, se ha planteado ya desde la
introduccin, que el objetivo del negocio es el de la prediccin de un indicador
de gestin de inters para la Organizacin que suminstr los datos, que es el
EBIT y que ha sido descrito con anterioridad.
2.2.2. Preparacin de los Datos (Preprocesamiento)
Esta parte del proyecto se encarga de tomar los datos y generar una vista
minable, es decir el grupo de datos a los cuales se les va a aplicar las tcnicas de
MD, para esto como se vio en el anterior apartado se sigue un estricto proceso
bajo la metodologa CRISP-DM.
En la terminologa de la Ingeniera de Sistemas es comn el uso de la expre-
sin preparacin de datos para estas actividades, mientras que en la terminologa
matemtica es ms utilizado el trmino preprocesamiento, que enfatiza en las
acciones de transformacin de valores nominales o numricos.
Extraccin y Limpieza de Datos Se dispone de una BD correspondiente
a la empresa y se procede a un examen previo de los datos. Se examinan los
46
atributos, y guiados por un experto en la operacin de la empresa se determi-
na cuales son los atributos relevantes para el problema en cuestin. Luego se
procede a realizar las siguientes actividades:
1. Se interpreta el nombre de los atributos, con el n de lograr una compresin
de su signicado y por tanto de su posible relevancia o irrelevancia para
el problema.
Una vez se han descrito los atributos, se han organizado en dos grupos(ver
gura 17):
a) Variables que representan gastos o egresos.
b) Variables que representan ganancias o ingresos.
2. Se determina el tipo de cada uno de los atributos.
a) En general se encontr que la mayora de los datos se pueden repre-
sentar con variables de tipo numrico y contnuo, representando
cantidades de dinero que entran o salen de las cuentas de la empresa.
b) La variable que representa el perodo examinado es de tipo entero
c) Tan solo las variables que representan el mes son de tipo nominal,
y como se ver luego, sern numerizadas para que sean fcilmente
utilizadas por la herramienta de MD.
3. Se determina el rango de valores aceptable para cada atributo.
a) El experto determin que para las variables continuas consideradas,
no es posible un valor negativo y por lo general el valor 0 no tendra
sentido dentro de la operacin normal de la empresa, luego en general
las variables continuas tienen asignado un valor R
+
.
b) La variable entera que representa el perodo es de tipo ndice y por
tanto es un entero positivo.
c) La variable mes que es de tipo nominal, sufrir un proceso de nume-
rizacin, con valores obviamente entre 1 y 12.
4. Se determina el tipo de unidades de medicin para cada atributo.
a) En general todas las variables aqu presentadas y que miden la ope-
racin de la Organizacin vienen en miles$.
b) La variable perodo y mes tienen obviamente la unidad mes.
5. Eliminacin de Atributos no relevantes.
La BD queda con 28 campos o atributos. Aunque la BD original contaba
con 38 campos, algunos de ellos mostraron ser claramente irrelevantes para
el problema segn el experto de la empresa. El resultado de este examen se
encuentra en la tabla de la gura 17. En esta tabla se observa el resumen
de las conclusiones de los pasos anteriores.
47
6. Seleccin de Registros tiles.
Con base en los resultados de los pasos anteriores, se tiene un primer
criterio para examinar la utilidad y validez de los registros disponibles.
El examen de la BD muestra que no todos los registros son tiles, por
diferentes causas:
a) Contienen valores inconsistentes: Al aplicar la lgica del negocio,
se encuentra que el valor del registro particular es claramente errado
y su valor es inaceptable.
b) Contienen valores nulos (NULL): Son registros que no se llenaron por
algn motivo. Si es posible llenarlos con el valor correcto, se puede
actualizar. Pero en muchos casos es necesario eliminarlos de la vista
minable.
c) Contienen valores fuera de rango: El valor de un registro particular
excede el los valores usuales permisibles determinados por el experto.
Desde el punto de vista de la estadstica puede corresponder a datos
atpicos.
Despus del anlisis de la BD se tiene que originalmente se disponen de
60 registros, pero de ellos es necesario descartar 12 por contener valores
nulos e inconsistentes.
Una vez se ha examinado la base de datos original, se procede a realizar cada
uno de los siguientes clculos para cada atributo:
Valor mnimo de cada atributo i:
\ a|_'i:
i
= mnA
i
(34)
Valor mximo de cada atributo A
i
:
\ a|_'ar
i
= max A
i
(35)
Promedio de cada atributo A
i
:
j
i
=
m
i=1
A
i
:
(36)
donde : es la cantidad de registros para el atributo.
Desviacin estndar de cada atributo A
i
:
o
i
=
_
m
j=1
(A
ij
j
i
)
2
:
(37)
donde :es la cantidad de datos, j
i
es la media correspondiente al ic:i:o
atributo y A
ij
es el valor del registro , del atributo i.
48
Figura 17: Atributos y alguna informacin relevante suminstrada por el experto.
El resultado de estos clculos se encuentra en la tabla de la gura 18. El
conocimiento del tipo de atributo, su rango aceptable de valores y las medidas
estadsticas mencionadas, permite identicar problemas potenciales tales como:
Datos atpicos con valores incorrectos en los registros.
Deciente distribucin de la variable objetivo.
Si se trata de un problema de clasicacin, se debe vericar la distribucin
de cada clase dentro del conjunto total de datos. Una distribucin muy
desigual genera problemas si la cantidad de patrones de entrenamiento y
vericacin es pequea, por cuanto el sistema no puede aprender correc-
tamente las diferencias de clase.
La informacin que se observa en la gura 18 corresponde a los valores
estadsticos de los datos originales, sin efectuar ninguna correccin (en caso
de que sea posible) a los registros con entradas nulas, vlidas o inconsistentes.
49
Figura 18: Informacin estadstica bsica acerca de los atributos y datos origi-
nales.
Limpieza y Construccin de Datos Se detectaron los siguientes problemas
en el conjunto original de datos:
Valores fuera de rango.
Se encontraron valores negativos en algunos atributos. Para cada atribu-
to i donde se encontraron estos valores, y de acuerdo con la recomendacin
del experto, fueron reemplazados o bien por el valor j
i
correspondiente al
atributo, segn la gura 18 o bien por el valor mnimo considerado de
la gura 17. Obviamente no se reemplazan por el valor mn(A
i
) porque
conducira al mismo u otro valor negativo.
Valores nulos o errados.
Donde se present claridad por parte del experto para llenar estos datos
con algn valor aceptable, se actualiz. Para ello se tom informacin
adicional de la misma empresa.
50
En otros registros no fue posible conseguir esa informacin, por lo cual
fueron eliminados de la vista minable.
Despus de estas actividades se obtiene que:
: = 28 (Nmero de atributos aceptados)
: = 48 (Nmero de registros vlidos)
Normalizacin Se puede llamar vista minable a los datos ya completamente
listos para aplicar la tcnica de MD escogida. El proceso de normalizacin se
realiza a la vista minable, y tiene como objetivo ubicar cada uno de los datos en
una escala adecuada. En este caso los datos estan en su mayoria expresados en
miles de pesos y alcanzan cifras relativamente grandes al comparase con otras.
Para el manejo de datos en la herramientas de IA se hace necesario que los datos
estn en un rango comn determinado.
Para el problema actual, se ha seleccionado la normalizacin mnmax,
que realiza un escalamiento lineal de los datos para que coincidan en el rango
max mn determinado. Se ha seleccionado:
mn = 0; max = 1
lo que se logra aplicando la frmula:
.
i
=
A
i
mnA
(max A mnA)
donde A
i
cada uno de los : valores de un atributo, mnA es el valor mnimo
de los A
i
correspondiente a un atributo, max A es el valor mximo de los A
i
correspondiente al mismo atributo.
Al normalizar los datos, se logra que cada una de las variables tenga la misma
ponderacin inicial al ser evaluado por la RNA.
La Vista Minable Despus del proceso de limpieza y normalizacin se
tienen : = 28 campos y : = 48 periodos, con datos normalizados dentro el
intervalo [0, 1] . Estos datos normalizados son descriptivos del negocio, tal como
lo son los dator originales.
2.2.3. Obtencin del Modelo
Para obtener un modelo del problema plantedo, de tal manera que se pueda
realizar una prediccin adecuada, se propone suministrar los datos a una red
neuronal, entrenarla con estos datos y con base en el modelo obtenido, realizar
la prediccin. La rede neuronal se implementar en una herramienta computa-
cional de tipo grco llamada KNIME, que permite una fcil implementacin
de las redes neuronales y variar los parmetros con el n de obtener el resultado
esperado.
51
Figura 19: Perceptrn multicapa en KNIME
Entonces, a la vista minable se le aplica un perceptrn multicapa (seccin
1.4.2) implementado en KNIME. Como se mencion anteriormente, la potencia
de KNIME radica en el entorno grco. En la gura 19 se ve la implementacin
del modelo de perceptron multicapa usado. Cada herramienta tiene una funcin
especica de vital importancia para el xito del modelo.
Los mdulos que se han utilizado se describen a continuacin.
Database Reader. Con esta herramienta se importa la base de datos, ya
preparada, es decir la minable, sin embargo es de resaltar que tiene herramientas
estadsticas como el mnimo, mximo, que permiten detectar problemas con los
datos y asi optimizar la obtencin de la vista minable.
Normalizer. Como su nombre lo dice es un normalizador de datos, de vital
importancia, ya que el perceptron solo admite valor en ciertos rangos, de este
modo aqui se puede realizar este proceso de transformacin de datos. La he-
rramienta tiene diferentes tipos de normalizacin y tiene la opcin de escoger a
52
cuales campos realizarlo. Como se puede observar en la gura tiene dos salidas,
una al partitioning y otra al denormalizer.
Partitioning: Lo que hace es dividir el conjunto de datos en dos; una parte
para el aprendizaje RProp MLP Learner, y otra parte se utiliza en la validacin
de resultados para la prediccin Multilayer Perceptron Predictor. Se puede ma-
nipular la cantidad de datos y la forma de elegirlos.
Perceptron Learner. Es la herramienta donde esta implementado el percep-
tron, se puede manipular el nmero de neuronas, el nmero de capas ocultas y
el nmero de iteraciones, claro esta que todo dependiendo de la mquina que
se disponga para este n y del volumen de datos. El perceptron utiliza el algo-
ritmo RPROP el cual se decribe en la seccin 1.4.2 y utiliza como funcin de
activacin la funcin lineal.
Perceptron Predictor . Recibe el modelo del RProp MLP Learner y con los
datos de validacin entrega una prediccin sobre el campo seleccionado. Esta
informacin se utiliza usualmente para vericar qu tan bueno es el modelo.
Si el comportamiento del predictor es bastante menor que el comportamiento
de la red en modo aprendizaje, entonces se dice que la red memoriza y no
generaliza. Este error es importante y se debe detectar y corregir antes de aplicar
el modelo en la realidad.
53
En la ejecucin se present el fenomeno de la memorizacin. Para corregir
este fenmeno se requiere:
Aumentar el nmero de datos, o bien
Reducir el nmero de atributos predictores.
Para el problema que se trabaj no era fcil ninguna de las dos opciones. Por
tanto se opt por ajustar parmetros de la red y realizar mltiples ejecuciones
hasta lograr el resultado mostrado, que es relativamente satisfactorio.
Desnormalizador. Los datos de prediccin que entrega el perceptron estn
normalizados. Si se quieren utilizar los datos en la prctica, se deben regresar
a su escala natural. Por esta razn se utiliza el mdulo denormalizer. ste est
conectado con el mdulo normalizer, para que aplique el mismo modelo de
normalizacin a los datos desnormalizados.
Para el caso del presente problema se aplic la expresin:
A
i
= .
i
(max A mnA + mnA) (38)
CSV Writer. El mdulo tipo Writer es una importante herramienta que
toma los datos y devuelve un archivo del tipo requerido. Para el caso de las
ejecuciones de prueba se utilizaron archivos de tipo CSV, el cual se puede ma-
nipular fcilmente para extraer la informacin.
54
KNIME permite realizar diferentes tipos de ejecuciones permitiendo la op-
cin de variar la cantidad de iteraciones y, en este caso, diferentes capas ocultas.
Para el caso de 100 iteraciones y una capa oculta, arroja los resultados que se
exponen a continuacin.
Al ejecutar la conguracin de la gura 20 junto con los datos de entre-
namiento suministrados por la empresa para los primeros 38 meses, el aplicati-
vo Knime genera un modelo a partir de dichos datos. Para generar el modelo,
Knime ejecuta el algoritmo RPROP denido anteriormente hasta que se cumpla
alguna de las condiciones de parada de la mayora de los programas de este tipo:
Que el error obtenido en la validacin del modelo sea inferior a un valor
umbral mnimo.
Que se alcance el nmero mximo de iteraciones predenidas.
En el proceso de entrenamiento es de vital importancia la particin del con-
junto de datos. Es claro que la red neuronal crea un modelo a partir de unos
datos, el cual lo debe validar, es decir, calcular el error que obtiene con el mo-
delo actual. Para ello es necesario comparar la informacin de salida con datos
reales. Las diferencias encontradas guan la direccin de los ajustes por parte
del algoritmo.
Por estas razones para poder monitorear la exactitud del modelo de la red
neuronal se implemento el perceptron que se muestra en la gura 20. KNIME
puede calcular la correlacin lineal entre las variables, en este caso EBIT y la
prediccin del EBIT que sale del perceptrn.
En cuanto al ajuste de los parmetros de la red, para el presente problema
se observ que el resultado obtenido no mejor al aumentar el nmero de capas
ocultas ni variar el nmero de neuronas por capa. Se utiliz tan solo una sola
capa oculta y una neurona por cada variable predictora.
Se calculan las correlaciones para todo el conjunto de datos (se ven en la
parte inferior de la gura 20) y para los datos de validacin (parte superior
de la misma). En otras palabras, la ejecucin de entrenamiento, junto con los
datos de entrenamiento y validacin obteniendo los siguientes resultados; para
el predictor (mdulo de correlacion lineal superior) se observa el coeciente de
correlacin r
2
= 0, 928 y para los datos totales se observa un coeciente de
correlacin r
2
= 0, 973. Como es de esperarse usualmente, el desempeo de la
red disminuye cuando se consideran solo los datos de validacin.
La red neuronal funciona como una suma de las variables por sus respectivos
pesos. Se ha congurado con diferentes capas dentro de las cuales cada neurona
tiene funcin de activacin lineal. Entonces el modelo para obtener el valor del
EBIT est dado por la ecuacin 39:
55
Figura 20: Modelo en KNIME para hallar correlaciones.
111T = 0, 8815 + 1criod 0, 1553 + 'o:t/ (39)
0, 6268 + Tra::j\Co:t + 0, 2019 + 'atcria|Co:t
+0, 8680 + 1rocc:i:qCo:t + 0,7453 + Tot'a:n)acCo:t
0, 1417 + d'/t1c:carc/ 0, 9511 + oc||i:q1rj1ic|d
+0, 7833 + oc||i:q1rjO))icc + 0, 3897 + oc||i:q1rjOt/cr
+1, 4982 + jrod1cc|oj 0, 5412 + 1rjd:i:
+0, 1748 + 1rj1nsinc:: 1, 0555 + 'a:aq&d:i:
0, 4020 + Totoc||Tcc/d:+ 0, 9033 + OjC/arg c:
0, 2449 + lti|\ aria:cc: 0, 7922 + Co::i::io::
0, 6175 + Pr o)itCo:tri/ 0, 2342 + Pr odnctCo:tri/
+0, 3408 + Oj1:co:c 0, 5774 + Gro::1rtoa|c:
0, 9633 + ct1rtoa|c: 0, 2830 + Gro::Totoa|c:
+0, 9112 + oa|c: Pr o Re /atc: + 0, 5259 + ctTotoa|c:
1, 6314 + Gro:: Pr o)it1 0, 7830 + Gro:: Pr o)it2
56
Con este modelo obtenido de la red neuronal implementada en KNIME, se
obtiene una prediccin basada en el perceptron multicapa. la siguiente tabla
muestra la comparacin entre la prediccin realizada por el modelo de Knime y
los datos originales.
57
EBIT y su prediccin con el modelo generado basado en RNA.
58
Figura 21: EBIT vs Prediccin EBIT
Para entender mejor el comportamiento del modelo, la gura 21 muestra la
tendencia de los datos.
La escala est en miles de pesos. Los datos de la correlacin muestran una
tendencia lineal, no se encuentran datos demasiado dispersos lo que se traduce
en un ajuste relativamente bueno del modelo, dada la complejidad del problema,
en el sentido que no todos los posibles factores que inuyen en el EBIT estn
all calculados.
La gura 2.2.3 muestra una comparacin de los valores, claramente se ven
las variaciones entre los datos reales y la prediccin, y que la prediccin trata
de seguir de alguna manera el comportamiento de EBIT.
59
Valores para EBIT y Prediccin EBIT (Red Neuronal) para los 48 perodos
analizados.
2.2.4. Comparacin de los Modelos RNA y Series
La importancia de todo este proceso, radica en la informacin que se pue-
da obtener a partir del modelo generado. La precisin en la prediccin de un
resultado puede generar la diferencia que hace efectivo un plan de negocios de
la organizacin. El anlisis de resultados y la interpretacin permite tomar las
decisiones adecuadas para optimizar los procesos de la organizacin.
Luego de aplicar las dos tcnicas, series de tiempo y redes neuronales, se
obtienen diferentes resultados, con los cuales se valida la veracidad y utilidad de
cada uno de los modelos comparando las predicciones obtenidas con los datos
suministrados por la organizacin.
En la gura 22 se encuentran los valores reales para el EBIT y los valo-
res obtenidos con las predicciones. En la gura se ve la precisin del modelo
utilizando perceptron multicapa, frente al clsico series de tiempo.
Los diagramas de dispersin (guras 15 y 21) muestran grcamente el com-
portamiento de cada modelo. Pero el valor numrico que mejor indica qu tan
bueno es el modelo es el coecientes de correlacin r
2
. Knime arroja resultados
para el valor
r
2
= 0, 928 (modelo RNA de Knime)
para el modelo con redes neuronales. Para la prediccin con series tempo-
rales, sin considerar el componente cclico, se obtiene:
r
2
= 0, 4868 (modelo con series de tiempo sin comp. cclico)
lo cual muestra claramente la utilidad del modelo de red. An cuando otras
medidas de error son usuales para el trabajo con series de tiempo, el uso del valor
r
2
permite comparar efectivamente el resultado de los dos modelos obtenidos.
60
Figura 22: Comparacin de valores para EBIT (Real), Prediccin EBIT (Red
Neuronal) y prediccin EBIT con series de tiempo.
61
[
62
3. Conclusiones
El desarrollo de las matemticas y de algoritmos ecientes, la evolucin de la
tecnologa en lo referente a la facilidad, costo y rapidez de la computacin, y la
disponibilidad de enormes cantidades de datos que se procesan y almacenan en
los sistemas de informacin, ha permitido el crecimiento de la MD en la ltima
dcada. Los xitos obtenidos en esta disciplina han demostrado la necesidad de
investigacin en este campos, debido a su importancia. La aplicacin de herra-
mientas matemticas en las organizaciones, conduce a optimizar los procesos en
todos los niveles, esto se traduce en un claro mejoramiento de las utilidades, de
aqui la importancia del estudio de las matemticas aplicadas.
Pero es preciso aclarar que para aplicar MD se necesita tambin un completo
conocimiento de la organizacin y, en terminos de sta, se evaluan los costos y
benecios que representa su implementacin.
En general, cuando se habla de MD se hace alusin a un procedimiento
automtico o semiautomtico, en el cual la intervencin del usuario es mnima,
y por tanto el auxilio de paquetes computacionales es vital. Se di preferencia
al uso de herramientas libres. En el presente proyecto se utiliz KNIME pero
se puede desarrollar con muy pocas variaciones utilizando otras herramientas
incluso ms utilizadas tales como WEKA y R.
Poder manejar grandes cantidades de variables y establecer correlaciones
ocultas es sin duda un xito de la MD, que puede conducir a una correcta toma
de decisiones. La MD se utiz en este proyecto para extraer conocimiento de los
datos suministrados por una Organizacin, utilizando como herramienta princi-
pal las Redes Neuronales, realizando la solucin del mismo problema mediante
las series de tiempo.
Como en todo proceso complejo, el desarrollo eciente de la MD requiere
de una metodologa clara que debe guiar los pasos a seguir. En este sentido
la metodologa CRISP-DM proporcion un conjunto de indicaciones apropiadas
para el desarrollo de este proyecto. La sola metodologa es sucientemente exten-
sa para haber sido descrita aqu en todos sus detalles, que se pueden encontrar
en la bibliografa suministrada, pero en todo caso es recomendable su estudio
detenido antes de iniciar un proyecto de MD.
El proceso de extraccin, anlisis y transformacin de datos fue un proceso
que consumi buena parte del tiempo disponible para el proyecto, y sus resulta-
dos son aparentemente muy modestos: una tabla de datos llamada vista minable.
Sin embargo, la calidad de la vista minable determina en buena parte el xito
del proyecto, y si sta es deciente el proyecto en general tendr igualmente un
resultado deciente, sin importar el esfuerzo o las herramientas que se utilicen
para la MD.
La MD apoyada en herramientas de IA permite estimar o predecir cualquier
variable que est presente en la vista minable, siempre y cuando exista una
relacin de dependencia natural con algunas de las variables restantes, sin necesi-
dad de que el investigador asuma ninguna hiptesis: este es uno de los motivos
por los cuales se eligi utilizar la Inteligencia Articial y en particular las Redes
Neuronales en la generacin del modelo. An cuando el trabajo se centr en
63
pronosticar el valor EBIT, la misma arquitectura de red permite hallar un mo-
delo para predecir cualquier otra variable disponible en la vista minable; tan solo
hay que nombrar a la variable deseada como variable objetivo o clase, siguiendo
el proceso requerido por el paquete computacional utilizado.
La segunda razn por la cual se eligi la Red Neuronal (RN) como herramien-
ta es que sta permite fcilmente hallar modelos tanto lineales como no lineales
para representar el problema. Adems, eligiendo entre diferentes funciones de
activacin es posible obtener diferentes modelos y comparar los resultados.
La tercera razn por la cual se eligi utilizar la IA y las RN es que liberan
al investigador de largos y engorrosos procedimientos, por cuanto el proceso de
entrenamiento, mediante el cual la red aprende el modelo que permite genera-
lizar, es un proceso automtico. Basta comparar el procedimiento de hallar el
modelo mediante la RN vs el procedimiento mediante series de tiempo. En RN,
la atencin del investigador se basa en el diseo de la red y la seleccin de los
parmetros.
La utilizacin adecuada de las RN requiere que el usuario experimente con-
tnuamente, para obtener los mejores resultados. Si bien hay recomendaciones a
seguir en el caso de encontrar problemas, tales como mal ajuste o memorizacin,
no hay reglas exactas que permitan ajustar los parmetros y obtener el mejor
resultado en todos los casos.
En el desarrollo del proyecto se implementaron varios modelos de perceptron
multicapa, en los cuales se vari el nmero de capas ocultas y el nmero de
iteraciones. La efectividad del modelo para el presente problema no aument
al aumentar el nmero de capas ocultas, que fue de una capa oculta. Tampoco
aument la efectidad del modelo al variar el nmero de neuronas por capa. Y
dado que el tiempo de entrenamiento y la complejidad del modelo obtenido por
la red aumenta proporcionalmente al nmero de neuronas y de capas, se ha
preferido mantener el modelo lo ms pequeo posible, siguiendo el principio de
economa o de parsimonia.
Un aspecto importante del entrenamiento de las redes neuronales es que se
debe buscar la generalizacin y evitar la memorizacin. La generalizacin se
logra cuando se tiene un buen resultado en el entrenamiento y un resultado
similar en la validacin. Se dice que hay memorizacin cuando los resultados
son buenos en entranamiento pero muy pobres en validacin, esto es, el modelo
obtenido no permite generalizar el resultado a nuevos valores no considerados
anteriormente. Para el problema considerado se observ que la red neuronal,
compuesta por tres capas, una de entrada, una capa oculta y una capa de salida,
llegaba rpidamente a la memorizacin de los datos de entrenamiento.
Para solucionar este problema se observ que era prctico realizar un cuadro
del valor de r
2
obtenido despus del entrenamiento de la RN y calculado con los
datos de validacin, para diferente cantidad de iteraciones, tal como se observa
en la tabla de la gura 23, y donde la grca 24 permite visualizar esta variacin,
observandose la no linealidad de la relacin.
Por otra parte, el anlisis de series de tiempo se queda bastante corto al
analizar el indicador y su comportamiento en el tiempo; sin embargo existe
el atenuante que para ste modelo no se calcul la componente cclica, por
64
Figura 23: Variacin del coeciente de correlacin segn las iteraciones reali-
zadas para entrenar la RN. Se presenta el logaritmo natural para gracarlo
adecuadaente.
Figura 24: Grca del coeciente de correlacin vs iteraciones (log natural).
65
consideraciones de tiempo y espacio.
Bajo estas consideraciones, la tcnica de prediccin con series de tiempo
puede ser una herramienta util para una organizacin que tenga un desempeo
uniforme, esto es, sin componente cclica. Es entonces importante notar que un
estudio ms detallado de su aplicacin, as como un contraste ms justo con las
redes neuronales implicara realizar el anlisis completo de la serie de tiempo,
incluyendo la componente cclica.
Mientras que las series de tiempo requieren largos clculos, el comportamien-
tos de los componentes de tendencia, cclico y estacional fueron detectados au-
tomticamente por la red, caracterstica que convierte a esta herramienta en
una potente fuente de informacin.
La red neuronal aprende el comportamiento de la variable dependiente con
relacin al comportamiento de las variables independientes con un porcentade
error de 10, 47 %. Este es considerado por los expertos como un buen resultado.
Frente al estudio clsico de series de tiempo, el modelo de IA es ms eciente
viendo los resultados de las correlaciones, ya que muestran un r
2
de 0, 928 del
perceptrn multicapa contra un r
2
de 0, 4868 de las series de tiempo sin com-
ponente cclico.
66
Referencias
[1] Clark, P.; Boswell, R. Data Mining. Practical Machine Learning Tools
and Techniques with Java Implementations, Morgan Kaufmann Publish-
ers, 2000.
[2] Mario, H. Gerencia de Procesos, Alfaomega S.A, Mxico (2001).
[3] Hernndez, J.; Ramrez, M. J.; Ferri, C. Introducin a la Minera de datos,
Pearson Prentice Hall, 2004.
[4] Larose, D. Data Minning Methods and Models, John Wiley & Sons, Inc,
2006.
[5] Russell, S.J.; Norvig, P. Inteligencia Articial. Prentice Hall Hispanoame-
rica, 1996.
[6] Sanz, A.; Del Bro, B. Redes Neuronales y Sistemas Difusos. Alfaomega
Grupo Editor, 2002.
[7] Isasi, P.; Galvn, I. M. Redes de Neuronas Articiales. Pearson Educacin,
2004.
[8] H. Mintzberg. The Structuring of Organizations: A Synthesis of the Re-
search (1979)
[9] H. Mintzberg. Diseo de las organizaciones efectivas (2000)
[10] I. Chiavenato, Introduccin a la Teora General de la Administracin,
Mc. Graw Hill, Mxico D.F. (2000).
[11] M. Hitt, R. Ireland, R. Duane, R. Hoskisson, Administracin Estratgica.
Competitividad y Globalizacin. Conceptos y Casos. Ed. Thomson. 7 Ed.
(2008)
Referencias de Internet:
Referencias
[1] http://www.monograas.com/trabajos55/mineria-de-datos/mineria-de-
datos.shtml
[2] http://es.wikipedia.org/wiki/Sistema_experto
[3] http://www.monograas.com/trabajos10/intelart/intelart.shtml
[4] http://www.monograas.com/trabajos35/redes-neuronales/redes-
neuronales.shtml
[5] http://www.disa.bi.ehu.es/spanish/profesores-etsi-
bilbo/~jtpcaaxi/PFC/wwwANN/la_neurona_articial.htm
67
[6] http://yoshibauco.wordpress.com/2011/04/27/empezando-con-las-etapas-
de-crisp-dm/
[7] http://investigacionsimulacion.blogspot.com/2010/11/representacion-del-
conocimiento.html
[8] http://campusvirtual.unex.es/cala/epistemowikia/index.php?title=El_dominio_de_las_Redes_N
[9] http://www.monograas.com/trabajos55/indicadores-de-
gestion/indicadores-de-gestion2.shtml
[10] http://ingenieria.udea.edu.co/grupos/revista/revistas/nro050/Articulo %2017.pdf
[11] http://pisis.unalmed.edu.co/avances/archivos/ediciones/Edicion %20Avances %202007 %202/15.pdf
[12] http://ocw.uv.es/ingenieria-y-arquitectura/1-
2/libro_ocw_libro_de_redes.pdf
[13] http://abriaqui-antioquia.gov.co
[14] http://oldemarrodriguez.com/yahoo_site_admin/assets/docs/Documento_CRISP-
DM.2385037.pdf
[15] http://users.dsic.upv.es/~jorallo/master/dm5.pdf
[16] http://commons.wikimedia.org/wiki/File:Neurona.svg
[17] http://commons.wikimedia.org/wiki/File:RedNeuronalArticial.pn
68

TRABAJODEGRADO

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

TRABAJODEGRADO

Diunggah oleh

Hak Cipta:

Format Tersedia

Aplicacin de Herramientas Matemticas

en la Determinacin de Indicadores de Gestin

1 : Promedio de valores del EBIT.

Anda mungkin juga menyukai