Redes Neuronales Aplicadas Al Estudio de La Corrupción

Red Neuronal Artificial (MLP) Aplicada al Estudio de la
Corrupcin
Un anlisis comparativo con otros modelos economtricos a la luz de la
teora
Red Neuronal Artificial (MLP) Aplicada al Estudio de la

Corrupcin
Un anlisis comparativo con otros modelos economtricos a la luz de la
teora
Cristian Picn Viana
A mi madre Margarita por sus sacrificios.

A mi hijo Damin por ser la principal Razn de todos
mis esfuerzos.
CONTENIDO
1 INTRODUCCIN .................................................................................................... 9
2 ACERCAMIENTO TERICO Y ANTECEDENTES ...................................... 13

2.1 Red Neuronal Perceptrn Multicapa (MLP) ...................................................... 13
2.2 Corrupcin y sus Determinantes ........................................................................ 18
2.2.1 La Corrupcin .............................................................................................. 18
2.2.2 Factores Determinantes ................................................................................ 19
2.3 Antecedentes sobre corrupcin .......................................................................... 21
3 LAS VARIABLES .................................................................................................. 24
4 METODOLOGA .................................................................................................. 31
5 RESULTADOS ....................................................................................................... 34
5.1 Resultados obtenidos por la Red Neuronal Artificial Perceptrn
Multicapa .................................................................................................................. 34
5.2 Anlisis comparativos con modelos convencionales de respuesta categrica
ordinal. ...................................................................................................................... 45
5.2.1 Poder de Clasificacin ................................................................................. 45
5.2.2 Significancia ................................................................................................. 46
5.2.3 Importancia relativa y signo de la relacin funcional .................................. 48
5.3 La teora.............................................................................................................. 50
6 CONCLUSIONES .................................................................................................. 52
7 ANEXOS ................................................................................................................. 54
REFERENCIAS .................................................................................................. 59
1
INTRODUCCIN
Las Redes Neuronales Artificiales, (RNA), se pueden definir como un

conjunto de elementos interconectados de procesamiento de informacin,
que son capaces de aprender con los datos que se les suministre.
Una RNA es bsicamente un modelo simplificado del modo en que los
sistemas nerviosos procesan
informacin. Funciona sincronizando un
nmero de unidades simples de procesamiento interconectadas que emulan

a las neuronas (llamadas tambin nodos), las cuales estn organizadas en
niveles denominados capas. Cada nodo est conectado con otros mediante
enlaces de comunicacin, cada uno de los cuales tiene asociado un peso o
ponderacin matemtica; en los pesos se encuentra el conocimiento que
tiene la RNA acerca de un determinado problema.
Estos modelos pueden aplicarse a gran nmero de problemas que pueden ir
desde problemas complejos y reales a modelos tericos sofisticados por lo
que algunas de las redes neuronales son herramientas tiles en muchas
aplicaciones de prediccin y en minera de datos debido a su potencia,
flexibilidad y facilidad de uso. Su ventaja reside en su capacidad de aprender
funciones complejas o no lineales entre variables sin necesidad de imponer
presupuestos o restricciones a los datos.
Por lo anterior, las RNA estn en capacidad de resolver problemas
estadsticos sin plantear supuestos iniciales rigurosos y encontrar las
funciones que determinan las variables de inters basndose nicamente en
los datos, por lo que es interesante analizar sus resultados a la luz de
9
trabajos anteriores realizados con herramientas convencionales y elaborar

nuevas aplicaciones.
Desde esta perspectiva, las RNA han sido utilizadas con resultados
satisfactorios en diferentes reas del conocimiento. Sin embargo, el uso de
esta tecnologa computacional es relativamente reciente en aplicaciones
econmicas (Zhang, Patuwo, & Hu, 1998) e inexistente en aplicaciones
especficas al estudio de la corrupcin, donde la mayora de investigaciones
utilizan herramientas estadsticas y economtricas que se limitan a estudios
correlacinales o determinsticos (Regresin) planteando hiptesis sobre la
exogeneidad y/o linealidad de algunas variables y el comportamiento
paramtrico de estas.
Por tanto, este estudio plantea dos objetivos, en primer lugar aplicar
una RNA Perceptrn Multicapa al estudio de la corrupcin internacional
y contrastar los resultados con los obtenidos por otros modelos con
aplicaciones
similares
pero
con
caractersticas
paramtricas
convencionales y en segundo lugar, comparar las estimaciones

obtenidas con los resultados tericos esperados segn estudios
anteriores sobre los determinantes de la corrupcin internacional.
Para cumplir con estos objetivos se propuso la utilizacin de un modelo
predictivo de clasificacin basado en redes neuronales denominado
Perceptrn Multicapa (MLP por sus siglas en ingles). Se gener un modelo
predictivo que pronostica el grupo al que pertenece cada pas segn su nivel
de corrupcin dados por el CPI de Transparencia Internacional a partir de
determinadas caractersticas culturales, histricas, polticas, institucionales y
socio-econmicas que delimitan su perfil.
Especficamente, los pases estudiados se clasificaron por cuartiles de
acuerdo con sus niveles de corrupcin segn su posicin en el CPI publicado
por Transparencia Internacional y en funcin de los valores de los campos de
10
entrada se determinaron las variables, que al interactuar, permiten predecir

en que rango se encontrar un pas dadas sus caractersticas. Por lo tanto,
se estimaron las caractersticas o sntomas que han presentado durante la
ltima dcada los pases catalogados como ms o menos corruptos y se
compararon los resultados con otros modelos economtricos de desempeo
similar (Logit Ordinal y Probit Ordinal) y los planteamientos tericos sobre la
corrupcin internacional.
Es as como, basados en el estudio de un conjunto de 149 pases con datos
de corte transversal actualizados al ao 2010 para la variable dependiente y
promedios del perodo 2000-2010 para las independientes se encontr que:
1) El Perceptrn Multicapa (MLP) obtuvo excelentes resultados en cuanto
al poder de clasificacin frente a los modelos convencionales Logit
Ordinal y Probit Ordinal, lo que confirma su utilidad como herramienta
alternativa en este tipo de aplicaciones.
2) Todos los modelos aplicados mostraron resultados similares en cuanto
a la relevancia de las variables independientes para explicar el nivel de
corrupcin de los pases tratados, confirmando los principales
resultados de investigaciones anteriores:
a) Se corrobor que entre menor sea el nivel de ingreso per cpita de
un pas, ms posibilidades tiene de ser clasificado como ms
corrupto.
b) Se encontr evidencia de que entre menor sean las libertades
polticas e individuales y el nivel de apertura econmica, existen
ms posibilidades de que un pas sea clasificado como ms
corrupto.
c) As mismo, los pases con mayor proporcin de poblacin
protestante y aquellos que han sido colonia britnica o nunca han
sido colonizados en alguna etapa relevante de su historia por algn
11
pas, tienen mayor probabilidad de ser asignado como menos

corrupto.
d) Tambin, pases que requieren mayor cantidad de procesos para
hacer cumplir los contratos de acuerdo con sus sistemas legales son
clasificados como ms corruptos; no obstante, el nmero de
procesos requeridos para asegurar los derechos de propiedad sobre
las empresas no mostr resultados estadsticos concluyentes.
e) Solo dos variables, el nivel de gasto pblico y tener como origen
colonial a Espaa, no resultaron significativas en ninguno de los
modelos planteados.
Por otro lado, el documento est constituido de la siguiente manera: Un
segundo componente que muestra una breve introduccin al funcionamiento
de una red neuronal MLP; as como algunos planteamientos tericos sobre
corrupcin y un conjunto de investigaciones que se han realizado sobre la
interrelacin entre la corrupcin y otras variables. Una tercera y cuarta parte
en la que se explican de manera concisa las variables utilizadas y se expone
la metodologa desarrollada, un quinto componente en el que se muestran
los resultados
y por ltimo se plantean las conclusiones y propuestas
pertinentes.
12
2
ACERCAMIENTO TERICO Y ANTECEDENTES
2.1 Red Neuronal Perceptrn Multicapa (MLP)

Una de las RNA ms ampliamente utilizada en anlisis de clasificacin es el
Perceptrn Multicapa (MLP) por sus siglas en ingls, el cual es utilizado para
este trabajo. Se ha convertido en los ltimos aos en una herramientas de
propsito general, flexible y eficiente en el manejo de funciones no lineales,
mostrando excelentes resultados respecto a los modelos estadsticos
clsicos en numerosos campos de aplicacin, entre los cuales, se encuentra
la investigacin econmica donde es ms probable que en los datos y series
aparezcan relaciones no lineales (Granger & Tersvirta, 1993).
Lo anterior se debe principalmente a que las Redes Neuronales MLP poseen
una serie de caractersticas deseables, tales como la habilidad para procesar
datos con ruido o incompletos, la alta tolerancia a fallos que permite a la red
operar satisfactoriamente con neuronas o conexiones daadas y la
capacidad de funcionar como modelos no paramtricos y robustos a
supuestos. Asimismo su amplia aplicabilidad se debe a que es capaz de
actuar como un estimador universal de funciones (Funahashi, 1989); ms
concretamente, una red MPL con, al menos, una capa oculta con suficientes
unidades no lineales puede aprender cualquier tipo de funcin o relacin
continua entre un grupo de variables de entrada y salida.
Un MLP est compuesto por una capa de neuronas (conjunto de neuronas
con la misma funcin) de entrada, una capa de salida y una o ms capas
ocultas (organizadas entre la de entrada y la de salida); aunque se ha
13
demostrado que para la mayora de problemas es suficiente con una sola

capa oculta (Funahashi, 1989).
En este tipo de modelos, las conexiones entre nodos siempre van desde las
neuronas de una determinada capa hacia las neuronas de la siguiente capa;
no hay conexiones laterales, ni conexiones hacia atrs. Por tanto, la
informacin siempre se transmite desde la capa de entrada hacia la capa de
salida. En el grfico 1 se puede observar la arquitectura de un MLP.
Para su correcto funcionamiento, (Rumelhart, Hinton, & Williams, 1986)
formalizaron un mtodo para que una red de este tipo aprendiera la
asociacin que existe entre un conjunto de patrones de entrada y sus salidas
correspondientes. Este mtodo, se conoce
como backpropagation error
(propagacin del error hacia atrs).
Grfico 1
Arquitectura de una red MLP
Fuente: Elaboracin del autor

14
Segn (Palmer, Montao, & Jimnez, 2001) en el algoritmo backpropagation

podemos considerar una etapa donde se presenta ante la red un patrn de
entrada y ste se transmite a travs de las sucesivas capas de neuronas
hasta obtener una salida y, por otro lado, una etapa de entrenamiento o
aprendizaje donde se modifican los pesos de la red de manera que coincida
la salida deseada con la salida obtenida por la red ante la presentacin de un
determinado patrn de entrada.
Complementando, generalmente se considera Wij como el peso de conexin
entre la neurona de entrada i y la neurona oculta j, y Vjk como el peso de
conexin entre la neurona oculta j y la neurona de salida k, estos pesos se
observan como flechas que unen a los nodos en el grfico 1.
El patrn de entrada p est expresado como un vector pX: xp1,..., xpi,..., xpN,
ste se transmite a travs de los pesos Wji desde la capa de entrada hacia la
capa oculta, la entrada neta que recibe una neurona oculta j, net pj, es:
donde es el umbral de la neurona que se supone como un peso asociado a

una neurona ficticia con valor de salida igual a 1.
Las neuronas de esta capa (o capas) intermedia transforman las seales
recibidas mediante la aplicacin de una funcin de activacin (De naturaleza
Sigmoidal generalmente) obtenindose un valor de salida:
(
donde bpj es el valor de salida de la neurona j.

Este valor, se transfiere a travs de los pesos Vkj hacia la capa de salida:
15
En la capa de salida se aplica la misma operacin que en la capa anterior,

las neuronas de esta ltima capa proporcionan la salida, ypk, de la red:
(
Luego, empieza una etapa de aprendizaje o entrenamiento de la RNA, el

objetivo de este es minimizar el error entre la salida obtenida por la red y la
salida deseada. Se dice que el aprendizaje en las redes mediante el
algoritmo backpropagation y similares es de tipo supervisado, debido a que
el usuario (o supervisor) determina la salida deseada ante la presentacin de
un determinado patrn de entrada (Palmer, Montao, & Jimnez, 2001).
La funcin de error que se intenta minimizar para cada patrn p, Ep, est
definida por:
(
donde dpk es la salida esperada para la neurona de salida k ante la

presentacin del patrn p. A partir de la anterior expresin se obtiene una
ecuacin general de error mediante:
Como Ep es funcin de todos los pesos de la red, el gradiente de Ep es un

vector igual a la derivada parcial de Ep respecto a cada uno de los pesos. El
gradiente toma la direccin que determina el incremento ms rpido en el
error, mientras que la direccin opuesta determina el decremento ms rpido
16
en el error. Por tanto, el error puede reducirse ajustando cada peso en la

direccin1:
Para la alteracin de los pesos de la red, se actualizan despus de haber

suministrado la totalidad de los patrones de entrenamiento, este proceso se
designa aprendizaje por lotes o modo batch y es el modo habitual de
proceder. Adems, se han desarrollado diferentes variantes del algoritmo
original backpropagation para realizar la etapa de aprendizaje, las cuales
tienen por objeto acelerar el proceso de aprendizaje.
En resumen, un MPL recibe informacin a travs de un grupo de nodos que
componen una capa de entrada, sta transmite la informacin a otra u otras
capas intermedias que aplican una funcin matemtica que genera una
salida determinada, la conexin entre nodos o neuronas se realiza a travs
de unos pesos o ponderaciones que se modifican hasta que la salida creada
gracias a la funcin de activacin coincida con la salida deseada ante la
presentacin de un determinado patrn de entrada. Este proceso iterativo de
ajuste de los pesos representa el proceso de aprendizaje de la red; al final
del proceso de aprendizaje, el MPL es capaz de reconocer nuevos datos y
asignarlos a los diferentes grupos de clasificacin de acuerdo a un conjunto
de caractersticas detectadas y que distinguen a los datos clasificados.
Un anlisis ms concienzudo de este algoritmo puede estudiarse en (Rumelhart, Hinton, & Williams, 1986);
un estudio generalizado sobre las RNA y sus aplicaciones en ciencias sociales se puede encontrar en (Palmer,
Montao, & Jimnez, 2001) y una visin ms prctica para el uso de software en (Pres, 2008)
17
2.2 Corrupcin y sus Determinantes

2.2.1 La Corrupcin
La creciente importancia que ha tomado en las ltimas dcadas el estudio de
la corrupcin y los intentos de luchar contra las diversas formas de la misma
obedecen en primera instancia al consenso que existe sobre el impacto
negativo
de
la
corrupcin
sobre
el
Desarrollo
Internacional
el
convencimiento de que este requiere, por encima de todo, el buen gobierno2.

Lo anterior debido a que las polticas, incentivos bien intencionados, y los
esfuerzos de ayuda parecen no lograr los objetivos deseados a menos que
se produzcan en un ambiente que estimule la auto sostenibilidad de los
procesos, el crecimiento y el desarrollo y
existe evidencia clara de que la
corrupcin es enemiga de dicho entorno.

Existe tambin consenso sobre el hecho de que las polticas resultan
inadecuadas, no siempre por falta de conocimiento acerca de lo que dicha
poltica debi ser sino el resultado de acciones de agentes que las
distorsionan para sus propios intereses econmicos (Grossman & Helpman,
1994).
Por lo tanto, se estn haciendo esfuerzos para comprender cmo la
corrupcin afecta directamente al crecimiento econmico al cambiar la
asignacin de fondos pblicos, e indirectamente, al cambiar los incentivos,
los precios y las oportunidades; debido a que la corrupcin parece afectar el
nivel de inversin, desincentiva el espritu emprendedor y distorsiona la
realidad institucional3 de un pas.
Sin embargo, el estudio de la corrupcin se aleja mucho de ser fcil y no
existen criterios claros sobre las metodologas y procesos a seguir. Una de
2
Un marco para estudiar la relacin entre la gobernabilidad y el desarrollo puede encontrarse en (Boeninger,
1991). Vase (Bardhan, 1997) y (Rose-Ackerman, 1998) para las discusiones de los vnculos entre la
corrupcin y el desarrollo.
3
Los planteamientos clave sobre la importancia de las instituciones sobre el desarrollo y crecimiento
econmico pueden encontrarse en (Rodrik & Dani, 2002) y (Rodrik, Subramanian, & Trebbi, 2002).
18
estas dificultades en el estudio de la corrupcin radica en la definicin de la

misma, debido a que cmo la definamos determina la manera en la que se
abordar el problema, como se medir y modelar4. Por tanto, no existe una
definicin concreta de corrupcin, pero la ms generalizada y la utilizada en
este trabajo es la planteada por (Klitgaard, 1988) que hace hincapi en las
actividades de los funcionarios pblicos que no obedecen a sus deberes
debido a la bsqueda de beneficios personales. Vase tambin (RoseAckerman, 1999) y una aproximacin detallada al fenmeno de la corrupcin
en (Svensson, 2005).
Por otro lado, el estudio de la corrupcin se puede enfocar de dos formas
paralelas. En primer lugar se puede tratar de entender las relaciones
conceptuales y tericas entre la corrupcin y el funcionamiento de las
instituciones econmicas y polticas de una sociedad y en segundo lugar se
puede examinar la validez emprica de los vnculos y relaciones observadas.
Este trabajo se centra en la segunda va y pretende proponer una alternativa
metodolgica para esto.
2.2.2 Factores Determinantes
Siguiendo los planteamientos de (Dreher, Kotsogiannis, & McCorriston, 2007)
las variables consideradas como determinantes de la corrupcin pueden
clasificarse en cuatro grupos con el fin de facilitar su exposicin:
a) Factores Polticos e Institucionales
Los factores polticos se refieren a las caractersticas democrticas de los
pases y a la efectividad de sus sistemas judiciales. Algunos estudios
plantean que los niveles de corrupcin de los diferentes pases estn
positivamente correlacionados con las deficiencias en estos aspectos. Esto
se justifica por las dificultades que presentaran en solucionar las disputas
4
Para una discusin sobre la importancia de la definicin de corrupcin, (Lancaster & Montinola, 1997) y
(Philp, 1997).
19
sobre derechos de propiedad, cumplimiento de contratos, as como los

conflictos al incentivar procesos transparentes y competitivos.
b) Factores Histricos
Los planteamientos tericos afirman que los orgenes histricos de los pases
definen en gran medida las caractersticas institucionales, polticas y
culturales de los pueblos. El mayor nfasis en el estudio de este tema se ha
puesto en el anlisis de la influencia del origen colonial de las naciones como
indicador de sus componentes histricos. Es as como algunos estudios
como el de (La Porta, 1999) y (Treisman, 2000) muestran que los pases
que han sido colonia britnica estn asociados con menores niveles de
corrupcin debido principalmente a la influencia de este hecho sobre la
tradicin democrtica de sus instituciones y las caractersticas de los
sistemas judiciales de estos pases.
c) Factores Culturales
Este grupo de variables se refiere a las caractersticas sociales y culturales
de los pases y su impacto sobre los niveles percibidos de corrupcin. La
mayora de los estudios se han enfocado en la influencia de las creencias
religiosas como fundamento de las actitudes sociales y los valores familiares
que pueden o no incrementar la indiferencia e incluso aceptacin de los
comportamientos corruptos. La mayora de las investigaciones relevantes
plantean que religiones con un carcter ms rgido desde su estructura y de
carcter ms social tienden a mantener el status quo y ser ms laxas frente a
comportamientos corruptos. Por lo anterior, los pases con mayor proporcin
de practicantes protestantes deberan presentar menores niveles de
corrupcin percibida.
20
d) Factores Econmicos
Los estudios sobre los factores econmicos que determinan los niveles de
corrupcin se han enfocado tpicamente en los niveles de integracin con los
mercados internacionales, el desarrollo econmico de los pases y el tamao
del estado y su influencia sobre la economa. La evidencia muestra que entre
menor sea el nivel de ingreso per cpita o desarrollo econmico de un pas,
menor sea su nivel de apertura econmica y mayor el tamao de su estado
existen ms posibilidades de que un pas presente mayores niveles de
corrupcin.
2.3 Antecedentes sobre corrupcin
Se han realizado gran cantidad de estudios que plantean relaciones
determinsticas entre diferentes variables y los niveles de corrupcin
internacional. Dentro de las investigaciones ms reconocidas, (Tanzi, 1998)
discute aspectos relacionados con las causas, consecuencias y el alcance de
la corrupcin, y las posibles acciones correctivas haciendo hincapi en los
costos de la corrupcin en trminos de crecimiento econmico y en el hecho
de que la lucha contra la corrupcin no puede ser independiente de la
reforma del Estado.
En un estudio ms tcnico (Treisman, 2000) analiza varios ndices de
corrupcin percibida encontrando argumentos que indican que los pases con
tradiciones protestantes, los que han sido colonias britnicas, las economas
con mayores niveles de desarrollo y, aunque no tan concluyente, con
mayores importaciones fueron menos "corruptos".
(Sandholtz & Koetzle, 2000) Estudian la variacin en el nivel percibido de
corrupcin definido como el abuso del cargo pblico para beneficio privado
en una muestra de cincuenta pases. Propone un conjunto de hiptesis que
explican la variacin en los niveles de corrupcin en trminos de la estructura
poltico-econmica nacional, las normas democrticas, la integracin en la
21
economa internacional, y afiliacin religiosa protestante. Encuentran que los

niveles de corrupcin son ms altos cuanto menor sea el nivel de ingreso
promedio, cuanto mayor sea el grado de control estatal de la economa, ms
dbiles sean las normas y las instituciones democrticas y menor sea el
grado de integracin en la economa mundial.
Interesados en estudiar y evaluar la literatura emprica sobre las fuentes de
corrupcin y hacer uso de la mejora en la disponibilidad de datos, (Pellegrini
& Gerlagh, 2007) utilizaron un modelo economtrico con datos de diferentes
pases para poner a prueba hiptesis bien establecidas y ms recientes
sobre corrupcin en forma conjunta. Encontraron nuevamente que haber sido
en el pasado una colonia britnica es un buen predictor de la corrupcin y
apoyan las teoras culturales sobre las causas de la corrupcin sugiriendo
que una exposicin de mediano o largo plazo a la democracia sin
interrupcin se asocia con niveles de corrupcin ms bajos, mientras que la
inestabilidad poltica hace que se incremente la corrupcin.
Centrado en el debate sobre la pertinencia de los ndices basados en la
percepcin como indicadores de la corrupcin real de un pas, (Dreher,
Kotsogiannis, & McCorriston, 2007) disean un modelo de ecuaciones
estructurales que trata a la corrupcin como una variable latente que est
directamente relacionada con sus causas y efectos, para obtener un ndice
de corrupcin. En el proceso, realiza un anlisis de las diferentes causas
econmicas e institucionales de la corrupcin encontrando resultados
similares a los anteriores.
(Billger & Goel, 2009) Examinan los determinantes de la corrupcin
analizando la distribucin condicional de este fenmeno entre las naciones.
Se plantean si existen diferentes causas de la corrupcin en los pases
altamente corruptos en comparacin con los pases menos corruptos. Para
cumplir sus objetivos utilizaron una muestra de casi un centenar de pases y
estimaron un modelo de regresin por cuantiles, enfoque muy parecido al
22
planteado en este trabajo. Los resultados apoyan algunas de las

conclusiones en la literatura y proporcionan nuevas conclusiones.
Utilizando datos de corte transversal de casi 100 pases (Goel & Nelson,
2010) examinan el papel de los factores histricos, geogrficos y las
influencias del gobierno contra la corrupcin. Importantes innovaciones
incluyen el examen de un amplio conjunto de determinantes histricos,
geogrficos y polticos de la corrupcin y el examen de algunos de los
determinantes que antes no se consideraban en un mayor nivel de detalle.
Concluyen que el gobierno no impacta de manera importante sobre la
corrupcin, que la inercia histrica de las instituciones que inducen a la
corrupcin es persistente y algunos factores geogrficos pueden mitigar la
corrupcin.
(Picn, 2011) Aplica un modelo predictivo de clasificacin basado en una red
neuronal Perceptrn Multicapa, con el fin de mostrar si el nivel de apertura
econmica es una de las caractersticas o sntomas que presenta un pas
catalogado como ms o menos corrupto. De las variables utilizadas, los
niveles de desarrollo humano (IDH) y los niveles de apertura econmica
fueron las caractersticas comunes que comparten los pases con niveles
semejantes de corrupcin, permitiendo clasificarlos correctamente.
Dado que muchos de los resultados de investigaciones previas no son

concluyentes, a la complejidad del fenmeno y a lo relativamente reciente de
las investigaciones, podemos afirmar como lo hace (Lambsdorff, 2007, pg.
14) que nuestro conocimiento sobre las tendencias en los niveles de
corrupcin es todava limitado y, sin duda, los resultados pueden requerir una
mayor validacin.
23
3
LAS VARIABLES
Para medir la corrupcin de los pases estudiados se escogi el ndice de

Percepcin de Corrupcin (CPI) publicado anualmente por Transparencia
Internacional. Esta organizacin define la corrupcin, al igual que esta
investigacin, como el abuso del poder delegado o encomendado, con el fin
de obtener beneficios personales. El ndice de Percepcin de Corrupcin
(CPI) clasifica los pases segn la percepcin de la corrupcin en el sector
pblico y permite compararlos.
Se justifica la inclusin de un solo ndice de corrupcin debido a la gran
correlacin que presenta el CPI con respecto a otros indicadores (Alesina &
Weder, 2002) y al hecho de que su evaluacin sobre el alcance de la
corrupcin en los pases est a cargo de grupos de expertos, tanto
residentes como no residentes, y lderes empresariales que en muchas
ocasiones representan entidades que generan indicadores de corrupcin.
Por ejemplo, segn Transparencia Internacional, en el CPI 2010, algunas de
las fuentes de informacin que brindaron datos basados en anlisis de
expertos fueron Banco Africano de Desarrollo, Banco Asitico de Desarrollo,
Bertelsmann Foundation, Economist Intelligence Unit, Freedom House,
Global Insight y el Banco Mundial. El anexo 1 muestra los altos niveles de
correlacin entre el CPI y el ndice Control of Corruption publicado por el
Banco Mundial5.
El ndice Control Corruption refleja una compilacin estadstica de respuestas a encuestas sobre la calidad
de la gestin pblica realizadas a un gran nmero de empresas, ciudadanos y expertos segn los informes de
un conjunto de institutos de estudio, organizaciones no gubernamentales y organizaciones internacionales.
5
24
Especficamente para este estudio, los pases analizados se clasificaron por

cuartiles de acuerdo con sus niveles de corrupcin segn su posicin
(Ranking) en el CPI publicado por Transparencia Internacional, creando una
variable categrica denominada Corrcateg4 compuesta por cuatro clases
donde la clase 4 corresponde al cuartil de los pases con menor percepcin
de corrupcin y la clase 1 al cuartil con mayor nivel de percepcin de
corrupcin para el ao 2010. Hay que aclarar que como los cuartiles fueron
creados teniendo en cuenta el ranking y no los puntajes puede haber
cuartiles con diferente nmero de pases.
Se opt por clasificar los pases estudiados en cuartiles segn su ranking por
tres motivos principales, en primer lugar debido a que en modelos de
regresin convencionales no tiene mucho sentido terico las pendientes o la
magnitud de los parmetros estimados debido a que el CPI es un ndice de
percepcin, por tanto,
se considera aqu que al agrupar los pases por
niveles de corrupcin pueden aislarse mejor los problemas tericos debido

al origen de la medicin y las variables que afecten solo a algunos pases de
acuerdo a sus caractersticas; en segundo lugar, en este trabajo se propone
la estimacin de un modelo de clasificacin para lo cual se requiere que la
variable dependiente sea categrica y as poder determinar el perfil de los
pases que comparten niveles semejantes de corrupcin, y en tercer lugar el
manejar datos en cuartiles facilita un conjunto de anlisis descriptivos como
la identificacin de datos atpicos, sesgo y dispersin para entender mejor la
informacin.
Complementando lo anterior y acorde a la categorizacin de las variables
determinantes de la corrupcin planteadas anteriormente, las variables
clasificadoras utilizadas en este trabajo son6:
La tabla 1 muestra un resumen de las variables propuestas.

25
Factores Polticos e Institucionales:

En este trabajo se propone como indicador del nivel de democracia de los
pases estudiados el indicador de libertades polticas del ndice The
Freedom in the World elaborado por la organizacin Freedom House. Este
provee una evaluacin anual de las caractersticas, progresos y retrocesos
de las libertades polticas de 194 pases basndose en una evaluacin de los
procesos electorales de cada pas, su pluralismo y libertad de participacin
en los procesos polticos y la efectividad del gobierno.
Cada pas es asignado con un puntaje numrico de 1 a 7, donde 1
representa a los ms libres y 7 a los menos libres. En esta investigacin ser
denotado como indpolfree y calculado como el promedio 2000-2010 del
puntaje estipulado para cada pas.
Dos factores institucionales propuestos son en primer lugar la variable
procrigts definida como el nmero de procedimientos necesarios para que
los empresarios aseguren sus derechos de propiedad y proccontract
definida como el nmero de procedimientos para hacer cumplir un contrato,
entendida como la cantidad de acciones independientes, impuestas por la ley
o los tribunales, entre las partes de un contrato o entre estas y el juez o
tribunal oficial. Estas variables son suministradas por el Banco Mundial y
pretenden aproximarse a la eficiencia del sistema judicial de los pases
estudiados y cuantificar de cierta manera los posibles incentivos sobre
sobornos y otras actividades consideradas corruptas.
Factores Histricos:
Como factores histricos se utilizarn tres variables dictomas para verificar
si son estadsticamente significativas para clasificar a los pases segn su
nivel de corrupcin:
ESP: toma valor 1 si el pas fue una colonia espaola; 0 si no lo fue.
26
ING: toma valor 1 si el pas fue una colonia britnica; 0 si no lo fue.

ning: toma valor 1 si el pas nunca ha sido colonizado; 0 si lo ha sido en
algn perodo relevante de su historia.
Estas variables fueron generadas basndose en la informacin disponible en
la Agencia Central de Inteligencia CIA (The World Factbook).
Factores Culturales:
Como variable cultural se tomar la variable prot que cuantifica la
proporcin de personas de religin cristiana protestante en cada pas segn
la informacin disponible.
Esta variable fue generada basndose en la informacin disponible en la
Agencia Central de Inteligencia CIA (The World Factbook) y en el informe
Religious Freedom Report suministrado por el Departamento de Estado de
Estados Unidos.
Factores Econmicos:
En este trabajo se entiende por Apertura Econmica un conjunto de polticas
de carcter econmico y legal, que incentivan el ejercicio del comercio y las
finanzas internacionales,
la liberacin del mercado de capitales y el
intercambio de tecnologas sin restricciones por pate del Estado. Para

cuantificarla, se genera la variable gtradefinfree, calculada a partir de la
media geomtrica7 de los ndices de Libertad Comercial y Libertad Financiera
publicados por The Heritage Foundation y The Wall Street Journal. Este
consiste en un ndice que toma valores de 0 a 100, siendo los niveles de
mayor apertura los ms cercanos a 100; calculndose su media entre los
aos 2000-2010 para los 149 pases analizados.
Se puede demostrar fcilmente que la media geomtrica es ms eficiente que la media aritmtica para
promediar tasas o porcentajes. Por tanto fue utilizada para hallar los promedios 2000-2010 para las
covariantes que tengan estas caractersticas.
27
Ms especficamente, la libertad de comercio es una medida compuesta de

la ausencia de barreras arancelarias y no arancelarias que afectan las
importaciones y exportaciones de bienes y servicios. Los puntajes del ndice
de libertad financiera constan de aspectos como el alcance de la regulacin
gubernamental de los servicios financieros, el grado de intervencin estatal
en las entidades financieras, el grado de desarrollo de los mercados
financieros internacionales y de capitales y la apertura a la competencia
extranjera. Los dos forman parte de un ndice ms general de Libertad
Econmica que tiene en cuenta otros aspectos econmicos e institucionales.
Dadas las caractersticas de los modelos planteados, es necesario controlar
la influencia de otras variables socio-econmicas, para esto se propuso en
primera instancia el promedio 2000-2010 del ndice de Desarrollo Humano
(IDH) para los pases estudiados como proxy de su nivel de pobreza y
calidad de vida. Este ndice es elaborado por el Programa de las Naciones
Unidas para el Desarrollo (PNUD) y contiene los indicadores de esperanza
de vida al nacer, tasa de alfabetizacin de adultos y la tasa bruta combinada
de matriculacin en educacin primaria, secundaria y superior, as como los
aos de duracin de la educacin obligatoria. Tambin incluye el ingreso per
cpita PPA en dlares internacionales. El IDH toma valores entre 0 y 100
siendo el 100 el mayor puntaje posible en desarrollo humano.
Sin embargo, como se puede observar en el anexo 2, debido a la alta
correlacin que existe entre los componentes del IDH y a la menor
correlacin que existe entre el ingreso per cpita y las dems variables en
este estudio en comparacin con el IDH (anexo 3), se opt por utilizar la
variable gnip correspondiente al ingreso promedio per cpita entre los
aos 2000-2010 como indicador del nivel de vida de los habitantes de cada
pas estudiado y no incluir en el modelo todos los componentes del IDH por
separado debido a problemas de multicolinealidad.
28
Otra variable incluida debido a su importancia terica es el tamao del

Estado8. Puede esperarse que el tamao del Estado con respecto al total de
la economa pueda influenciar sobre los niveles de corrupcin observada.
Para este trabajo la variable se denomina govspending1 y corresponde al
promedio 2000-2010 del ndice de Gastos del Gobierno publicado por The
Heritage Foundation y The Wall Street Journal.
Este ndice se basa en el nivel de gasto pblico incluidos el consumo del
Gobierno y transferencias como porcentaje del PIB. No trata de identificar un
nivel ptimo de gasto pblico ya que el ideal puede variar de pas a pas,
dependiendo de factores culturales, geogrficos y de desarrollo. Segn la
ficha metodolgica, la escala de puntuacin de este ndice no es lineal, lo
que significa que los pases que se acercan a cero en su participacin de
gasto pblico con respecto al PIB son ligeramente penalizados, mientras que
los niveles de gasto pblico que exceden el 30 por ciento del PIB reciben
resultados mucho peores en forma cuadrtica en este ndice, de modo que
slo los gobiernos realmente grandes reciben puntuaciones muy bajas.
Puede encontrarse una lista de estudios realizados sobre la interaccin entre corrupcin y tamao del estado
en (Lambsdorff, 2007, pg. 4).
29
VARIABLE
Corrcateg4
indpolfree
procrigts
proccontract
ESP
ING
ning
prot
gtradefinfree
Tabla 1
VARIABLES PROPUESTAS
DESCRIPCIN
Variable categrica correspondiente a
cuartiles de acuerdo con los niveles de
corrupcin
segn
la
posicin
(Ranking) de cada pas en el CPI
publicado
por
Transparencia
Internacional 2010.
Promedio 2000-2010 del indicador de
libertades polticas del ndice The
Freedom in the World donde cada
pas es asignado con un puntaje
numrico de 1 a 7, donde 1 representa
a los ms libres y 7 a los menos libres
Nmero de procedimientos necesarios
para que los empresarios aseguren sus
derechos de propiedad
Nmero de procedimientos para hacer
cumplir un contrato, entendida como la
cantidad de acciones independientes,
impuestas por la ley o los tribunales,
entre las partes de un contrato o entre
estas y el juez o tribunal oficial
Variable dictoma; toma valor 1 si el
pas fue una colonia espaola; 0 si no
lo fue.
pas fue una colonia britnica; 0 si no
lo fue.
pas nunca ha sido colonizado; 0 si ha
sido.
FUENTE
Calculo del autor a partir del
CPI publicado por
Transparencia Internacional
Publicado por Freedom House
Bases de datos del Banco

Mundial
Bases de datos del Banco

Mundial
Agencia Central de
Inteligencia CIA (The World
Factbook).
Agencia Central de
Factbook).
Agencia Central de
Factbook).
Agencia Central de
Factbook) y en el informe
Proporcin de personas de religin
Religious Freedom Report
cristiana protestante en cada pas segn
suministrado por el
la informacin disponible.
departamento de Estado de
Estados Unidos.
Calculo del autor basado en
Media 2000-2010 de la media los ndices publicados por
geomtrica de los ndices de Libertad The Heritage Foundation y
Comercial y Libertad Financiera.
The Wall Street Journal 2010.
gnip
Ingreso Nacional per-cpita promedio

2000-2010. Componente del ndice de
Desarrollo Humano.
govspending1
Promedio del ndice de Gastos del

Gobierno 2000-2010.
Fuente: Elaboracin del autor
30
Programa de las Naciones

Unidas para el Desarrollo
(PNUD)
Publicado por The Heritage
Foundation y The Wall Street
Journal
4
METODOLOGA
En este trabajo se analiza una muestra de 149 pases para los cuales existen
datos actualizados al ao 2010 para todas las variables propuestas. Se
utilizar el promedio 2000-2010 para las variables independientes continuas,
complementadas por un conjunto de variables dictomas dadas las
caractersticas de los factores determinantes a utilizar. Todas las variables
continuas fueron tipificadas para evitar distorsiones por diferencias en las
escalas de medicin; Se verificaron los supuestos de no multicolinealidad y
las correcciones por heterocedasticidad pertinentes.
Se pretende generar con estos datos un modelo predictivo basado en redes
neuronales que pronostique el cuartil o grupo al que pertenece cada pas
segn su nivel de corrupcin segn el CPI de Transparencia Internacional a
partir de determinadas caractersticas socio-econmicas, histricas e
institucionales que delimiten su perfil. Este tipo de modelos se denominan
modelos predictivos de clasificacin, los cuales permiten agrupar a los
elementos de inters en dos o ms categoras diferentes representadas por
una variable no mtrica; el perfil se genera con base en los valores de un
conjunto de variables independientes combinadas funcionalmente.
Por lo tanto, los modelos de clasificacin se diferencian de los modelos de
regresin con variables dependientes categricas, que servirn como punto
de comparacin para este trabajo, en que los primeros predicen la
probabilidad de pertenencia de un elemento a una clase especfica dado un
conjunto de caractersticas que comparte con los dems miembros de esa
categora; mientras que los segundos predicen la probabilidad de pertenecer
a una clase para valores dados de las variables independientes lo que
31
presupone algn nivel de causalidad a priori9. Sin embargo, ambos tipos de

modelos clasifican a los individuos en grupos caracterizados por una variable
dependiente categrica.
En primer lugar, se aplica un modelo predictivo de clasificacin para las
variables tipificadas basado en redes neuronales artificiales Perceptrn
Multicapa con dos capas ocultas de seis y cinco nodos respectivamente,
proceso de entrenamiento batch y como algoritmo de optimizacin el
algoritmo de gradiente conjugado
(Battiti, 1992), el cual se deriva del
algoritmo backpropagation fundamentndose en el clculo de la segunda

derivada del error con respecto a cada peso, y en obtener el cambio a
realizar en los pesos a partir de este valor y el de la primera derivada. Se
utilizarn funciones de activacin logsticas en las salidas de la red para
poder ser utilizada como una Funcin Discriminante no lineal (Biganzoli,
Boracchi, Mariani, & Marubini, 1998).
La importancia relativa de las variables en el proceso de clasificacin de la
red se estimar a travs de un anlisis de sensibilidad, que calcula la
importancia de cada predictor en la determinacin de la red neuronal. Por
ltimo, se determinar la direccin de las relaciones funcionales que tienen
las variables explicativas sobre la variable de respuesta mediante un anlisis
de sensibilidad numrica (NSA) propuesto por (Montao & Palmer, 2002)
que se basa en el clculo de las pendientes que se forman entre entradas y
salidas, sin realizar ningn supuesto acerca de la naturaleza de las variables
y respetando la estructura original de los datos.
Complementando lo anterior y para cumplir con los objetivos planteados se
estimar, en segundo lugar, un modelo Logit Ordinal y un Probit Ordinal y se
determinar si predicen correctamente el grupo de nivel de corrupcin al que
Un acercamiento matemtico a los principales mtodos clasificatorios paramtricos pueden encontrarse en

(Pea, 2002).
32
pertenecer un pas dadas las variables planteadas y la importancia relativa

de las diferentes variables sobre los niveles de corrupcin as como la
direccin de su influencia.
Los modelos de regresin ordinales son usados para estimar la relacin
entre una variable categrica ordinal dependiente y un conjunto de variables
independientes que pueden ser cuantitativas o categricas. En estos
modelos se supone la existencia de una variable latente que determina la
probabilidad de pertenecer a cada categora dados unos valores de las
variables regresoras, siendo estimada como una funcin lineal de las
variables independientes y un conjunto de valores denominados puntos de
corte que delimitan las categoras. La probabilidad de observar un resultado i
corresponde a la probabilidad de que la funcin lineal estimada genere un
valor dentro del rango de algn punto de corte estimado:
(
donde i es el error asumido como distribuido logsticamente en el Logit

Ordinal y normalmente en el Probit Ordinal;
son los puntos de corte
para una de las clases de la variable dependiente,

independiente y
las variables
los coeficientes estimados de la funcin lineal estimada
para la variable latente supuesta. Los
solo son relevantes en su signo y
nivel se significancia ya que carecen de significado cuantitativo.

Los resultados de los modelos estimados y del entrenamiento de la red sern
comparados en trminos estadsticos y a la luz de la teora. Si los resultados
son robustos y explicables en trminos tericos podremos concluir que el
MPL es una herramienta alternativa o por lo menos complementaria a los
modelos convencionalmente utilizados en estudios similares debido a que
sus resultados son extrados de los datos sin haber realizado supuestos o
restricciones iniciales sobre la naturaleza de estos.
33
5
RESULTADOS
5.1 Resultados obtenidos por la Red Neuronal Artificial Perceptrn

Multicapa
Debido al alto nivel de correlacin entre el nivel de libertad poltica de los
habitantes de un pas y el nivel de apertura econmica de este (como se
observa en el anexo 3), se entrenaron dos redes donde se incluyen cada una
de estas variables por separado respectivamente.
En la tabla 2 se pueden observar las sumas de errores cuadrticos
correspondientes a las funciones de error minimizadas por la red en sus
etapas de entrenamiento y prueba para el modelo que incluye todas las
variables propuestas menos el nivel de apertura econmica.
Tabla 2
Resumen del modelo con todas las variables menos
gtradefinfree
18,985
Entrenamient Suma de errores
cuadrticos
o
Porcentaje de pronsticos
26,2%
incorrectos
Suma de errores
8,522
Prueba
cuadrticos
30,0%
incorrectos
Variable dependiente: Corrcateg4
Fuente: Elaboracin del autor con base en resultados del modelo.
La tabla 3 muestra la clasificacin realizada por la red artificial tanto en la

etapa de entrenamiento como en la de prueba. Para la primera se tom una
34
muestra aleatoria estratificada correspondiente al 70% de los pases para

entrenar la red y se corrobor su aprendizaje y capacidad predictiva con el
30% restante. Se observa que al incluir todas las variables propuestas el
MLP fue capaz de clasificar correctamente el 70% de los pases
obtenindose, como era de esperarse, mejores resultados para los cuartiles
1 con un 88.9% y 4 con 100% correspondientes a los pases con mayor y
menor nivel de corrupcin respectivamente, en contraste con los cuartiles
centrales cuyo poder de clasificacin no es tan evidente.
Tabla 3
Resultados de Clasificacin en cuartiles de corrupcin por MLP incluyendo todas las
variables independientes menos gtradefinfree
Pronosticado
Porcentaje
Observado
1
2
3
4
correcto
Muestra de
45
7
1
0
84,9%
Entrenamiento 1
2
12
14
2
1
48,3%
3
1
2
8
2
61,5%
4
0
0
0
12
100,0%
Porcentaje global 54,2%
21,5%
10,3%
14,0%
73,8%
1
16
2
0
0
88,9%
Prueba
2
6
4
0
0
40,0%
3
0
3
1
2
16,7%
4
0
0
0
8
100,0%
Porcentaje global 52,4%
22,4%
2,4%
23,8%
70,0%
Lo anterior
implica que los pases con niveles extremos de corrupcin
presentan caractersticas muy comunes relacionadas con las variables

explicativas propuestas, las cuales determinan sus niveles de corrupcin.
Debido a que el porcentaje global de clasificaciones puede presentar
ambigedades como indicador del poder de clasificacin debido a los
diferentes tamaos de las categoras, el poder predictivo debe medirse
35
teniendo en cuenta la relacin entre buenas y malas clasificaciones10. El

grfico 2 evidencia el poder predictivo de la red entrenada, a travs de las
curvas COR cuyas reas ejemplifican la relacin existente entre la proporcin
de verdaderos positivos (Susceptibilidad: Pases bien clasificados en una
categora de acuerdo a su perfil) y la proporcin de falsos positivos (1Especificidad: Pases mal clasificados en esa categora de acuerdo a su
perfil), para cada uno de los cuartiles correspondientes a los niveles de
corrupcin; se tiene que un rea que se aproxime a 0 indicar que el tamao
de las muestras entre categoras influy en la aparente clasificacin de datos
y un rea que se aproxime a 1 indicar que son pocos los datos que se
clasificaron en esa categora por error. Se observa que las curvas 1 y 4
estn ms alejadas de la diagonal, lo que corrobora lo planteado
anteriormente.
Tabla 4
rea bajo la curva COR
rea
Corrcateg4
0,901
0,794
0,881
0,994
Fuente: Resultados del modelo.
La tabla 4 muestra las reas bajo cada curva COR. Se observa que aunque
el total de pases clasificados correctamente en los cuartiles 2 y 3 es
relativamente bajo, la proporcin de pases bien clasificados frente a los mal
clasificados en cada cuartil es elevada lo que indica un alto poder de
clasificacin.
10
Un ejemplo de lo engaoso que puede ser centrar los resultados en la capacidad de prediccin podra ser el
siguiente: Si se tienen 100 datos binomiales donde hay 80 unos y 20 ceros y queremos especificar un modelo
que prediga el nmero de cada dato con alguna probabilidad, con solo asignarle un 1 a cada dato sin ningn
tipo de diferenciacin, estara obteniendo un porcentaje de correctas clasificaciones de 80%.
36
Grfico 2
Curvas COR de MPL Entrenada con todas las
variables propuestas menos gtradefinfree
Tabla 5
Resumen del modelo con todas las variables menos indpolfree
Entrenamiento
Suma de errores cuadrticos
19,319
20,8%
incorrectos
Prueba
Suma de errores cuadrticos
10,241
32,6%
incorrectos
37
En la tabla 5 se pueden observar las sumas de errores cuadrticos

correspondientes a las funciones de error minimizadas por la red en sus
etapas de entrenamiento y prueba para el modelo que incluye todas las
variables propuestas menos el nivel de libertades polticas.
Tabla 6
Resultados de Clasificacin en cuartiles de corrupcin por MLP incluyendo todas las
variables independientes menos indpolfree
Pronosticado
Porcentaje
1
correcto
Entrenamiento 1
41
97,6%
11
11
42,3%
12
66,7%
16
94,1%
54,4%
13,6%
14,6%
17,5%
77,7%
28
96,6%
23,1%
100,0%
100,0%
69,6%
6,5%
17,4%
6,5%
76,1%
Muestra
Observado
Porcentaje
global
Prueba
Porcentaje
global

La tabla 6 muestra la clasificacin realizada por la red artificial tanto en la

etapa de entrenamiento como en la de prueba para el modelo sin incluir el
nivel de libertades polticas. Se sigui el mismo diseo muestral que en el
modelo anterior.
Se observa que el MLP fue capaz de clasificar correctamente el 76.1% de los
pases obtenindose un 96.6% para el cuartil 1 y 100% para el cuartil 4. As
38
mismo, en el grfico 3 y la tabla 7 se observan las los resultados de las

curvas COR correspondientes, con resultados similares a los anteriores.
Grfico 3
Curvas COR de MPL Entrenada con todas las
variables propuestas menos indpolfree
Tabla 7
rea
Corrcateg4
0,915
0,805
0,893
0,990
39
Una vez demostrada la pertinencia de la red, en los grfico 4 y 5 se aprecian

las variables incluidas en las redes entrenadas, siendo organizadas segn su
importancia normalizada en la clasificacin de los pases en niveles de
corrupcin. Se observa que el nivel de ingresos per-cpita, seguida del nivel
de apertura econmica y el nivel de libertades polticas son las variables ms
relevantes, lo que significa que los
pases con diferentes niveles de
corrupcin comparten niveles muy semejantes en estas variables.
GRFICO 4
Importancia Relativa de las Variables
Independientes sin gtradefinfreee

40
GRFICO 5
Importancia Relativa de las Variables
Independientes sin indpolfree
Una de las principales desventajas del MPL es la dificultad de interpretar sus

resultados, sobre todo el nivel de significancia de las variables y el signo de
sus relaciones funcionales, por lo que este tipo de modelos fueron
catalogados durante algunos aos como cajas negras, es decir, modelos
que obtenan excelentes resultados clasificatorios pero que escondan las
relaciones funcionales obtenidas en estas clasificaciones (Montao &
Palmer, 2002).
41
Por tanto para este estudio, se opt por entrenar una red alternativa a la cual
se agregaron, una por una y en primer lugar las variables histricas, luego
las culturales e institucionales y por ltimo las polticas y socioeconmicas11.
GRFICO 6
Importancia Relativa de las
Variables Independientes
11
Una metodologa similar fue empleada con herramientas economtricas tradicionales por (Treisman, 2000)
42
Lo anterior con el fin de evidenciar las variables que incrementaban los

errores cuadrticos al ser incluidas y sus efectos sobre el poder de
clasificacin de la red. Segn este proceso iterativo, la red entrenada obtuvo
los mejores resultados con las variables observadas en el grfico 6, en el
cual tambin se observa su clasificacin por niveles de importancia
normalizada. Encontrndose entonces que las variables que mejor clasifican
a los pases en niveles de corrupcin son el nivel de ingresos promedio como
proxy del nivel de vida o pobreza, el nmero de procesos necesarios para
hacer cumplir un contrato, el nivel de apertura econmica y el de libertad
poltica12; la proporcin de poblacin protestante, el nmero de procesos
para asegurar los derechos de propiedad privada y las variables histricas
relacionadas con el ser colonia britnica y no haber sido colonizados. En la
tabla 8 se muestra que los resultados en cuanto a la suma de errores
cuadrticos y el porcentaje global de clasificacin son superiores.
Tabla 8
Resumen del modelo con menor suma de errores cuadrticos
Entrenamiento Suma de errores
19,455
cuadrticos
24,3%
incorrectos
Prueba
Suma de errores
7,550
cuadrticos
16,7%
incorrectos
12
Se obtuvieron los mismos resultados para las dos ltimas variables dados sus altos niveles de correlacin.
43
La tabla 9 muestra la clasificacin realizada por la anterior red artificial tanto

en la etapa de entrenamiento como en la de prueba. Para la primera se tom
una muestra aleatoria estratificada correspondiente al 70% de los pases
para entrenar la red y se corrobor su aprendizaje y capacidad predictiva con
el 30% restante. Se observa que para estas variables el MLP fue capaz de
clasificar correctamente el 83.3% de los pases obtenindose mejores
resultados para los cuartiles 1 con un 100% y 4 con 100% correspondientes
a los pases con mayor y menor nivel de corrupcin respectivamente, en los
cuartiles centrales se obtuvo un 45.5% y 66.7% de correctas clasificaciones.
Tabla 9
Resultados de Clasificacin en cuartiles de corrupcin por MLP incluyendo solo las
variables independientes del modelo con menor suma de errores cuadrticos
Pronosticado
Porcentaje
Muestra
Observado
correcto
Entrenamiento 1
46
92,0%
11
14
50,0%
56,3%
12
92,3%
54,2%
20,6%
12,1%
13,1%
75,7%
21
100,0%
45,5%
66,7%
100,0%
61,9%
11,9%
4,8%
21,4%
83,3%
Porcentaje
global
Prueba
Porcentaje
global
44
La tabla 10 muestra las reas bajo las curvas COR de la red entrenada
donde se observan un alto poder de clasificacin.
Tabla 10
rea
Corrcateg4
0,902
0,785
0,909
0,977
5.2 Anlisis comparativos con modelos convencionales de respuesta

categrica ordinal13.
Como se plante anteriormente los modelos de regresin de respuesta
categrica ordinal convencionales realizan un conjunto de supuestos
estadsticos sobre los errores de estimacin y el comportamiento paramtrico
de las variables, por tanto es interesante comparar sus resultados con los
obtenidos por el MLP que utiliza otro paradigma en el proceso de
clasificacin.
5.2.1 Poder de Clasificacin
Tanto el modelo Logit Ordinal como el Probit Ordinal obtuvieron resultados
de clasificacin absoluta similares a los obtenidos por la red con 69% y 70%
respectivamente. Sin embargo, como se indic anteriormente estas cifras
pueden ser engaosas y por lo tanto el poder de clasificacin de un modelo
13
Como el nivel de apertura econmica y el de libertad poltica estn altamente correlacionados y en vista de
que los resultados obtenidos son muy similares, se realizar el anlisis de significancia solo para indpolfree
generalizndose para el nivel de apertura econmica.
45
debe medirse teniendo en cuenta la relacin entre buenas y malas

clasificaciones.
Los anexos 4 al 7 muestran los resultados del poder de clasificacin del
modelo Logit Multinomial estimado. Como se observa, las reas bajo las
curvas COR fueron 0.1153, 0.5778, 0.8276 y 1.0 para los cuartiles 1, 2, 3 y 4
respectivamente:
obtenindose
resultados
similares
para
el
Probit
Multinomial. Esto revela que los modelos tradicionales estimados realmente

no clasificaron correctamente a los pases debido a que tendieron a clasificar
con mayor probabilidad a los pases en las categoras con ms cantidad de
datos.
Lo anterior muestra que a pesar de que el MPL entrenado presenta
resultados similares en cuanto a la cantidad de verdaderos positivos con
respecto a los modelos tradicionales estimados (pases bien catalogados en
su correspondiente categora), es mucho mas eficiente en cuanto al poder de
clasificacin ya que es menos influenciable por los tamaos muestrales de
las categoras y clasifica mejor a los verdaderos negativos (pases no
pertenecientes a una de las categoras y clasificados correctamente) como
no pertenecientes.
5.2.2 Significancia
Se comparan los resultados de los tres modelos en cuanto a la pertinencia
de las variables como determinantes del nivel de corrupcin percibida. La
tabla 11 muestra estos resultados. Se presentan primero la estimaciones del
Logit Ordinal y el Probit Ordinal; la ltima columna seala si la variable fue o
no incluida en la red entrenada que present los menores errores
cuadrticos. Se observa que los valores p indican que no existe relacin
significativa entre el nivel de gasto pblico y el haber sido colonia espaola14
14
Este resultado contradice una creencia muy arraigada en las poblaciones de los pases Latino Americanos
sobre la responsabilidad del colonialismo Espaol sobre los niveles de subdesarrollo de la Regin (Leyenda
Negra).
46
con los niveles de corrupcin de los pases estudiados. La poca importancia

que parece presentar el nivel de gasto del gobierno o tamao del Estado se
puede deber a que se incluyen tanto los pases desarrollados como los
pases en va de desarrollo en una misma base de datos. Cuando se
aliment la red slo con la variable govspending1 se obtuvo un 0% de
correctas discriminaciones para los cuartiles 2 al 4 pero un 95.2% de los
pases en el cuartil 1 fueron correctamente clasificados y la relacin entre las
variables fue negativa. Esto parece corroborar las hiptesis que plantean que
los pases ms corruptos comparten instituciones gubernamentales comunes
que provocan que entre mayor sea el tamao del Estado mayor ser el nivel
de corrupcin percibida cuando los pases son ms ineficientes. No obstante
se queda en deuda al no demostrar de forma ms rigurosa estos
planteamientos debido a que requiere otro tipo de anlisis que escapan a los
objetivos de este trabajo.
El nmero de procesos necesarios para asegurar derechos de propiedad
sobre empresas privadas result significativo al 10% por lo que parece haber
evidencia estadstica a favor de su relevancia; esto se corrobora por su
inclusin dentro del modelo MLP con menor error cuadrtico.
Como puede observarse el resto de variables son significativas para explicar
los niveles de corrupcin y coinciden los resultados obtenidos por los
modelos comparados.
47
Tabla 11
Significancia de las variables planteadas
LOGIT
VARIABLES
ORDINAL
PROBIT ORDINAL
MPL
Menor error
Corrcateg4
P>z
P>z
cuadrtico
procrigts
-1.63
0.104
-1.62
0.105
SI
proccontract
-2.70
0.007
-2.81
0.005
SI
indpolfree
-3.51
0.000
-3.63
0.000
SI
gnip
4.44
0.000
4.63
0.000
SI
govspending1
-0.18
0.859
-0.43
0.668
NO
ESP
-0.12
0.902
0.28
0.778
NO
ING
2.49
0.013
2.83
0.005
SI
ning
3.03
0.002
3.37
0.001
SI
prot
2.25
0.025
2.40
0.017
SI
Fuente: Calculo del autor.
5.2.3 Importancia relativa y signo de la relacin funcional

Siguiendo la metodologa propuesta, las tablas 12 y 13 muestran la
importancia relativa normalizada de las variables dentro de cada modelo. La
importancia relativa de las variables para los modelos Logit y Probit
estimados se calcul como:
donde
es la FDA supuesta por el modelo, un escalar el vector de
medias de las variables independientes y el vector de coeficientes.

Presentando este clculo como elasticidades y normalizando se muestra la
importancia relativa promedio para cada variable de acuerdo a su influencia
en la variacin de la probabilidad de pertenecer a intervalos de confianza
48
mayores (menos corruptos). El proceso para determinar la importancia

relativa de las variables en el MLP fue descrito en la metodologa.
Tabla 12
Importancia relativa y signo de las relaciones funcionales para los modelos
planteados incluyendo indpolfree
VARIABLE
Corrcateg4
LOGIT ORDINAL
PROBIT ORDINAL
MLP
Imp.relativa SIGNO Imp.relativa SIGNO Imp.relativa SIGNO
ESP
20
gnip
70
89
100
govspending1
16
indpolfree
35
33
78
ING
11
13
22
ning
16
23
37
proccontract
100
100
61
procrigts
25
23
43
prot
12
18
47
Fuente: Clculos del Autor
Se observa que la variable ms importante en su poder explicativo segn los

modelos convencionales fue el nmero de procesos para hacer valer un
contrato
proccontract cuando se incluy el nivel de libertad poltica
indpolfree, mientras que para la red fue el nivel de ingresos per-cpita.

Cuando se incluye el nivel de apertura econmica gtradefinfree esta
resulta ser la ms relevante para el Logit mientras que para el Probit es el
nivel de ingresos. Tanto al incluir el nivel de libertad poltica como el nivel de
apertura econmica, el MLP resulto ser ms consistente en sus resultados,
ya que para ambos entrenamientos estas mostraron ser las segundas en
importancia y el nivel de ingreso ocup el primer lugar.
49
Tabla 13
Importancia relativa y signo de las relaciones funcionales para los modelos
planteados incluyendo gtradefinfree
VARIABLE
Corrcateg4
ESP
gnip
govspending1
gtradefinfree
ING
ning
proccontract
procrigts
prot
LOGIT ORDINAL
PROBIT ORDINAL
MLP
Imp.relativa SIGNO Imp.relativa SIGNO Imp.relativa SIGNO

0
48
12
100
9
14
80
12
8
+
+
+
+
+
1
89
8
33
13
23
100
23
18
+
+
+
+
+
+
8
100
30
74
19
30
60
50
51
+
+
+
+
+
Fuente: Clculos del Autor
Se observa tambin que todos los modelos coinciden en el signo de la

relacin funcional para las variables significativas, donde las positivas
significan que existe una relacin directa entre incrementos de la variable
independiente y la probabilidad de ser asignado a cuartiles superiores o
menos corruptos; las negativas significan la relacin contraria.15
5.3 La teora
En todos los modelos estimados se obtuvieron resultados consistentes con
las explicaciones tericas ms importantes y los hallazgos de estudios
anteriores. Se encontr evidencia de que entre ms ineficientes sean los
sistemas judiciales de los pases y menos libertades polticas sean
respetadas para sus habitantes, mayores sern los niveles de corrupcin
percibida para estos. Tambin, si un pas fue colonia britnica o nunca ha
sido colonizado, tendr menor probabilidad de ser clasificado como corrupto;
15
Debe recordarse que el signo negativo obtenido en indpolfree se debe a que, segn su descripcin, la variable se
incrementa a medida que se reducen las libertades polticas.
50
una mayor proporcin de poblacin protestante result significativa para ser

clasificado como menos corrupto.
En cuanto al nivel de calidad de vida, se encontr evidencia de que los
pases ms pobres suelen ser clasificados como ms corruptos. Igualmente
sern menos corruptos aquellos pases ms abiertos a los mercados
internacionales. No se encontr evidencia estadstica clara sobre la
importancia del nivel de gasto pblico como determinante de los niveles de
corrupcin, por lo que se requieren estudios ms especficos sobre este
tema.
El haber sido colonia espaola parece no ser relevante para explicar la
variable dependiente. Esto contradice las creencias arraigadas en Amrica
Latina sobre las causas histricas de la corrupcin.
Estos resultados coinciden con los planteamientos tericos ms comunes en
la literatura especializada sobre el tema. Ponindose a prueba, en este
trabajo, desde un paradigma de clasificacin a diferencia de las herramientas
economtricas comnmente utilizadas en este tipo de investigaciones.
51
6
CONCLUSIONES
Se ha entrenado una red neuronal artificial MLP capaz de predecir el nivel de

corrupcin de un, pas dado por el CPI de Transparencia Internacional, a
partir de determinadas caractersticas culturales, histricas, polticas,
institucionales y socio-econmicas que delimitan su perfil.
El Perceptrn Multicapa (MLP) obtuvo excelentes resultados en cuanto al
poder de clasificacin frente a los modelos convencionales Logit Ordinal y
Probit Ordinal, lo que confirma su utilidad como herramienta alternativa en
este tipo de aplicaciones. Adems, todos los modelos aplicados mostraron
resultados
similares
en
cuanto
la
relevancia
de
las
variables
independientes para explicar el nivel de corrupcin de los pases tratados,

confirmando la robustez de la clasificacin realizada por las redes MLP
entrenadas.
Se encontr evidencia de que entre ms ineficientes sean los sistemas
judiciales de los pases y menos libertades polticas sean respetadas para
sus habitantes mayores sern los niveles de corrupcin percibida para estos.
Tambin, si un pas fue colonia britnica o nunca ha sido colonizado, tendr
menor probabilidad de ser clasificado como corrupto; una mayor proporcin
de poblacin protestante result significativa para ser clasificado como
menos corrupto.
En cuanto al nivel de calidad de vida, se encontr evidencia de que los
pases ms pobres suelen ser clasificados como ms corruptos. Igualmente
sern menos corruptos aquellos pases ms abiertos a los mercados
internacionales. No se encontr evidencia estadstica clara sobre la
52
importancia del nivel de gasto pblico o tamao del Gobierno como

determinante de los niveles de corrupcin ni de que haber sido colonia
espaola sea relevante para explicar la variable dependiente.
53
7
ANEXOS
ANEXO1
Correlacin entre ndice de Percepcin de Corrupcin de Transparencia Internacional y el
ndice Control of Corruption del Banco Mundial
corrwb
corrwb
CPI
0.9832
CPI
corrwb: Control of Corruption Banco Mundial

CPI: ndice de Percepcin de Corrupcin de Transparencia Internacional
Fuente: Clculos del autor.
ANEXO 2
Niveles de correlacin entre componentes del ndice de Desarrollo Humano IDH
promidh lifeexpectancy Meanyearsofschooling Expectedschooling gnip

promidh
lifeexpectancy
0,898
Meanyearsofschooling 0,8895
0,7247
Expectedschooling
0,9029
0,7974
0,8371
gnip
0,7332
0,6176
0,5794
0,6244
Fuente: Clculos del Autor.
54
ANEXO 3
Niveles de Correlacin entre las variables propuestas
procri- proccon
1
procrigts
1
proccontract 0,183
0,152
0,442
indpolfree
-0,22
-0,383
promidh
-0,255 -0,291
gnip
gtradefinfree -0,288 -0,455
0,258
govspending1 0,059
-0,167 -0,259
prot
indp
1
-0,566
-0,403
-0,701
0,431
-0,321
prom
gnip
1
0,733
1
0,647 0,543
-0,4571 -0,395
0,1986 0,229
gtradef
govsp
pro
1
-0,328
0,339
1
-0,336
Fuente: Clculos del Autor.
ANEXO 4
Curva COR categora 1 Logit Ordinal
55
ANEXO 5
56
ANEXO 6
57
ANEXO 7
58
REFERENCIAS
Alesina, A., & Weder, B. (2002). Do Corrupt Governments Receive Less Foreign
Aid? The American Economic Review, 92(4), 1126-1137.
Bardhan, P. (1997). Corruption and development: a review of issues. Journal of
Economic Literature, 1320-1346.
Battiti, R. (1992). First and second order methods for learning: between steepest
descent and Newton's method. Neural Computation, 4(2), 141-166.
Biganzoli, E., Boracchi, P., Mariani, L., & Marubini, E. (1998). Feed-forward neural
networks for the analysis of censored survival data:a partial logistic regression
approach. Statistics in Medicine, 17(10), 1169-1186.
Billger, S., & Goel, R. (2009). Do existing corruption levels matter in controlling
corruption? Cross-country quantile regression estimates. Journal of
Development Economics(90), 299-305.
Boeninger, E. (1991). Governance and development: issues and constraints. The
WorldBank: Proceedings of the World Bank annual conference on
development economics, 267-287.
Dreher, A., Kotsogiannis, C., & McCorriston, S. (2007). Corruption around the
world: Evidence from a structural model. Journal of Comparative
Economics(35), 443-466.
Funahashi, K. (1989). On the approximate realization of continuous mappings by
neural networks. Neural Networks, 2, 183-192.
Goel, R., & Nelson, M. (2010). Causes of corruption: History, geography and
government. Journal of Policy Modeling, 32, 433-447.
Granger, C., & Tersvirta, T. (1993). Modelling Nonlinear Economic Relationships.
Advanced Texts in Econmetrics. Oxford University Press.
Grossman , G., & Helpman, E. (1994). Protection for sale. . American Economic
Review(84).
Klitgaard, R. (1988). Controlling Corruption. Berkeley and Los Angeles: University
of California, 32.
La Porta, R. L.-D.-S. (1999). The quality of government. Journal of Law, Economics
and Organization(15), 222279.
59
Lambsdorff, J. G. (2007). The Institutional Economics of Corruption and Reform.

Theory, Evidence and Policy. Passau, Alemania: Hardback.
Lancaster , T., & Montinola, G. (1997). Toward a methodology for the comparative
study of political corruption. Crime, Law and Social Change, 185-206.
Montao, M. J., & Palmer, A. (2002). Redes neuronales artificiales: abriendo la caja
negra. Metodologa de las Ciencias del Comportamiento, 4(1), 77-93.
Palmer, A., Montao, J., & Jimnez, R. (2001). Tutorial sobre Redes Neuronales
Artificiales: El Perceptrn Multicapa. REVISTA ELECTRNICA DE
PSICOLOGA.
Pellegrini, L., & Gerlagh, R. (2007). Causes of corruption: a survey of cross-country
analyses and extended results. Economics of Governance.
Pea, D. (2002). Anlisis de Datos Multivariantes. Madrid: McGraw-Hill.
Pres, C. (2008). Econometra Avanzada. Tcnicas y Herramientas. Madrid: Pearson.
Philp, M. (1997). Defining political corruption. Political Studies (Special Issue)(45),
43562.
Picn, C. (2011). Is there more corruption in countries less opened to international
markets? application of a predictive classification model based on neural
networks. Revista de Economa del Caribe(8, ), 45-79.
Rodrik, & Dani. (2002). Institutions, Integration, and Geography: In Search of the
Deep Determinants of Economic Growth. Princeton NJ: Princeton University
Press.
Rodrik, D., Subramanian, A., & Trebbi, F. (2002). Institutions rule: The primacy of
institutions over geography and integration in economic development.
Discussion paper 3643. CEPR.
Rose-Ackerman. (1998). Corruption and development. Annual World Bank
Conference on Development Economics , 35-57.
Rose-Ackerman, S. (1999). Corruption and Government: Causes, Consequences, and
Reform. Cambridge University Press.
Rumelhart, D., Hinton, G., & Williams, R. (1986). Learning internal representations
by error propagation. (D. R. (Eds.), Ed.) Cambridge, MA: MIT Press, 318-362.
60
Sandholtz, W., & Koetzle, W. (2000). Accounting for Corruption: Economic

Structure, Democracy, and Trade. International Studies Quaterly, 44, 31-50.
Svensson, J. (2005). Eight Questions about Corruption. Journal of Economic
Perspectives, 19(3), 19-42.
Tanzi, V. (december de 1998). Corruption Around the World Causes, Consequences,
Scope, and Cures. IMF Staff Papers, 45(4), 559-594.
Treisman, D. (2000). The causes of corruption: a cross-national study. Journal of
Public Economics, 76, 399-457.
Zhang, G., Patuwo, E., & Hu, M. (1998). Forecasting with artificial neural networks:
The state of the art. International Journal of Forecasting, 14, 35-62.
61
62

Redes Neuronales Aplicadas Al Estudio de La Corrupción

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Redes Neuronales Aplicadas Al Estudio de La Corrupción

Diunggah oleh

Hak Cipta:

Format Tersedia

Red Neuronal Artificial (MLP) Aplicada al Estudio de la

Red Neuronal Artificial (MLP) Aplicada al Estudio de la

Cristian Picn Viana

A mi madre Margarita por sus sacrificios.

2 ACERCAMIENTO TERICO Y ANTECEDENTES ...................................... 13

3 LAS VARIABLES .................................................................................................. 24

Las Redes Neuronales Artificiales, (RNA), se pueden definir como un

informacin. Funciona sincronizando un

nmero de unidades simples de procesamiento interconectadas que emulan

trabajos anteriores realizados con herramientas convencionales y elaborar

convencionales y en segundo lugar, comparar las estimaciones

entrada se determinaron las variables, que al interactuar, permiten predecir

pas, tienen mayor probabilidad de ser asignado como menos

y por ltimo se plantean las conclusiones y propuestas

2.1 Red Neuronal Perceptrn Multicapa (MLP)

demostrado que para la mayora de problemas es suficiente con una sola

como backpropagation error

(propagacin del error hacia atrs).

Fuente: Elaboracin del autor

Segn (Palmer, Montao, & Jimnez, 2001) en el algoritmo backpropagation

donde es el umbral de la neurona que se supone como un peso asociado a

donde bpj es el valor de salida de la neurona j.

En la capa de salida se aplica la misma operacin que en la capa anterior,

Luego, empieza una etapa de aprendizaje o entrenamiento de la RNA, el

donde dpk es la salida esperada para la neurona de salida k ante la

Como Ep es funcin de todos los pesos de la red, el gradiente de Ep es un

en el error. Por tanto, el error puede reducirse ajustando cada peso en la

Para la alteracin de los pesos de la red, se actualizan despus de haber

2.2 Corrupcin y sus Determinantes

convencimiento de que este requiere, por encima de todo, el buen gobierno2.

existe evidencia clara de que la

corrupcin es enemiga de dicho entorno.

estas dificultades en el estudio de la corrupcin radica en la definicin de la

sobre derechos de propiedad, cumplimiento de contratos, as como los

economa internacional, y afiliacin religiosa protestante. Encuentran que los

planteado en este trabajo. Los resultados apoyan algunas de las

Dado que muchos de los resultados de investigaciones previas no son

Para medir la corrupcin de los pases estudiados se escogi el ndice de

Especficamente para este estudio, los pases analizados se clasificaron por

se considera aqu que al agrupar los pases por

niveles de corrupcin pueden aislarse mejor los problemas tericos debido

La tabla 1 muestra un resumen de las variables propuestas.

Factores Polticos e Institucionales:

ING: toma valor 1 si el pas fue una colonia britnica; 0 si no lo fue.

la liberacin del mercado de capitales y el

intercambio de tecnologas sin restricciones por pate del Estado. Para

Ms especficamente, la libertad de comercio es una medida compuesta de

Otra variable incluida debido a su importancia terica es el tamao del

Publicado por Freedom House

Bases de datos del Banco

Bases de datos del Banco

Ingreso Nacional per-cpita promedio

Promedio del ndice de Gastos del

Fuente: Elaboracin del autor

Programa de las Naciones

presupone algn nivel de causalidad a priori9. Sin embargo, ambos tipos de

(Battiti, 1992), el cual se deriva del

algoritmo backpropagation fundamentndose en el clculo de la segunda

Un acercamiento matemtico a los principales mtodos clasificatorios paramtricos pueden encontrarse en

pertenecer un pas dadas las variables planteadas y la importancia relativa

donde i es el error asumido como distribuido logsticamente en el Logit

son los puntos de corte

para una de las clases de la variable dependiente,