Anda di halaman 1dari 14

* Ingeniera de Sistemas

de la Universidad de
Anlisis y evaluacin del nivel de riesgo en el otorgamiento de crditos financieros Ibagu, especialista en
utilizando tcnicas de minera de datos Teleinformtica de la Uni-
versidad Distrital Fran-
cisco Jos de Caldas
Analysis and evaluation of risk levels on loan aproval using data mining techniques (Colombia), estudiante de
Maestra en Ciencias de la
Informacin y las Comu-
nicaciones de la Univer-
sidad Distrital Francisco
Martha L. Tello Fecha de envo: septiembre de 2011
Jos de Caldas (Colom-
Fecha de recepcin: octubre de 2011
bia), integrante del grupo
Hermes J. Eslava** Fecha de aceptacin: agosto de 2012
de investigacin en teleco-
municaciones Teletecno.
Lucy B. Tobas*** Docente de la Universidad
Distrital Francisco Jos de
Caldas (Colombia). mtel-
loc@udistrital.edu.co
** Licenciado en Electrnica
Resumen de la Universidad Pedag-
En este artculo se presenta la aplicacin de la minera de datos en el gica Nacional (Colombia),
especialista en Teleinfor-
sector financiero, para evaluar el nivel de riesgo en el otorgamiento de mtica de la Universidad
Distrital Francisco Jos
crditos. Se tom una muestra de datos de 1000 registros, correspon- de Caldas (Colombia),
dientes a una cartera comercial de una entidad bancaria. Se utiliz la especialista en Instrumen-
tacin Electrnica de la
metodologa Knowledge Discovery in Databases (KDD) Universidad Santo Tomas
(Colombia), M.Sc. en In-
y se desarroll un software que permiti discretizar los datos, para po- geniera de Telecomunica-
der utilizarlos como entradas en la herramienta de minera de datos ciones de la Universidad
Nacional de Colombia,
WEKA. Se comparan los resultados obtenidos al aplicar las tcnicas Ph.D.(c) en Ingeniera de
Sistemas y Computacin
de minera de datos, rboles de clasificacin ID3 y J48. Finalmente se de la Universidad Nacio-
obtiene como resultado las caractersticas que deben tener los clien- nal (Colombia), director
del grupo de investigacin
tes para recibir un crdito bancario. en telecomunicaciones
Teletecno. Docente de
la Universidad Distrital
Francisco Jos de Caldas
(Colombia). hjeslavab@
Palabras clave val. A sample of 1000 data records from a udistrital.edu.co
Minera de datos, KDD, rboles de decisin, commercial bank were analyzed and further *** Ingeniera de Sistemas de
reglas de decisin, ID3 y J48. processed. Knowledge Discovery in Databases la Fundacin Universitaria
San Martn (Colombia),
(KDD) methodology was implemented and a estudiante de Maestra en
software tool that allows discrete-data con- Ciencias de la Informacin
Abstract version was developed so that the samples y las Comunicaciones de
la Universidad Distrital
This article describes a Data-Mining-based could be used as input data to the data mining Francisco Jos de Caldas
application intended for the financial sector. tool called WEKA. Results were compared to (Colombia), miembro del
grupo Thomas Greg &
Such an application evaluates the level of assess the performance when applying data Sons Ltda. lucy.tobias@
risk associated to financial loans on appro- mining techniques and classification trees reval.com.co.

Revista Visin Electrnica ao 7 nmero 1 pp. 13 - 26 enero - junio de 2013


13
MARTHA L. TELLO HERMES J. ESLAVA LUCY B. TOBAS

ID3 and J48. Finally, the application yields the tos. Estos procesos sintetizan las diferentes
characteristics that customers should exhibit etapas de la vida de una obligacin, razn por
to be granted financial loans. la cual las variables contempladas en cada
uno deben tener relacin directa con el ob-
Key words jeto mismo del crdito, as como su anlisis
Data mining, KDD, decision trees, decision y seguimiento.
rules, ID3 and J48.
Para desarrollar la aplicacin se consideraron
10 variables, distribuidas entre cuantitativas
Introduccin y cualitativas, y 1000 registros de muestra,
correspondientes a una cartera comercial.
El crdito bancario constituye una fuente El estudio comienza identificando las varia-
primordial de financiamiento para el desarro-
bles que estarn directamente implicadas y
llo de la economa. Todos los sujetos de cr-
la clase de referencia que dar sentido a la
dito implican en menor o mayor medida un
informacin de acuerdo con el conjunto de
nivel de riesgo, dicha probabilidad est dada
datos con el que se cuenta, el cual muestra
por la incertidumbre acerca de los factores y
una relacin directa entre las edades, la ca-
variables que pueden afectar en el futuro a
pacidad de endeudamiento de una persona y
los clientes y vuelven peligrosa la inversin
su comportamiento de pagos; estas variables
bancaria. Cada cliente muestra sus caracte-
se convierten en una base fundamental para
rsticas y factores propios que inciden en la
determinar el perfil de los clientes y sec-
existencia del riesgo crediticio.
tores que solicitan los servicios del crdito
bancario.
En la actividad bancaria siempre los concep-
tos de riesgo y crdito son inseparables si
se tiene en cuenta que entre las actividades Luego de tener identificadas las variables
bancarias la concesin de crditos es la ms que sern estudiadas, se contina con el
importante, se comprender entonces que proceso de preparacin de los datos, dentro
la gestin del riesgo de crdito continua del cual se van a realizar tareas de limpieza,
siendo la de mayor relevancia; el crdito integracin, transformacin (en caso de ser
ideal sera aquel que d una seguridad total necesaria) y reduccin de la informacin su-
o un riesgo nulo, pero en la prctica esto es ministrada con el fin del hacer el conjunto de
casi imposible no hay crdito sin riesgo. No datos consistente.
obstante, s es posible la disminucin del
riesgo determinando los factores que inci- Luego de este proceso, se prepara la informa-
den en l y actuando sobre ellos para cada cin para a partir de ella desarrollar las tareas
tipo de prestatario [1]. de minera, y se utilizan una serie de primiti-
vas existentes con el fin de llevar a cabo un
Un aspecto muy importante sobre el sistema descubrimiento del conocimiento fcil, efi-
de administracin del riesgo de crdito es el ciente y fructfero. Este descubrimiento debe
seguimiento y control de procesos que ten- llevarnos a resolver la pregunta dentro de la
gan relacin directa con este. Por lo tanto, cual se enmarca todo este proceso de minera
se hace necesario el monitoreo de procesos de datos: qu caractersticas debe tener un
tales como otorgamientos y comportamien- cliente para recibir un crdito?

Universidad Distrital Francisco Jos de Caldas - Facultad Tecnolgica


14
ANLISIS Y EVALUACIN DEL NIVEL DE RIESGO EN EL OTORGAMIENTO
DE CRDITOS FINANCIEROS, UTILIZANDO TCNICAS DE MINERA DE DATOS

El procesamiento de los datos se efectu Reporte en las centrales.


utilizando la tcnica KDD y se emple como
Actividad econmica del cliente.
apoyo tecnolgico la herramienta de minera
de datos WEKA, por medio de la cual se lle- Capacidad de pago del cliente.
v a cabo el preprocesamiento de los datos
mediante la tcnica de seleccin de atribu- Las caractersticas de los atributos antes
tos; posterior a esto, se utiliz como proceso mencionados se describen brevemente a
de clasificacin los rboles de decisin con continuacin:
los algoritmos de minera ID3 y J48.
Conjunto de obligaciones en diferentes
El artculo se encuentra organizado en cin- rangos de das en mora.
co secciones: la primera muestra un breve
recuento del dominio de la aplicacin, la se- Modalidades de crdito que dividen los
gunda seccin presenta el preprocesamiento datos en cuatro grandes grupos para ser
de la informacin, la seccin tres describe analizados: consumo, comercial, hipote-
el proceso de minera de datos, en la cuarta cario y microcrdito.
seccin se muestran los resultados y en la
Conjunto de los perfiles de comporta-
quinta seccin se presentan las conclusiones
miento de los clientes de acuerdo con su
a las que se puede llegar de acuerdo con el
comportamiento en el pago de las obliga-
estudio realizado y los resultados obtenidos.
ciones con la entidad financiera.

1. Determinacin del conjunto de datos objeto Conjunto de las diferentes actividades


econmicas del sector.
El conjunto de datos que se va analizar pro-
viene de la informacin real de una entidad Este conjunto de datos debe ser sometido a
financiera. Dicha informacin est conforma- etapas de limpieza y preprocesamiento con
da por datos bsicos de los clientes y por una el fin de lograr la reduccin y normalizacin
clasificacin o categorizacin propia de la acti- de la informacin que se va a analizar.
vidad de la empresa que los provee.

El conjunto de datos que ser estudiado tiene 2. Limpieza de datos y preprocesamiento


los siguientes atributos:
Las grandes cantidades de informacin que
No obligacin. contienen las bases de datos requieren una
eficiente representacin, no solo que reduz-
Saldo a cpita.
can la dimensionalidad sino tambin que pre-
Edad mora: acumulado de das que lleva serven la informacin relevante para una cla-
en mora durante el crdito. sificacin eficiente.
Modalidad.
En el conjunto de datos que se estudiar se
Comportamiento de pago: mora actual. encuentran datos continuos y categricos,
por lo tanto es necesario convertir los conti-
Endeudamiento con el sector.
nuos a categricos. Se obtiene el nmero de
Perfil del cliente. segmentos y rangos en que pueden agruparse

Revista Visin Electrnica ao 7 nmero 1 pp. 13 - 26 enero - junio de 2013


15
MARTHA L. TELLO HERMES J. ESLAVA LUCY B. TOBAS

los segmentos de tiempo, conservando la in- continuos. Luego se tomaron los datos con-
formacin relevante [2]. tinuos y se categorizaron los valores de cada
atributo en tres grupos, que se especifican
Para el proceso de limpieza y preproce- de acuerdo con el intervalo que se obtiene si
samiento de datos se tom el conjunto de se aplica la siguiente frmula:
datos inicial y se identificaron los atributos
que deban ser categorizados, as como los atributos max atributos min
atributos a los que les faltaba informacin, Intervalo = (1)
3
para posteriormente realizar un proceso de
relleno de datos faltantes y discretizacin. Los atributos a los cuales se les aplic el pro-
Estos procesos se llevan a cabo tal como se ceso de discretizacin fueron los siguientes:
describe a continuacin.
Edad de mora del cliente: en este atributo se
2.1 Relleno de datos faltantes muestra la sumatoria de la cantidad de das
de atraso que el cliente ha tenido durante la
Dentro del conjunto de datos de estudio se existencia de la deuda.
encontr que el atributo comportamiento de
pago tena filas que no contaban con un valor Para este atributo, aplicando la frmula 1,
especfico, en el momento de evaluar la de- la distribucin de los grupos queda como se
pendencia del resto de atributos del conjunto muestra en la tabla 1.
de datos se encontr que no haba ninguna
relacin que determinara el comportamiento Capacidad de pago del cliente: este atributo
o valor que deba tener este atributo, por lo muestra la capacidad de pago que tiene el
tanto, para hacer confiable el proceso de mi- cliente, determinada en porcentajes por mi-
nera de esta informacin dicho atributo se lln. Para este atributo despus de aplicar la
complet con el valor sin evaluar. frmula 1, los grupos quedan conformados
como lo muestra la tabla 2.
2.2 Discretizacin de informacin
2.3 Reduccin de los datos
Para el proceso de discretizacin se hizo un
anlisis preliminar de los atributos y se es- En el proceso de reduccin de los datos debe
tableci cules son discretos y cules son identificarse el tipo de informacin que estos

Tabla 1. Distribucin en grupos de la edad de Tabla 2. Distribucin en grupos


mora del cliente de la capacidad de pago del cliente

Grupo Rango de Valores Grupo Rango de Valores


G1 25 136.67 G1 0.3 0.87
G2 136.671 248.33 G2 0.871 1.43
G3 248.331 360 G3 1.431 2

Fuente: elaboracin propia. Fuente: elaboracin propia.

Universidad Distrital Francisco Jos de Caldas - Facultad Tecnolgica


16
ANLISIS Y EVALUACIN DEL NIVEL DE RIESGO EN EL OTORGAMIENTO
DE CRDITOS FINANCIEROS, UTILIZANDO TCNICAS DE MINERA DE DATOS

Tabla 3. Atributos del conjunto de datos

Variables Descripcin

No Obligacin Identificador asignado a la obligacin por parte de la entidad.

Saldo a Capital Saldo pendiente a la fecha

Edad Mora Acumulado de das que lleva en mora durante el crdito

Modalidad Tipo de Crdito que se otorga

Comportamiento de Pago Mora actual

Endeudamiento con el Sector Muestra el endeudamiento que tiene el cliente


Perfil que se le otorga al cliente de acuerdo con su comportamiento de
Perfil del Cliente
pago y nivel de endeudamiento
Reporte en las Centrales Indica si el cliente est o no reportado en las centrales de Riesgo

Actividad Econmica del Cliente Indica la actividad econmica que desarrolla el cliente

Capacidad de pago del Cliente Muestra la capacidad de pago por milln que tiene el cliente

Fuente: elaboracin propia.

transmiten, dicha informacin puede ser de


tres tipos: Tabla 4. Atributos que sern removidos

1 Redundante: informacin repetitiva o pre- Variables Justificacin


decible. No es relevante para determi-
Saldo a Capital
nar el perfil del cliente
2 Irrelevante: informacin que no aporta al pro-
ceso de descubrimiento de la informacin. Fuente: elaboracin propia.

3 Bsica: la relevante, la que se constituye


como parte importante en un proceso de 2.4 Filtros de atributos
prediccin o descubrimiento de informa-
cin [3]. Despus de realizar la categorizacin de los
datos y de eliminar un dato que no presenta
De acuerdo con los tres tipos de informacin relevancia para el proceso de descubrimien-
definidos antes y a partir de los datos que to de la informacin, se ingresan en la herra-
son objeto de estudio en este artculo, en la mienta de minera de datos WEKA el conjunto
tabla 3 hay una descripcin de todos los atri- de datos modificado y discretizado, compues-
butos que provee el conjunto de datos, y en to por nueve columnas y mil registros.
la tabla 4 se muestran los atributos que van
a ser removidos del conjunto de datos, es- WEKA permite realizar manipulaciones sobre
pecificando la razn que lleva a realizar esta los datos aplicando filtros. Se pueden aplicar
accin intuitivamente. en dos niveles, atributos e instancias. De los

Revista Visin Electrnica ao 7 nmero 1 pp. 13 - 26 enero - junio de 2013


17
MARTHA L. TELLO HERMES J. ESLAVA LUCY B. TOBAS

filtros implementados en la seccin de super-


visados, se ha decidido aplicar sobre los datos Figura 3. Distribucin de la informacin para
el filtro de seleccin de atributos, el cual per- el atributo modalidad
mite encontrar aquellos atributos que tienen
ms peso a la hora de determinar si los datos
son de una clase u otra, el resultado de estos
filtros servir de ayuda para aplicar posterior-
mente las tcnicas de minera de datos [4].

El resultado que se obtuvo fue un nuevo con-


junto de datos conformado por siete campos
que contienen la informacin relevante para Fuente: elaboracin propia.
el proceso de descubrimiento de la informa-
cin. En la figura 1 se muestra la estructura la figura 2 los atributos que resultan luego de
de la informacin cargada inicialmente y en aplicar el proceso de seleccin de atributos.

Luego de haber realizado la reduccin del


Figura 1. Estructura de la informacin cargada conjunto de datos puede entrarse a analizar
inicialmente
la distribucin de la informacin en algunos
atributos, en las siguientes figuras se mues-
tra grficamente dicha distribucin con datos
concretos:

En la figura 3 se muestra la distribucin de la


informacin de acuerdo con el atributo moda-
lidad, como se puede observar hay un equili-
brio entre las categoras del atributo.

En la figura 4 se muestra la distribucin del


Fuente: elaboracin propia.
atributo comportamiento de pago, y la ten-
dencia de acuerdo con cada categora.
Figura 2. Estructura de la informacin luego
de aplicar el proceso de seleccin Figura 4. Distribucin de la informacin para
de atributos el atributo comportamiento de pago

Fuente: elaboracin propia. Fuente: elaboracin propia.

Universidad Distrital Francisco Jos de Caldas - Facultad Tecnolgica


18
ANLISIS Y EVALUACIN DEL NIVEL DE RIESGO EN EL OTORGAMIENTO
DE CRDITOS FINANCIEROS, UTILIZANDO TCNICAS DE MINERA DE DATOS

3. Definicin de la tcnica de minera de datos Reducen el nmero de variables indepen-


dientes.
Para el desarrollo de esta investigacin se
utiliza la tcnica de rboles de decisin en la Permiten establecer la seleccin del algo-
construccin de modelos a partir de los da- ritmo de minera de datos.
tos. Algunos de los modelos predictivos ms
empleados en el rea del riesgo crediticio Para clasificar los datos se ha utilizado la
son las tcnicas de rboles de decisin. herramienta de minera de datos llamada
WEKA y para medir la efectividad del algo-
Los rboles de decisin (Decision Trees, DT) ritmo de clasificacin se ha comparado la cla-
son una popular herramienta utilizada en an- se predicha con la clase real de las instancias.
lisis estadstico y minera de datos. Los DT Existen diversos modos para llevar a cabo la
son ideales para realizar clasificacin y pre- evaluacin, en este caso se emple use trai-
diccin, y por lo general los mtodos basados ning set que permite utilizar la misma mues-
en rboles representan reglas. Los rboles de tra para entrenar y probar. Los resultados
decisin son muy tiles en la exploracin de obtenidos son positivos, pero no correspon-
datos en los cuales se desea encontrar rela- den con la realidad (est clasificando los mis-
ciones entre una cantidad enorme de datos. mos datos con los que se ha entrenado) [7].
Tambin los DT combinan la exploracin y el
modelamiento de datos. Todos los algoritmos de clasificacin tienen
dos etapas, entrenamiento y test. La prime-
Un rbol de decisin es una estructura que ra ajusta el algoritmo de clasificacin con una
permite dividir un extenso conjunto de da- parte del conjunto de datos (conjunto de en-
tos relacionados entre s en conjuntos ms trenamiento). La segunda, evala dicho algo-
pequeos de datos mediante la aplicacin se- ritmo en la etapa de test con el conjunto de
cuencial de sencillas reglas de decisin. Adi- datos de test; la divisin del conjunto de datos
cionalmente, los rboles de decisin poseen suele ser 70 % para el entrenamiento y 30 %
una estructura de rbol donde cada nodo re- para la evaluacin [8].
presenta una prueba o condicin sobre el
valor de un atributo, las ramas representan El conjunto de entrenamiento se utiliza para
el resultado de la evaluacin del atributo y generar el modelo (rbol, lista de reglas,
las hojas (finales en el rbol) son las clases o etc.) y el conjunto de test para verificar si el
variables dependientes [5]. comportamiento del modelo es correcto con
ejemplos no vistos anteriormente [9].
Los arboles de decisin a diferencia de otras
tcnicas [6]: Entre los algoritmos que proporciona WEKA,
se analizaron los siguientes:
Facilitan la interpretacin de los datos.

Proporcionan un alto grado de compren- 3.1 Algoritmo ID3


sin del conocimiento utilizado en la
Uno de los algoritmos de induccin de rboles
toma de decisiones.
de clasificacin ms populares es el denomi-
Explican el comportamiento respecto a nado ID3 introducido por Quinlan (1986). En
una determinada tarea de decisin. este, el criterio escogido para seleccionar la

Revista Visin Electrnica ao 7 nmero 1 pp. 13 - 26 enero - junio de 2013


19
MARTHA L. TELLO HERMES J. ESLAVA LUCY B. TOBAS

variable ms informativa est basado en el con- muestra si = x1,x2,... est en un vector donde
cepto de cantidad de informacin mutua entre x1,x2,... representa las cualidades o las carac-
dicha variable y la variable clase. La termino- tersticas de la muestra.
loga usada en este contexto para denominar
a la cantidad de informacin mutua es la de Los datos del entrenamiento se aumentan
ganancia en informacin (information gain). con un vector C = c1,c2,... donde c1,c2,...
representa la clase a la que pertenece cada
Esto es debido a que: muestra.
I(Xi ; C) = H(C) H(C Xi ) (2) C4.5 utiliza el hecho de que cada cualidad
Lo que viene a representar esta cantidad de de los datos puede utilizarse para tomar una
informacin mutua entre Xi y C es la reduc- decisin que parta los datos en subconjuntos
cin en incertidumbre en C debida al conoci- ms pequeos. C4.5 examina la diferencia en
miento del valor de la variable Xi. entropa, eso resulta de elegir una cualidad
para partir los datos. La cualidad con el au-
Matemticamente se demuestra que este cri- mento normalizado ms alto de la informacin
terio de seleccin de variables utilizado por es la que est usada para tomar la decisin. El
el algoritmo ID3 no es justo, ya que favorece algoritmo entonces se repite en las sublistas
la eleccin de variables con mayor nmero ms pequeas [11].
de valores. Adems, el algoritmo ID3 efecta
una seleccin de variables previa (denomina- 3.3 Comparacin entre el algoritmo
da pre-running en este contexto) que consis- C4.5 e ID3
te en efectuar un test de independencia entre
El algoritmo C4.5 llev a cabo un nmero de
cada variable predictora Xi y la variable clase
mejoras a ID3, algunas de estas son:
C, de manera que para la induccin del rbol
de clasificacin tan solo se van a considerar Dirigiendo las cualidades continas y dis-
aquellas variables predictoras para las que se cretas para manejar las cualidades conti-
rechaza el test de hiptesis de independencia nuas, C4.5 crea un umbral y despus parte
[10]. la lista en las que valor de la cualidad est
sobre el umbral y las que sean inferior o
igual a l [12].
3.2 Algoritmo J48 (C4.5)
Si se manejan datos de entrenamiento con
El algoritmo J48 de WEKA es una implemen- valores faltantes C4.5 permite que los valo-
tacin del algoritmo C4.5, uno de los algorit- res faltantes sean marcados como ?. Los
mos de minera de datos ms utilizado. Se valores que faltan simplemente no se utili-
trata de un refinamiento del modelo generado zan en clculos del aumento de la entropa.
con OneR [11].
Manipulacin de cualidades con valores
El algoritmo C4.5 construye rboles de la diferentes.
decisin de un sistema de datos del entrena- rboles de poda despus de la creacin.
miento de la misma forma que ID3, que usa C4.5 pasa a travs del rbol una vez que
el concepto de entropa de la informacin. se haya creado y procura quitar las ramas
Los datos del entrenamiento son un sistema que no ayudan substituyndolos por nodos
S = s1,s2,... de muestras ya clasificadas. Cada de la hoja [11].

Universidad Distrital Francisco Jos de Caldas - Facultad Tecnolgica


20
ANLISIS Y EVALUACIN DEL NIVEL DE RIESGO EN EL OTORGAMIENTO
DE CRDITOS FINANCIEROS, UTILIZANDO TCNICAS DE MINERA DE DATOS

4. Interpretacin de los resultados


Tabla 5. Comparativa de algoritmos
Las consideraciones importantes para cons- de clasificacin
truir un buen modelo radican en la calidad
Instancias Error
de los datos escogidos y en la seleccin ade- Algoritmo
Correctas Absoluto
cuada de las variables que influyen en los
modelos. Todo esto depende tambin de las ID3 80 % 0,0837
tcnicas de minera empleadas en el prepro- J48 51,3 % 0,2366
cesamiento de los datos y de cmo afronte el
modelo la informacin disponible. Fuente: elaboracin propia.

Teniendo en cuenta las consideraciones antes presenta el nmero de predicciones de cada


mencionadas, se ha aplicado a un conjunto de clase, mientras que cada fila representa a las
datos que denominaremos de entrenamiento instancias en la clase real. Uno de los benefi-
los algoritmos de rboles de decisin ID3 y cios de las matrices de confusin es que faci-
J48; de los resultados obtenidos, se ha deci- litan ver si el sistema est confundiendo dos
dido mostrar un comparativo entre los ele- clases [12].
mentos ms relevantes de dichos algoritmos
para evidenciar la precisin con que analiza- A continuacin se muestran las matrices
ron la informacin, y para decidir con cul de confusin generadas por cada uno de los
sera ms adecuado trabajar en pro de tener algoritmos, aplicados al mismo conjunto de
un proceso de minera de datos confiable y datos.
con un nivel de precisin alto.
En la figura 5 podemos observar que los
En las subsecciones siguientes agrupamos valores de la diagonal son los aciertos y el
los resultados de los dos algoritmos para ha- resto los errores. Para el Algoritmo ID3 se
cer las comparaciones pertinentes. observa que de los 214 usuarios con perfil A,
208 fueron bien clasificados y 6 presentaron
errores.
4.1 Comparacin entre los resultados de
los mtodos ID3 y J48
Luego de aplicar los algoritmos ID3 y J48 al Figura 5. Matriz de confusin
conjunto de datos de entrenamiento, se obtu- weka.classifiers.trees.Id3
vieron los resultados que se muestran en la
tabla 5, la cual presenta de manera comparati-
va las instancias correctas y el valor del error
absoluto, generadas por cada algoritmo.

4.2 Comparacin de matrices


de confusin
La matriz de confusin es una herramienta de
visualizacin que se emplea en el aprendizaje
supervisado. Cada columna de la matriz re- Fuente: elaboracin propia.

Revista Visin Electrnica ao 7 nmero 1 pp. 13 - 26 enero - junio de 2013


21
MARTHA L. TELLO HERMES J. ESLAVA LUCY B. TOBAS

4.3 Comparacin entre rboles


Figura 6. Matriz de confusin weka.classifiers. de decisin generados
trees.J48
Para ilustrar cmo funcionan las reglas que se
generan luego de ejecutar los algoritmos ID3
y J48 en WEKA, a continuacin se muestra
la ejemplificacin de una regla generada por
cada uno de los algoritmos antes menciona-
dos. En la figura 7 se expone una regla ge-
nerada con el algoritmo J48, y en la figura 8
se presenta la ejemplificacin de una regla
Fuente: elaboracin propia.
generada con el algoritmo ID3; como puede
Para el Algoritmo J48 en la figura 6 se ob- observarse, en la comparacin entre estas dos
serva que de los 214 usuarios con perfil A, imgenes el rbol generado para las reglas del
130 fueron bien clasificados y 84 presentaron algoritmo ID3 cuenta con mayor profundidad,
errores. teniendo en cuenta el porcentaje de instancias

Figura 7. Ejemplificacin de una regla generada con el algoritmo J48 (C4.5)

Fuente: elaboracin propia.

Universidad Distrital Francisco Jos de Caldas - Facultad Tecnolgica


22
ANLISIS Y EVALUACIN DEL NIVEL DE RIESGO EN EL OTORGAMIENTO
DE CRDITOS FINANCIEROS, UTILIZANDO TCNICAS DE MINERA DE DATOS

Figura 8. Ejemplificacin de una regla generada con el algoritmo ID3

Fuente: elaboracin propia.

correctas para cada algoritmo puede pensarse se muestran los resultados obtenidos en una
que mientras ms profundidad tenga el rbol, vista comparativa con el resultado de los da-
se va a obtener mayor precisin en el proceso tos de entrenamiento.
de minera de los datos.
Se comienza por establecer una compara-
cin en la precisin de los algoritmos, luego
5. Comparacin de resultados entre datos por efectuar la comparacin de las matrices
de entrenamiento y datos de prueba de confusin y, finalmente, se desarrolla una
breve conclusin acerca de la comparacin de
Anteriormente se han presentado los resul-
estos resultados.
tados que surgen de aplicar a los datos de en-
trenamiento los algoritmos J48 (C4.5) e ID3,
5.1 Comparacin de precisin entre
en la herramienta de minera de datos WEKA.
los algoritmos ID3 y J48
Los datos de entrenamiento constituyen el
70 % del conjunto de datos original, el 30 % En la tabla 6 se puede ver que para el algo-
restante son datos de prueba, a continuacin ritmo ID3 la cantidad de instancias correctas

Revista Visin Electrnica ao 7 nmero 1 pp. 13 - 26 enero - junio de 2013


23
MARTHA L. TELLO HERMES J. ESLAVA LUCY B. TOBAS

Tabla 6. Comparativo de precisin de los algoritmos con los datos de entrenamiento y pruebas

Entrenamiento Pruebas
alg
Instancias Correctas Error Absoluto Instancias Correctas Error Absoluto

ID3 80% 0.0837 80.40% 0.0829

J48 51.30% 0.2366 46.18% 0.2384

Fuente: elaboracin propia.

y el error absoluto son muy parecidos para algoritmo ID3, la distribucin de la clasifica-
los datos de entrenamiento y de pruebas, y cin dentro de la matriz mantiene las propor-
adems se puede deducir que si el nmero de ciones entre los datos de entrenamiento y de
instancias correctas sube, entonces el error prueba.
absoluto disminuye.
6. Trabajo futuro
Para el algoritmo J48 la cantidad de instancias
correctas disminuye, mientras que el error En un futuro se pueden utilizar las reglas
absoluto aumenta en proporciones similares. obtenidas para implementar un algoritmo
predictivo que, basado en dichas reglas, de-
5.2 Comparacin de matrices de confusin termine si un cliente cumple con las condi-
ciones necesarias para que le sea otorgado un
Como lo muestra la figura 9, se evidencia que
crdito.
ambas matrices tienen una estructura muy
parecida, la clasificacin de los datos mantie-
ne las proporciones de distribucin dentro de 7. Conclusiones
la matriz.
Al realizar la comparacin de los resultados
La figura 10 muestra las matrices de confu- obtenidos, proporcionando a los algoritmos
sin para el algoritmo J48, al igual que con el seleccionados los datos de entrenamiento y

Figura 9. Matrices de confusin para datos de entrenamiento y de prueba algoritmo ID3

Fuente: elaboracin propia.

Universidad Distrital Francisco Jos de Caldas - Facultad Tecnolgica


24
ANLISIS Y EVALUACIN DEL NIVEL DE RIESGO EN EL OTORGAMIENTO
DE CRDITOS FINANCIEROS, UTILIZANDO TCNICAS DE MINERA DE DATOS

Figura 10. Matrices de confusin para datos de entrenamiento y de prueba algoritmo J48

Fuente: elaboracin propia.

prueba, puede concluirse que el algoritmo copicos, tesis para obtener el grado de
ID3, al tener ms profundidad en el rbol de Maestro en Inteligencia Artificial. Uni-
decisin, provee mayor precisin al proce- versidad Veracruzana. Mxico. Sep.,
so de clasificacin de la informacin de los 2007.
clientes.
[3] Compresin de Datos, compresin
Los datos de entrenamiento provedos a los compresores de archivos, ficheros y
algoritmos dan un alto nivel de efectividad al carpetas. Formatos de compresin zip,
proceso de clasificacin, esto se comprueba arj, arc, gz, tar, 7z, sqx, rar [Online].
fcilmente al ejecutar dichos algoritmos con Available http://www.compresion.es/
los datos de prueba y al notar que los resul- compresion-de-datos/. [Accessed: 23-
tados de precisin y matrices de confusin May-2011].
conservan las proporciones con respecto a los
resultados obtenidos con el conjunto de datos [4] M. G. Jimnez y A. lvarez, Anlisis
de entrenamiento. de datos en WEKA pruebas de se-
lectividad. [En lnea] disponible en
http://www.it.uc3m.es/jvillena/irc/prac-
Referencias ticas/06-07/28.pdf

[1] J. C. Mayo y N. O. Fonseca, Funda- [5] A. Y. Ramrez, Tcnicas de minera


mentacin terica sobre el proceso del de datos aplicadas a la construccin de
crdito bancario a usufructuarios de modelos de score crediticio: estado del
tierras en Bandec las tunas, Observa- arte.
torio de la Economa Latinoamericana,
N. 143, 2011.[En lnea] disponible en [6] J. Han y M. Kamber, Data mining: con-
http://www.eumed.net/cursecon/ecolat/ cepts and techniques. Morgan Kaufmann.
cu/2011/ United States of America. 2006.

[2] D. A. Garca, Algoritmo de discretiza- [7] miweb - Concha Bielza. [Online]


cion de series de tiempo basado en en- available http://www.dia.fi.upm.es/~
tropa y su aplicacin en datos colpos- concha/. [Accessed: 30-May-2011].

Revista Visin Electrnica ao 7 nmero 1 pp. 13 - 26 enero - junio de 2013


25
MARTHA L. TELLO HERMES J. ESLAVA LUCY B. TOBAS

[8] E. J. Vzquez y D. G. Bertoli, Siste- [11] M. A. Ayuso y M. . B. Mancha, Mine-


ma de localizacin en redes Wi-Fi con ra de datos: intrusiones de Red. [En
WEKA. [En lnea] disponible en http:// lnea] disponible en
www.utim.edu.mx/~svalero/docs/ http://www.it.uc3m.es/jvillena/irc/prac-
e4.pdf ticas/07-08/Intrusiones De Red.pdf

[9] ISA - Ingeniera de Sistemas y Auto- [12] C. L. Corso y S. L. Alfaro, Alternativa


mtica: [Online] available: http://isa. de herramienta libre para la imple-
umh.es/. [Accessed: 31-May-2011]. mentacin de aprendizaje automtico.
[En lnea] disponible en http://www.
[10] P. Larranaga, I. Inza, y A. Moujahid, investigacion.frc.utn.edu.ar/labsis/Pu-
Tema 10: rboles de clasificacin. [En blicaciones/congresos_labsis/cynthia/
lnea] disponible en Alternativa_de_herramienta_para_Mi-
http://www.sc.ehu.es/ccwbayes/docen- neria_Datos_CNEISI_2009.pdf
cia/mmcc/docs/t10arboles.pdf

Universidad
Revista Visin
Distrital
Electrnica
Francisco
ao 7 Jos
nmero
de 1Caldas
pp. 13 - 26
Facultad
enero - junio
Tecnolgica
de 2013
26