Heredia 2015

IEEE LATIN AMERICA TRANSACTIONS, VOL. 13, NO.
9, SEPTEMBER 2015 3127
Student Dropout Predictive Model Using Data

Mining Techniques
Y. Amaya, E. Barrientos and D. Heredia
Abstract Data mining allows discover hidden information in grado de precisin obtenido en la prediccin de los modelos
large amounts of data, which is very difficult to visualize with obtenidos por cada una de las tcnicas aplicadas, realizando un
traditional process. This topic of computer science permits anlisis comparativo entre ellos y con la informacin al
manipulation and classification of huge amounts of data. C4.5 and respecto brindada por el sistema SPADIES (Sistema para la
ID3 decision tree, for example, have been proven to be efficient for
specific prediction cases. This article shows the construction of a
Prevencin de la Desercin de la Educacin Superior,
predictive model of student dropout, characterizing students at Colombia), iniciativa del Ministerio de Educacin colombiano.
the University Simn Bolvar in order to predict the probability
that a student drop out his/her an academic program, by means of II. QU ES LA MINERA DE DATOS?
two data mining techniques and comparison of results. To create
the model was used WEKA that allows multiple and efficient tools La minera de datos se refiere a la extraccin "o la minera" del
for data processing. conocimiento de los grandes volmenes de datos. Muchas
personas tratan la minera de datos como un sinnimo de otro
Keywords Data Mining, predictive model, Students, Student trmino utilizado popularmente, el Descubrimiento de
drop out.
Conocimiento de Datos, o KDD, consistente en una secuencia
iterativa de los siguientes pasos sobre los datos:
I. INTRODUCCIN
Limpieza, Integracin, Seleccin, Transformacin, Minera de
datos, Evaluacin del Modelo, Representacin del
L AS INSTITUCIONES de educacin superior cuentan con
sistemas de informacin acadmicos los cuales registran,
entre otras cosas, los datos personales, socio-econmicos y los
conocimiento [2].
Las tcnicas que conforman el campo de la Minera de Datos

derivados del desempeo acadmico de los estudiantes, antes y
buscan descubrir, en forma automtica, el conocimiento
durante su permanencia en la institucin. Este tipo de sistemas
contenido en la informacin almacenada en las bases de datos
brinda una serie de reportes o informes para sus usuarios, pero
de las organizaciones. Por medio del anlisis de datos, se
son acadmicos y con informacin general. El alto nivel de
pretende descubrir patrones, perfiles y tendencias. Es
desercin estudiantil es uno de los problemas principales que
importante que estas tcnicas sean las adecuadas al problema
enfrentan las instituciones de educacin superior; segn
abordado. En este sentido, se pueden establecer dos grandes
estadsticas del Ministerio de Educacin Nacional, de cada cien
grupos de tcnicas o mtodos analticos: los mtodos
estudiantes que ingresan, cerca de la mitad no logra culminar su
simblicos y los mtodos estadsticos [3].
ciclo acadmico y obtener la graduacin[1].
1
En este trabajo se aplican diferentes tcnicas de Data Mining

III. ANLISIS DE TCNICAS DE MINERA DE
sobre datos provenientes de un sistema de informacin
DATOS UTILIZADAS EN ESTUDIOS SOBRE
acadmico universitario, para obtener un modelo predictivo que
DESERCIN ESTUDIANTIL
permita conocer de antemano qu estudiantes estn en riesgo de
abandonar sus estudios. Con la creacin del modelo predictivo
de desercin estudiantil se busca determinar la probabilidad de En el siguiente cuadro se muestran varios estudios realizados
que un estudiante abandone la universidad, teniendo en cuenta sobre desercin y desempeo acadmico en instituciones de
las reglas de conducta y el entorno del estudiante, las cuales educacin superior y las tcnicas utilizadas en cada uno de
pueden afectar las variables primarias que inciden directamente ellos.
en la desercin. El objetivo de este estudio es determinar el
CUADRO COMPARATIVO DE LAS TCNICAS DE MINERA DE DATOS Y MODELOS PREDICTIVOS

TABLA 1. TCNICAS DE MINERA DE DATOS UTILIZADAS EN ESTUDIOS SIMILARES.
N- PAIS ESTUDIO TECNICAS UTILIZADAS

1. Colombia rboles de decisin C4.5
Y. Amaya Torrado, Universidad Francisco de Paula Santander, Ocaa, D. Heredia Vizcano, Universidad Simn Bolvar, Barranquilla, Colombia,
Colombia, ykamayat@ufpso.edu.co dianahv@unisimonbolivar.edu.co
E. Barrientos Avendao, Universidad Francisco de Paula Santander, Ocaa,
Colombia, ebarrientos@ufpso.edu.co
3128 IEEE LATIN AMERICA TRANSACTIONS, VOL. 13, NO. 9, SEPTEMBER 2015
Deteccin de Patrones de Bajo Rendimiento Acadmico y Asociacin por medio del algoritmo
Desercin Estudiantil con Tcnicas de Minera de Datos. EquipAsso (Basado en Operadores
(Timarn P., 2009) algebraicos)
2. Colombia Una lectura sobre desercin universitaria en estudiantes de TariyKDD, una herramienta de
pregrado desde la perspectiva de la minera de datos. minera de datos de distribucin libre,
(Timarn P., 2010) desarrollada en los laboratorios KDD
del grupo de investigacin GRIAS de
la Universidad de Nario.
Generacin de un modelo predictivo para determinar el

desempeo acadmico en la asignatura fundamentos de ID3
3. Colombia programacin II del programa de Ingeniera de Sistemas. [4]
NAVE-BAYES
4. A Comparative Analysis of Techniques for Predicting rboles de Decisin (J48)
Tailandia Academic Performance. [5]
Redes Bayesianas
5. Estados A Comparison of Logistic Regression, Neural Networks, Regresin logstica, redes
Unidos and Classification Trees Predicting Success of Actuarial neuronales, rboles de clasificacin
Students Phyllis Schumacher. [7]
6. Prediccin del rendimiento acadmico de alumnos de primer
Tcnica de Regresin Logstica,
Argentina ao de la FACENA (UNNE) en funcin de su
caracterizacin socioeducativa. [8]
7. Mxico Minera de datos: prediccin de la desercin escolar rboles de decisin C4.5
mediante el algoritmo de rboles de decisin y el algoritmo
de los k vecinos ms cercanos. [9] Tcnica de los k vecinos ms
cercanos
8. Mxico Modelo predictivo para la determinacin de causas de rboles de decisin mediante el
reprobacin mediante Minera de Datos. [10] algoritmo C4.5,
9. Estados New Directions in Education Research: Using Data Mining rboles de clasificacin y regresin
Unidos Techniques to Explore Predictors of Grade Retention. [11] logstica
10. Nueva Predicting student success by mining enrolment data. [12] rboles de clasificacin) y regresin
Zelanda logstica
11. Croacia, STUDENT DROPOUT ANALYSIS WITH regresin logstica, rboles de
APPLICATION OF DATA MINING METHODS. [13] decisin y redes neuronales
12. Estados Learning Patterns of University Student Retention. [14] Uno-R, C4.5, ADTrees, Naive Bayes,
Unidos Bayes redes y redes radiales sesgo
13. Estados Modeling Student Retention in Science and Engineering Redes neuronales (red
unidos Disciplines Using Neural Networks. [15] backpropagation feed-forward)
14. India 15. Data Mining: A prediction for performance improvement Algoritmo de clasificacin Bayesiano
using classification. [16] ( Nave Bayes).
15. India Mining Education Data to Predict Students Retention: A rbol de decisin ID3
comparative Study. [17] rbol de decisin C4.5
rbol de decisin ADT
16. Creacin de un modelo de prediccin del desempeo
Mxico acadmico de los alumnos de la Facultad de Ingeniera de la Naive-Bayes
UNAM en el primer semestre. [19]
17. Anlisis del rendimiento acadmico en los estudios de rboles de Decisin CART
Espaa informtica de la Universidad Politcnica de Valencia Regresin multivariante.
aplicando tcnicas de minera de datos. [20]
IV. METODOLOGA Recopilacin de informacin de las tcnicas de minera

de datos, para elegir la adecuada de acuerdo al
Para el desarrollo de este estudio, se llevaron a cabo las problema planteado. Analizar los modelos predictivos
siguientes fases: existentes de desercin estudiantil en educacin
superior.
HEREDIA et al.: STUDENT DROPOUT PREDICTIVE MODEL 3129
Caracterizacin de los datos personales y acadmicos trabaja nicamente con valores discretos en los atributos. En
de los estudiantes de educacin superior. Esta fase cambio, el algoritmo C4.5 permite trabajar con valores
incluye: Preparacin, Preprocesamiento y continuos, separando los posibles resultados en dos ramas: una
Transformacin de datos. para aquellos <= y otra para todos los > . De esta
Construccin y prueba del modelo de desercin en la forma, C4.5 genera un rbol de decisin a partir de datos
educacin superior. mediante particiones realizadas de manera recursiva.
Validacin del modelo de desercin y anlisis de los
resultados arrojados en su despliegue. 2. CARACTERIZACIN DE LOS DATOS
PERSONALES Y ACADMICOS DE LOS
V. DESCRIPCIN DEL TRABAJO ESTUDIANTES DE EDUCACIN SUPERIOR
REALIZADO
2.1 Fuente de datos. Para el desarrollo del estudio del presente
1. SELECCIN DE LAS TCNICAS A UTILIZAR EN EL trabajo, la Universidad Simon Bolivar proporcion datos socio
DESARROLLO DEL TRABAJO econmicos y acadmicos de los estudiantes del programa de
Ingenieria de Sistemas, en los periodos acadmicos
Se ha optado por la induccin de rboles de decisin porque comprendidos entre los aos 2009 y 2013.
adems de ser la tcnica ms comn dentro las tcnicas de
clasificacin de datos, representa una gran ventaja con respecto 2.2 Muestra inicial. Como primer paso, se extrajo una muestra
a las dems tcnicas de clasificacin: poder representar el de los datos de estudiantes. La informacin se gener en un
conocimiento extrado en un conjunto de reglas de decisin de archivo de excel separados por comas (CSV) para tener mayor
fcil entendimiento; adems, como se puede observar en la flexibilidad al momento de exportar los datos. Cabe sealar que
Tabla 1, son los que tienen mayor precisin. esta primera muestra contiene informacin sensible de los
formularios que el estudiante diligencia al momento de
1.1 rboles de decisin inscribirse a la universidad y algunas actualizaciones que
realiza durante su permanencia en la misma, junto con los datos
Un rbol de decisin es un diagrama de flujo, con estructura de que se generan durante el proceso acadmico, por lo que en todo
rbol, en donde los nodos internos representan validaciones momento se respet su confidencialidad identificando a cada
sobre los atributos, las ramas representan las salidas de las estudiante mediante un nmero entero y omitiendo los campos
validaciones, y los nodos hoja representan las clases. El nodo de cdigo, documento de identificacin y nombre. Esta muestra
en la parte superior del rbol se le conoce como nodo raz. Para inicial de datos const de 201 instancias con 40 atributos, los
clasificar una instancia desconocida, se sigue el flujo del cuales corresponden a informacion que registra el estudiantes
rbol desde la raz y hacia abajo, de acuerdo con los valores que al momento de matricularse y alguna que se genera durante su
tengan los atributos para cada nodo, y cuando se llega a un permanencia en la universidad como promedio, asignaturas
nodo hoja, la instancia se clasifica de acuerdo con la clase reprobadas, entre otras.
asignada por dicho nodo [21]. Existen diversos mtodos para la
induccin de rboles de decisin, tales como ID3, C4, C4.5, El atributo Desertado acta como campo clase, nos identifica
Bayesiano, CART; cada uno de ellos ofrece diferentes el estado actual del estudiante en la universidad, teniendo en
capacidades, pero en general, dichos algoritmos son apropiados cuenta que para el Ministerio de Educacin un estudiante se
para solucionar problemas de clasificacin. Para este estudio se considera desertor de un programa, una institucin o del sistema
utilizaron ID3 y C4.5 en particular, cuyas caractersticas se de educacin superior si abandona sus estudios durante dos
muestran a continuacin. perodos consecutivos y no registra matrcula.
1.1.1 El algoritmo ID3 [22]. La idea bsica del algoritmo ID3 Una vez se tienen los datos cargados en WEKA se procedi a
tiene su fundamento en la iteracin. Un subconjunto del estudiar los datos seleccionados para entender el significado de
conjunto total de datos de entrenamiento, al cual se le conoce los atributos, detectar errores de integracin, estandarizar datos,
como window, es elegido de manera aleatoria para formar un hacer agrupaciones. Se aplic el filtro Remove de WEKA, para
rbol de decisin; este rbol clasifica de manera correcta todos los atributos que no se consideran relevantes para el desarrollo
los objetos que pertenecen a window. El resto de los objetos, del modelo; se logr reducir de 40 a 16 atributos considerados
dentro del conjunto de datos de entrenamiento, es clasificado como relevantes para crear el modelo predictivo. Antes de
utilizando dicho rbol. Si el rbol da una respuesta correcta para aplicar las tcnicas de minera se discretizaron los atributos por
todos estos objetos, entonces tambin es correcto para el medio de Discretize con el cual se dividieron en 2 particiones
conjunto total de datos de entrenamiento, terminando as el (bins=2); de esta forma los atributos pasan a tener solo dos
proceso. Si no, una seleccin de objetos clasificados valores posibles.
incorrectamente es adicionada al subconjunto window, y el
proceso contina.
1.1.2 El algoritmo C4.5. El algoritmo forma parte de la familia

de los rboles Inducidos de Arriba hacia Abajo (Top Down
Induction of Decision Trees, TDIDT por sus siglas en ingls).
El algoritmo C4.5 es una extensin del algoritmo ID3, el cual
2.3 Atributos finales. Una vez que la muestra inicial de datos 3. CONSTRUCCIN Y PRUEBAS DEL MODELO DE
fue preprocesada se obtuvieron los atributos finales para la DESERCIN EN LA EDUCACIN SUPERIOR.
construccin del modelo: Semestre en el cual est matriculado
el estudiante, Edad actual, Ciudad de procedencia, Estrato, 3.1 INTERPRETACIN DE RESULTADOS
Jornada, Sexo, Valor de la matrcula, Ocupacin, Materias
cursadas, Materias perdidas, Promedio, Estado Civil, Nivel de rbol de decisin obtenido J4.8. El modelo se construy a partir
estudios del Padre, Nivel de estudios de la Madre, Ingresos y de 201 instancias, las cuales fueron utilizadas como
Desertado (Atributo de clase). conjunto de entrenamiento y para probar el modelo obtenido.
Una vez clasificada la informacion con el algoritmo J4.8 de
Weka, se obtuvo el arbol de decision mostrado en la figura 1,
como salida.
Figura 1. rbol de decisin del modelo obtenido (Fuente: Autores del Proyecto).
4. VALIDACIN DEL MODELO DE DESERCIN

ESTUDIANTIL Primero se debe abrir el archivo ARFF que contiene el
modelo.
Una vez que se tiene el modelo se procede a probarlo con Segundo, se carga el modelo de desercin construido
datos nuevos, con el fin de visualizar qu estudiantes tienen (Figura 2).
posibilidad de desertar de la Universidad.
Figura 2. Archivo ARFF que contiene el modelo y Carga del modelo de desercin.
Tercero se cargan los datos a clasificar, estos datos deben Cuarto, se configura para que los resultados los muestre
estar en un archivo de extensin ARFF y deben estar en texto en pantalla (Figura 3).
discretizados, sin atributo etiqueta (Desertado), pues es el
que el modelo debe determinar.
Figura 3. Carga del archivo a clasificar con el modelo y configuracin de la salida del modelo.
Por ltimo se ejecuta la opcin de reevaluar el modelo.
Luego de realizar varias pruebas se cambi el factor de confianza para analizar los resultados: Colocando el factor en 0.25 se
puede observar que solo muestra una rama y la posibilidad de que los estudiantes deserten es cero. Con el factor de confianza en
0.75 y 1.0 muestra que varios estudiantes tienen posibilidades de desertar. En la reevaluacin de los modelos se comparan los
resultados arrojados utilizando el rbol de decisin J48 y ID3. La tabla 2 muestra los resultados de esta reevaluacin (Se eliminaron
lneas irrelevantes): En la primera columna los estudiantes resaltados con color amarillo son los que desertaron segn la
informacin del segundo semestre del ao 2011 representados en el Spadies en el perodo 2012-I y las dems columnas muestran,
en color rojo, los estudiantes que tienen la posibilidad de desertar, segn el modelo.
TABLA II. REEVALUACIN DE LOS MODELOS.
MODELO GENERADO CON MODELO GENERADO CON MODELO GENERADO CON MODELO GENERADO CON
J48 FACTOR EN: 0.25 J48 FACTOR EN: 0.75 J48 FACTOR EN: 1.0 IDE3
=== Re-evaluation on test set === == Re-evaluation on test set === === Re-evaluation on test set === === Re-evaluation on test set ===
User supplied test set User supplied test set User supplied test set User supplied test set
Relation: DATOS_VALI- Relation: DATOS_VALI- Relation: DATOS_VALI- Relation: DATOS_VALI-
weka.filters.unsupervised.attribute. weka.filters.unsupervised.attribute. weka.filters.unsupervised.attribute. weka.filters.unsupervised.attribute.
MakeIndicator-C3-V1- MakeIndicator-C3-V1- MakeIndicator-C3-V1- MakeIndicator-C3-V1-
weka.filters.unsupervised.attribute. weka.filters.unsupervised.attribute. weka.filters.unsupervised.attribute. weka.filters.unsupervised.attribute.
Discretize-B2-M-1.0-Rfirst-last Discretize-B2-M-1.0-Rfirst-last Discretize-B2-M-1.0-Rfirst-last Discretize-B2-M-1.0-Rfirst-last
Instances: unknown (yet). Instances: unknown (yet). Instances: unknown (yet). Instances: unknown (yet).
Reading incrementally Reading incrementally Reading incrementally Reading incrementally
Attributes: 16 Attributes: 16 Attributes: 16 Attributes: 16
=== Predictions on test set === === Predictions on test set === === Predictions on test set ===
=== Predictions on test set ===
inst#, actual, predicted, error, inst#, actual, predicted, error, inst#, actual, predicted, error,
inst#, actual, predicted, error, probability distribution probability distribution probability distribution
probability distribution 1 ? 1:NO + *1 0 1 ? 1:NO + *1 0 1 ? 1:NO + *1 0
1 ? 1:NO + *0.841 2 ? 1:NO + *1 0 2 ? 1:NO + *1 0 2 ? 1:NO + *1 0
0.159 3 ? 1:NO + *1 0 3 ? 1:NO + *1 0 3 ? 1:NO + *1 0
4 ? 1:NO + *1 0 4 ? 1:NO + *1 0 4 ? 1:NO + *1 0
2 ? 1:NO + *0.841 5 ? 1:NO + *1 0 5 ? 1:NO + *1 0 5 ? 1:NO + *1 0

0.159 6 ? 1:NO + *1 0 6 ? 1:NO + *1 0 6 ? 1:NO + *1 0
3 ? 1:NO + *0.841 7 ? 1:NO + *1 0 7 ? 1:NO + *1 0 7 ? 1:NO + *1 0
0.159 8 ? 1:NO + *1 0 8 ? 1:NO + *1 0 8 ? 1:NO + *1 0
4 ? 1:NO + *0.841 9 ? 1:NO + *1 0 9 ? 1:NO + *1 0 9 ? 1:NO + *1 0
0.159 10 ? 1:NO + *1 0 10 ? 1:NO + *1 0 10 ? 1:NO + *1 0
5 ? 1:NO + *0.841 11 ? 2:SI + 0.25 11 ? 2:SI + 0.25 11 ? 2:SI + 0 *1
0.159 *0.75 *0.75 12 ? 1:NO + *1 0
6 ? 1:NO + *0.841 12 ? 1:NO + *1 0 12 ? 1:NO + *1 0 13 ? 1:NO + *1 0
0.159 13 ? 1:NO + *1 0 13 ? 1:NO + *1 0 14 ? 2:SI + 0 *1
7 ? 1:NO + *0.841 14 ? 2:SI + 0.25 14 ? 2:SI + 0.25 15 ? 1:NO + *1 0
0.159 *0.75 *0.75 16 ? 1:NO + *1 0
8 ? 1:NO + *0.841 15 ? 1:NO + *1 0 15 ? 1:NO + *1 0 17 ? 1:NO + *1 0
0.159 16 ? 2:SI + 0.25 16 ? 2:SI + 0.25 18 ? 1:NO + *1 0
9 ? 1:NO + *0.841 *0.75 *0.75 19 ? 1:NO + *1 0
0.159 17 ? 1:NO + *1 0 17 ? 1:NO + *1 0 36 ? 1:NO + *1 0
10 ? 1:NO + *0.841 18 ? 1:NO + *1 0 18 ? 1:NO + *1 0 37 ? 2:SI + 0 *1
0.159 19 ? 1:NO + *1 0 19 ? 1:NO + *1 0 38 ? 2:SI + 0.333
11 ? 1:NO + *0.841 36 ? 1:NO + *0.95 36 ? 1:NO + *0.95 *0.667
0.159 0.05 0.05 39 ? 1:NO + *1 0
12 ? 1:NO + *0.841 37 ? 1:NO + *0.931 37 ? 1:NO + *0.931 40 ? 1:NO + *1 0
0.159 0.069 0.069 41 ? 1:NO + *1 0
13 ? 1:NO + *0.841 38 ? 2:SI + 0.25 38 ? 2:SI + 0.25 42 ? 1:NO + *1 0
0.159 *0.75 *0.75 43 ? 2:SI + 0 *1
14 ? 1:NO + *0.841 39 ? 1:NO + *0.931 39 ? 1:NO + *0.931 44 ? 2:SI + 0 *1
0.159 0.069 0.069 45 ? 2:SI + 0 *1
15 ? 1:NO + *0.841 40 ? 1:NO + *0.931 40 ? 1:NO + *0.931 46 ? 2:SI + 0 *1
0.159 0.069 0.069 47 ? 2:SI + 0 *1
16 ? 1:NO + *0.841 41 ? 1:NO + *1 0 41 ? 1:NO + *1 0 48 ? 1:NO + *1 0
0.159 42 ? 1:NO + *0.931 42 ? 1:NO + *0.931 49 ? 1:NO + *1 0
17 ? 1:NO + *0.841 0.069 0.069 50 ? 1:NO + *1 0
0.159 43 ? 1:NO + *0.667 43 ? 1:NO + *0.667
18 ? 1:NO + *0.841 0.333 0.333
0.159 44 ? 1:NO + *0.8 44 ? 1:NO + *0.8
19 ? 1:NO + *0.841 0.2 0.2
0.159 45 ? 1:NO + *0.857 45 ? 1:NO + *0.857
36 ? 1:NO + *0.841 0.143 0.143
0.159 46 ? 2:SI + 0.4 46 ? 2:SI + 0.4
37 ? 1:NO + *0.841 *0.6 *0.6
0.159 47 ? 2:SI + 0.4 47 ? 2:SI + 0.4
38 ? 1:NO + *0.841 *0.6 *0.6
0.159 48 ? 1:NO + *0.8 48 ? 1:NO + *0.8
39 ? 1:NO + *0.841 0.2 0.2
0.159 49 ? 1:NO + *0.931 49 ? 1:NO + *0.931
40 ? 1:NO + *0.841 0.069 0.069
0.159 50 ? 1:NO + *0.95 50 ? 1:NO + *0.95
41 ? 1:NO + *0.841 0.05 0.05
0.159
42 ? 1:NO + *0.841
0.159
43 ? 1:NO + *0.841
0.159
44 ? 1:NO + *0.841
0.159
45 ? 1:NO + *0.841
0.159
46 ? 1:NO + *0.841
0.159
47 ? 1:NO + *0.841
0.159
48 ? 1:NO + *0.841
0.159
49 ? 1:NO + *0.841
0.159
50 ? 1:NO + *0.841
0.159
En la Tabla II se observa que de 5 estudiantes que desertaron

segn Spadies en el perodo acadmico 2012-I, los modelos Al analizar las diferentes tcnicas que se utilizan en la minera
generados coinciden con ms de la mitad de los estudiantes que de datos especficamente para la prediccin, se observa que los
tienen la posibilidad de desertar. arboles de decisin resultan ser buenos clasificadores, segn los
resultados obtenidos.
VI. CONCLUSIONES
Para la creacin del modelo predictivo se tuvieron en cuenta (UNNE) en funcin de su caracterizacin socioeducativa, Revista
variables de tipo personal, como edad actual, ciudad de Electronica de Investigaciones Educativas, 2010.
procedencia, estrato, sexo, ocupacin, estado civil, nivel de [9] S. Valero Oreal, A. Salvador Vargas y M. Garca Alonso, Minera de
datos: prediccin de la desercin escolar mediante el algoritmo de
estudios del padre y de la madre; variables econmicas, como rboles de decisin y el algoritmo de los k vecinos ms cercanos,
valor de la matricula e ingresos y de carcter acadmico como 2010.
semestre, jornada, materias cursadas, materias perdidas y [10] E. Rodallegas R, G. Torres y B. Gaona C, Modelo predictivo para la
promedio. Estas variables se discretizaron en 2 binas para determinacin de causas de reprobacin mediante Minera de Datos,
obtener un mejor anlisis en el momento de clasificar los Mexico, 2010.
estudiantes que pueden desertar. [11] D. Kelley-Winstead, New Directions in Education Research: Using
Data Mining Techniques to Explore Predictors of Grade Retention,
2010.
De las 16 variables que se utilizaron para la construccin del
[12] Z. J. Kovacic, Predicting student success by mining enrolment data,
modelo se observ que 4 fueron descartadas por el algoritmo 2010.
J48 entre los que se encuentran sexo, ocupacin, materias
[13] M. Jadric, Z. Garaca y M. Cukuc, Student dropout analysis with
perdidas y nivel de estudios de la madre, dado que su aporte al application of data mining methods, Croatia, 2010.
modelo no es significativo. [14] A. Nandeshwara, T. Menziesb y C. Nelson, ALearning Patterns of
University Student Retention, Estados Unidos, 2011.
Luego de realizar varias pruebas con los algoritmos IDE3 y J48, [15] R. Alkhasawneh y R. Hobson, Modeling Student Retention in Science
se observa que el modelo vara considerablemente debido a las and Engineering Disciplines Using Neural Networks, Estados unidos,
caractersticas que tiene cada uno de ellos, as como las 2011.
caractersticas de los datos. Por ejemplo, con el algoritmo J48 [16] B. Kumar B y S. Pal, Data Mining: A prediction for performance
improvement using classification, India, 2011.
se produce un rbol de decisin de 6 reglas y con IDE3, uno de
22 reglas; lo que muestra que el rbol con J48 es pequeo, pero [17] S. Kumar Y, B. Bharadwaj y S. Pal, Mining Education Data to Predict
Students Retention: A comparative Study, India, 2012.
al momento de analizar su capacidad de predecir se observa que
[18] M. Guzmn B, Modelos predictivos y explicativos del rendimiento
ID3 es ms sensible. acadmico universitario: caso de una institucin privada en Mxico,
Madrid, 2012.
As mismo se evidencia el trabajo de preprocesamiento o [19] E. P. Ibarra Garca y P. M. Mora E., Creacin de un Modelo de
preparacin que requieren los datos antes de someterlos al Prediccin del desempeo acadmico de los alumnos de la Facultad de
proceso de minera propiamente dicho: Eliminacin de datos Ingeniera de la UNAM en el primer semestre., Mexico, 2010.
incompletos y/o errados, anlisis de atributos, sumarizacin, [20] R. Alcover, J. Benlloch, P. Blesa, M. A. Calduch, M. Celma, C. Ferri,
discretizacin, entre otras. Esta labor requiere conocimiento de J. Hernndez-Orallo, L. Iniesta, J. Mas, M. J. Ramirez Quintana, A.
Robles, J. M. Valiente, M. J. Vicent y L. R. Znica, Anlisis del
los datos y su fuente, interpretacin y herramientas automticas rendimiento acadmico en los estudios de informtica de la Universidad
de anlisis de datos. Politcnica de Valencia aplicando tcnicas de minera de datos.,
Espaa, 2007.
[21] I. H. Witten y E. Frank, Data Mining: Practical machine learning tools
and techniques with java implementations, San Francisco: Morgan
Kaufmann Publishers, 2000.
[22] J. R. Quinlan, Induction of Decision Trees, 1986.
REFERENCIAS [23] J. Han y M. Kamber, Data Mining: Concepts and Techniques, San
Francisco: Morgan Kaufmann Publishers, 2000.
[24] R. Timarn P., Una lectura sobre desercin universitaria en
[1] C. Guzmn Ruz, D. Durn Muriel, J. Franco Gallego, E. Castao estudiantes de pregrado desde: la perspectiva de la Minera de Datos,
Vlez, S. Galln Gmez, K. Gmez Portilla y J. Vsquez Velsquez, Colombia, 2010.
Desercin estudiantil en la educacin superior colombiana, Bogota. [25] R. Timarn P., Deteccin de Patrones de Bajo Rendimiento
Colombia: Imprenta Nacional de Colombia, 2009. Acadmico y Desercin Estudiantil con Tcnicas de Minera de
[2] H. Jiawei y K. Micheline, Data Mining, Concepts and Techiniques, Datos., de Octava Conferencia Iberoamericana, Colombia, 2009.
Elsevier Inc., 2006. [26] D. Winstead, New Directions in Education Research: Using Data
[3] P. Britos, Minera de Datos, Buenos Aires: Nueva Librera, 2005. Mining Techniques to Explore Predictors of Grade Retention, 2010.
[4] D. Heredia y W. Nieto, Generacin de un modelo predictivo para
Yegny Amaya es graduada como Ingeniera de Sistemas de la
determinar el desempeo acadmico en la asignatura fundamentos de
Universidad Francisco de Paula Santander, Colombia, en 2003
programacin II del programa de Ingeniera de Sistemas, Colombia,
y como Magister en Ingeniera de Sistemas y Computacin de
2011.
la Universidad Simn Bolvar, Colombia, en 2013.
[5] N. T. Nghe, P. Janecek y P. Haddawy, A comparative analysis of Actualmente labora en la Universidad Francisco de Paula
techniques for predicting academic performance. Asian Institute of Santander, sede Ocaa, Colombia.
Technology 37th ASEE/IEEE Frontiers in Education Conference T2G-
7, 2007.
[6] S. Roth y D. Koonce, A Model to Predict Ohio University Student Edwin Barrientos es graduado como Ingeniero de Sistemas de
Retention From Admissions and Involvement Data, USA, 2008. la Universidad Francisco de Paula Santander, Colombia, en
[7] P. Schumacher, A. Olinsky, R. Quinn y R. Bryant, A Comparison of 2003 y como Magister en Ingeniera de Sistemas y
Logistic Regression, Neural Networks, and Classification Trees Computacin de la Universidad Simn Bolvar, Colombia, en
Predicting Success of Actuarial Students, Estados Unidos, 2010. 2013. Actualmente labora en la Universidad Francisco de Paula
Santander, sede Ocaa, Colombia.
[8] E. A. Porcel, G. N. Dapozo y M. V. Lpez, Prediccin del
rendimiento acadmico de alumnos de primer ao de la FACENA
Diana Heredia es graduada como Ingeniera de Sistemas y

Magster en Ingeniera de Sistemas y Computacin de la
Universidad del Norte en Barranquilla, Colombia. Cursa
actualmente estudios de Doctorado en Ingeniera de Sistemas y
Computacin en la misma Universidad y se desempea como
docente e investigadora en la Universidad Simn Bolvar en
Barranquilla, Colombia. Sus intereses en investigacin actualmente se centran
en el rea de Data Science.

Heredia 2015

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Heredia 2015

Diunggah oleh

Hak Cipta:

Format Tersedia

IEEE LATIN AMERICA TRANSACTIONS, VOL. 13, NO.

9, SEPTEMBER 2015 3127

Student Dropout Predictive Model Using Data

Las tcnicas que conforman el campo de la Minera de Datos

En este trabajo se aplican diferentes tcnicas de Data Mining

CUADRO COMPARATIVO DE LAS TCNICAS DE MINERA DE DATOS Y MODELOS PREDICTIVOS

N- PAIS ESTUDIO TECNICAS UTILIZADAS

Generacin de un modelo predictivo para determinar el

IV. METODOLOGA Recopilacin de informacin de las tcnicas de minera

1.1.2 El algoritmo C4.5. El algoritmo forma parte de la familia

4. VALIDACIN DEL MODELO DE DESERCIN

Por ltimo se ejecuta la opcin de reevaluar el modelo.

TABLA II. REEVALUACIN DE LOS MODELOS.

2 ? 1:NO + 0.841 5 ? 1:NO + 1 0 5 ? 1:NO + 1 0 5 ? 1:NO + 1 0

En la Tabla II se observa que de 5 estudiantes que desertaron

Diana Heredia es graduada como Ingeniera de Sistemas y

Anda mungkin juga menyukai