Anda di halaman 1dari 29

Clasificacin de documentos de internet mediante la implementacin de

rboles de decisin ID3 Y J48 en weka

Protocolo de investigacin

Presenta:

Resumen
La web almacena cantidades masivas de informacin no estructurada. Carece de un orden
especfico, por lo tanto, es difcil saber el tipo de documentos que los navegadores presentan
como resultados de una bsqueda de informacin.

La propuesta de este trabajo es la clasificacin de documentos de internet mediante la


aplicacin de rboles de decisin en el software de Weka.

Antecedentes
La World Wide Web (WWW) es un conjunto masivo de informacin accesible a nivel mundial
[Hernndez, 2004]. Podemos encontrar informacin de diversas temticas [Liu, 2007] alojadas
en pginas web, blogs o redes sociales [Jobsen, 2014]. Para poder ingresar a la web es
necesario usar algn navegador web que nos permita visualizar toda la informacin consultando
variedad de sitios web [Meloni, 2010].
Un navegador web es un software que interacta con distintos servidores web mediante el
modelo de cliente-servidor [Liu, 2007] para la obtencin de documentos creados bajo el lenguaje
de marcas de hipertexto (HTML) [Markov, 2007]. Una URL especifica la ubicacin, o direccin,
de cada una de las pginas web (u otro recurso) de Internet. Los URL constan de tres partes:
medio, host y ruta [Honeycutt, 1997] estn constituidos por abreviaturas, puntos y barras (slash).
URL es la direccin exacta de un documento o servidor en Internet [Lackerbauer, 01]. Todo este
proceso requiere el uso del protocolo de transferencia de hipertexto, mejor conocido como HTTP
[Chakrabarti, 2003]. Una sesin web es el almacenamiento de pginas web visitadas de un
mismo servidor por los usuarios para un propsito en general [Markov, 2007]. Cada sesin web
tiene un perodo mximo de tiempo para un mejor control de informacin [Hans, 2006].
Se utilizan para la generacin de bsquedas posteriores por el mismo usuario, o implementar
alguna especie de bsqueda de colaboracin con las herramientas de la minera de uso web
[Chakrabarti, 2003], [Scime, 2004]. La minera de datos es un rea de las ciencias
computacionales que se dedica al tratamiento de la informacin, pretende descubrir patrones,
modelos o formas de comportamiento mediante tcnicas adecuadas [Zaki, 2014], es necesario
poseer una gran cantidad de datos para desarrollar este proceso [Hernndez, 2004]. Es
importante mencionar que, no todos los patrones obtenidos sern tiles.

La minera de datos tiende a la extraccin de informacin con cierto grado de exactitud, por tal
motivo es primordial, saber que algoritmos aplicar a los datos, para obtener los datos que
realmente nos interesan [Witten, 2011]. Las tcnicas de la minera de datos de acuerdo a las
etapas que se planteen en un comienzo, estn principalmente clasificadas en 3 tipos que son
tcnicas predictivas, descriptivas y auxiliares [Prez, 2008], [Prez, 2014].
Las tcnicas predictivas estn basadas en la teora. Adems, se incluyen todos los tipos de
regresin, asociacin, anlisis de la varianza, covarianza, anlisis discriminante, series
temporales y mtodos bayesianos [Fu, 2014], [Hernndez, 2004]. Las tcnicas de modelado
originado por los datos (tcnicas descriptivas) estn basadas solo en patrones. Los mtodos
ms usados son asociaciones, dependencias, clustering y segmentaciones. Por ltimo, estn
las tcnicas auxiliares, su principal propsito es servir de apoyo para verificar resultados por
medio de informes [Prez, 2008].
Existen diversas herramientas de software tiles para la minera de datos, uno de los ms
conocidos es Weka. El cual es un software empleado principalmente en el rea de minera de
datos y el aprendizaje automtico. Contiene una extensa coleccin de algoritmos de Mquinas
de conocimiento, el nombre est basado en una especia endmica de Nueva Zelanda [Garca,
2012]. Weka est logrando cada vez mayor grado de aceptacin en universidades y empresas,
[Hall, 2009]. El programa fue desarrollado en Java en la Universidad de Waikato [Aler, 2009].
La minera web se enfoca a procesar la informacin que se encuentra almacenada en la web,
mediante las tcnicas ya conocidas de la minera de datos [Hernndez, 2004]. Sus principales
objetivos son mejorar la calidad de prestacin de servicios de informacin, optimizar los motores
de bsqueda [Witten, 2011] y descubrir los patrones sobre tendencias de acceso por parte del
comportamiento de los usuarios en la web [Han, 2006]. Emplea otras reas de conocimiento
como el aprendizaje de mquina, tcnicas estadsticas, bases de datos, inteligencia artificial, la
recuperacin de informacin, el uso de ontologas y visualizacin para la generacin de
resultados [Liu, 2007].
La minera de datos se puede aplicar prcticamente en cualquier rea de estudio [Thompson,
2010], por ejemplo: medicina, qumica, economa, deportes, poltica, desarrollo web, entre
muchas otras [Hernndez, 2004], [Fu, 2014], Tiene el objetivo de ayudar a mejorar el entorno,
mejor visualizacin de resultados y facilitar la toma de decisiones para cuestiones financieras,
anlisis de mercados, comercios, salud privada, bioingeniera, telecomunicaciones, bancos, etc.
[Prez, 2008].
La minera web est dividida de acuerdo a diversos autores en 3 reas principales: la estructura
web (orientada a la organizacin y jerarquizacin, para el crecimiento de mejores sitios web), el
contenido de informacin (diseada para mejorar las bsquedas de informacin) y los usuarios
de la web (el comportamiento de los usuarios) [Chakrabarti, 2003], [Liu, 2007], [Fu, 2014],
[Hernndez, 2004].La minera de texto es definida como una sub-rea de la minera contenido
web [Scime, 2004].
Sus principales funciones son el descubrimiento de temas, la extraccin de patrones de
asociacin, agrupacin de documentos web y clasificacin de sitios web. La minera de texto

resuelve problemas mediante el uso del procesamiento de lenguaje natural, que se basa en la
similitud de distribucin [Liu, 2007]. A continuacin, se describen brevemente algunos proyectos
realizados sobre minera web.
Algunos trabajos que han implementado el uso de rboles de decisin como herramienta para
la clasificacin de se describen a continuacin.
En 2005, Baeza desarroll un proyecto aplicando tcnicas de minera de uso y contenido web.
Su principal objetivo es facilitar las consultas para el hallazgo de informacin relevante, sobre
cmo re-organizar la estructura y contenido del sitio web. El modelo ha sido probado en diversos
sitios web que cuentan con diversas caractersticas (temtica, alcance, tamao). En trminos
generales se pretende resolver problemas sobre la presentacin de los sitios web frente a los
usuarios, mejorando hipervnculos y documentos [Baeza, 2005].
El modelo propuesto por Baeza inicia con los archivos logs, los datos de estructura y de
contenido como datos de entrada. La estructura del sitio es generada a partir de los
hipervnculos entre las pginas web y el contenido mixto de informacin corresponde al texto
asociado a cada una de sus pginas. La idea principal es la extraccin de informacin mediante
las consultas internas y externas para iniciar el reconocimiento de patrones sobre navegacin
y contenidos, as se verifica la esencia de la informacin que beneficia la estructura del sitio
web. La minera de datos es aplicada en todos los hipervnculos para el anlisis del contenido
de informacin usando clustering [Baeza, 2005].
En 2009 Barrientos evala el desempeo de tres de los algoritmos ms representativos para la
construccin de rboles de decisin. Para poner a prueba el rendimiento en el proceso de
clasificacin de los rboles de decisin, se utilizarn dos bases de datos que contienen datos
mdicos de pacientes reales. Estos datos corresponden a la sintomatologa que un mdico
especialista considera para el diagnstico de cncer de seno. Una de las bases de datos
contiene 692 casos recopilados de las observaciones de un solo mdico y la otra, contiene 322
casos recopilados de la observacin de 19 especialistas [Barrientos, 2009].
En suma, se busca determinar la pertinencia de los rboles de decisin, es decir, si pueden ser
una herramienta de apoyo para el diagnstico mdico [Barrientos, 2009]. Los algoritmos
utilizados fueron ID3, J48 y Naive Bayes. Los resultados de Barrientos indican que las bases
de datos presentan las caractersticas adecuadas para efectuar la simulacin de un diagnstico
mdico. El margen de error sigue estando presente en baja frecuencia, es necesario realizar
ligeras modificaciones en la base de datos para corregir algunas incongruencias. El algoritmo
con mayor porcentaje de aciertos es Naive Bayes con un 85% de clasificacin correcta
[Barrientos, 2009].
En el ao 2011 se crea el Sistema Recomendador de Oportunidades de Estudio (SROE). Fue
desarrollado bajo 2 mtodos para la fase de anlisis: el primer mtodo emprende un anlisis
para asignar la posibilidad y factibilidad de incorporar a la propuesta inicial de diseo planteada
en la implementacin. La segunda propuesta de anlisis se analizan los enfoques
recomendados para verificar su viabilidad sobre el modelo ID3, [Corniel, 2011]. Fue diseado
para estudiantes que intentan ingresar a universidades, en donde algunas carreras estn en
base con preferencias, competencias y recursos que el alumno aspirante posee. Se originaron

nuevos requerimientos de interfaz y minera de datos mediante los recursos semnticos usados
(ontologas, perfiles y modelos de uso) [Borges, 2009].
Otro factor importante para el desarrollo del SROE es el arduo trabajo que realizan los
aspirantes, su decisin sobre en qu universidad estudiar depende de los resultados de
consultas tradicionales en la web. Los resultados de una consulta tradicional a sistemas de
informacin son poco eficaces, debido a que la informacin acerca de las carreras en diferentes
sitios web, se encuentran desactualizados y disociados, predomina el poco uso del lenguaje
formal [Corniel 2011].

Planteamiento del Problema


En la actualidad, el contenido almacenado en la web es demasiado extenso. A menudo la salida
de resultados presenta una combinacin de mltiples tipos de formato y dificulta al usuario
discernir entre todos ellos, para elegir el tipo de formato solicitado.

Hiptesis
Si se emplean rboles de decisin ID3 y J48 sobre una base de documentos, se espera
obtener una clasificacin de documentos pdf y html.

Objetivo General
Clasificar documentos mediante la implementacin de rboles de decisin en weka sobre una
base de documentos recopilados de internet.

Marco Terico
Introduccin a la computacin. [Gleen, 2012], [Forousan, 2003], [Norton, 2006].
Grafos [Nilsson, 1980] [Ginsberg, 1993] [Luger, 2009]
Grafos y rboles [Zaragoza, 2007] [Espinosa, 2010]
Teora de autmatas y lenguajes formales. [Hopcroft, 1998], [Hopcroft, 2008].
Clasificadores de rbol [Lpez, 2011] [Calot, 2011] [Padilla, 2014]
Scraping web. [Lawson, 2015], [Mitchell, 2013], [Ward, 2013]
Minera de Datos. [Hertzmann, 2012], [Han, 2006].
Minera Web. [Chakrabarti, 2003], [Markov, 2007]
Introduccin a weka [Hall, 2009], [Garca, 2012]
Desarrollo web [Vaswani, 2008], [Lingras, 2006]

Estado del Arte


CSE5230 Tutorial: The ID3 Decision Tree Algorithm [Squire, 2004].
Aplicacin de un algoritmo de extraccin de reglas difusas para minera de uso web.
[Carmona, 2008]
Anlisis de agrupamiento basado en modelos para sesiones de usuario Web. [Pallis, 2005]
A comparative study of three Decision Tree algorithms: ID3, Fuzzy ID3 and Probabilistic Fuzzy
ID3 [Liang, 2005].
rboles de decisin como herramientas de diagnstico mdico [Barrientos, 2009]
Census Data Mining and Data Analysis using WEKA [Jagtap, 2013]
Comparative Study of ID3/C4.5 Decision tree and Multilayer Perceptron Algorithms for the
Prediction of Typhoid Fever [Ogunbiyi, 2015]
Auto-WEKA: Combined Selection and Hyperparameter Optimization of Classification
Algorithms [Hutter, 2013]
Clasificacin Automtica de Textos considerando el Estilo de Redaccin [Coyotl, 2007]

Marco Metodolgico
Metodologa CRISP [IBM, 2012], [Galn, 2015], [Gallardo]
Modelo ID3 [Roche, 2009], [Moreno, 2009], [Buendia, 2014]
Arboles de decisin [Roche, 2009], [Moreno, 2009], [Erandi, 2009]
Weka [Camanes, 2008], [Callejas, 2010]
Aprendizaje automtico [Berzal, 2002]
rboles de clasificacin y regresin [Roche, 2009], [Berzal, 2002]
Tesis
Tcnicas de anlisis de datos aplicaciones prcticas utilizando weka [Molina, 2006].
Optimizacin del clasificador naive bayes usando rbol de decisin c.45 [Alarcn, 2015]

Objetivos Particulares
Clasificador ID3
1.- Entendimiento del negocio.
Continuar con la investigacin y anlisis de la informacin correspondiente para
comprender el motor de bsqueda de Google (anexo 3).
2.- Comprensin de los datos.

Recoleccin de documentos que sern puestos a estudio, para poder verificar sus
propiedades.
Guardar todos los documentos en formato PDF.

3.- Preparacin de los datos.

Establecer atributos especficos de todos los documentos.


Continuar con la aplicacin de las operaciones de textos en los documentos que se han
recolectado.
Conversin de atributos especficos en etiquetas en una tabla de excel.
Eleccin de clase formato
Conversin de la tabla de Excel a formato .arff

4.- Modelamiento

Generar el clasificador ID3.


Ajustar los datos para obtener mejor ramificacin.
Generacin de 5 rboles mejor balanceados posibles.

5.- Evaluacin

Documentar cada prueba realizada a fin de facilitar la recoleccin de informacin.

Clasificador J-48
6.- Entendimiento del negocio.
Continuar con la investigacin y anlisis de la informacin correspondiente para
comprender el motor de bsqueda de Google y los requerimientos de J-48 (anexo 3).
7.- Comprensin de los datos.

Recoleccin de documentos que sern puestos a estudio, para poder verificar sus
propiedades.
Guardar todos los documentos en formato PDF.

8.- Preparacin de los datos.

Establecer atributos especficos de todos los documentos.


Aplicacin del clasificador naive bayes.
Conversin de atributos especficos en etiquetas en una tabla de excel.
Eleccin de clase formato
Conversin de la tabla de Excel a formato .arff

9.- Modelamiento

Generar el clasificador de rbol J-48.


Ajustar los datos para obtener mejor ramificacin.
Generacin de 5 rboles mejor balanceados posibles.

10.- Evaluacin

Documentar cada prueba realizada a fin de facilitar la recoleccin de informacin.


Despliegue de resultados
Anlisis sobre todos los resultados en weka, para determinar las categoras y clases
ms relevantes.

11.- Presentacin de los resultados

Comparacin de los resultados obtenidos de ambos clasificadores ID3 y J-48.

Referencias Bibliogrficas
[Alarcn, 2015]

[Arrondo, 2000]

[Baeza, 2005]

Alarcn Jaimes Carlos. Optimizacin del clasificador naive bayes usando


rbol de decisin c4.5. Facultad de ciencias matemticas. Universidad
Nacional Mayor de San Marcos. 2015
http://cybertesis.unmsm.edu.pe/bitstream/cybertesis/4183
/1/Alarc%C3%B3n_jc.pdf
Vctor Arrondo, ngel Esteban. Desarrollo de Aplicaciones COM para
Internet/Intranet con ASP 3. Grupo EIDOS. 2000.
https://mega.co.nz/#F!tFFF2CJL!W4vpuyhzitLo2Jjd1EdQdw
Baeza Yates Ricardo. Poblete Brbara. Una herramienta de
minera de consultas para el diseo del contenido y
la estructura de un sitio Web. Departamento de
Tecnologa Universitat Pompeu Fabra &
Centro de Investigacin de la Web, DCC, Universidad de Chile. 2005
http://www.lsi.us.es/redmidas/CEDI/papers/187.pdf

[Barrientos, 2009] Barrientos Martnez Roco Erandi. rboles de decisin como herramientas de
diagnstico mdico. 2009
http://www.medigraphic.com/pdfs/veracruzana/muv-2009/muv092c.pdf
[Berendet, 2002] Berendet Bettina. Using site semantics to analyze,
visualize, and support navigation.
Data Mining and Knowledge Discovery, 2002.
http://link.springer.com/article/10.1023%2FA
%3A1013280719795#page-1
[Buendia, 2014]

[Carmona, 2008]

[Chakrabarti,
2003]

Buendia Campos Mara del Socorro. Algoritmos de minera de datos en la


recoleccin de datos de inteligencia. Unidad Profesional Interdisciplinaria de
Ingeniera y Ciencias Sociales y Administrativas Seccin de Estudios de
Posgrado e Investigacin. Mxico D.F. 2014
http://148.204.210.201/tesis/1404316688480TesisMSBC.pdf
Carmona del Jess Cristbal Jos. Riva Santos Vctor Manuel. Aplicacin
de un algoritmo de extraccin de reglas difusas para minera de
uso web. Depto. Informtica. Universidad de Jan. 2008
http://simidat.ujaen.es/sites/default/files/biblio/2008a%20-%20
ESTYLF.pdf
Chakrabarti Soumen. Mining the web discovering
knowledge from Hypertext Data. Ediciones Morgann
Kaufman Indian
Institute of Technology, Bombay, 2003
https://books.google.com.mx/books?id=5Zxw1h6yc_UC&
printsec=frontcover&dq=mining+web&hl=es&sa=
X&redir_esc=y#v=onepage&q&f=false

[Coulouris, 2012]

[Coyotl, 2007]

[Forousan, 2003]

[Fu, 2014]
[Galn, 2015]

[Gauchat, 2012]

Coulouris George. Dollimore Jean. Distributed Systems concepts


and design. Editorial Addison Wesley. 5 edicin, 2012
https://azmuri.files.wordpress.com/2013/09/george-coulouris
distributed-systems-concepts-and-design-5th-edition.pdf
Coyotl Morales Rosa Mara. Clasificacin Automtica de Textos considerando
el Estilo de Redaccin. Instituto Nacional de Astrofsica, ptica y Electrnica.
Tonantzintla, Pue. 2007.
http://ccc.inaoep.mx/~villasen/index_archivos/tesis/TesisMaestriaRosaCoyotl.pdf
Forousan Behrouz A. Introduccin a la ciencia de la computacin de la
manipulacin de datos a la teora de la computacin. Ed. Ciencias
Ingenieras. 1 edicin, 2003,
http://www.cuceinetwork.net/archivos/libros/
Introduccion%20a%20las%20ciencias%20computacionales.pdf
Fu Yongjian, Data mining: task, techniques and applications.
University of Missouri. 2014
Galn Cortina Vctor. Aplicacin de la metodologa crisp-dm a un
proyecto de minera de datos en el entorno universitario. 2015
http://e-archivo.uc3m.es/bitstream/handle/10016/22198/PFC_Victor_
Galan_Cortina.pdf?sequence=1
Gauchat Juan Diego. El gran libro de HTML5, CSS3 y Javascript
. Ediciones tcnicas marcombo. Primera Edicin. 2012

[Glen, 2012]

Glen Brookshear J. Introduccin a la computacin. Editorial


Pearson. 11 edicin, 2012
http://aletinte.com/introduccion-a-la-computacion-11va-edicion-j-glennbrookshear/

[Han, 2011]

Han Jiawei, Kamber Micheline, Pei Jian. Data Mining Concepts and
Techniques. Editorial Morgan Kaufman. 3 edicin. 2011.
Bibiloteca UAP Tianguistenco.

[Hay, 2001]

Hay B. Wets B. Vanhoof K. Clustering navigation patterns on


a website using a sequence alignment method. 2001
http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.
1.20.8354&rep=rep1&type=pdf
Hernndez Orallo Jos. Introduccin a la minera de datos.
Editorial Prentice Hall. 2008.
Biblioteca UAP Tianguistenco.
Hopcroft E. John. Ullman D. Jeffrey. Introduccin a la teora de
autmatas. Editorial cecsa. 1 edicin, 1993
http://www.fiuxy.net/ebooks-gratis/3106007-descargarintroduccion-la-teoria-de-automatas-lenguajes-y- computacin
-hopcroft.html

[Hernndez,
2008]
[Hopcroft,1993]

[Hopcroft, 2008]

Hopcroft E. John. Motwani Rajeev. Teora de autmatas,


lenguajes y computacin. Editorial Pearson. 3 edicin, 2008.
http://www.ciens.ucv.ve/portalasig/matem%C3%A1ticas_
discretas_iii/2-2013/descarga/descargar_archivo/308

[Hutter, 2013]

Hutter Frank. Auto-WEKA: Combined Selection and Hyperparameter


Optimization of Classification Algorithms.Department of Computer Science,
University of British Columbia. 2013
http://www.cs.ubc.ca/labs/beta/Projects/autoweka/papers/autoweka.pdf
Jagtap Sudhir B. Census Data Mining and Data Analysis using WEKA.
International Conference in Emerging Trends in Science, Technology and
Management-2013, Singapore.
https://arxiv.org/ftp/arxiv/papers/1310/1310.4647.pdf
Leskovec Jure. Mining off massive datasets.2014
http://infolab.stanford.edu/~ullman/mmds/book.pdf
Liang Guoxiu. A comparative study of three Decision Tree algorithms: ID3,
Fuzzy ID3 and Probabilistic Fuzzy ID3. 2005
http://www.tbm.tudelft.nl/fileadmin/Faculteit/TBM/Over_de_Faculteit
/Afdelingen/Afdeling_Infrastructure_Systems_and_Services/Sectie_
Informatie_
en_Communicatie_Technologie/medewerkers/jan_van_den_
berg/courses/Bachelor_theses/candy-bachelor.pdf

[Jagtap, 2013]

[Leskovec, 2014]
[Liang, 2005]

[Lingras,2006]

Lingras P. Lingras R. Adaptative hyperlinks using page access


sequences and minimum spanning trees. 2006.
http://ieeexplore.ieee.org/xpl/articleDetails.jsp?tp=&arnumber=
4295422&url=http%3A%2F%2Fieeexplore.ieee.org
%2Fxpls%2Fabs_all.jsp%3Farnumber%3D4295422

[Liu, 2007]

Liu Bing. Web Data Mining. Second edition. Editorial Springer.


https://books.google.com.mx/books?id=jnCi0Cq1YVk
C&printsec=frontcover&dq=
data+mining+web&hl=es&sa=X&redir_esc=
y#v=onepage&q=data%20mining%20web&f=false
Manning Christopher, Raghavan Prabhakar, Schutze Hinrich.
Introduction to Information Retrieval. Editorial Cambridge.
1 edicin.
2008. Biblioteca UAP Tianguistenco.
OBrien James, Marakas George. Sistemas de Informacin
Gerencial. Editorial Mc Graw Hill. 7 edicin. 2006
Bibiloteca UAP Tianguistenco.
Markov Zdravko. Data Mining the web uncovering patterns in web content,
structure and usage. Editorial Wiley. Nueva Inglaterra. 2007
http://dbmanagement.info/Books/MIX/Data_
Mining_the_Web_Uncovering_Patterns_in_
Web_Content_Structure_and_Usage.pdf

[Manning, 2008]

[Marakas, 2006]

[Markov, 2007]

[Norton,2006]
[Moine, 2011]

[Molina, 2006]
[Ogunbiyi, 2015]

[Pallis, 2005]

[Silvioti, 2007]

[Squire, 2004]

[Srikant, 2001]

[Scott, 2009]

[Tan, 2006]

[Tanenbaum,
2008]

Norton Peter. Introduccin a la computacin.


Editorial McGraw Hill. 6 edicin, 2006
https://mega.co.nz/#!wBkFwJCQ
Moine Juan Miguel. Haedo Ana Silvia. Estudio comparativo
para minera de datos. Facultad de Ciencias Exactas,
Universidad Nacional de Buenos Aires, 2011.
http://sedici.unlp.edu.ar/bitstream/handle/10915/20034/Documento_
completo.pdf%3Fsequence%3D1

Ogunbiyi .Comparative Study of ID3/C4.5 Decision tree and Multilayer


Perceptron Algorithms for the Prediction of Typhoid Fever. 2015
http://www.ajocict.net/uploads/V8N1P12-2015_AJOCICT.pdf
Pallis George. Angelis Lefteris. Vakali Athena.
Model-bases cluster analysis for web user sessions. 2005.
http://linc.ucy.ac.cy/publications/pdfs/pallis-model-2005.pdf
Sivilotti Paul. Introduction to Distributed Systems. Dept. of
Computer
Science and Engineering The Ohio State University Columbus. 2007
http://www.cse.buffalo.edu/~demirbas/CSE586/book.pdf
Squire David McG. CSE5230 Tutorial: The ID3 Decision Tree Algorithm
2004.
http://www.csse.monash.edu.au/courseware/cse5230/2004/
assets/decisiontreesTute.pdf
Srikant Ramakrishnan. Yang Yinghui. Mining web logs to
improve website organization. 2001.
https://pdfs.semanticscholar.org/0e8c/469b5b4cdc0785c169
b807b91075c5db9b5c.pdf
Patricia Scott Pea. Desarrollo web con PHP y MySQL. Anaya MultimediaAnaya Interactiva, 2009. http://depositfiles.org/es/files/dkink1aq1
Tan Pang- Ning, Steinbach Michael, Kumar. Introduction to Data Minig.
Editorial Addison Wesley.
Biblioteca UAP Tianguistenco.
Tanenbaum Andrew, Van Steen Maarten. Sistemas distribuidos:
Principios y paradigmas. Editorial Prentice Hall. 2 edicin.
Biblioteca UAP Tianguistenc

[Vaswani, 2008]

[Vieira, 2009]

[Witten, 2011]

[Zaki, 2014]

[Zelle, 2002]

Vaswani Vikram.PHP soluciones de programacin.


Editorial Mc Graw Hill.2008
Biblioteca UAP Tianguistenco.
Luis Paulo Vieira Braga. Introduccin a la minera de datos.
Editorial E-papers. 2009
https://books.google.com.mx/books
?id=jIJEhHyESFsC&printsec=frontcover&dq=mineria+de+
&hl=es&sa=X&redir_esc=y#v=onepage&q=mineria
%20de%20datos&f=false
Witten H. Ian. Data Mining, practical machine learning tolos
techniques. Editorial Morgan Kaufmann. 3 edicin.2011
Biblioteca UAP Tianguistenco.

and

Zaki Mohammed. Data mining analysis. Fundamental


concepts algorithms. Cambridge University Press.
http://www.cs.rpi.edu/~zaki/PaperDir/DMABOOK.pdf
Zelle, Ph.D. John. Python Programming:
An Introduction to Computer Science. Version 1.0rc2. 2002
http://citeseerx.ist.psu.edu/viewdoc/download?doi=
10.1.1.111.6062&rep=rep1&type=pdf

Anexo 1: Marco Terico.


La World Wide Web (WWW) mejor conocida como la web, es un conjunto masivo de informacin
accesible a nivel mundial [Hernndez, 2004]. La informacin almacenada es de diversos tipos
(textual, imgenes, etc.) [Liu, 2007] mediante pginas web, blogs o redes sociales [Jobsen,
2014]. Para poder ingresar a la web es necesario usar algn navegador web que nos permita
visualizar toda la informacin mediante pginas web conectadas entre s [Meloni, 2010].
Las funciones ms utilizadas del internet son el intercambio de informacin y paquetes de datos
que son enviados y recibidos [Gutirrez, 2008]. Existe diversidad de contenido de informacin
publicada [Jobsen, 2014]La comunicacin a distancia, usada en desarrollo web [Allamaraju,
2010] mediante la creacin de foros en lnea y distintos tipos de correo electrnico para asuntos
personales o empresariales.
Actualmente, internet ofrece una libre expresin sobre opiniones en cuestiones sociales,
polticas o religiosas [Liu, 2007]. Una sesin web es el almacenamiento de pginas web

visitadas de un mismo servidor por los usuarios para un propsito en general [Markov, 2007].
Cada sesin web tiene un periodo mximo de tiempo para un mejor control de informacin
[Hans, 2006]. Se utilizan para la generacin de bsquedas posteriores por el mismo usuario, o
implementar alguna especie de bsqueda de colaboracin con las herramientas de la minera
de uso web [Chakrabarti, 2003], [Scime, 2004].
Un navegador web es un software que interacta con distintos servidores web mediante el
modelo de cliente-servidor [Liu, 2007] para la obtencin de documentos HTML (pginas web),
mediante el localizador universal de rescursos que poseen toda la pgina consultada puede
vincular ms pginas [Markov, 2007] para mostrrselas al usuario mediante el uso del protocolo
HTTP [Chakrabarti, 2003]. Los navegadores soportan distintos formatos de contenido
(imgenes, audios) e inclusive se pueden agregar plug-ins para archivos con extensiones
especficas [Gourley, 2002].
Un localizador universal de recursos (URL por sus siglas en ingls) es una direccin de un sitio
web. Es ms fcil identificar el sitio mediante su URL, inclusive ayuda a un mejor
posicionamiento en los principales buscadores [Smith, 2009]. Los navegadores web acceden al
servidor web en busca de lo que el usuario solicita y devuelve resultados en pginas web
[Wagner, 2011]. De acuerdo a Murray y Chakrabarti una URL consta de 3 partes:
1.-Una indicacin del protocolo usado, por ejemplo, como HTTP o HTTPS
2.-El nombre de dominio del sitio web.
3.- Datos opcionales como nmero de puerto de la direccin web acerca del documento
solicitado [Chakrabarti, 2003], [Murray, 2010].
Una pgina web es un escrito en lenguaje HTML [Wagner, 2011] que es difundida en la red
mediante un servidor. Puede tener en su contenido imgenes, texto, videos y muchos
componentes de diversos temas [Grigorik, 2013]. Las pginas web son intuitivas para los
usuarios [Niederst, 2007]. Suelen estar vinculadas entre s usando hipervnculos [Sostre, 2007].
Un rastreador web es un programa implementado por algoritmos de bsqueda de distintos tipos
en profundidad o en anchura [Markov, 2007], que utiliza como datos de entrada las URL de
pginas web.
Su objetivo consiste en extraer la informacin necesaria de las pginas web visitadas,
enseguida usa los vnculos dentro de ellos a buscar a otras pginas y es capaz de asignar un
orden jerrquico para abrirlas, en el menor tiempo posible [Scime, 2004]. Este proceso se repite
hasta alcanzar valores que le son implantados. Es la herramienta principal usada por los
buscadores web [Chakrabarti, 2003]. Los hipervnculos son visitados para obtener
caractersticas especficas. La composicin de un rastreador puede tener diversas reas de
aplicacin [Liu, 2007].
Los rastreadores web mayormente son usados en los motores de bsqueda que recorren miles
de pginas, verifican su contenido y en algunos casos descargan informacin en nuestro equipo
sobre un determinado tema, para despus formar grandes volmenes de informacin que sern
usados para nuevos sistemas o programas de anlisis [Chakrabarti, 2003]. Otra rea de

aplicacin es el anlisis empresarial, donde su objetivo es analizar el contenido web acerca de


competidores en el mercado, productos, ventas, etc. [Liu, 2007].
Markov [Markov, 2007] afirma el uso de rastreadores en reas como el monitoreo y rastreo de
pginas web. En esta zona sus tareas principales son detectar quienes acceden a las paginas
(usuarios o bots) o informar a los usuarios o comunidades informacin relevante. Inclusive son
usados con fines maliciosos para acceder a sitios web de acceso restringido, en donde obtienen
informacin privada de empresas o personas y usar esta informacin para cometer delitos
[Scime, 2014].
La minera de datos es un rea de las ciencias computacionales que se dedica al tratamiento
de la informacin, pretende descubrir patrones, modelos o formas de comportamiento mediante
tcnicas adecuadas [Zaki, 2014], es necesario poseer una gran cantidad de datos para
desarrollar este proceso [Hernndez, 2004]. El autor Han menciona que la minera de datos
abarca el uso de otras reas de conocimiento, algunas de ellas son: las bases de datos, el
aprendizaje automtico, la estadstica, el reconocimiento de patrones, la recuperacin de
informacin, el uso de redes neuronales y la inteligencia artificial.
Para obtener mejores resultados en la presentacin de resultados [Han, 2006]. Es importante
mencionar que, no todos los patrones obtenidos sern tiles. La minera de datos tienda a la
extraccin de informacin con cierto grado de exactitud, por tal motivo es primordial, saber que
algoritmos aplicar a los datos, para obtener los datos que realmente nos interesan [Witten,
2011].
Las tcnicas de la minera de datos de acuerdo a las etapas que se planteen en un comienzo,
estn principalmente clasificadas en 3 tipos que son tcnicas predictivas, descriptivas y
auxiliares [Prez, 2008], [Prez, 2014]. Las tcnicas predictivas estn basadas en la teora.
Adems, se incluyen todos los tipos de regresin, asociacin, anlisis de la varianza,
covarianza, anlisis discriminante, series temporales y mtodos bayesianos [Fu, 2014],
[Hernndez, 2004].
Las tcnicas de modelado originado por los datos (tcnicas descriptivas) estn basadas solo en
patrones. Los mtodos ms usados son asociaciones, dependencias, clustering y
segmentaciones. Por ltimo, estn las tcnicas auxiliares, su principal propsito es servir de
apoyo para verificar resultados por medio de informes [Prez, 2008]. Las tcnicas de la minera
de datos estn principalmente clasificadas en 3 tipos que son tcnicas predictivas, que estn
basadas en la teora.
Adems, se incluyen todos los tipos de regresin, asociacin, anlisis de la varianza,
covarianza, anlisis discriminante, series temporales y mtodos bayesianos. Las tcnicas de
modelado originado por los datos estn basadas solo en patrones. Los mtodos ms usados
son asociaciones, dependencias, clustering y segmentaciones. Por ltimo, estn las tcnicas
auxiliares, su principal propsito es servir de apoyo para verificar resultados por medio de
informes.

El agrupamiento es una tcnica que nos permite juntar ciertos documentos que presentan entre
s, una o varias caractersticas semejantes o con valores aproximados conforme a lo que dicen
Liu, Scieme [Liu, 2007], [Scieme, 2004]. A travs de este proceso, es posible predecir su
comportamiento usuario, patrones comunes, agrupar objetos similares, u organizar en
jerarquas. [Markov, 2007], poder clasificarlos, mediante los grupos que se formen. Esto es un
proceso no supervisado. Las medidas de igualdad son esenciales para muchas formas de
aprendizaje no supervisado. [Chakrabarti, 2003]. Suele ser un proceso recurrente en la minera
de datos.
rboles de clasificacin. Supone un anlisis exhaustivo de las respuestas espectrales de las
clases y del conjunto de datos disponibles, consiste en ir haciendo preguntas a cada pixel cuya
respuesta positiva o negativa conducir a otra pregunta [Chuvieco, 1995]. La minera de datos
se puede aplicar prcticamente en cualquier rea de estudio [Thompson, 2010], por ejemplo:
medicina, qumica, economa, deportes, poltica, desarrollo web, entre muchas otras
[Hernndez, 2004], [Fu, 2014].
Tiene el objetivo de ayudar a mejorar el entorno, mejor visualizacin de resultados y facilitar la
toma de decisiones para cuestiones financieras, anlisis de mercados, comercios, salud
privada, bioingeniera, telecomunicaciones, bancos, etc. [Prez, 2008].La minera web se
enfoca a procesar la informacin que se encuentra almacenada en la World Wide Web,
mediante las tcnicas ya conocidas de la minera de datos [Hernndez, 2004].
Sus principales objetivos son mejorar la calidad de prestacin de servicios de informacin,
optimizar los motores de bsqueda [Witten, 2011] y descubrir los patrones sobre tendencias de
acceso por parte del comportamiento de los usuarios en la web [Han, 2006]. Emplea otras reas
de conocimiento como el aprendizaje de mquina, tcnicas estadsticas, bases de datos,
inteligencia artificial, la recuperacin de informacin, el uso de ontologas y visualizacin para
la generacin de resultados [Liu, 2007].
Las ontologas, comnmente llamadas taxonomas o catlogos pueden ser definidos diagramas
estructurados de rboles. Poseen un alto grado de semejanza a las interfaces de consulta para
la extraccin de las caractersticas de un tema. Son empleadas para la jerarquizacin de
comentarios mltiples para generar resmenes estructurados [Liu, 2007]. Chakrabarti define
una antologa como un glosario, acerca de las entidades descritas por los componentes en el
glosario y se establecen los nexos entre las entidades. Las entidades suelen ser abreviaturas
[Chakrabarti, 2003].
El significado de cada letra puede hacer referencia a trminos conceptos y entidades con sus
respectivos vnculos [Medina, 2007]. Son difciles de utilizar debido a su alto grado para
conformar los conceptos fundamentales y establecer las relaciones [Scime, 2004]. La
recuperacin de la informacin (IR) son un conjunto de procedimientos que analizan la
informacin que se encuentra alojada en la web [Scime, 2004]. Su principal funcin es ayudar
al usuario a encontrar la informacin deseada, mediante la deteccin de palabras clave, en
grandes bancos de informacin [Liu, 2007].

Es eficaz, debido a la reduccin de trminos de gran magnitud. Los motores de bsqueda


emplean distintos mtodos propios de la IR en cada consulta que solicitan los usuarios.
Chakrabarti [Chakrabarti, 2003] menciona que las tcnicas de IR suelen tener uniones y
divisiones de sentencias. Posteriormente despus de las consultas, los resultados son
clasificados mediante jerarquas [Markov, 2007].
La minera de datos web est dividida de acuerdo a diversos autores en 3 reas principales: la
estructura web (orientada a la organizacin y jerarquizacin, para el crecimiento de mejores
sitios web), el contenido de informacin (orientada para mejorar las bsquedas de informacin)
y los usuarios de la web (el comportamiento de los usuarios) [Chakrabarti, 2003], [Liu, 2007],
[Fu, 2014], [Hernndez, 2004].
La minera web de estructura se enfoca de acuerdo a Markov [Markov, 2007] y a Chakrabarti
[Chakrabarti, 2003] a la obtencin de informacin de la web, adems utiliza los hipervnculos de
las pginas web de las pginas para la indexacin, la bsqueda y la clasificacin de
documentos. Los hipervnculos son una parte fundamental, por este motivo tambin se estudia
el modelo y la composicin de estos, tambin pretende obtener mejor posicionamiento para
sitios web [Scime,2004].
De esta manera los motores de bsqueda buscan obtener mejor posicionamiento y mejores
resultados para los usuarios, tomando cada vez mayor importancia [Liu, 2007]. La minera del
contenido de la Web es el proceso de descubrir informacin til dediverso formato en la web. El
contenido del texto es la parte ms investigada,mediante los rastreadores de contenido web
[Scieme, 2004]. De acuerdo con Markov [Markov, 2007], la minera de contenido web utiliza 2
enfoques principales.
El primer enfoque es la clasificacin, en donde, clasifica todas las pginas por contenido similar.
El segundo enfoque es la agrupacin, que consiste en un orden especfico ya sea por tema o
preferencia para posteriormente ser evaluados [Chakrabarti, 2003]. Es posible obtener
informacin til acerca de productos, o en especfico, secuencias de registros, etc. [Liu, 2007].
La minera de texto es definida como una sub-rea de la minera contenido web [Scime, 2004].
Sus principales funciones son el descubrimiento de temas, la extraccin de patrones de
asociacin, agrupacin de documentos web y clasificacin de sitios web. La minera de texto
resuelve problemas mediante el uso del procesamiento de lenguaje natural, que se basa en la
similitud de distribucin [Liu, 2007]. Su principal objetivo es la generacin de bsquedas de
informacin ms eficaces [Kolek, 2006]. Las tareas bsicas de la minera de texto son los
procesos de descubrimiento de patrones interesantes y nuevos conocimientos en colecciones
de textos, para la extraccin de un nuevo conocimiento [Medina, 2007].
La minera del uso de la Web es un proceso de extraccin de informacin eficaz utilizando como
datos de entrada algoritmos de minera de datos y el historial de los usuarios [Liu, 2007], con el
fin de obtener patrones de acceso para la personalizacin en el diseo web [Scime, 2004]. La
minera del uso de la Web es el proceso de descubrir lo que los usuarios buscan en Internet.
Markov [Markov, 2007] menciona que la minera de uso web es muy utilizada por
desarrolladores web, que buscan retroalimentacin acerca del comportamiento de los usuarios

en la navegacin web. Otras reas en donde se utiliza la minera web son el e-marketing y
comercio electrnico profesionales [Chakrabarti, 2003].
Un web log es un archivo generado por los servidores de manera automtica, mediante el
constante uso de navegadores y agentes [Chakrabarti, 2003], son la fuente principal de
extraccin de datos para el proceso de minera web de uso [Han, 2006] en el descubrimiento
de patrones de acceso de los usuarios. Su principal contenido son los sitios web visitados y
almacena todos los clics de los usuarios en el entorno web [Liu, 2007] [Hans, 2006]. Este archivo
de texto puede ser delimitado por comas, delimitado por el espacio, o delimitado por tabuladores
[Markov, 2007].
La web semntica es un trmino que ha surgido recientemente impulsado por el consorcio web
w3c.org. Su principal objetivo es utilizar los mtodos de representacin del conocimiento en la
Web. Hoy en da todos los sitios web estn estructurados para el entendimiento humano
[Markov, 2007]. Se basa en el uso de ontologas para representar la gestin del conocimiento
[Medina, 2007]. Scime expresa que la web semntica modificar en gran medid la
personalizacin de la web y las tareas de la minera web.
La Web Semntica une las dos reas de investigacin en rpido desarrollo de la Web semntica
y la minera Web con el propsito de mejorar la minera Web mediante la explotacin de las
nuevas estructuras semnticas en la Web [Scime, 2004]. Una peculiaridad propia es la
obtencin de palabras clave de los documentos, incluso supera la comprensin de la
informacin datos para culminar en una semntica legible por las computadoras, recordando la
estructura de los sitios en la web (semi o no estructurados) [Hans,2006].

Anexo 2: Estado del Arte


El Sistema Recomendador de Oportunidades de Estudio (SROE) fue desarrollado bajo 2
mtodos para la fase de anlisis: el primer mtodo emprende un anlisis para asignar la
posibilidad y factibilidad de incorporar a la propuesta inicial de diseo planteada en la
implementacin. La segunda propuesta de anlisis se analizan los enfoques recomendados
para verificar su viabilidad sobre el modelo, [Corniel, 2011]. Fue diseado para estudiantes que
intentan ingresar a universidades, en donde algunas carreras estn en base con preferencias,
competencias y recursos que el alumno aspirante posee.
Se originaron nuevos requerimientos de interfaz y minera de datos mediante los recursos
semnticos usados (ontologas, perfiles y modelos de uso) [Borges, 2009]. Otro factor

importante para el desarrollo del SROE es el arduo trabajo que realizan los aspirantes, su
decisin sobre en qu universidad estudiar depende de los resultados de consultas tradicionales
en la web. Los resultados de una consulta tradicional a sistemas de informacin son poco
eficaces, debido a que la informacin acerca de las carreras en diferentes sitios web, se
encuentran desactualizados y disociados, predomina el poco uso del lenguaje formal [Corniel
2011].
Para la creacin del sistema SROEC fue necesario trabajar bajo el paradigma de agentes, la
metodologa GAIA y el lenguaje AUML, para la creacin de un prototipo de sistema usado para
dispersar informacin en la Web. Debido al gran parecido entre los subsistemas y los
componentes principales, se sugiri como referente para la implementacin del prototipo de
sistema recomendador asistido por una entidad multi-agente para la gestin de informacin. En
donde cada agente lleva a cabo la funcin para el cual fue designado mediante un lenguaje de
comunicacin llamado ACL [Singh, 1998].
Se implementaron tcnicas de minera de datos y agentes para llevar a cabo actividades como:
gestin de flujo de datos, direccin de redes, control de trfico areo, reingeniera de procesos,
minera de datos, gestin y recuperacin de informacin, comercio electrnico, educacin,
asistentes personales digitales (conocidas como PDAs por sus siglas en ingls), correo
electrnico, bibliotecas digitales, comando y control. Las tareas realizadas por los agentes en
este desarrollo son: la formulacin de una consulta, recopilacin de informacin para la
generacin del conocimiento, a partir de fuentes diseminadas en la web, y elementos de control
automtico para la gestin de parmetros internos que permiten el correcto funcionamiento del
sistema [Corniel, 2011].
Los datos requeridos son almacenados en 6 estructuras diferentes. La primera de ellas est
conformada por los perfiles del usuario, descrita anteriormente. Otra base de datos es de
recomendaciones (RB): guarda las recomendaciones creadas por el propio sistema luego de
procesar todos los datos ingresados por el usuario aspirante con el SROE. A menudo es usada
para filtrar mejores sugerencias de opciones de estudio. El tercer repositorio guarda slo
referencias. Las referencias son originadas por los aspirantes en relacin con los orientadores,
cuando finaliza la eleccin de carrera deseada. Se utiliza junto con las bases de dominio y de
usuario para configurar las opciones entorno a las caractersticas del aspirante.
La base de dominio guarda las caractersticas del entorno y recursos (carreras, ubicacin,
dependencia, rea de conocimiento). Existe tambin la base de conocimientos, almacena los
metadatos integrados, en formato XML. Por ltimo, se encuentra la base de los usuarios. No
solo contiene preferencias y gustos, como login y password, sino tambin las propiedades del
perfil del usuario (aptitudes, preferencias, caractersticas especficas, etc.) [Corniel, 2011].
Las conclusiones obtenidas por Corniel en este proyecto es que la aplicacin de la minera web
es muy til, debido a que nos permite generar conocimiento de las bases de datos ontolgicas.
Es muy recomendable la aplicacin de agentes inteligentes junto con la minera de datos
tradicional. La aplicacin del nuevo diseo al SROE, plantea la posibilidad de desarrollo usando
minera Web semntica, como alternativa para construir las decisiones de los aspirantes que
desean ingresar al nivel superior en Venezuela, a travs de sugerencias ms acordes a los

usuarios. Los trabajos anteriormente estudiados arrojan que la informacin en conocimiento,


permite al usuario indagar con mayor facilidad y generar decisiones ms confiables [Corniel,
2011].
En 2005, Baeza desarroll un proyecto aplicando tcnicas de minera de uso y contenido web.
Su principal objetivo es facilitar las consultas para el hallazgo de informacin relevante, sobre
cmo re-organizar la estructura y contenido del sitio web. El modelo ha sido probado en diversos
sitios web que cuentan con diversas caractersticas (temtica, alcance, tamao). En trminos
generales se pretende resolver problemas sobre la presentacin de los sitios web frente a los
usuarios, mejorando hipervnculos y documentos [Baeza, 2005]. Los datos utilizados en esta
investigacin pueden ser extrados ya sea del cliente, de los servidores o de las bases de datos
empresariales.
Un punto importante a considerar es el uso la minera web, por tal motivo los datos requeridos
estn clasificados en los 3 tipos de minera web existentes: de contenido, de estructura y de
uso. Los datos de contenido por lo general consisten principalmente en texto, que es el tipo de
dato ms difcil de analizar. Un sitio web tambin puede almacenar imgenes y una gran
variedad de archivos de diversos formatos que son visualizados en las consultas que realizan
los usuarios. Los datos de estructura establecen todas las caractersticas que posee un sitio
web que incluyen todo el contenido, su forma de visualizacin, sus hipervnculos hacia otras
pginas web, etc.
Por ltimo, se encuentran los datos de uso, son aquellos datos que describen el uso de un sitio,
que son los registros de actividad de un sistema almacenados en ficheros de texto, mejor
conocidos como archivos log, de los servidores Web [Baeza, 2005]. Los conceptos clave
definidos por Baeza en el planteamiento del desarrollo de su modelo son sesiones, motores de
bsqueda, consultas y sesiones de la informacin. Una sesin puede ser definida como un
conjunto de archivos logs de un mismo sitio web, que son almacenados en un cierto lapso de
tiempo peridico. El intervalo de tiempo puede tomar cualquier valor que se ajuste a nuestras
necesidades, el valor por defecto es de 30 minutos.
Existen palabras homnimas, que complican la bsqueda de informacin especfica sobre
alguna temtica, debido a su similitud de escritura [Baeza, 2005]. En 2008 Carmona desarrolla
un proyecto enfocado principalmente a la minera web de uso, aplicando algoritmos genticos
y lgica difusa. Los datos a procesar sern obtenidos de una base de datos llamada MSNBC
Anonymous Web Data, que contiene la informacin sobre sitios web abiertos por los usuarios
que accedieron a la web el da 28 de septiembre del 1999. El procedimiento consiste en usar
un mtodo denominado SDIGA para la obtencin de informacin de inters sobre el uso de la
web y poder comunicarlo mediante reglas difusas de subgrupos [Carmona, 2008].
Para la resolucin de problemas se pueden aplicar distintos tipos de tcnicas de minera de
datos. Estas reas y tcnicas son las siguientes: Personalizacin: Esta tcnica consiste en
analizar el orden de sitios web a las que accede un usuario para desarrollar el tipo de perfil.
Existe otra tcnica denominada fuzzy clustering. Consiste en generar perfiles de usuario,
aplicarlos para obtener una web de inters para el usuario de manera instantnea [Kamdar,
2001], una tcnica de reglas de asociacin, donde el soporte su ajusta automticamente [Lin,

2002]. Otra tcnica es la que se encuentra basada en la agregacin de perfiles de usuario, con
clustering y reglas de asociacin [Mobasher, 2002].
El mtodo Caching, estudia los procesos de agrupacin para determinar las posibles pginas
que visitar el usuario y cargarlas previamente. Existe un modelo de esta magnitud ya instalada
en algunos navegadores [Lan, 2000], tambin est la opcin de encontrar el modelo con el
algoritmo de reglas de asociacin basado en la filosofa GSDF [Yang, 2003], entre otras. En el
proceso de diseo de minera web de uso, se analiza la calidad y eficacia de las pginas del
sitio. Existen diversas tcnicas para encontrar los patrones de secuencias y poderlos agrupar
para obtener una mejor estructura de un sitio web [Berendet, 2002].
Algunos procedimientos aplican clasificadores para obtener un sistema web adaptativo para
dar facilidades de navegacin a los usuarios [Fu, 2001], otras tcnicas se encargan de evaluar
la calidad de navegacin, del servicio o de la pgina mediante tcnicas de patrones de
secuencia [Spiliopoulou, 2001], y tcnicas que procesan en el backtracking de los usuarios para
describrir el tipo de comportamiento para el diseo, buscando patrones de secuencia en las
pginas [Srikant, 2001]. Finalmente, se encuentra el e-comercio, donde se aplican diversos
tipos de clustering para analizar todos los vnculos en las pginas web, basndose en lgica
difusa y algoritmos genticos [Hay, 2001].
Las consultas satisfactorias son todas aquellas que nos muestran resultados con esencia de
informacin. El comportamiento de los usuarios influye de manera crucial sobre los resultados
de las consultas que se realicen. Es por ello que las consultas satisfactorias estn clasificadas
en 2 tipos: clase A y clase B. Las consultas no satisfactorias, son todos aquellos resultados de
las bsquedas de informacin que no poseen ninguna relacin con las palabras clave del
usuario, es decir, resultados errneos. Las consultas insatisfactorias estn divididas en 4 tipos:
C, C, D Y E.
Las principales conclusiones son que el modelo propuesto por Baeza realmente resuelve el
problema planteado. La categorizacin de los tipos de consultas no satisfactorias clase D otorga
el beneficio de saber el contenido faltante mediante el anlisis de palabras clave. Un problema
detectado en la implementacin del modelo propuesto por Carmona es el enorme tamao de la
base de datos, por este motivo fue necesario reducir el nmero de instancias para ahorrar el
tiempo de procesamiento y almacenamiento. En la actualidad, es muy fcil encontrar se pueden
encontrar diversos mtodos de reduccin de instancias aplicadas a la base de datos MSNBC.
Los datos utilizados fueron elegidos mediante una seleccin de instancias aleatoria del 10%
sobre la base de datos real, obteniendo una nueva base de datos con 98982 usuarios. Las
principales conclusiones del modelo propuesto por Camona, indica un primer acercamiento al
uso de un algoritmo de descubrimiento de subgrupos con gramticas difusas para un problema
de minera de uso web. Es importante destacar que los datos de la base, nunca haban sido
procesados mediante esta tcnica. Se han reducido los datos de la base de datos original en
un 90%. Se recomienda estudiar otros mtodos de seleccin de datos para comparar los
resultados. La integracin de un mtodo de seleccin podra dar buenos resultados
.

Se sugiere aplicar una investigacin sobre mtodos de pre-procesamiento para esta base de
datos en proyectos futuros. Se pretende demostrar que es posible realizar una seleccin de
instancias sobre MSNBC sobre los datos con mayor relevancia posible y usar mtodos de
minera de datos. El descubrimiento de subgrupos y las secuencias que existen en la base de
datos son mtodos que pueden seguir aportando informacin, ms importante que la extraccin
de patrones frecuentes e indicando las secuencias que los usuarios realizan para llegar a una
clasificacin determinada [Carmona, 2008].
En 2009 Barrientos evala el desempeo de tres de los algoritmos ms representativos para la
construccin de rboles de decisin. Para poner a prueba el rendimiento en el proceso de
clasificacin de los rboles de decisin, se utilizarn dos bases de datos que contienen datos
mdicos de pacientes reales. Estos datos corresponden a la sintomatologa que un mdico
especialista considera para el diagnstico de cncer de seno. Una de las bases de datos
contiene 692 casos recopilados de las observaciones de un solo mdico y la otra, contiene 322
casos recopilados de la observacin de 19 especialistas [Barrientos, 2009].
En suma, se busca determinar la pertinencia de los rboles de decisin, es decir, si pueden ser
una herramienta de apoyo para el diagnstico mdico [Barrientos, 2009]. Los algoritmos
utilizados fueron ID3, J48 y Naive Bayes. Los resultados de Barrientos indican que las bases
de datos presentan las caractersticas adecuadas para efectuar la simulacin de un diagnstico
mdico. El margen de error sigue estando presente en baja frecuencia, es necesario realizar
ligeras modificaciones en la base de datos para corregir algunas incongruencias. El algoritmo
con mayor porcentaje de aciertos es Naive Bayes con un 85% de clasificacin correcta
[Barrientos, 2009].

Anexo 3: Marco Metodolgico


CRISP-DM es un mtodo probado para orientar sus trabajos de minera de datos. Como
metodologa, incluye un modelo y una gua, estructurados en seis fases, algunas de las cuales
son bidireccionales, es decir que de una fase en concreto se puede volver a una fase anterior
para poder revisarla, por lo que la sucesin de fases no tiene porqu ser ordenada desde la
primera hasta la ltima [Galn, 2015]. Como modelo de proceso, CRISP-DM ofrece un resumen
del ciclo vital de minera de datos. [Rodriguz, 2005]
El ciclo vital del modelo contiene seis fases con flechas que indican las dependencias ms
importantes y frecuentes entre fases. La secuencia de las fases no es estricta. De hecho, la
mayora de los proyectos avanzan y retroceden entre fases si es necesario [IBM, 2012].

Los pasos de la metodologa CRISP se muestran en la figura 1.1

Figura 1.0.- Pasos de la metodologa [Galn, 2015]

El entendimiento del negocio


Su primera tarea es obtener la mxima informacin posible de los objetivos comerciales de la
minera de datos. [IBM, 2012]. Con los objetivos de negocio en mente, elaboraremos un estudio
de la situacin actual del negocio respecto de los objetivos planteados, en este punto,
trataremos de clarificar recursos, requerimientos y limitaciones, para as poder concretar
objetivos data mining que contribuyan claramente a la consecucin de los objetivos primarios
[Girones, 2010].

Comprensin de los datos.


Comprende la recoleccin inicial de datos, con el objetivo de establecer un primer contacto con
el problema, familiarizndose con ellos, identificar su calidad y establecer las relaciones ms
evidentes que permitan definir las primeras hiptesis [Gallardo, 2009]. Despus de adquiridos
los datos iniciales, estos deben ser descritos [IBM, 2012]. Este proceso implica establecer
volmenes de datos (nmero de registros y campos por registro), su identificacin, el significado
de cada campo y la descripcin del formato inicial [Galn, 2015].
Preparacin de los datos.
El objetivo de esta fase es el de poder disponer del juego de datos final sobre el que se aplicarn
los modelos [IBM, 2012]. Tambin se desarrollar la documentacin descriptiva necesaria sobre
el juego de datos [Girons, 2012]. La preparacin de datos incluye las tareas generales de
seleccin de datos a los que se va a aplicar una determinada tcnica de modelado, limpieza de
datos, generacin de variables adicionales, integracin de diferentes orgenes de datos y
cambios de formato [Gallardo, 2009].

Modelamiento
Es el momento de tomar la decisin de los tipos de modelado que se van a utilizar [Girons,
2012]. La determinacin del modelado ms adecuado se basar en las siguientes
consideraciones: Los tipos de datos disponibles para la minera. Sus objetivos de minera de
datos. Requisitos especficos de modelado [IBM, 2012]. Despus de concluir estas tareas
genricas, se procede a la generacin y evaluacin del modelo. Los parmetros utilizados en la
generacin del modelo, dependen de las caractersticas de los datos y de las caractersticas de
precisin que se quieran lograr con el modelo [Gallardo, 2009].
Evaluacin
Este paso requiere una clara comprensin de los objetivos comerciales, por lo que debe estar
seguro de incluir factores de toma de decisiones en la evaluacin del proyecto [IBM, 2012].
Argumentaremos la decisin de aprobacin o no de los modelos, haciendo referencia a los
resultados y a los criterios de xito establecidos [Girons, 2012]. Una vez realizada esta
evaluacin, se debe decidir si los objetivos han sido cumplidos y de ser as se puede avanzar a
la fase de implantacin, de lo contrario se tendra que identificar cualquier factor que se haya
podido pasar por alto y hacer una revisin del proceso [Galn, 2015].
Implantacin
Para poder implantar este proyecto en el negocio real sera necesario en primer lugar tener
acceso a la base de datos real del negocio. [Girons, 2012]. El volumen de estos datos en
movimiento es grande motivo por el cual la extraccin de las muestras debe ser realizada
cuidadosamente y realizando siempre backups de los datos explotados en cada proceso [Galn,
2015]. Dependiendo del plan de implementacin, este informe puede ser slo un resumen de
los puntos importantes del proyecto y la experiencia lograda o puede ser una presentacin final
que incluya y explique los resultados logrados con el proyecto [Gallardo, 2009].
El aprendizaje automtico consta de un conjunto de tcnicas capaces de ayudar a resolver
problemas de modelizacin en distintas reas como ser, la biologa, economa, informtica,
meteorologa, telecomunicaciones, etc. [Roche, 2009]. Adems de predecir una determinada
variable, nos puede brindar una mejor comprensin del fenmeno de estudio desde el punto de
vista de la causalidad, por ejemplo, estableciendo relaciones y jerarquas entre las variables
involucradas. Otra ventaja es que pueden manejarse grandes bases de datos.
Weka est conformado por conjunto de bibliotecas JAVA para la extraccin de conocimiento
desde Bases de Datos [Camanes, 2008]. Los algoritmos que proporciona la herramienta pueden
ser aplicados directamente a un conjunto de datos o llamados directamente desde cdigo Java.
Contiene instrumentos de pre-procesamiento, clasificacin, regresin, clustering, reglas de
asociacin y visualizacin de datos [Callejas, 2010].
En Weka, deberemos decidir qu datos son relevantes y cules no, que atributos influyen
realmente en el precio final del vehculo y cuales simplemente resulta un estorbo para el clculo
[Camanes, 2008]. Para cumplir con este propsito, despus de haber filtrado bien los datos
fuente, procederemos a aplicar diferentes mtodos y tcnicas que Weka nos proporciona. En
sus libreras, Weka tiene implementados los procesos ms comunes y tiles de minera de

datos. Se encuentran algunas implementaciones de varios clasificadores como: ID3, C4.5, CN2,
ADTree, Decisin Table, Perceptrn Multicapa, Bayes Ingenuo y otros ms [Moreno,
2009].Weka es un programa ideal para llevar a cabo las tareas de Minera de Datos (prediccin,
identificacin, agrupamiento, asociacin y clasificacin). [Callejas, 2010].

rboles de decisin.
Los denominados rboles de decisin, constituyen uno de los mtodos del aprendizaje inductivo
supervisado ms utilizados [Moreno, 2009]. Una de sus principales virtudes, es la sencillez de
los modelos obtenidos. Dado un conjunto de ejemplos de entrenamiento, se construye una
particin del espacio de entrada y se asigna a cada regin un determinado modelo [Roche,
2009]. Para construir el rbol maximal, comenzamos con toda la muestra en el nodo raz y
vamos obteniendo los nodos interiores por particiones sucesivas, mediante una cierta pregunta
o regla que involucra a uno de los p atributos [Berzal, 2002]. Se trata de rboles binarios, por lo
cual, en funcin de la respuesta, cada nodo se parte en dos nodos hijos. Por convencin,
asignamos el nodo izquierdo al caso afirmativo y el derecho, al contrario [Roche, 2002].

Figura 1.1.- Estructura de un rbol de decisin [Berzal, 2002].

ID3 es un algoritmo greedy de Quinlan que prefiere rboles sencillos frente a rboles ms
complejos ya que, en principio, aquellos que tienen sus caminos ms cortos hasta las hojas son
ms tiles a la hora de clasificar. En cada momento se ramifica por el atributo de menor
importancia. Este proceso se repite recursivamente sobre los casos de entrenamiento
correspondientes [Berzal, 2002]. En este algoritmo se parte de un rbol vaci y se va
construyendo de manera recursiva, tomando en cada nodo aquel atributo que tiene el mayor
grado de informacin, haciendo que sea menos la cantidad de informacin que falta por cubrir
[Moreno, 2009].
Una vez generado el rbol, se deben encontrar las reglas de decisin, en el caso del ID3 se
recorre en pre orden y cada vez que llega a una hoja, escribe la regla que tiene como
consecuente el valor de la misma, y como antecedente, la conjuncin de las pruebas de valor,

especficos en todos los nodos recorridos desde la raz hasta la hoja [Roche, 2002].
Bsicamente este es el mtodo que se sigue utilizando el algoritmo ID3 [Berzal, 2002], se
realizaron mejoras a este algoritmo surgiendo el C4.5, quien, se distingue por manejar valores,
tanto discretos como continuos, tambin permite trabajar con valores que se desconocen
[Buendia, 2014].