1 de 3
Inicio
Inteligencia Competitiva
Interaccin
Minera de Datos
http://rtdibermatica.com/?p=155
S.Expertos
Desde el departamento de IA, hemos creado un pequeo aplicativo, que con tcnicas de Minera de Textos y
Algoritmos de Clasificacin Aplicados, permite catalogar documentos en funcin de su contenido, en tres modos de
trabajo:
Manual
Aprendizaje Supervisado.
Aprendizaje No Supervisado.
Semntica
Entradas recientes
Tag Space
CRM
La filosofa del aplicativo es sencilla. Tenemos un conjunto de categoras, y dentro de las mismas, un conjunto de
Tags asignados. Un Tag puede estar ms de una categora. Segn el modo de trabajo, las categoras son
introducidas por los usuarios expertos (modo Manual), o son definidas de forma automtica por el sistema, de dos
maneras:
Aprendizaje Supervisado:
Existen ya documentos catalogados con anterioridad (histrico), y el sistema, en base al contenido de dicha
catalogacin, extrae de los tags ms representativos de cada categora (se realiza la clasificacin a partir de un
rbol de decisin), y crea un modelo de clasificacin que se evalua contra el resto de documentos no
categorizados.
Share
-Aprendizaje No Supervisado.
En este caso, no existe ningn documento categorizado, y el sistema, por similitud de contenido entre los
documentos, los clasifica en clusters de conocimiento (segmentacin de la informacin), en base a redes
neuronales autoasociativas (SOM), que adems, como veremos a continuacin, permiten crear un mapa GIS que
representa dicho conocimiento.
Una vez que los documentos ya estn segmentados, se sigue el mismo proceso que en el Aprendizaje
Supervisado, para la extraccin de los tags representativos asignados a la categoras. En este caso, las
categoras tendrn nombres genricos (CategoriaA, B, ), y tendr que ser el usuario experto, a posteriori, el que
les de nombres en funcin del contenido.
8/11/2016 08:04
2 de 3
http://rtdibermatica.com/?p=155
your name
your message
your email
Follow Us!
En este caso (ejemplo de las noticias de la intranet de Ibermtica), el rbol de decisin utilizado para categorizar
generado de forma automtica es el siguiente (rbol de decisin generado por el sistema):
Por ltimo, como los documentos estn vectorizados, por comparacin de vectores, y otras tcnicas (SOM), se
puede generar un mapa conceptual en dnde los documentos ms cercanos en un mapa sern los que estn en
los mismo valles, mientras que las montaas indicarn ausencia de documentos, y separacin entre
segmentaciones temticas:
Los documentos pueden ser de cualquier tipo (word, excel, pdf, http, xml, ), y estar ubicados en directorios
concretos, bases de datos, gestor de contenidos o en Web.
Etiquetas: Catalogacin documentos Minera_textos semntica
[+] Share & Bookmark
3 Comments
El futuro del Text Mining se llamaT2k Tucn Un extractor automtico de
informacin relacionada Inteligencia en el Negocio. Descifrando el 3.0
[] En Ibermtica estos temas los tenemos resueltos con nuestra aplicacin DocThor Un
auto-catalogador de Documentos automtico en funcin del contenido []
8/11/2016 08:04
3 de 3
http://rtdibermatica.com/?p=155
Sweet internet site, super pattern, real clean and apply genial.
Theres noticeably a bundle to know about this. I assume you made certain nice points in options also.
8/11/2016 08:04