Anda di halaman 1dari 3

DocThor Un auto-catalogador de Documentos automtico en funcin d...

1 de 3

Inicio

Inteligencia Competitiva

Interaccin

Minera de Datos

http://rtdibermatica.com/?p=155

S.Expertos

DocThor Un auto-catalogador de Documentos


automtico en funcin del contenido

Jul 5, 2011 // by wpuser // Semntica // 3 Comments

Desde el departamento de IA, hemos creado un pequeo aplicativo, que con tcnicas de Minera de Textos y
Algoritmos de Clasificacin Aplicados, permite catalogar documentos en funcin de su contenido, en tres modos de
trabajo:
Manual
Aprendizaje Supervisado.
Aprendizaje No Supervisado.

Semntica

type your search

Entradas recientes

Anotacin de Objetos y Escenas en


vuelos no tripulados y vehculos
terrestres (Showorld)
Cmo determinar una campaa de
encuestas con Anlisis de Datos?
Los drones aterrizan en Ibermtica
HENUFOOD: Desarrollo de nuevas
metodologas y tecnologas emergentes
para la investigacin bionutricional
i3B en el MEDICON 2013 Un sistema
experto contextual en la
telemonitorizacin de pacientes en casa

Tag Space

CRM

La filosofa del aplicativo es sencilla. Tenemos un conjunto de categoras, y dentro de las mismas, un conjunto de
Tags asignados. Un Tag puede estar ms de una categora. Segn el modo de trabajo, las categoras son
introducidas por los usuarios expertos (modo Manual), o son definidas de forma automtica por el sistema, de dos
maneras:
Aprendizaje Supervisado:
Existen ya documentos catalogados con anterioridad (histrico), y el sistema, en base al contenido de dicha
catalogacin, extrae de los tags ms representativos de cada categora (se realiza la clasificacin a partir de un
rbol de decisin), y crea un modelo de clasificacin que se evalua contra el resto de documentos no
categorizados.

Share

-Aprendizaje No Supervisado.
En este caso, no existe ningn documento categorizado, y el sistema, por similitud de contenido entre los
documentos, los clasifica en clusters de conocimiento (segmentacin de la informacin), en base a redes
neuronales autoasociativas (SOM), que adems, como veremos a continuacin, permiten crear un mapa GIS que
representa dicho conocimiento.
Una vez que los documentos ya estn segmentados, se sigue el mismo proceso que en el Aprendizaje
Supervisado, para la extraccin de los tags representativos asignados a la categoras. En este caso, las
categoras tendrn nombres genricos (CategoriaA, B, ), y tendr que ser el usuario experto, a posteriori, el que
les de nombres en funcin del contenido.

8/11/2016 08:04

DocThor Un auto-catalogador de Documentos automtico en funcin d...

2 de 3

http://rtdibermatica.com/?p=155

your name

your message

your email
Follow Us!

Copyright 2011 | Ibermatica RTD

Drupal Web Hosting

En este caso (ejemplo de las noticias de la intranet de Ibermtica), el rbol de decisin utilizado para categorizar
generado de forma automtica es el siguiente (rbol de decisin generado por el sistema):

Por ltimo, como los documentos estn vectorizados, por comparacin de vectores, y otras tcnicas (SOM), se
puede generar un mapa conceptual en dnde los documentos ms cercanos en un mapa sern los que estn en
los mismo valles, mientras que las montaas indicarn ausencia de documentos, y separacin entre
segmentaciones temticas:

Los documentos pueden ser de cualquier tipo (word, excel, pdf, http, xml, ), y estar ubicados en directorios
concretos, bases de datos, gestor de contenidos o en Web.
Etiquetas: Catalogacin documentos Minera_textos semntica
[+] Share & Bookmark

3 Comments
El futuro del Text Mining se llamaT2k Tucn Un extractor automtico de
informacin relacionada Inteligencia en el Negocio. Descifrando el 3.0

noviembre 16, 2011 a las 9:28 am

[] En Ibermtica estos temas los tenemos resueltos con nuestra aplicacin DocThor Un
auto-catalogador de Documentos automtico en funcin del contenido []

8/11/2016 08:04

DocThor Un auto-catalogador de Documentos automtico en funcin d...

3 de 3

http://rtdibermatica.com/?p=155

Graig Wertenberger diciembre 9, 2011 a las 5:53 am

Sweet internet site, super pattern, real clean and apply genial.

vender Ouro febrero 8, 2012 a las 8:14 am

Theres noticeably a bundle to know about this. I assume you made certain nice points in options also.

8/11/2016 08:04

Anda mungkin juga menyukai