Anda di halaman 1dari 1

INF335 - Tecnologı́as de búsqueda en la Web

Tarea

22 de marzo de 2011

1. En esta tarea debe generar un ı́ndice invertido sobre el cual se puedan procesar consultas bag-of-words
conjuntivas. Para ello dispone de un dataset que puede descargar desde la siguiente dirección:

http://www.inf.utfsm.cl/∼mmendoza/descargas/articles.txt.tar.gz

El dataset contiene un listado de artı́culos cientı́ficos. Los artı́culos contienen los campos title, abstract,
author, entre otros. Observe que no todos los artı́culos tienen todos estos campos. Observe además que
no todos los documentos tiene un ID.
Las consultas que se ejecutarán sobre su colección son de dos tipos: conjuntivas con términos sobre con-
tenido, conjuntivas sobre autores. Su sistema es capaz de procesar la consulta y recuperar los documentos
relevantes. El despliegue de resultados considera el tı́tulo del documento. No considere ranking.
(a) Determine cuáles campos indexará para construir su ı́ndice. Justifique.
(b) Determine cuáles etapas de extracción de información considerará. Justifique.
(c) Procese la colección y construya el ı́ndice invertido.
2. Una vez que tenga su ı́ndice implemente el motor de consulta de su aplicación. Para ello siga los siguientes
pasos:
(a) Construya el procesador de consultas. Considere las mismas operaciones de texto que usó para
procesar la colección.
(b) Construya el módulo de recuperación, esto es, una vez procesada la consulta, recupere el listado de
documentos relevantes. Note que debe ser capaz de procesar la consulta considerando bag-of-words
de términos y bag-of-words de autores.
(c) Despliegue los resultados. La tarea no requiere de una interfaz, puede hacer todo el proceso a nivel
de lı́nea de comando, en terminal.
Importante: Use las herramientas que Ud. desee. Se sugiere el uso de Gate, NLTK, LingPipe o Lucene.
La tarea es en grupos de 2 personas. Fecha de entrega: Lunes 18 de Abril, informe hasta las 24:00 hrs. a
través del sitio moodle de informática, demo de la tarea en clases.

Entregables: Un informe breve (no más de 6 páginas de contenido), indicando sus decisiones de diseño,
y ejemplos de uso. En el bloque 7-8 del lunes 18 de Abril (horario de clases), debe realizar una demo de
su tarea. Considere una breve presentación de 5 minutos (unas 6 slides) y ejemplos de consultas que pueda
mostrar a la audiencia. Todos los grupos deben exponer ese dia. La asistencia es obligatoria y se
evaluará participación.

Dudas: A través del sitio del curso, en moodle, pueden realizar sus consultas. Las revisaré regularmente.

Anda mungkin juga menyukai