Anda di halaman 1dari 9

Definicin Web Crawlers Es un programa que recorre las pginas del World Wide Web de forma metdica y automatizada,

las descarga y procesa, comienzan visitando una lista de URL, identifican los hiperenlaces en dichas pginas y los aade a la lista a visitar de manera recurrente de acuerdo a determinado conjunto de reglas. Entre ellos estn las araas, bots, buscadores, web Crawlers. Algunas de las tareas ms comunes de las araas web estn las siguientes: Crear el ndice de una mquina de bsqueda. Analizar los enlaces de un sitio para buscar links rotos. Recolectar informacin de un cierto tipo, como precios de productos para recopilar un catlogo. Los tipos de busqueda determinados para trabajar con las araas web son: ndices de Bsqueda Motores de Bsqueda Metabuscadores

Objetivo general del proyecto Analizar, Desarrollar e Implementar el Sistema Automatizado de Bsqueda Web (Web Crawlers) que realice la funcin del motor de bsqueda y envi un mensaje al correo electrnico cuando se actualizan noticias o informacin. Objetivos especficos Analizar los principios en los que se basan los algoritmos de bsqueda de datos a travs de grandes cantidades de informacin y seleccionar el ms ptimo de ellos para este sistema.

Implementar y realizar las pruebas necesarias del sistema para detectar problemas de rendimiento. Secuencia bsica de un buscador

http://www.scielo.org.co/scielo.php?pid=S0123921X2012000300008&script=sci_arttext

Pseudo-Algoritmo 1. Inicializar las URLs 2. Verificar la finalizacin 3. Encontrar los enlaces 4. Procesar las pginas 5. Agregar las URLs a ser procesadas

LA WEB COMO MODELO DE GRAFO DIRIGIDO

http://www.scielo.org.co/scielo.php?pid=S0123921X2012000300008&script=sci_arttext

RECORRIDO DE GRAFO DIRIGIDO

http://www.scielo.org.co/scielo.php?pid=S0123921X2012000300008&script=sci_arttext

Descripcin del anlisis funcional

Acceso web

Este subsistema se encarga acceder a las pginas Web, obtenidas a travs de direcciones Web contenidas en otras pginas Web o bien de una lista de direcciones Web. Por ello, tiene dos Cometidos fundamentales: Gestin de listas de enlaces: realiza el mantenimiento de dos listas que contienen Direcciones Web: una con direcciones pendientes de visitar y otra con las ya visitadas. Acceso a enlaces: se encarga de acceder a todos los enlaces disponibles en la lista de direcciones Web no visitadas

Gestin de pginas El cometido de este segundo subsistema es descargar el contenido de las pginas Web, e irlas clasificando y procesando segn el mismo. Entonces los objetivos del subsistema son: Descarga de contenido: una vez accedida a la pgina, se obtiene el contenido ntegro de la misma para poder proceder a su posterior anlisis. Obtencin de informacin: al estar procesando una pgina que contenga un perfil de usuario, extrae la informacin definida como relevante para el presente proyecto. Obtencin de enlaces: dada una pgina que contiene enlaces a otras pginas Web, extrae todas las direcciones de los enlaces, para que luego puedan ser gestionados por el primer subsistema comentado, el de acceso Web.

Casos de uso del Web Crawlers

PRIMERA FASE PROMETHEUS CRAWLERS

PRESENTADO POR: DANNY ALEXANDER RAMREZ GUTIRREZ SERGIO RODRIGUEZ PRESENTADO A: LUCY MEDINA DOCENTE IA

FUNDACIN UNIVERSITARIA LOS LIBERTADORES BOGOT 02 DE NOVIEMBRE 2013

Anda mungkin juga menyukai