INFORME
TUTURIA 3
ANÁLISIS DE UNA COLECCIÓN WEB A PARTIR DE HTTRACK
Y DE OTRAS HERRAMIENTAS DE ÍNDICES Y BÚSQUEDAS
TEMA A TRATAR
“El uso de HTTRACK como herramienta de Spider para analizar el sitio web del
Archivo Virtual de la edad de Plata, comparando resultados con DigidocIndex
Swish-e, Google Custom Search y Windows Search”
SUBTEMAS A TRATAR
RESUMEN
Obtenida la carpeta del sitio se genero los índices de la misma y las búsquedas
con los términos especificados, en las herramientas Windows Desktop Search,
Swish-e, Digidocindex y Google Custom Search, posteriormente se realiza un
análisis y comparación de los resultados entre las 4 herramientas utilizadas ,
para inferir ventajas y desventajas de cada una de ellas.
02/11/09 Pág. 1
Facultad de Sistemas de Información y Documentación
PALABRAS CLAVES
• Indización
• Recuperación de Información
• Relevancia
• Ordenación
02/11/09 Pág. 2
Facultad de Sistemas de Información y Documentación
INDICE GENERAL
INTRODUCCIÓN
02/11/09 Pág. 3
Facultad de Sistemas de Información y Documentación
Un nuevo elemento que se incluyo para la realización del presente trabajo fue
DigiDocIndex, el cual es un indexador y generador de motores de búsqueda
local. Como resultado final una página HTML o un fragmento de código
JavaScript que puede ser descargado e integrado en cualquier sitio Web. Para
este procedimiento no se requieren conocimientos de programación es
necesario para utilizar estos servicios.
INFORME / TUTORÍA 3
1. Instalación de HTTRACK
1
WIKILIBROS. [En línea - html]. [Consultado 2009-10-21]. Disponible en: http://es.wikibooks.org/wiki/HTTrack
02/11/09 Pág. 4
Facultad de Sistemas de Información y Documentación
b. Clic en Run
02/11/09 Pág. 5
Facultad de Sistemas de Información y Documentación
c. Clic en Next
02/11/09 Pág. 6
Facultad de Sistemas de Información y Documentación
02/11/09 Pág. 7
Facultad de Sistemas de Información y Documentación
g. Clic en Next
h. Clic en Install
02/11/09 Pág. 8
Facultad de Sistemas de Información y Documentación
i. Se inicia la instalación
j. Clic en Finish
02/11/09 Pág. 9
Facultad de Sistemas de Información y Documentación
02/11/09 Pág. 10
Facultad de Sistemas de Información y Documentación
02/11/09 Pág. 11
Facultad de Sistemas de Información y Documentación
o. Clic en Finalizar
02/11/09 Pág. 12
Facultad de Sistemas de Información y Documentación
02/11/09 Pág. 13
Facultad de Sistemas de Información y Documentación
02/11/09 Pág. 14
Facultad de Sistemas de Información y Documentación
Una vez obtenido los archivos fue necesario hacer un análisis exhaustivo de los
resultados con el fin de caracterizarlos, separarlos, distinguirlos y comprender
el contenido de cada uno para determinar los criterios de búsqueda
2
ARCHIVO VIRTUAL. El proyecto. [En línea - html]. [Consultado 2009-10-25]. Disponible en:
http://www.archivovirtual.org/proyecto/proyecto.htm
02/11/09 Pág. 15
Facultad de Sistemas de Información y Documentación
02/11/09 Pág. 16
Facultad de Sistemas de Información y Documentación
02/11/09 Pág. 17
Facultad de Sistemas de Información y Documentación
Cada uno de los archivos generados permitió hacer un análisis para poder
determinar los tipos de búsqueda que se tendrían en cuenta para el uso de las
demás herramientas.
Para ello se opto por activar un 85% aproximadamente de los archivos para
observar su contenido, dentro de los resultados se obtuvo páginas web activas
con rutas válidas, al igual que imágenes que comprende archivos de
caracterización e interfaz de algunos enlaces, de igual forma se obtuvo sitios
web que indican URL no válida que por ende no permite descargar algún
contenido.
• Foros de debate
• Project dissemination
02/11/09 Pág. 18
Facultad de Sistemas de Información y Documentación
b. Una vez abierto se establece que parámetros serán necesarios para dicha
colección. Para ello se tendrá en cuenta los parámetros pertinentes
encontrados en : http://swish-e.org/docs/swish-config.html y que aplican a la
colección, a continuación se hará una breve explicación de la configuración
seleccionada.
02/11/09 Pág. 19
Facultad de Sistemas de Información y Documentación
02/11/09 Pág. 20
Facultad de Sistemas de Información y Documentación
02/11/09 Pág. 21
Facultad de Sistemas de Información y Documentación
CRITERIOS RESULTADOS
12485 palabras en orden
Clasificación alfabético
No. Archivos indizados 809
Total de almacenamiento 14.446.595 bytes
Total de palabras 194.197
Tiempo de indización 3 segundos
Tamaño de archivos de generados en C: .index 1.24 MB
Tamaño de archivos de generados en C: .prop 125 KB
archivovirtual.index.prop archivovirtual.index
Se puede observar que Swish-e solo indizó 809 archivos de 1402 que contiene
la carpeta, esto se presenta debido a que en las instrucciones del archivo de
configuración se indicó que excluyera dentro de la indización los .gif .jpg .jpeg y
.css que corresponden a un total de 593
02/11/09 Pág. 22
Facultad de Sistemas de Información y Documentación
CRITERIO SWISH-E
No. De archivos arrojados 8
Tiempo de búsqueda 0 segundos
Tiempo de recorrido 0.016 segundos
02/11/09 Pág. 23
Facultad de Sistemas de Información y Documentación
CRITERIO SWISH-E
No. De archivos arrojados 25
Tiempo de búsqueda 0.015 seg.
0.62 seg.
Tiempo de recorrido
02/11/09 Pág. 24
Facultad de Sistemas de Información y Documentación
Se obtiene:
CRITERIO SWISH-E
No. De archivos arrojados 6
Tiempo de búsqueda 0.109 seg.
0.187 seg.
Tiempo de recorrido
Se obtiene:
CRITERIO SWISH-E
No. De archivos arrojados 2
Tiempo de búsqueda 0.063 seg.
Tiempo de recorrido 0.110 seg.
02/11/09 Pág. 25
Facultad de Sistemas de Información y Documentación
02/11/09 Pág. 26
Facultad de Sistemas de Información y Documentación
Se puede observar que el término está encerrado entre etiquetas html ‹h1› y
‹/h1› que indican un encabezado de máximo tamaño.
02/11/09 Pág. 27
Facultad de Sistemas de Información y Documentación
Cada una de las marcas o etiquetas son lo que conforman la estructura interna
de un sitio web.
Permite incluir uno o más sitios web, o páginas web específicas, búsqueda y
resultados en su propio sitio web y personalizar la apariencia de los resultados
correspondientes a su sitio de búsqueda. Proporciona resultados de búsqueda
rápidos y relevantes y busca automáticamente a través de vínculos,
marcadores o blogroll con Búsqueda personalizada sobre la marcha.”3
3.1 Instalación
3
GOOGLE CUSTOM SEARCH. [En línea - html]. [Consultado 2009-10-21]. Disponible en:
http://translate.google.com.co/translate?
hl=es&sl=en&u=http://www.google.com/cse/&ei=FwDvSrvRDsuztgeg9qgw&sa=X&oi=translate&ct=result&resnum=1&ve
d=0CAgQ7gEwAA&prev=/search%3Fq%3Dgoogle%2Bcustom%2Bsearch%26hl%3Des%26sa%3DG
02/11/09 Pág. 28
Facultad de Sistemas de Información y Documentación
02/11/09 Pág. 29
Facultad de Sistemas de Información y Documentación
02/11/09 Pág. 30
Facultad de Sistemas de Información y Documentación
• Ahora se pueden iniciar las búsquedas dentro del sitio web, clic en
Finalizar
02/11/09 Pág. 31
Facultad de Sistemas de Información y Documentación
02/11/09 Pág. 32
Facultad de Sistemas de Información y Documentación
Se observa que muestra la página web del sitio. Es importante resaltar que se
hizo la prueba de búsqueda suprimiendo las tildes y los resultados fueron los
mismos.
02/11/09 Pág. 33
Facultad de Sistemas de Información y Documentación
02/11/09 Pág. 34
Facultad de Sistemas de Información y Documentación
Debido a esto se optó por desarrollar otros términos de búsqueda para probar
los resultados con GCS para ello se tomó el siguiente criterio de búsqueda
02/11/09 Pág. 35
Facultad de Sistemas de Información y Documentación
02/11/09 Pág. 36
Facultad de Sistemas de Información y Documentación
02/11/09 Pág. 37
Facultad de Sistemas de Información y Documentación
02/11/09 Pág. 38
Facultad de Sistemas de Información y Documentación
02/11/09 Pág. 39
Facultad de Sistemas de Información y Documentación
02/11/09 Pág. 40
Facultad de Sistemas de Información y Documentación
02/11/09 Pág. 41
Facultad de Sistemas de Información y Documentación
Elige p2.html
02/11/09 Pág. 42
Facultad de Sistemas de Información y Documentación
02/11/09 Pág. 43
Facultad de Sistemas de Información y Documentación
02/11/09 Pág. 44
Facultad de Sistemas de Información y Documentación
02/11/09 Pág. 45
Facultad de Sistemas de Información y Documentación
02/11/09 Pág. 46
Facultad de Sistemas de Información y Documentación
02/11/09 Pág. 47
Facultad de Sistemas de Información y Documentación
Resultados obtenidos 6
02/11/09 Pág. 48
Facultad de Sistemas de Información y Documentación
02/11/09 Pág. 49
Facultad de Sistemas de Información y Documentación
Nombre
1 ponentes (
2 programa (
3 ponentes (
4 redes
5 p4 (5)
02/11/09
6 libroelectroPág. 50
Facultad de Sistemas de Información y Documentación
02/11/09 Pág. 51
Facultad de Sistemas de Información y Documentación
5.1 Definición
“El Laboratorio Digital es un apartado del aula digital del Máster Online en
Documentación Digital formado por tres instrumentos. Permitan mejorar el
diseño de navegación y la recuperación de la información de una sede Web.
4
UNIVERSITAT POMPEU FABRA. Laboratorio digital. [En línea - html]. [Consultado 2009-10-21]. Disponible en:
http://www.documentaciondigital.org/laboratorio.htm
02/11/09 Pág. 52
Facultad de Sistemas de Información y Documentación
5.2Instalación
02/11/09 Pág. 53
Facultad de Sistemas de Información y Documentación
02/11/09 Pág. 54
Facultad de Sistemas de Información y Documentación
02/11/09 Pág. 55
Facultad de Sistemas de Información y Documentación
• Clic en Ejecutar
02/11/09 Pág. 56
Facultad de Sistemas de Información y Documentación
• Una vez generado indica todos los archivos descargados que para tal
caso fueron localizados en C:/temp, clic en Aceptar
02/11/09 Pág. 57
Facultad de Sistemas de Información y Documentación
02/11/09 Pág. 58
Facultad de Sistemas de Información y Documentación
02/11/09 Pág. 59
Facultad de Sistemas de Información y Documentación
02/11/09 Pág. 60
Facultad de Sistemas de Información y Documentación
5.3 Búsquedas
02/11/09 Pág. 61
Facultad de Sistemas de Información y Documentación
02/11/09 Pág. 62
Facultad de Sistemas de Información y Documentación
02/11/09 Pág. 63
Facultad de Sistemas de Información y Documentación
02/11/09 Pág. 64
Facultad de Sistemas de Información y Documentación
Además según la ayuda y estructura del Software los booleanos válidos son
&=AND, | = OR
02/11/09 Pág. 65
Facultad de Sistemas de Información y Documentación
02/11/09 Pág. 66
Facultad de Sistemas de Información y Documentación
02/11/09 Pág. 67
Facultad de Sistemas de Información y Documentación
Para ello se generó una serie de tablas en Excel que indican la posición de
cada resultado, distinguido con colores iguales con el fin de evaluar su
posición.
02/11/09 Pág. 68
Facultad de Sistemas de Información y Documentación
TERMIN
O No. SWISH-E GCS WS DigidocIndex
cossio_legado.ht
1 m cossio_legado.htm open_public.html (2) directorio.htm
José María de Cossío
TERMIN DigidocInd
O No. SWISH-E GCS WS ex
readforum9945. open_pub_detallefd0f
1 html foro1.htm (2).htm foro1.htm
Foros de Debate
02/11/09 Pág. 69
Facultad de Sistemas de Información y Documentación
TERMIN
O No. SWISH-E GCS WS DigidocIndex
(libro electrónico AND José Antonio
libroelectronico. libroelectronico.ht
2 htm ponentes (6).html m
AND José Antonio Millán)
8
9
10
02/11/09 Pág. 70
Facultad de Sistemas de Información y Documentación
TERMIN
O No. SWISH-E GCS WS DigidocIndex
(entorno AND creación) OR
1 creacion.htm
2 p3.htm
(entorno AND virtual)
3 p6.htm
2 noticias.htm
5 CAPITULO9.pdf
6 open_public.html
7 No se realizaron CAPITULO7.pdf No se realizaron No se realizaron
búsquedas open_pub_detalle.ht búsquedas búsquedas
8 m
open_pub_detalle
9 (2).htm
10 CAPITULO1.pdf
TERMIN
O No. SWISH-E GCS WS DigidocIndex
1 proyecto.htm proyecto.htm proyecto.htm ponentes.htm
2 ponentes.htm ponentes.htm ponentes.htm proyecto.htm
dissemination
3
2
Project
5
6
7
8
9
10
02/11/09 Pág. 71
Facultad de Sistemas de Información y Documentación
Cada una de las herramientas posee ventajas y desventajas que las hace
características y distintas de otras.
02/11/09 Pág. 72
Facultad de Sistemas de Información y Documentación
Con respecto al tracking que muestra cada una de las interfaces de búsqueda
de los diferentes herramientas muestra que siempre los resultados son
mostrados al lado izquierdo de la interfaz y para poderlos leer de arriba hacia
abajo, esto quiere decir que todo está centralizado en un solo lugar.
TERMIN
O Google Bing Yahoo MX
Archivo Virtual de la
Edad de Plata
02/11/09 Pág. 73
Facultad de Sistemas de Información y Documentación
02/11/09 Pág. 74
Facultad de Sistemas de Información y Documentación
02/11/09 Pág. 75
Facultad de Sistemas de Información y Documentación
Para el análisis del sitio web es necesario inspeccionarlo y recorrerlo por cada
uno de sus enlaces para ofrecer un criterio interno y externo del sitio.
En calidad de criterio interno se puede observar que las palabras claves están
organizadas en un sumario, donde cada una permite desplegar diferentes
contenidos interfaz tras interfaz.
02/11/09 Pág. 76
Facultad de Sistemas de Información y Documentación
La estructura del código fuente del sitio web esta dado por etiquetas o tags html
02/11/09 Pág. 77
Facultad de Sistemas de Información y Documentación
Dentro del código fuente se observa los enlaces que contiene el sitio web
02/11/09 Pág. 78
Facultad de Sistemas de Información y Documentación
CONCLUSIONES
02/11/09 Pág. 79
Facultad de Sistemas de Información y Documentación
REFERENCIAS
02/11/09 Pág. 80
Facultad de Sistemas de Información y Documentación
GLOSARIO
Operadores booleanos7 Son los términos (AND, NOT, OR, XOR) que ayudan
a localizar registros que contienen los términos concurrente en uno de los
campos especificados o en todos los campos especificados. Se utilizan para
conectar palabras o frases entre más de un campo de texto, o para conectar
palabras o frases dentro de un campo de texto.
02/11/09 Pág. 81
Facultad de Sistemas de Información y Documentación
9
WIKIPEDIA. [En línea - html]. Disponible en: http://es.wikipedia.org/wiki/Configuraci%C3%B3n_(inform%C3%A1tica)
10
WIKIPEDIA. [En línea - html]. Disponible en: http://es.wikipedia.org/wiki/Ejecutable
02/11/09 Pág. 82
Facultad de Sistemas de Información y Documentación
APENDICES
02/11/09 Pág. 83
Facultad de Sistemas de Información y Documentación
ASIGNATURA:
EVALUADOR:
FECHA DE EVALUACIÓN: <Fecha normalizada ISO AAAA-MM-DD>
CALIFICACIÓN:
PUBLICAR EN EL REPOSITORIO: <Indique la posibilidad de publicar este
documento para acceso público.>
NOTAS ADICIONALES:
NOTAS DE EVALUACIÓN:
<La evaluación de todo documento académico debe estar sustentada para
llevar un mejor control de los mismos y servir como soporte en el momento de
alguna queja ó reclamo, se sugiere contemplar como mínimo los ítem
expuestos a continuación:>
02/11/09 Pág. 84
Facultad de Sistemas de Información y Documentación
Reconocimiento 2.5
Esto es un resumen fácilmente legible del texto legal (la licencia completa).
02/11/09 Pág. 85