Anda di halaman 1dari 85

Facultad de Sistemas de Información y Documentación

INFORME
TUTURIA 3
ANÁLISIS DE UNA COLECCIÓN WEB A PARTIR DE HTTRACK
Y DE OTRAS HERRAMIENTAS DE ÍNDICES Y BÚSQUEDAS

ASIGNATURA: Recuperación de Información


ALUMNO(S): Nancy González, 33062222, ngonzasa@gmail.com ; Melissa
Rivero, 33062236, melissara92@gmail.com; Angélica Rojas, 33062217,
angie29775@gmail.com
FECHA DE ELABORACIÓN: 2009-11-02

TEMA A TRATAR

“El uso de HTTRACK como herramienta de Spider para analizar el sitio web del
Archivo Virtual de la edad de Plata, comparando resultados con DigidocIndex
Swish-e, Google Custom Search y Windows Search”

SUBTEMAS A TRATAR

1. Instalar y configurar HTTRACK como herramienta Spider para análisis


del sitio web
2. Indizar y realizar búsquedas en otras herramientas como GCS, Swish-e,
Digidocindex y Windows Search
3. Comparar los resultados y hacer análisis exhaustivo del producto
obtenido
4. Observar la colección mixta que comprende un sitio web y la importancia
de recuperar información a partir de su estructura

RESUMEN

Este documento contiene un manual de instalación y configuración de la


herramienta HTTrack, usada para descargar todo el directorio de la Unidad de
información http://www.archivovirtual.org/, adicional se presenta la
configuración de Digidocindex, Google Custom Search y Windows Search.

Obtenida la carpeta del sitio se genero los índices de la misma y las búsquedas
con los términos especificados, en las herramientas Windows Desktop Search,
Swish-e, Digidocindex y Google Custom Search, posteriormente se realiza un
análisis y comparación de los resultados entre las 4 herramientas utilizadas ,
para inferir ventajas y desventajas de cada una de ellas.

02/11/09 Pág. 1
Facultad de Sistemas de Información y Documentación

PALABRAS CLAVES

• Indización
• Recuperación de Información
• Relevancia
• Ordenación

02/11/09 Pág. 2
Facultad de Sistemas de Información y Documentación

INDICE GENERAL

INTRODUCCIÓN

El desarrollo de las tutorías pasadas y la interpretación del concepto de


recuperación de información se logra obtener un desarrollo exhaustivo de los
requerimientos de la presente tutoría.

Con la utilización de diferentes sistemas de recuperación de información, como


Google Custom Search, Windows Search, Swish-e y DigidocIndex se
aprovecha la capacidad para realizar una búsqueda personalizada avanzada,
obteniendo resultados rápidos y relevantes, proporcionando una indexación
rápida, implementando búsquedas personificadas y permitiendo comparar sus
ventajas y desventajas.

Otra herramienta utilizada es HTTrack, un software libre, que permite


descargar todos los sitios y contenido de una página web con dominio propio.
Permite descargar un sitio web a un archivo local construyendo todos los

02/11/09 Pág. 3
Facultad de Sistemas de Información y Documentación

directorios, consiguiendo HTML, imágenes y otros archivos desde el servidor al


computador, arreglando el vínculo relativo al sitio original de la estructura,
actualiza un sitio reflejado existente, y reanudar descargas interrumpidas. Es
totalmente configurable, y su sistema de ayuda es integrado. Es tan sencillo
como si descargara la página web y estuviese trabajando en línea.

Un nuevo elemento que se incluyo para la realización del presente trabajo fue
DigiDocIndex, el cual es un indexador y generador de motores de búsqueda
local. Como resultado final una página HTML o un fragmento de código
JavaScript que puede ser descargado e integrado en cualquier sitio Web. Para
este procedimiento no se requieren conocimientos de programación es
necesario para utilizar estos servicios.

Swish-e “Simple Web Indexing System for Humans Enhanced” manejada a


través de una consola de comandos, comprobamos nuevamente que es una
herramienta que genera los índices y hace las búsquedas rápidamente.

Windows Search sistema de búsqueda instantánea, arroja resultados de


forma rápida y permite visualizarlos. Esta búsqueda también se puede realizar
en la web.

A continuación se presenta el desarrollo del trabajo y la sustentación de las


ventajas, desventajas y diferencias de las herramientas usadas.

INFORME / TUTORÍA 3

1. Instalación de HTTRACK

“HTTrack es una aplicación informática de Software libre con licencia GPL,


multilenguaje y multiplataforma cuyo fin es la captura Web, es decir la descarga
a un PC, de todo, o parte de un Sitio Web, para posteriormente poder navegar
por él Off-line. Su versión para los Sistemas operativos GNU/Linux se llama
WebHTTrack, y su versión para el Sistema operativo Windows se llama
WinHTTrack”1

Para la instalación en Windows es necesario seguir los siguientes pasos:

a. Ingresar a http://sisinfo.lasalle.edu.co/original/sri/Software/, clic en


httrack-3.43-7.exe

1
WIKILIBROS. [En línea - html]. [Consultado 2009-10-21]. Disponible en: http://es.wikibooks.org/wiki/HTTrack

02/11/09 Pág. 4
Facultad de Sistemas de Información y Documentación

b. Clic en Run

02/11/09 Pág. 5
Facultad de Sistemas de Información y Documentación

c. Clic en Next

d. Clic en I Accept the agreement, para aceptar las condiciones de la


licencia, clic en Next

02/11/09 Pág. 6
Facultad de Sistemas de Información y Documentación

e. Seleccionar el destino de descarga y clic en Next

f. Seleccionar el nombre de la carpeta de menú, clic en Next

02/11/09 Pág. 7
Facultad de Sistemas de Información y Documentación

g. Clic en Next

h. Clic en Install

02/11/09 Pág. 8
Facultad de Sistemas de Información y Documentación

i. Se inicia la instalación

j. Clic en Finish

02/11/09 Pág. 9
Facultad de Sistemas de Información y Documentación

k. Se activa automáticamente un cuadro de diálogo que permite escoger el


idioma deseado para trabajar Httrack, para tal caso se escoge
Castellano, clic en OK

l. Clic en Siguiente para iniciar el proceso de descarga de un sitio web

02/11/09 Pág. 10
Facultad de Sistemas de Información y Documentación

m. Escoger nombre del proyecto y la ruta de ubicación donde se realizará


las descargas, clic en Siguiente

n. Se selecciona la acción a realizar para éste caso “Copiar sitios de la


web”, y se agrega la dirección URL que ubica a la página web, clic en
siguiente

02/11/09 Pág. 11
Facultad de Sistemas de Información y Documentación

o. Clic en Finalizar

02/11/09 Pág. 12
Facultad de Sistemas de Información y Documentación

p. Se inicia el volcado de la información

q. Una vez terminado el proceso se genera en la ruta C: Mis Sitios web, la


carpeta con todos los archivos descargados.

02/11/09 Pág. 13
Facultad de Sistemas de Información y Documentación

r. La carpeta que se tendrá en cuenta para el análisis de los resultados con


el fin de obtener términos de búsqueda será www.archivovirtual.org

s. Allí se encontrará una variedad de carpetas descargadas que


comprende cada interfaz que genera el sitio web, es decir el despliegue
del mapa del sitio con su arquitectura web.

02/11/09 Pág. 14
Facultad de Sistemas de Información y Documentación

Es importante resaltar los siguientes datos:

Tiempo de descarga 7 horas

Tamaño de la carpeta generada 15.7 MB 1402 archivos,

El sitio web descargado corresponde a una Unidad de Información llamada


Archivo Virtual de la Edad de Plata 1868-1936 desarrollado el “El 18 de enero
de 1999 con la firma de un convenio de colaboración entre la Fundación
Marcelino Botín y la Fundación Residencia de Estudiantes para desarrollar un
proyecto de Red de Centros y Archivo Virtual de la Edad de Plata (1868- 1936)
cuyo propósito es salvaguardar y difundir los testimonios de la historia
intelectual de esta etapa de la cultura española, en los terrenos literario,
artístico y científico”2

Una vez obtenido los archivos fue necesario hacer un análisis exhaustivo de los
resultados con el fin de caracterizarlos, separarlos, distinguirlos y comprender
el contenido de cada uno para determinar los criterios de búsqueda

Dentro de los archivos obtenidos se puede determinar las siguientes


características:

• Archivos con extensión .html y .htm que corresponden a sitios


web descargados

2
ARCHIVO VIRTUAL. El proyecto. [En línea - html]. [Consultado 2009-10-25]. Disponible en:
http://www.archivovirtual.org/proyecto/proyecto.htm

02/11/09 Pág. 15
Facultad de Sistemas de Información y Documentación

• Archivos .gif que corresponden a las imágenes contenidas dentro


del sitio web

02/11/09 Pág. 16
Facultad de Sistemas de Información y Documentación

• Archivos .jpg que corresponden a imágenes del sitio web

• Archivos .doc que contiene formularios o archivos adjuntos dentro


del sitio web

02/11/09 Pág. 17
Facultad de Sistemas de Información y Documentación

• Archivos .pdf con algunos artículos interesantes que desarrollan


el sitio web en contenido

Cada uno de los archivos generados permitió hacer un análisis para poder
determinar los tipos de búsqueda que se tendrían en cuenta para el uso de las
demás herramientas.

Para ello se opto por activar un 85% aproximadamente de los archivos para
observar su contenido, dentro de los resultados se obtuvo páginas web activas
con rutas válidas, al igual que imágenes que comprende archivos de
caracterización e interfaz de algunos enlaces, de igual forma se obtuvo sitios
web que indican URL no válida que por ende no permite descargar algún
contenido.

Una vez realizado el análisis se determinaron los siguientes criterios de


búsqueda para ser usado en las siguientes herramientas de recuperación de
información Swish-e, DigidocIndex, Google Custom Search y Windows Search.

• José María de Cossío

• Foros de debate

• (libro electrónico AND José Antonio Millán) OR (saberes


compartidos AND José Antonio Millán)

• Project dissemination

02/11/09 Pág. 18
Facultad de Sistemas de Información y Documentación

2. Indización y Búsquedas con Swish-e

Para indizar en Swish-e una colección diferente a .txt es necesario crear un


archivo de configuración que permita establecer los parámetros pertinentes
para que Swish-e indexe la colección y permita hacer búsquedas sobre ella.
Para establecer el archivo de configuración se tiene en cuenta los siguientes
pasos:

a. Abrir Bloc de Notas para escribir los parámetros

b. Una vez abierto se establece que parámetros serán necesarios para dicha
colección. Para ello se tendrá en cuenta los parámetros pertinentes
encontrados en : http://swish-e.org/docs/swish-config.html y que aplican a la
colección, a continuación se hará una breve explicación de la configuración
seleccionada.

• IndexFile: Establece la ruta de la ubicación donde quedará el índice de


la colección.

• IndexDir: Establece la ruta del directorio que se va a indizar

• IndexOnly: Se establece el tipo de extensión que contiene los archivos

• TranslateCharacters: Permite establecer que se tenga o no en cuenta


las tíldes de las vocales

• IgnoreWords: Previamente se crea un archivo que contiene palabras


vacías obtenidas del análisis con AntConc y que no generan ningún
significado dentro de los documentos. El archivo creado se guarda en
C:/SWISH-E/bin/vacias.txt

• File Filter: Parámetros de aplicación de programas que transforman


documentos binarios en documentos de texto.

• WordCharacters: Indica cuales son los caracteres indizables

• IndexContents: Indica los archivos que se deben incluir en el índice

• NoContents: Indica los archivos que no se deben incluir en el índice

• DefaultContents: Indica que los contenidos por defecto

• FollowSymLinks: Indica los enlaces del sitio web

02/11/09 Pág. 19
Facultad de Sistemas de Información y Documentación

• StoreDescription: Indica cuantas letras deseo que almacene en el


índice

• ConvertHTMLEntities: Convierte caracteres como & en indizables

• MetaNames: Indica las etiquetas de la estructura que se desea incluir en


el índice.

• UndefinedMetaTags: Indica que no índice otras etiquetas

c. El archivo de configuración se guarda en C:Swish-e/bin

Ya creado el archivo de configuración, por medio de la consola se comandos


se establece la indización de los mismos para ello, Clic en Ejecutar-cmd-
Aceptar

02/11/09 Pág. 20
Facultad de Sistemas de Información y Documentación

a. Se abre la consola de comandos, y se procede a ubicar la carpeta de la


colección a indizar por medio de los comandos de DOS, y con -c se indiza
la colección.

b. Una vez indizado se obtiene el siguiente resultado:

02/11/09 Pág. 21
Facultad de Sistemas de Información y Documentación

CRITERIOS RESULTADOS
12485 palabras en orden
Clasificación alfabético
No. Archivos indizados 809
Total de almacenamiento 14.446.595 bytes
Total de palabras 194.197
Tiempo de indización 3 segundos
Tamaño de archivos de generados en C: .index 1.24 MB
Tamaño de archivos de generados en C: .prop 125 KB

f. . Una vez generado el índice se crea automáticamente dos archivos en bin


que incluye la extensión .index y .prop

archivovirtual.index.prop archivovirtual.index

Se puede observar que Swish-e solo indizó 809 archivos de 1402 que contiene
la carpeta, esto se presenta debido a que en las instrucciones del archivo de
configuración se indicó que excluyera dentro de la indización los .gif .jpg .jpeg y
.css que corresponden a un total de 593

2.1 Búsquedas de términos

Para hacer la búsqueda en una colección con archivo de configuración se


ejecuta swish-e. exe seguido del comando “-f” que indica al programa que
indexe sobre el índice especifico .index (SWISH-Ebinarchivovirtual.index) y
seguido del comando “–w” con el termino a buscar

02/11/09 Pág. 22
Facultad de Sistemas de Información y Documentación

a. Búsqueda con el término “José María de Cossío” y “ Foros de debate”

Se obtiene el siguiente resultado:

CRITERIO SWISH-E
No. De archivos arrojados 8
Tiempo de búsqueda 0 segundos
Tiempo de recorrido 0.016 segundos

02/11/09 Pág. 23
Facultad de Sistemas de Información y Documentación

Se obtiene el siguiente resultado:

CRITERIO SWISH-E
No. De archivos arrojados 25
Tiempo de búsqueda 0.015 seg.
0.62 seg.
Tiempo de recorrido

02/11/09 Pág. 24
Facultad de Sistemas de Información y Documentación

b. Con el uso de operadores booleanos “(libro electrónico AND José


Antonio Millán) OR (saberes compartidos AND José Antonio Millán)”

Se obtiene:

CRITERIO SWISH-E
No. De archivos arrojados 6
Tiempo de búsqueda 0.109 seg.
0.187 seg.
Tiempo de recorrido

c. En un término en otro idioma “Project dissemination”

Se obtiene:

CRITERIO SWISH-E
No. De archivos arrojados 2
Tiempo de búsqueda 0.063 seg.
Tiempo de recorrido 0.110 seg.

02/11/09 Pág. 25
Facultad de Sistemas de Información y Documentación

2.2Análisis de los resultados

Al realizar la primera búsqueda por José María de Cossío se obtuvo 8


resultados, para el caso del análisis se tomo el primer resultado y se realizó la
búsqueda dentro de la carpeta generada por Httrack, al ubicar el archivo se
activa con doble clic y se obtiene la segunda imagen.

Al analizar ésta imagen se puede observar que el criterio de búsqueda está


ubicado en la parte superior del sitio web, resaltado y en letra con mayor
tamaño, una vez obtenido esto se procede a abrir el código fuente del sitio,
obteniendo el siguiente resultado:

02/11/09 Pág. 26
Facultad de Sistemas de Información y Documentación

Se puede observar que el término está encerrado entre etiquetas html ‹h1› y
‹/h1› que indican un encabezado de máximo tamaño.

De igual forma se observa en uno de los resultados de la segunda búsqueda


Foro de Debate que de igual manera está encerrado entre etiquetas html.

Se puede concluir que para el caso de sitios web la información se recupera de


acuerdo a las etiquetas que se estructuran en el, también se observan como
muchas de estas marcas direccionan imágenes con URL así:

02/11/09 Pág. 27
Facultad de Sistemas de Información y Documentación

Cada una de las marcas o etiquetas son lo que conforman la estructura interna
de un sitio web.

3. Búsquedas con Google Custom Search

“Google Custom Search es un servicio que permite crear nuestro propio


buscador que contenga solamente las páginas que a nosotros nos interesan,
de forma que los resultados se ajustarán mucho más a nuestras necesidades.

Permite incluir uno o más sitios web, o páginas web específicas, búsqueda y
resultados en su propio sitio web y personalizar la apariencia de los resultados
correspondientes a su sitio de búsqueda. Proporciona resultados de búsqueda
rápidos y relevantes y busca automáticamente a través de vínculos,
marcadores o blogroll con Búsqueda personalizada sobre la marcha.”3

3.1 Instalación

Para el uso de la herramienta GCS es necesario conocer su funcionamiento y


desarrollo para ello se debe seguir los siguientes pasos:

• Ingresar a http://www.google.com/cse/, clic en Crear un motor de


búsqueda

3
GOOGLE CUSTOM SEARCH. [En línea - html]. [Consultado 2009-10-21]. Disponible en:
http://translate.google.com.co/translate?
hl=es&sl=en&u=http://www.google.com/cse/&ei=FwDvSrvRDsuztgeg9qgw&sa=X&oi=translate&ct=result&resnum=1&ve
d=0CAgQ7gEwAA&prev=/search%3Fq%3Dgoogle%2Bcustom%2Bsearch%26hl%3Des%26sa%3DG

02/11/09 Pág. 28
Facultad de Sistemas de Información y Documentación

• Acceder con la cuenta de Google (Gmail) creada anteriormente, o para


caso contrario crearla.

02/11/09 Pág. 29
Facultad de Sistemas de Información y Documentación

• Ahora se personaliza el sitio web

• Se agrega el sitio web donde se desea hacer las búsquedas.

Es importante resaltar que al ingresar la URL del sitio se tuvo en cuenta


la opción No. 2 de formatos de URL con el fin de que las búsquedas se
hicieran dentro de todas las páginas web que incluye el sitio. Para ello
se agrego así: www.archivovirtual.org/*

• Se escoge el tipo de edición que se desea y se aceptan todas las


condiciones del servicio. Clic en Siguiente

02/11/09 Pág. 30
Facultad de Sistemas de Información y Documentación

• Ahora se pueden iniciar las búsquedas dentro del sitio web, clic en
Finalizar

02/11/09 Pág. 31
Facultad de Sistemas de Información y Documentación

• Se crea automáticamente el motor de búsqueda con una interfaz propia.

3.2 Búsquedas de términos

• Con el término José María de Cossío se obtiene 6 resultado en 0.25


segundos, cada uno de los resultados muestra la ruta de la URL donde
se puede visualizar el contenido.

02/11/09 Pág. 32
Facultad de Sistemas de Información y Documentación

Al dar clic sobre el primer resultado se obtiene lo siguiente:

Se observa que muestra la página web del sitio. Es importante resaltar que se
hizo la prueba de búsqueda suprimiendo las tildes y los resultados fueron los
mismos.

Ahora con el término Foros de Debate

02/11/09 Pág. 33
Facultad de Sistemas de Información y Documentación

Se obtiene 24 resultados en 0.33 segundos, de la misma forma indica la URL


donde se ubica la página web.

Para la búsqueda booleana (libro electrónico AND José Antonio Millán)


OR (saberes compartidos AND José Antonio Millán) no se obtuvo
resultados

Se intentó la búsqueda con & (AND) y | (OR) y tampoco arrojó resultados

02/11/09 Pág. 34
Facultad de Sistemas de Información y Documentación

Debido a esto se optó por desarrollar otros términos de búsqueda para probar
los resultados con GCS para ello se tomó el siguiente criterio de búsqueda

(entorno AND creación) OR (entorno AND virtual) se obtiene:

Se obtuvo 26 resultados en 0.19 segundos mostrando la URL de cada recurso

02/11/09 Pág. 35
Facultad de Sistemas de Información y Documentación

Ahora con un término en otro idioma “Project dissemination”

Se obtuvo 2 resultados en 0.56 segundos mostrando la URL de ruta del


recurso.

4. Búsquedas con Windows Search

En primera medida se configura la indexación en WS para que el aplicativo solo


realice búsquedas dentro de la carpeta señalada.

Y luego se procede a realizar las búsquedas señaladas.

02/11/09 Pág. 36
Facultad de Sistemas de Información y Documentación

Con el término José María de Cossío

Se obtuvo 10 resultados ordenados por relevancia, permitiendo visualizar al


lado derecho de la interfaz el sitio web donde se ubica el término y no aparece
término resaltado. Al ingresar a uno de los resultados se observa el listado de
opciones que hay en dicha opción.

Para el ejercicio se ingresa al Enlaces “Agencia Española de Cooperación


Internacional”

02/11/09 Pág. 37
Facultad de Sistemas de Información y Documentación

En búsqueda se ingresa el nombre de interés “José María Cossío”

Los resultados de la búsqueda fueron 503, en los cuales se encuentran


resaltados los términos ingresados, pero el de nuestro interés no se encontró.

02/11/09 Pág. 38
Facultad de Sistemas de Información y Documentación

En los resultados también se busco en noticias.htm, mostrando una noticia de


la búsqueda de nuestro interés, apareciendo en primer lugar.

02/11/09 Pág. 39
Facultad de Sistemas de Información y Documentación

Al ingresar a la última opción “cossio_legado.htm” lo arrojado es lo encontrado


en la búsqueda anterior “noticias”

No aparece resaltado ningún término en este resultado.

02/11/09 Pág. 40
Facultad de Sistemas de Información y Documentación

Peso de los resultados generados:

Nombre Idioma Peso Kb


open_public
(2).html Ingles 44
open_public.html Español 44
partici01 (2).htm Ingles 16
partici01.htm Español 20
directorio (2).htm Ingles 16
directorio.htm Español 20
enlaces_inst
(2).htm Ingles 26
enlaces_inst.htm Español 24
noticias.htm Español 20
cossio_legado.htm Español 9

Ahora con el término “Foros de debate”

Arroja 29 resultados ordenados con la misma relevancia y mostrando al lado


derecho el contenido de documento señalado

02/11/09 Pág. 41
Facultad de Sistemas de Información y Documentación

Elige p2.html

No hay palabras resaltadas

02/11/09 Pág. 42
Facultad de Sistemas de Información y Documentación

El las opciones de “reply” se presenta resultados de “La Edad de Plata” con


diferentes solicitudes

02/11/09 Pág. 43
Facultad de Sistemas de Información y Documentación

02/11/09 Pág. 44
Facultad de Sistemas de Información y Documentación

02/11/09 Pág. 45
Facultad de Sistemas de Información y Documentación

Cada “reply” presenta un tema para ser compartido y comentado según


formulario que aparece al final de cada resultado.

No hay palabras resaltadas.

Al ingresar a noticias nos arroja el mismo resultado de bùsqueda simple por


nombre.

02/11/09 Pág. 46
Facultad de Sistemas de Información y Documentación

Peso total índice generado


Nombre Idioma Peso Kb
1
open_pub_detallefd0f (2) Ingles 16
2
p2 Español 28
3
open_pub_detallefd0f Español 16
4 8
reply5502 Español
5
replyeff0 Español 12
6
reply9c62 Español 12
7
reply5f1d Español 12
8
reply9b68 Español 12
9
reply7e4a Español 12
10reply788f Español 12
reply2ee4
11 Español 12
12reply1033 Español 12
8
13searche5b4 Español
14ponentes (5) Español 24
15programa (4) Español 16
16programa (3) Español 20
17readForum9945 Español 56
8
18
confHomepagee5b4 Español
8
19homepage Español
8
20search Español
8
21anonLogins Español
22foro1 (2) Ingles 12
23foro2 Español 24
24foro1 Español 16
25ayuda_foro Español 12
26busqueda Español 16
27noticias Español 20
28noticias (2) Ingles 16
29ayuda_foro (2) Ingles 12
TOTAL KB 448

02/11/09 Pág. 47
Facultad de Sistemas de Información y Documentación

Ahora con la búsqueda booleana “(libro electrónico AND José Antonio


Millán) OR (saberes compartidos AND José Antonio Millán)”

Resultados obtenidos 6

Ingresando al primer resultado nos permite obtener dirección de contacto de


personajes que participan en un seminario tema Libro Electrónico.

Al ingresar al p4 (5) nos presenta un texto sobre el tema “Libro Electrónico” y


en su contenido sale resaltado en azul el nombre de nuestra búsqueda” “José
Antonio Millán

02/11/09 Pág. 48
Facultad de Sistemas de Información y Documentación

Ingresando al último resultado arrojado “Libro electrónico” que esta destacado


con ***, “José Antonio Millán” es el coordinador de dicho evento

02/11/09 Pág. 49
Facultad de Sistemas de Información y Documentación

Peso total índice generado

Nombre
1 ponentes (
2 programa (
3 ponentes (
4 redes
5 p4 (5)
02/11/09
6 libroelectroPág. 50
Facultad de Sistemas de Información y Documentación

Con el término en otro idioma “Project dissemination”

El resultado para esta búsqueda fue de 2 archivos, ordenados por relevancia y


mostrando su contenido al lado derecho de la interfaz

02/11/09 Pág. 51
Facultad de Sistemas de Información y Documentación

Peso total índice generado

Nombre Idioma Peso Kb


ponentes
1 (2) Español 32
2 proyecto Español 28
TOTAL
KB 60

5. Búsquedas con DigidocIndex

5.1 Definición

“El Laboratorio Digital es un apartado del aula digital del Máster Online en
Documentación Digital formado por tres instrumentos. Permitan mejorar el
diseño de navegación y la recuperación de la información de una sede Web.

• DigiDocMap para la creación de mapas conceptuales


• DigiDocMenu para crear menús desplegables
•DigiDocIndex un indexador y generador de buscadores locales
personalizados.

Se trata de tres productos desarrollados por el Grupo de Investigación DigiDoc


(IULA-UPF) en el contexto del proyecto HUM2004-03162/FILO financiado por
el Ministerio de Educación y Cultura (Plan Nacional I+D+I). Son tres
herramientas freeware de utilidad para documentalistas, bibliotecarios,
archiveros, creadores de sitios web y profesionales innovadores de la cultura
digital en general.

Estas herramientas funcionan mediante formularios. El resultado final es una


página HTML o un fragmento de código javascript que podrá ser descargado e
integrado en cualquier sede Web. Para usar estos servicios no se requieren
conocimientos de programación. Las tres aplicaciones pueden usarse de dos
formas con idénticas prestaciones:

• Como servicios de Internet de libre acceso accediendo a las correspondientes


direcciones y usando online los programas sin necesidad de ninguna
instalación.
• Como aplicaciones freeware instalando las aplicaciones en el disco local para
usarlas sin conexión a Internet.”4

4
UNIVERSITAT POMPEU FABRA. Laboratorio digital. [En línea - html]. [Consultado 2009-10-21]. Disponible en:
http://www.documentaciondigital.org/laboratorio.htm

02/11/09 Pág. 52
Facultad de Sistemas de Información y Documentación

5.2Instalación

• Primero se ingresa a http://sisinfo.lasalle.edu.co/original/sri/Software/,


clic en Digidocindex.

• Clic en Run para iniciar la ejecución

02/11/09 Pág. 53
Facultad de Sistemas de Información y Documentación

• Clic en Unzip para descomprimir toda la carpeta

• Se crea la carpeta C:/digidocindex/ que contiene algunos ficheros.

02/11/09 Pág. 54
Facultad de Sistemas de Información y Documentación

• Para iniciar las búsquedas se ejecuta el ícono index.htm, aparece la


siguiente interfaz

02/11/09 Pág. 55
Facultad de Sistemas de Información y Documentación

• Clic en Ejecutar

• Automáticamente se activa la interfaz para ingresar el sitio web donde se


generará las búsquedas, y se indica la carpeta de destino donde se
desea guardar los archivos generados. Clic en Aceptar

02/11/09 Pág. 56
Facultad de Sistemas de Información y Documentación

• Inicia el proceso de generaciòn del buscador

• Una vez generado indica todos los archivos descargados que para tal
caso fueron localizados en C:/temp, clic en Aceptar

02/11/09 Pág. 57
Facultad de Sistemas de Información y Documentación

• Se abre la carpeta C:/temp y muestra una caperta comprimida con


los archivos

• Se procede a descomprimir la carpeta para generar los archivos

02/11/09 Pág. 58
Facultad de Sistemas de Información y Documentación

• Una vez descomprimida se activa un archivo .html con el nombre de


buscador, doble clic sobre el mismo.

• Automáticamente se activa el buscador, en caso contrario tener en


cuenta la actualización o descarga de Java. Véase:
http://www.java.com/es/download/

02/11/09 Pág. 59
Facultad de Sistemas de Información y Documentación

Ahora se puede proceder a realizar las búsquedas pertinentes.

02/11/09 Pág. 60
Facultad de Sistemas de Información y Documentación

5.3 Búsquedas

• Realizando la búsqueda por el término José María de Cossío se


obtiene:

Se obtuvo 8 resultados de 750 páginas ordenados por relevancia, al dar clic


sobre “+ información” muestra el documento separado por las etiquetas de
recuperación señaladas anteriormente en la búsqueda, que van ligadas con la
estructura html del sitio web. Además muestra la URL donde se puede
visualizar el resultado.

02/11/09 Pág. 61
Facultad de Sistemas de Información y Documentación

02/11/09 Pág. 62
Facultad de Sistemas de Información y Documentación

Con el término Foros de Debate

02/11/09 Pág. 63
Facultad de Sistemas de Información y Documentación

Se obtiene 2 resultados de 750 páginas buscadas ordenados por relevancia, de


igual forma permite ver el documento segmentada por los campos de búsqueda
y visualizarlo a través de la URL

02/11/09 Pág. 64
Facultad de Sistemas de Información y Documentación

Con el término booleano “(libro electrónico AND José Antonio Millán) OR


(saberes compartidos AND José Antonio Millán)”

Por ser un término con la combinación de 2 ecuaciones booleanas, Digidoc


permite separarlas por medio del término booleano a usar, para éste caso OR

Además según la ayuda y estructura del Software los booleanos válidos son
&=AND, | = OR

Se observa como dentro de los resultados de las búsquedas Digidoc resalta


el/los términos recuperados en rojo para una mejor visualización

02/11/09 Pág. 65
Facultad de Sistemas de Información y Documentación

02/11/09 Pág. 66
Facultad de Sistemas de Información y Documentación

Con el término en otro idioma Project Dissemination

02/11/09 Pág. 67
Facultad de Sistemas de Información y Documentación

Se obtiene 2 resultados ordenados por relevancia de 750 páginas buscadas, de


igual forma se pude visualizar el resultado por la URL o + Información
señalando los campos a recuperar.

6. Análisis de resultados obtenidos en las diferentes herramientas

Para el análisis de los resultados se tuvo en cuenta la posición de los mismos y


la generación de coincidencias o no, en el nombre de los resultados.

Para ello se generó una serie de tablas en Excel que indican la posición de
cada resultado, distinguido con colores iguales con el fin de evaluar su
posición.

02/11/09 Pág. 68
Facultad de Sistemas de Información y Documentación

• Para el término de búsqueda José María de Cossío se obtuvo lo


siguiente:

TERMIN
O No. SWISH-E GCS WS DigidocIndex
cossio_legado.ht
1 m cossio_legado.htm open_public.html (2) directorio.htm
José María de Cossío

2 noticias.htm noticias.htm open_public.html noticias.htm


3 directorio.htm directorio.htm directorio(2).htm participi01.htm
2 directorio(2).htm enlaces_inst.htm participi01.htm enlaces_inst.htm
cossio_legado.ht
5 participi01.htm open_public.html directorio(2).htm m
participi01.htm open_public.html
6 (2) (2) directorio.htm directorio(2).htm
participi01.htm
7 enlaces_inst.htm enlaces_inst.htm (2)
enlaces_inst.htm enlaces_inst.htm
8 (2) enlaces_inst.htm (2) (2)
9 noticias.htm
10 cossio_legado.htm

Se observa la posición de cada resultado de búsqueda para el caso de


cossio_legado.htm se distingue que en Swish-E y GCS se mantiene en el
mismo lugar mientras en WS y Digidoc establecen otra posición. Muchos
términos mantienen la misma posición dentro de los diferentes aplicativos.
Además al comparar la cantidad de resultados obtenidos en las 4 herramientas
se concluye que GCS fue la que menos recuperó información.

• Para el término Foros de Debate

TERMIN DigidocInd
O No. SWISH-E GCS WS ex
readforum9945. open_pub_detallefd0f
1 html foro1.htm (2).htm foro1.htm
Foros de Debate

2 reply9b68.html noticias.htm p2.html noticias.htm


open_pub_detallefd0f.ht
3 reply7e4a.html homepage.html m
2 reply1033.html p2.html reply5502.html
5 replyeff0.html readforum9945.html replyeff0.html
6 reply2ee4.html anonLogins.html reply9c62.html
7 reply9c62.html searche5b4.html reply5f1d.hmtl
confHomepagee5b4.
8 reply5f1d.hmtl html reply9b68.html
9 reply788f.html reply2ee4.html reply7e4a.html

02/11/09 Pág. 69
Facultad de Sistemas de Información y Documentación

10 foro2.htm reply5f1d.html reply788f.html

Se observa que la gran mayoría de posiciones no mantienen igualdad a


excepción de
foro1.htm que mantiene la misma posición en WS
y Digidoc , además los resultados en WS y Swish-e coinciden en su gran
mayoría los cuales corresponden a formularios desarrollados dentro del sitio
web. Los términos en fondo blanco son los únicos que no coincide dentro de
las demás herramientas

• Para el término en estructura booleana (libro electrónico AND José


Antonio Millán) OR (saberes compartidos AND José Antonio Millán)

TERMIN
O No. SWISH-E GCS WS DigidocIndex
(libro electrónico AND José Antonio

1 p4 (5).htm libroelectronico.htm redes.htm


Millán) OR (saberes compartidos

libroelectronico. libroelectronico.ht
2 htm ponentes (6).html m
AND José Antonio Millán)

3 redes.htm programa (6).html ponentes (2).html


programa programa
2 (6).html ponentes (2).html (6).html
ponentes
5 (2).html redes.htm p4 (5).htm
javier_candeira.p No arrojó
6 df resultados p4 (5).htm

8
9

10

Se analiza que los resultados en Swish-e, WS y DIgidoc son los mismos en su


mayoría, las únicas posiciones que coinciden están dadas en Swish-e y Digidoc
con los documentos
libroelectronico.htm
programa (6).html
y . El término
en fondo blanco es el único que no coincide dentro de las demás herramientas

Como en GCS no arrojó alguna búsqueda con el termino anterior con


estructura booleana, se determinó realizar otra búsqueda que generara
resultados con el fin de comprobar que la herramienta si busca sobre estructura
booleana. Para ello se tuvo en cuenta el siguiente criterio de búsqueda
(entorno AND creación) OR (entorno AND virtual), obteniendo los siguientes

02/11/09 Pág. 70
Facultad de Sistemas de Información y Documentación

resultados, se observa que la mayoría de resultados hacen parte de


extensión .htm y .html pero hay 3 archivos que corresponden a .pdf.

TERMIN
O No. SWISH-E GCS WS DigidocIndex
(entorno AND creación) OR

1 creacion.htm
2 p3.htm
(entorno AND virtual)

3 p6.htm
2 noticias.htm
5 CAPITULO9.pdf
6 open_public.html
7 No se realizaron CAPITULO7.pdf No se realizaron No se realizaron
búsquedas open_pub_detalle.ht búsquedas búsquedas
8 m
open_pub_detalle
9 (2).htm

10 CAPITULO1.pdf

• Con el término en otro idioma Project dissemination se obtuvo:

TERMIN
O No. SWISH-E GCS WS DigidocIndex
1 proyecto.htm proyecto.htm proyecto.htm ponentes.htm
2 ponentes.htm ponentes.htm ponentes.htm proyecto.htm
dissemination

3
2
Project

5
6
7
8
9
10

02/11/09 Pág. 71
Facultad de Sistemas de Información y Documentación

Se observa los mismos resultados en la misma posición para las herramientas


Swish-e, GCS y WS, para el caso de Digidoc recuperó los mismos resultados
pero en diferente posición

7. Síntesis funcional de las herramientas y tracking

Cada una de las herramientas posee ventajas y desventajas que las hace
características y distintas de otras.

• Para el caso de Swish-e se concluye que indiza una colección de forma


rápida, arrojando resultados de cantidad de archivos, duración, tiempo
de recorrido, y tamaño del índice.

Después de realizar el archivo de configuración las búsquedas se


realizan muy rápido, ordenándolas por relevancia y permitiendo
distinguir el nombre del archivo al final de la ruta de ubicación. Para
cada búsqueda indica cuantos archivos se generaron y el tiempo de
recorrido.

Permite indizar una colección de documentos diferentes a texto por


medio del archivo de configuración y las herramientas de conversión,
además no distingue mayúsculas de minúsculas, tildes, paréntesis o
comillas

• Para el caso de GCS se puede rescatar que es un aplicativo fácil de


instalar y que permite crear buscadores locales para determinado sitios
web, de manera que sea más rápida la recuperación de información,
GCS muestra la cantidad de resultados obtenidos y el tiempo que se
demoró en generarlos, además muestra la ruta de la URL de ubicación
de los resultados, algo importante para destacar es que el término
buscado aparece en negrilla dentro del contenido de cada resultado.

• Para el caso de Windows Search se destaca que su indización actúa de


una manera rápida aproximadamente 10 minutos por el tipo de
colección, además permite visualizar las búsquedas en orden de
relevancia, y muestra hacia el lado derecho de la interfaz el contenido de
cada resultado. Además no hace distinción entre mayúsculas o
minúsculas al igual que tildes.

• Para DigidocIndex su instalación se realiza de manera fácil y rápida, en


la generación del buscador se demora un tiempo aproximado de 10
minutos. Las búsquedas permite que se discrimine el título, autor,
keywords, description o texto de página, donde cada uno de éstos
corresponde a la secuencia de etiquetas html que indica cada estructura
de un sitio web que corresponden a los MetaNames. Además posee de
interfaces de búsqueda la simple y la avanzada que permite combinar

02/11/09 Pág. 72
Facultad de Sistemas de Información y Documentación

operadores booleanos y caracteres de proximidad. Otro aspecto


destacable es que la estructura interna del Software permite organizar
por relevancia los resultados calculada en función de la frecuencia de los
términos de la ecuación de búsqueda. Permite visualizar el documento
por medio de la URL

Con respecto al tracking que muestra cada una de las interfaces de búsqueda
de los diferentes herramientas muestra que siempre los resultados son
mostrados al lado izquierdo de la interfaz y para poderlos leer de arriba hacia
abajo, esto quiere decir que todo está centralizado en un solo lugar.

Al realizar las búsquedas en Google, Yahoo (México) y Bing con el término


“Archivo Virtual de la Edad de Plata” entre comillas para delimitar la
búsqueda exacta se obtuvo los siguientes resultados:

TERMIN
O Google Bing Yahoo MX
Archivo Virtual de la
Edad de Plata

41.400 15.000.000 4.570

• En Google se muestra los siguientes resultados:

02/11/09 Pág. 73
Facultad de Sistemas de Información y Documentación

Se observa que en Google se recupera en primera posición el sitio web del


archivo virtual y las otras 2 posiciones siguientes hacen referencia al mismo
sitio.

• En Bing se muestra los siguientes resultados:

02/11/09 Pág. 74
Facultad de Sistemas de Información y Documentación

Se observa que recupera una cantidad exagerada en comparación con los


otros buscadores, además dentro de las primeras 10 posiciones no recupera el
sitio oficial del archivo virtual, sino hace referencia en la posición 1 y 3 a sitios
relacionados o incluyentes dentro de la página principal.

• En Yahoo se muestra los siguientes resultados:

02/11/09 Pág. 75
Facultad de Sistemas de Información y Documentación

Se observa que recupera una cantidad de resultados más razonables,


además en segunda posición aparece la página oficial del archivo virtual.

En conclusión dentro de los 3 buscadores más usados, se puede observar


que Google para éste caso ocuparía la primera posición por recuperar más
documentos, es decir indiza muchos más recursos, aunque Bing recupera
más cantidad al hacer el análisis de los resultados obtenidos se encuentra
documentos que no tienes relación con el término buscado. Yahoo ocuparía
el segundo lugar porque recupera información más relevante dentro de su
indización. Aunque maneja menor cantidad de resultados se obtiene
claridad en los mismos.

8. Análisis del sitio web

Para el análisis del sitio web es necesario inspeccionarlo y recorrerlo por cada
uno de sus enlaces para ofrecer un criterio interno y externo del sitio.

En calidad de criterio interno se puede observar que las palabras claves están
organizadas en un sumario, donde cada una permite desplegar diferentes
contenidos interfaz tras interfaz.

02/11/09 Pág. 76
Facultad de Sistemas de Información y Documentación

El orden de las palabras está organizado de forma numérica. El contenido de la


web se muestra de manera fresca, sin tanto contenido que suture la vista,
muestra colores suaves y aceptables, con imágenes en excelente resolución.

El contenido lo muestra en letra adecuada y además de manera breve con el


fin que sea más entendible, cada una de las interfaces muestra enlaces que
enrutan a otra dirección web con extensión .html y .htm.

La estructura del código fuente del sitio web esta dado por etiquetas o tags html

02/11/09 Pág. 77
Facultad de Sistemas de Información y Documentación

Dentro del código fuente se observa los enlaces que contiene el sitio web

02/11/09 Pág. 78
Facultad de Sistemas de Información y Documentación

CONCLUSIONES

Con el debido uso de estas herramientas la tarea del bibliotecólogo, archivista


o administración de información se hace más fácil para alcanzar el objetivo de
nuestra profesión, satisfacer las necesidades de información del usuario, las
cuales nos generan búsquedas rápidas y relevantes, pero al mismo tiempo nos
permiten tener elementos suficientes para que nuestra tarea tenga una
retribución bastante onerosa y así permitir que nuestra profesión sea valorada
cada vez más, lo cual depende de nosotros facilitando al usuario información
veraz, certera pues quien tiene la información tiene el poder, se dice
popularmente.

Los grandes beneficios de la utilización de estas herramientas no son solo


determinados por los resultados al servicio del usuario, es preciso tomar
conciencia del uso de éstas para un mejor posicionamiento como
profesionales.

02/11/09 Pág. 79
Facultad de Sistemas de Información y Documentación

REFERENCIAS

• ARCHIVO VIRTUAL. El proyecto. [En línea - html]. [Consultado 2009-


10-25]. Disponible en:
http://www.archivovirtual.org/proyecto/proyecto.htm

• GOOGLE CUSTOM SEARCH. [En línea - html]. [Consultado 2009-10-


21]. Disponible en: http://translate.google.com.co/translate?
hl=es&sl=en&u=http://www.google.com/cse/&ei=FwDvSrvRDsuztgeg9qg
w&sa=X&oi=translate&ct=result&resnum=1&ved=0CAgQ7gEwAA&prev=
/search%3Fq%3Dgoogle%2Bcustom%2Bsearch%26hl%3Des%26sa
%3DG

• GÓMEZ DUEÑAS, Laureano Felipe. Sistemas de indización y


recuperación de la información digital. Bogotá: Universidad de la Salle,
2009. 59 p. [En línea - pdf].

• SWISH-E. [En línea - html]. [Consultado 2009-10-21]. Disponible en:


http://swish-e.org/

• UNIVERSITAT POMPEU FABRA. Laboratorio digital. [En línea - html].


[Consultado 2009-10-21]. Disponible en:
http://www.documentaciondigital.org/laboratorio.htm

• WIKILIBROS. [En línea - html]. [Consultado 2009-10-21]. Disponible en:


http://es.wikibooks.org/wiki/HTTrack

02/11/09 Pág. 80
Facultad de Sistemas de Información y Documentación

GLOSARIO

Indización5: Es la técnica del análisis documental que permite representar y


describir el contenido de los documentos, por medio de conceptos principales
contenidos en ellos (palabras clave) o vocabularios controlados (descriptores,
términos o encabezamientos de materia), con el fin de guiar al usuario en la
recuperación de los documentos que necesita

Elaborar índices o estructuras de acceso a los documentos (representación


alterna) a partir de las palabras (términos) que contiene.

Ruta de Ubicación: 6 Para la mayoría de los sistemas operativos y sistemas de


archivos se puede expresar en forma relativa o en forma absoluta una ruta :

• Rutas absolutas marcan la ubicación de un archivo o directorio desde


el directorio raíz del sistema de archivos.
• Rutas relativas marcan la ubicación de un archivo o directorio a partir
de la posición actual del sistema operativo en el sistema de archivos

Operadores booleanos7 Son los términos (AND, NOT, OR, XOR) que ayudan
a localizar registros que contienen los términos concurrente en uno de los
campos especificados o en todos los campos especificados. Se utilizan para
conectar palabras o frases entre más de un campo de texto, o para conectar
palabras o frases dentro de un campo de texto.

• AND localiza registros que contengan todos los términos de búsqueda


especificados.

• OR localiza registros que contengan cualquiera o todos los términos


especificados.

• NOT localiza registros que contengan el primer término de búsqueda


pero no el segundo.

• XOR (o exclusivo) localiza registros que contengan cualquiera de los
términos especificados pero no todos los términos especificados.

Relevancia8 según el Diccionario de la RAE, significa “cualidad o condición de


relevante, importancia, significación”, y el término “relevante” se define como
“sobresaliente, destacado, importante o significativo”. Por lo tanto entendemos,
que el documento recuperado se considera relevante cuando el contenido del
5
GALEON. [En línea - html]. Disponible en: http://www.galeon.com/indizacion/indizacion.html
6
WIKIPEDIA. [En línea - html]. Disponible en: http://es.wikipedia.org/wiki/Ruta_(inform%C3%A1tica)
7
DOSEI. [En línea - html]. Disponible en: http://dosei.who.int/iBistro_helps/Spanish/tip7102.html
8
IRSWEB. [En línea - html]. Disponible en: http://irsweb.blogspot.com/2004/10/relevancia-o-pertinencia.html

02/11/09 Pág. 81
Facultad de Sistemas de Información y Documentación

mismo posee alguna significación o importancia con motivo de la pregunta


realizada por el usuario, es decir, con su necesidad de información.

Un término es relevante cuando aparece muchas veces en un documento.


Cuando aparece muchas veces en todos los documentos de la colección son
palabras vacías.

Configuración9: un conjunto de datos que determina el valor de algunas


variables de un programa o sistema de sw., dichas opciones son cargadas
generalmente en su inicio. En algunos casos se deberá reiniciar para poder ver
los cambios, debido a que el programa no podrá cargarlos mientras se ejecuta.
Personalizada, definida por el usuario. Predeterminada, el programa o sistema
cargara la configuración por defecto.

Ejecutable:10 archivo binario cuyo contenido se interpreta por el computador


como un programa. Contiene instrucciones en código máquina de un
procesador concreto, pero también puede contener bytecode el cual requiere
de un interprete para su ejecución.

9
WIKIPEDIA. [En línea - html]. Disponible en: http://es.wikipedia.org/wiki/Configuraci%C3%B3n_(inform%C3%A1tica)
10
WIKIPEDIA. [En línea - html]. Disponible en: http://es.wikipedia.org/wiki/Ejecutable

02/11/09 Pág. 82
Facultad de Sistemas de Información y Documentación

APENDICES

• Directorio de los Software requeridos

• Contenido generado dentro de C:\SWISH-E\bin

02/11/09 Pág. 83
Facultad de Sistemas de Información y Documentación

REVISIÓN DEL INFORME/TRABAJO


< Nota: cada evaluador debe rellenar su propia plantilla>

ASIGNATURA:
EVALUADOR:
FECHA DE EVALUACIÓN: <Fecha normalizada ISO AAAA-MM-DD>
CALIFICACIÓN:
PUBLICAR EN EL REPOSITORIO: <Indique la posibilidad de publicar este
documento para acceso público.>
NOTAS ADICIONALES:

NOTAS DE EVALUACIÓN:
<La evaluación de todo documento académico debe estar sustentada para
llevar un mejor control de los mismos y servir como soporte en el momento de
alguna queja ó reclamo, se sugiere contemplar como mínimo los ítem
expuestos a continuación:>

1. ¿El documento es consistente, su argumentación es clara? ¿Se respetan


los derechos de autor?

2. ¿La fundamentación de informe/trabajo es sólida? (es decir se basa en


datos precisos, documentos, hechos comprobados, etc.)

3. ¿Las conclusiones son coercitivas al desarrollo del informe/trabajo?

4. Señale posibles recomendaciones generales y áreas futuras de trabajo e


investigación a partir de este informe/trabajo.

02/11/09 Pág. 84
Facultad de Sistemas de Información y Documentación

LICENCIA DE ESTE DOCUMENTO

Reconocimiento 2.5

Usted es libre de:

• copiar, distribuir y comunicar públicamente la obra


• hacer obras derivadas
• hacer un uso comercial de esta obra

Bajo las condiciones siguientes:

• Reconocimiento. Debe reconocer los créditos de la obra de la manera


especificada por el autor o el licenciador.
• Al reutilizar o distribuir la obra, tiene que dejar bien claro los términos de
licencia de esta obra.
• Alguna de estas condiciones puede no aplicarse si se obtiene el permiso
del titular de los derechos de autor

Los derechos derivados de usos legítimos u otras limitaciones


reconocidas por ley no se ven afectados por lo anterior.

Esto es un resumen fácilmente legible del texto legal (la licencia completa).

02/11/09 Pág. 85

Anda mungkin juga menyukai