Anda di halaman 1dari 3

BSQUEDA DE TEXTO

Modelo abstracto para diversos problemas reales, que se presentan en aplicaciones como
bsquedas en la Web y extraccin de informacin de textos.

BSQUEDA DE CADENAS EN UN TEXTO

Un problema habitual en la poca de la Web y otros repositorios de textos es el siguiente: dado un


conjunto de palabras, determinar todos los documentos que contengan una de dichas palabras (o
todas). Un motor de bsqueda es un ejemplo popular de este proceso. El motor de bsqueda
utiliza una tecnologa concreta conocida como ndices invertidos, en la que para cada palabra que
aparece en la Web (existen 100.000.000 de palabras diferentes), se almacena una lista de todos los
lugares donde aparece dicha palabra. Las mquinas con grandes cantidades de memoria principal
mantienen disponibles las listas ms comunes, permitiendo que muchas personas busquen
documentos de forma simultnea.

Las tcnicas de ndices invertidos no emplean autmatas finitos, pero los agentes de bsqueda
invierten mucho tiempo en copiar la Web y configurar los ndices. Existe una serie de aplicaciones
relacionadas que no son adecuadas para los ndices invertidos pero que son buenas para las
tcnicas basadas en autmatas. Las caractersticas que hacen a una aplicacin adecuada para
bsquedas que emplean autmatas son:

1. El repositorio en el que se realiza la bsqueda cambia rpidamente. Por ejemplo:

a) Todos los das, los analistas de noticias buscan artculos en lnea sobre los temas de su
inters. Por ejemplo, un analista financiero tiene que localizar los smbolos de ciertas
acciones o nombres de empresas.
b) Un robot de compras tiene que buscar los precios actuales de los artculos solicitados
por los clientes. El robot recuperar las pginas del catlogo actual de la Web y luego
buscar dichas pginas para localizar palabras que sugieran un precio para un determinado
artculo.

2. Los documentos que se desean buscar pueden no estar clasificados. Por ejemplo, Amazon.com
no facilita a los buscadores la localizacin de todas las pginas correspondientes a todos los libros
que vende la empresa. En lugar de ello, genera las pginas sobre la marcha en respuesta a las
consultas. Sin embargo, podramos enviar una consulta para localizar libros sobre un determinado
tema, por ejemplo autmatas finitos, y luego realizar una bsqueda en las pginas recuperadas
especificando determinadas palabras, como por ejemplo, excelente en la seccin de crticas.
AUTMATAS FINITOS NO DETERMINISTAS PARA BSQUEDA DE TEXTO

Un autmata como una mquina de estados y transiciones dentro de la cual se tienen


estados de aceptacin y transiciones de un estado a otro. Los estados de aceptacin
dentro del autmata reconocen que es posible aceptar una cadena de entrada, porque
cumple con en el alfabeto y que llegan a ms de un estado.

/
UN AFD PARA RECONOCER UN CONJUNTO DE PALABRAS CLAVE

Cuando aplicamos dicha construccin a un AFN que fue diseado a partir de un conjunto de
palabras, lo visto en (Autmatas finitos no deterministas para bsqueda de texto), comprobamos
que el nmero de estados del AFD nunca es mayor que el nmero de estados del AFN. Las reglas
para construir el conjunto de estados del AFD son las siguientes:

a) Si q0 es el estado inicial del AFN, entonces {q0} es uno de los estados del AFD.

b) Suponemos que p es uno de los estados del AFN y se llega a l desde el estado inicial siguiendo
un camino cuyos smbolos son a1a2 am. Luego uno de los estados del AFD es el conjunto de
estados del AFN constituido por:

1. q0.

2. p.

3. Cualquier otro estado del AFN al que se pueda llegar desde q0 siguiendo un camino cuyas
etiquetas sean un sufijo de a1a2 am, es decir, cualquier secuencia de smbolos de la forma
ajaj+1 am.

Observe que, en general, existir un estado del AFD para cada estado p del AFN. Sin embargo, en el
paso (b), dos estados pueden llevar al mismo conjunto de estados del AFN y, por tanto, ser un
estado del AFD. Por ejemplo, si dos de las palabras clave comienzan por la misma letra, por
ejemplo a, entonces los dos estados del AFN a los que se puede llegar desde q0 a travs del arco
etiquetado con a llevarn al mismo conjunto de estados del AFN y, por tanto, se reducirn a uno en
el AFD.

Anda mungkin juga menyukai