Anda di halaman 1dari 7

USO DE LAS CADENAS DE MARKOV EN EL

ESTUDIO DEL ALGORITMO PAGERANK


Jenny Sanchez Cruz
Cod. 2879630
Procesos estocasticos
June 20, 2014

Introducci
on

Se puede observar la eficiencia de los motores de b


usqueda en el momento en el
que al escribir solamente algunas palabras suele aparecer en la primera pagina
de b
usqueda la opci
on que se necesita. Como cabe esperar, esto se debe a un
algoritmo eficiente de b
usqueda y ordenamiento de paginas web. Este estudio se
enfocar
a en el algoritmo PageRank desarrollado por los fundadores de Google
y utilizado por Google Search cuyo objetivo es organizar las paginas Web y
optimizar las b
usquedas.

Historia

Aunque el indicador que utiliza el algoritmo para el ordenamiento de las paginas


ya era conocido en el campo de las Matematicas (vector propio o eigenvalue)
hasta el momento no haba sido aplicado al campo de la computacion para este
fin.
Larry Page y Sergey Brin eran estudiantes de doctorado de la universidad de
Harvard al momento de proponer este metodo para la valoracion de paginas
web, fue publicado en el artculo The PageRank Citation Ranking: Bringing
Order to the Web.
Aunque este metodo ya haba sido utilizado en otros campos de estudio, no era
conocido en el de la computaci
on, por esta razon aunque Page y Brin vendan su
implementaci
on a las empresas del Sillicon Valley a un precio muy bajo, ninguna
quiso adquirirlo, gracias a esto siguieron mejorando el algoritmo para utilizarlo
como buscador del motor que sera mas adelante Google. Lo mas importante
de este metodo no es el algoritmo en s, sino la optimizacion que han hecho los
desarrolladores de este proyecto, esto es lo que ha hecho de Google el buscador
m
as utilizado del Planeta.
Otros usos de medidas similares al PageRank:

Modelado de visitas de paginas web, considerandolas como receptoras de


votos o emisoras de votos. Desarrollado por Jon Kleinberg, profesor
de la Universidad de Cornell.
Modelo Input-Output: Propone tratar la economa como una red y medir
los flujos de factores intermedios entre diferentes sectores. Desarrollado
por Wassily Leontief, profesor de Harvard y Premio Nobel de Economa
gracias a este aporte.
Un ordenamiento similar se realiza con las publicaciones cientficas, en
vez de p
aginas son artculos, en vez de hipervnculos son citas hacia otros
artculos. Propuesto por Gabriel Pinski y Francis Narin.

Concepto de PageRank

El PageRank de una p
agina es la probabilidad de que una persona que navega en
la Web entrando a diferentes paginas al azar, entre especficamente a la pagina
que se est
a observando. Si una pagina tiene varios links como subsecciones de
la p
agina, estos no son considerados como una pagina diferente.

3.1

Persona sin lmite de tiempo

Este es el caso ideal, la persona tiene probabilidad 1 de seguir navegando en la


Web, en este caso el PageRank de cualquier pagina A se calcula de la siguiente
forma:
P R(A) =

X P R(B)
L(B)

BS

Siendo S el conjunto de las paginas que poseen enlaces hacia A, y L(B) el


n
umero de enlaces salientes desde B.

3.2

Persona con lmite de tiempo

Una persona comienza a entrar al azar de acuerdo a los enlaces que hay en
cada p
agina que entra, pero tiene una probabilidad d de seguir haciendolo,
y (1 d) de terminar su recorrido en la Web. En este caso el PageRank
de cualquier p
agina es:
!
X P R(B)
P R(A) = (1 d) + d
L(B)
BS

Siendo S el conjunto de las paginas que poseen enlaces hacia A, y L(B)


el n
umero de enlaces salientes desde B. La probabilidad d de continuar
navegando en la Web es llamada damping factor.
Cuando se public
o el artculo en el que se daba a conocer el algoritmo de
PageRank, se encontraba la ecuacion anterior para hallar el PageRank,
sin embargo, luego publicaron un nuevo artculo usando una ecuacion distinta, la que se define a continuacion es mas precisa.

(1 d)
P R(A) =
+d
N

X P R(B)
L(B)

BS

Siendo S el conjunto de las paginas que poseen enlaces hacia A, N el


n
umero de p
aginas interconectadas, y L(B) el n
umero de enlaces salientes
desde B. La probabilidad d de continuar navegando en la Web es llamada
damping factor.

PageRank modelado como cadena de Markov

Para empezar a modelar el comportamiento de la navegacion de una persona


a traves de la Web, se escogera el comportamiento de la persona sin lmite de
tiempo.
Sea N el n
umero de p
aginas Web enlazadas denotadas por {P agi }iN , i N y
Xn =Pagina en la que se encuentra la persona luego de n visitas a enlaces, entonces Xn es una cadena de Markov, con espacio de estados S = {P agi }iN , i
N , y sea P = {pij } la matriz de transicion, donde pij denota la probabilidad de
pasar del estado i al estado j. Tenemos que:
pij = P (Xn+1 = j|Xn = i)
Como el PageRank de una p
agina se mantendra constante al pasar el tiempo,
podemos ver que la probabilidad pij es independiente de n, por lo que tenemos
que Xn es estacionario. Ahora, ademas se puede ver que:
P (Xn+1 = j|X1 = i1 , X2 = i2 , , Xn = in ) = P (Xn+1 = j|Xn = in )
Lo anterior es debido a que las probabilidades siempre son constantes, por lo
que si la persona se encuentra en un estado, las paginas en las que haya estado
anteriormente no afectar
an su proxima visita.

Ejemplo

Se realizar
a un ejemplo de un grafo dirigido cuyos nodos son las paginas a visitar, y las aristas representan los hipervnculos entre ellos, sera un grafo tal que
la cadena de Markov, formada como se indico en la seccion anterior, tenga una
sola clase, con lo cual sea una cadena de Markov irreducible, ademas de ser
aperi
odica.
A continuaci
on se encuentra el grafo del problema : se realizara una caminata
aleatoria a traves de las p
aginas, el conjunto de paginas es: {A, B, C, D, E, F, G}
.

Para definir la matriz de transicion P


plo el nodo A, tiene 13 de probabilidad de
construye la matriz.

A B C
A
0 31 0
B
1 0 0
C
0 1 0
2
P = D
0 0 0

E
0 0 12
F
1 0 0
3
G
0 0 0

se observa que, tomando como ejempasar a B, D o F , de esta manera se


D

1
2

E
0
0
0
0
0

0
0

1
3

0
1
2

1
3

F
1
3

0
0
1
0
0
0

G
0
0
0
0
0
1
3

Debido a que el algoritmo PageRank fue dise


nado para ordenar las paginas de
acuerdo al mayor n
umero de visitas, podemos encontrar la distribucion estacionaria para esta matriz.
Solucionando el sistema de ecuaciones que resulta al resolver la ecuacion = P
obtenemos el siguiente vector:


3 1 1 1 1 3 1
, , , , , ,
=
14 7 14 7 7 14 14
Ahora al aplicar el Teorema por el cual j = 1j , encontramos los valores de
para cada estado, el n
umero menor es el que indica el estado que se repite con

Figure 1: Creaci
on de las paginas y sus hipervnculos
m
as frecuencia.

(A , B , C , D , E , F , G ) =

14
14
, 7, 14, 7, 7, , 14
3
3

Podemos observar que los estados que seran mas seleccionados dentro de la
caminata aleatoria despues de mucho tiempo seran las paginas A y F , seguidos
por D,B,E y finalizando, las paginas que seran menos visitadas son: C y G.

Simulaci
on

Se realiz
o una simulaci
on en Netlogo con el fin de observar el comportamiento
de las personas siguiendo una caminata aleatoria a traves de 11 paginas interconectadas.
Caractersticas de la simulaci
on:
El n
umero de personas en la Web esta entre 1 y 100.
Permite diferenciar cada persona en la Web y los pasos que hace de acuerdo
a ciertos colores.
Utiliza el damping factor y actualiza el PageRank de cada pagina a
medida que recibe m
as visitas.
Primero, se inicializa el modelo, creando los hipervnculos entre las paginas y
sus PageRank iniciales(Figure 1).
Se comienza la simulaci
on con una persona navegando en la Web, la pagina
en la que se encuentre comienza con P ageRank = 1, mientras que las demas
comienzan con 0, este proceso puede ser observado en Figure 2. En Figure 3 se
puede observar que las p
aginas roja y naranja tienen los mayores PageRank en
ese momento de la simulaci
on.

Figure 2: Persona ubicada en la pagina de color morado

Figure 3: Estado de la simulacion luego de 1000 pasos

Conclusiones
El algoritmo de PageRank en s mismo es muy completo, incluyendo las
preferencias del tipo de usuario que esta navengando en la Web, la actualizaci
on moment
anea del PageRank, etc.
Aunque en este documento no se enfatizo tanto en la forma general del
grafo generado por las paginas Web, se pudo ver la importancia de los
procesos estoc
asticos aplicados en la computacion.
Este estudio me hizo volver a estudiar las propiedades de la distribucion
estacionaria de una cadena de Markov, y ayudo a comprender las aplicaciones de este en problemas de la sociedad actual.

References
[1] L. Blanco, W. Arunachalam y Dharmaraja, Introduction to probability and Stochastic Processes, primera edicion.
[2] G. George Yin y Qing Zhang, Continuous-Time Markov Chains and
Applications, segunda edicion.
[3] Danny Sullivan, http://searchengineland.com/what-is-google-pageranka-guide-for-searchers-webmasters-11068, 2014.
[4] Klein Project, http://blog.kleinproject.org/?p=280,2014.
[5] Wikipedia, http://es.wikipedia.org/wiki/PageRank, 2014.

Anda mungkin juga menyukai