Introducci
on
Historia
Concepto de PageRank
El PageRank de una p
agina es la probabilidad de que una persona que navega en
la Web entrando a diferentes paginas al azar, entre especficamente a la pagina
que se est
a observando. Si una pagina tiene varios links como subsecciones de
la p
agina, estos no son considerados como una pagina diferente.
3.1
X P R(B)
L(B)
BS
3.2
Una persona comienza a entrar al azar de acuerdo a los enlaces que hay en
cada p
agina que entra, pero tiene una probabilidad d de seguir haciendolo,
y (1 d) de terminar su recorrido en la Web. En este caso el PageRank
de cualquier p
agina es:
!
X P R(B)
P R(A) = (1 d) + d
L(B)
BS
(1 d)
P R(A) =
+d
N
X P R(B)
L(B)
BS
Ejemplo
Se realizar
a un ejemplo de un grafo dirigido cuyos nodos son las paginas a visitar, y las aristas representan los hipervnculos entre ellos, sera un grafo tal que
la cadena de Markov, formada como se indico en la seccion anterior, tenga una
sola clase, con lo cual sea una cadena de Markov irreducible, ademas de ser
aperi
odica.
A continuaci
on se encuentra el grafo del problema : se realizara una caminata
aleatoria a traves de las p
aginas, el conjunto de paginas es: {A, B, C, D, E, F, G}
.
A B C
A
0 31 0
B
1 0 0
C
0 1 0
2
P = D
0 0 0
E
0 0 12
F
1 0 0
3
G
0 0 0
1
2
E
0
0
0
0
0
0
0
1
3
0
1
2
1
3
F
1
3
0
0
1
0
0
0
G
0
0
0
0
0
1
3
Figure 1: Creaci
on de las paginas y sus hipervnculos
m
as frecuencia.
(A , B , C , D , E , F , G ) =
14
14
, 7, 14, 7, 7, , 14
3
3
Podemos observar que los estados que seran mas seleccionados dentro de la
caminata aleatoria despues de mucho tiempo seran las paginas A y F , seguidos
por D,B,E y finalizando, las paginas que seran menos visitadas son: C y G.
Simulaci
on
Se realiz
o una simulaci
on en Netlogo con el fin de observar el comportamiento
de las personas siguiendo una caminata aleatoria a traves de 11 paginas interconectadas.
Caractersticas de la simulaci
on:
El n
umero de personas en la Web esta entre 1 y 100.
Permite diferenciar cada persona en la Web y los pasos que hace de acuerdo
a ciertos colores.
Utiliza el damping factor y actualiza el PageRank de cada pagina a
medida que recibe m
as visitas.
Primero, se inicializa el modelo, creando los hipervnculos entre las paginas y
sus PageRank iniciales(Figure 1).
Se comienza la simulaci
on con una persona navegando en la Web, la pagina
en la que se encuentre comienza con P ageRank = 1, mientras que las demas
comienzan con 0, este proceso puede ser observado en Figure 2. En Figure 3 se
puede observar que las p
aginas roja y naranja tienen los mayores PageRank en
ese momento de la simulaci
on.
Conclusiones
El algoritmo de PageRank en s mismo es muy completo, incluyendo las
preferencias del tipo de usuario que esta navengando en la Web, la actualizaci
on moment
anea del PageRank, etc.
Aunque en este documento no se enfatizo tanto en la forma general del
grafo generado por las paginas Web, se pudo ver la importancia de los
procesos estoc
asticos aplicados en la computacion.
Este estudio me hizo volver a estudiar las propiedades de la distribucion
estacionaria de una cadena de Markov, y ayudo a comprender las aplicaciones de este en problemas de la sociedad actual.
References
[1] L. Blanco, W. Arunachalam y Dharmaraja, Introduction to probability and Stochastic Processes, primera edicion.
[2] G. George Yin y Qing Zhang, Continuous-Time Markov Chains and
Applications, segunda edicion.
[3] Danny Sullivan, http://searchengineland.com/what-is-google-pageranka-guide-for-searchers-webmasters-11068, 2014.
[4] Klein Project, http://blog.kleinproject.org/?p=280,2014.
[5] Wikipedia, http://es.wikipedia.org/wiki/PageRank, 2014.