Anda di halaman 1dari 11

El siguiente trabajo tiene como objetivo dar a conocer a un mayor pblico un cierto fenmeno

aun sin explicacin, y ofrecer un conjunto de respuestas tentativas (no definitivas) a sobre por
qu este fenmeno ocurre. Debo aclarar que, a pesar de la naturaleza matemtica del trabajo,
los nmeros y proporciones provedos son aproximados y que adems, por cuestiones relativas a
las fuentes de informacin encontradas, la mayor parte de los anlisis relativos al lenguaje sern
en con ejemplos en ingls.
George Kingsley Zipf (1902-1950) fue un lingista y fillogo estadounidense, y fue tambin quien
dio a conocer el fenmeno que nos atae. La ahora llamada Ley de Zipf consiste en una
relacin relativa al uso de las palabras. Segn esta ley, la frecuencia (cantidad total de usos de
una palabra) de cualquier palabra es inversamente proporcional al rango de frecuencia (1er
palabra ms usada, 2da palabra ms usada, 3er palabra ms usada etc.) de la misma en una
tabla de frecuencia. Esto quiere decir que la segunda palabra ms usada, ser utilizada
(aproximadamente) la mitad de las veces que la primera, la tercera ser utilizada un tercio de las
veces, la cuarta una cuarta parte de las veces y as sucesivamente. En un grfico se vera algo
similar a esto:
El grafico es curvo, no lineal como requerira una relacin de
proporcionalidad inversa. Esto se debe a que dicha linealidad
aparece cuando se cambia el tipo de grfico a uno log-log,
proceso llamado linealizacin, comnmente utilizado para
analizar proporciones entre variables que en grficos linealeslineales trazan una curva.
Fuente:propio.

Un ejemplo puntual: Romeo y Julieta en grfico lineal-lineal.

Fuente: Vsauce.

La ley de Zipf no es un
fenmeno que se d solo en
el ingls, ocurre en todos
los idiomas, e incluso se
puede apreciar en textos
antiguos que no han podido
ser traducidos, como por ejemplo el manuscrito de Voynich. Aqu algunas comparaciones
teniendo en cuenta las 1000 palabras ms usadas en cada idioma (grficos log-log)

Fuente: Figshare.com

En realidad, la ley de Zipf no se da tan solo en la lingstica, sino que es aplicable a gran
cantidad

de

situaciones.

Poblacin de las ciudades, los seguidores de twitter, la cantidad de horas de juego de la


comunidad de steam

La ley de Zipf est adems relacionada con el principio de Pareto, tambin llamado regla del 8020, que sostiene que aproximadamente el 20% de las causas son responsables de
aproximadamente el 80% de los resultados. Si lo aplicaramos a la ley de zipf, podramos deducir
que aproximadamente un 20% de las palabras usadas en un corpus conformaran
aproximadamente un 80% de la extensin mismo.

Fuente: Vsauce

Por qu tanto el principio de Pareto como la ley de Zipf se dan con tanta frecuencia?
Benot Mandelbrot sugiri que, en el caso particular del lenguaje, es una cuestin de nmeros. Si
se tipea azarosamente en un teclado en un texto lo suficientemente largo, generalmente surge
un orden zipfiano. Que esto ocurre porque hay un numero exponencialmente ms grande de
palabras largas que de palabras cortas. El alfabeto podra usarse para formar 26 palabras de
una sola letra(sin contar la , ni admitir tildes), sin embargo, pueden generarse 26 2 palabras de 2
letras. Adems, en el tipeo azaroso, siempre que la barra espaciadora se presiona, una palabra
termina. Como en cada carcter introducido hay una cierta posibilidad de que este sea un
espacio, largos periodos de tiempo antes de que la barra espaciadora vuelva a ser presionada
son exponencialmente menos probables.
Si dispusiramos de un teclado con 27 teclas (las 26 letras y la barra espaciadora) donde todas
tienen las mismas chances de ser apretadas. Luego de que se haya tocado una letra cualquiera
y una palabra haya empezado, las probabilidades de que la prxima tecla en ser tocada sea la
barra espaciadora son de 1/27(3.7% aprox). Las palabras de dos letras ocurren cuando, luego de
la primer letra, cualquier tecla menos la barra espaciadora es presionada, con unas chances de
26/27 de ocurrir y entonces la barra espaciadora (1/27). Una palabra de tres letras sera la
sucesin de dos letras (luego de la que da inicio a la palabra) y entonces la barra espaciadora.

Matemticamente esto se expresara como (26/27) 2 x (1/27). Si lo dividimos por la cantidad de


palabras posibles existentes para cada longitud de palabras, obtenemos las probabilidades de
que la palabra en cuestin sea escrita. Veamos un ejemplo 1

Si ordenramos las palabras segn su rango de frecuencia en el tipeo aleatorio, recibiramos el


siguiente grfico (log-log).
Las lneas horizontales representan todas las palabras de igual extensin

El misterio est resuelto, Galileo Galilei dijo alguna vez: "Las matemticas son el lenguaje en el
que Dios escribi el universo", y pareciera ser una inevitabilidad matemtica la que rige nuestros
idiomas o no.
El tipeo azaroso es bastante diferente a un idioma normal, aunque la manera en que,
histricamente, hayamos determinado la palabra a usar para nombrar a cada cosa concebible
sea azarosa, la combinacin de dichas denominaciones para formar frases con sentido no lo es
en lo ms mnimo.
El sentido comn podra aceptar que ciertas palabras son ms usadas que otras, pero resulta

1 El experimento terico, los grficos usados para explicarlos y los resultados han sido realizados
por el equipo de Vsauce, mi aporte reside en una traduccin no literal del material original.

sorprendente que

esta relacin de

uso/desuso siga

tan a pie de letra una ley

matemtica sin

importar el idioma en

que se hable. Sin

duda el significado de

las palabras y la

formalidad de las

mismas tienen

algn efecto en la curva,

sobre todo cuando se explora la frecuencia de usos de palabras por familias en lugar de por su
desarrollo en un corpus (Steven T. Piantadosi, 2015), pero hay ciertos casos en los que la
distribucin zipfiana pareciera simplemente estar ah, sin poder explicarse. Por ejemplo al hablar
de los meses (a), los
planetas (b) o los
elementos de la
tabla periodica (c).

Fuente: Piantadosi, 2015

Incluso pareciera ser algo intrnseco a la comunicacin humana. En un


experimento se les dio la siguiente consigna a un grupo de personas:
Una nave aliengena cae en el desierto de nevada. Ocho criaturas
emergen, un Wug, un Plit, un Blicket, un Flark, un Warit, un Jupe, un
Ralex, y un Timon. En por lo menos 2000 palabras, describir qu
ocurre a continuacin. En los textos que surgieron como resultados
de este experimento, la frecuencia de utilizacin de estas palabras
nuevas fue tambin zipfiana (grfico a la izquierda)(Piantadosi, 2015).

Otra de las maneras en que se ha intentado explicar la ley de zipf es mediante lo que se conoce
como conexiones preferenciales. Estas conexiones se dan cuando algo (visitas, dinero, trabajo,
amigos, cualquier cosa) se reparte en funcin de lo que ya se posee. Ejemplos: cuando dentro de
una casa se usa un cierto camino para ir de la cocina al comedor, los muebles sern colocados
donde no interfieran con ese camino, aumentando aun ms su uso. Cuantas ms visitas, likes
o recomendaciones reciba un cierto contenido, es ms probable que este sea recomendado
automticamente, aumentando la cantidad de visitas, likes y recomendaciones. Una bola de
nieve cayendo por una montaa juntar ms nieve, lo que la har ms grande y le permitir
juntar ms nieve para crecer aun ms. Una palabra, una vez ha sido mencionada en una
conversacin, es propensa a ser repetida a la brevedad. Si se est hablando de dinosaurios,
probablemente la palabra tiranosaurio tenga ms menciones que la palabra gallina, por lo
menos hasta que la conversacin llegue a un punto crtico y tanto el tema como el lenguaje
cambien a, por ejemplo, la pregunta clsica del huevo o la gallina. Tanto las conexiones
preferenciales como los puntos crticos (en termodinmica) suelen poder representarse mediante
leyes de potencia (la ley de Zipf es una de ellas).
Mencionar ahora el ltimo de los elementos que utilizar para explicar el fenmeno de la ley de
Zipf, el principio del menor esfuerzo. El principio del menor esfuerzo es, adems de uno de los
componentes ms comunes en los regaos de una madre, una teora aplicada a gran cantidad
de campos de la ciencia, desde biologa evolutiva a diseo web (Wikipedia). Dicha teora enuncia
que todo, plantas; animales; humanos; tienden a elegir por naturaleza el camino que menor
resistencia les ofrezca al momento de realizar cualquier actividad. Las plantas tienden a buscar
el sol; los peces no tienden a nadar contracorriente; los animales tienden a vivir cerca de fuentes
de agua o alimento; los humanos tienden a escribir sobre papel o en formato digital, no a tallar
letras en losas de piedra.
Segn el propio George Zipf en su libro Human behavior and the principle of least effort , el
desarrollo del lenguaje humano est regido tambin por este principio. Sostena que, mientras se
desarrollaban los idiomas en nuestra especie, los hablantes preferan usar la menor cantidad de

palabras posibles para expresar sus ideas puesto que era ms simple, sin embargo los oyentes,
para entender ms fcilmente lo que se estaba diciendo preferan que se usara un vocabulario
ms grande, complejo y especfico. Zipf crea que de la puja de estos dos grupos surgi la
estructura actual de los idiomas, donde un grupo de palabras es usado con mucha frecuencia
mientras que una enorme mayora son apenas usadas.
Conclusiones
En realidad, no hay conclusin alguna, la ley de zipf es un misterio aun sin resolver. Es probable
que sea el resultado de una quimera entre la matemtica que sugiere Mandelbrot al momento de
crear los idiomas, las leyes que naturalmente siguen el flujo de las conversaciones como las
conexiones preferenciales y la criticalidad, la ley del mnimo esfuerzo y otros factores que se
desconozcan o que hayan sido omitidos en este trabajo. Mi objetivo no era brindar una
respuesta, sino expandir una duda.

Como comprobacin del fenmeno, dejo adjunto un anlisis de este texto, excluyendo las

fuentes y esta misma oracin.

Rango Palabra

Numero de reiteraciones Porcentaje del texto que representa

1.

de

109

6,7326%

2.

la

67

4,1384%

3.

que

53

3,2736%

4.

en

46

2,8413%

5.

el

36

2,2236%

6.

un

36

2,2236%

7.

34

2,1001%

8.

una

28

1,7295%

9.

las

26

1,6059%

10.

se

25

1,5442%

11.

los

23

1,4206%

12.

20

1,2353%

13.

ms

20

1,2353%

14.

palabras

19

1,1736%

15.

es

16

0,9883%

16.

palabra

15

0,9265%

Fuentes:
Wikipedia, artculos: George Kingsley Zipf/Frecuency distribution/Zipfs law/Vilfredo
Pareto/Principio de Pareto/Most common words in English/Conocimiento empirico/Conexin
preferencial/Preferential attachment/Power law/Ley potencial/Path of least resistance/Principle of
least effort/Punto critic (termodinmica)/Benoit Mandelbrot.

Youtube:
-Canal Vsauce, video The Zipf Mystery.
-Canal espol50, video Laboratorio de Fsica A: Grficos Log Log Sesin 3 1/3.
Paper:
-Zipf's word frequency law in natural language: a critical review and future directions, Steven T.
Piantadosi, 2015.
Grficos:
-https://brenocon.com/blog/2009/05/zipfs-law-and-world-city-populations/
-http://lusag.ca/?m=201302
-http://www.gameskinny.com/p3n16/zipfs-law-it-connects-gaming-to-everything-and-everythingto-gaming
http://figshare.com/articles/_Comparison_between_the_Zipf_scaling_and_the_comparative_therm
o_linguistic_technique_for_several_languages_/1221885

Anda mungkin juga menyukai