4
ANTONIO GARCÍA MEGÍA – DOCTOR EN FILOLOGÍA HISPÁNICA – ALMERÍA
Web personal: http://angarmegia.com Correo electrónico: angarmegia@angarmegia.com
que servían para llevar el control del ganado y la caza. De la antigüedad egipcia se
conservan documentos acerca de movimientos poblacionales y censos, todo bajo la
advocación de Safnkit, diosa de los libros y las cuentas.
Hacia el año 3000 a. C. los babilonios usaban pequeñas tablillas de arcilla para
recopilar datos tabulados sobre producción agrícola. China posee censos anteriores al
2000 a. C. En la Biblia se localizan varios recuentos de población, en el Libro de los
Números y en el Libro de las Crónicas:
Los griegos también realizan censos cuya información sirve para cobrar
impuestos. A partir del Imperio Romano los gobiernos recopilan, de forma más o menos
exhaustiva según época y talante, datos sobre población, superficie y renta de los
territorios bajo su control. En 1662 aparece el primer estudio estadístico notable de
población titulado Observations on the London Bills of Mortality. Un trabajo semejante
sobre las defunciones contabilizadas en la ciudad de Breslau (Alemania), realizado en
1691, fue utilizado por el astrónomo inglés Edmund Halley como base para la primera
tabla de mortalidad [A.H.E.P.E. 2002].
Los análisis estadísticos modernos se inician en el siglo XVII. Matemáticos
como Pierre Fermat [FERMAT, P. 1894-1912] o Blaise Pascal [PASCAL. 1819], elaboran las
primeras construcciones matemáticas probabilísticas a partir de aspectos relacionados
con los juegos de azar que servirán de base para trabajos posteriores1.
El origen de la ciencia probabilística se fija en 1654 a partir de la
correspondencia mantenida entre ambos [TURNBULL S. 1956:75-178] en torno a la
resolución del llamado “problema de los puntos”. El Cálculo de Probabilidades y la
Estadística se consolidan como disciplinas independientes entre la segunda mitad del
siglo XVII y los primeros años del siglo XVIII. Es en este siglo cuando Godofredo
Achenwall, profesor de Derecho Publico en la Universidad de Gottinga, utiliza por vez
primera el término estadística como sustantivo etimológicamente derivado de status en
1
Pueden encontrarse ediciones más modernas de estos autores. Véanse TANNERY, P. [1999] y
TORRECILLAS, J. [1999], en relación a Fermat y MARTÍNEZ, R. [1999] sobre Pascal.
5
ANTONIO GARCÍA MEGÍA – DOCTOR EN FILOLOGÍA HISPÁNICA – ALMERÍA
Web personal: http://angarmegia.com Correo electrónico: angarmegia@angarmegia.com
“E' ben noto che la conoscenza si basa sulle regole del corretto ragionamento.
Tali regole sono, o dovrebbero essere, contenute nella Logica; ma quest'ultima
tratta soltanto cose che sono certe, impossibili o completamente dubbie,
nessuna delle quali (per fortuna) ci interessa. Perciò la vera logica di questo
mondo è il calcolo delle probabilità, che tiene conto del concetto di probabilità
che è, o dovrebbe essere, nella mente di ogni uomo ragionevole”. [CERASOLI,
M. 1995:39-41].
Son ellos quienes van a constatar la existencia real de las leyes estadísticas y
contribuirán de manera fundamental a su evolución. Posteriormente Boltzmann [COHEN,
E. G. D. 1973] y Gibbs [GIBBS SYMPOSIUM. 1990] generalizan su empleo convenciendo a
los escépticos de su utilidad en contextos experimentales. Bernoulli, por ejemplo,
trabaja en la distribución que lleva su nombre y proporciona la primera solución al
problema de estimar una cantidad desconocida a partir de un conjunto de mediciones de
su valor que, por el error experimental, presentan variabilidad. Será pionero en la
aplicación del cálculo infinitesimal al cálculo de probabilidades. Maxwell y Boltzmann
desarrollan ecuaciones propias...
A los estudios sobre la lengua llega más tarde y su introducción promueve
avances considerables. Sugiere la posibilidad de establecer en el habla determinaciones
cuantitativas y dota a los investigadores de un instrumento de análisis indispensable
6
ANTONIO GARCÍA MEGÍA – DOCTOR EN FILOLOGÍA HISPÁNICA – ALMERÍA
Web personal: http://angarmegia.com Correo electrónico: angarmegia@angarmegia.com
para fijar los rasgos característicos de ciertos fenómenos lingüísticos y sus relaciones.
Permite demostrar que el lenguaje corriente responde en muchos aspectos a mecanismos
que se ajustan a reglas fijas destinadas a conseguir la correcta transmisión de
información. Esto resulta esencial para el desarrollo de la teoría de la información y los
lenguajes computacionales. Weaver [WEAVER.1949] estableció que la palabra
información en la teoría de la comunicación hace más referencia a lo que se puede decir
que a lo que efectivamente se dice2, esto es, le interesa más la situación antes de la
recepción del símbolo que el símbolo mismo.
La información es una medida de la libertad de selección cuando se escoge un
mensaje. Se pueden abordar, así, cuestiones de estilo, descubrir la longitud media y la
frecuencia de ciertas palabras o establecer la probabilidad de que aparezca una sílaba en
el seno de una lengua. Por ejemplo, en español, la información que sigue a la letra “q”
es muy limitada puesto que hay una mínima libertad de elección en lo que viene
después (casi siempre una “u”). El concepto de información se aplica no sólo a
mensajes individuales, que sería más bien sentido, sino a la situación en tanto que un
todo. Dice Zipf en 1949:
“De todos los actos de la conducta humana, solo la corriente del habla parece
constituir un continuo que, con una mínima distorsión, se puede aislar del
contexto de la conducta y, al mismo tiempo, rotular y estudiar en forma
estadística con un alto grado de exactitud”. [Zipf. 1949].
2
Aquí se tratará más adelante, al tomar el tema de la entropía lingüística.
3
Es corriente distinguir entre palabras y unidades léxicas. Una unidad léxica es una entrada única en el
diccionario, bajo la cual se agrupan varias palabras relacionadas.
7
ANTONIO GARCÍA MEGÍA – DOCTOR EN FILOLOGÍA HISPÁNICA – ALMERÍA
Web personal: http://angarmegia.com Correo electrónico: angarmegia@angarmegia.com
4
Con anterioridad a Zipf ya se había trabajado con frecuencias e incluso rangos. LÓPEZ MATEO, V.
[1998:31-38] hace una interesante reseña histórica sobre léxico-estadística que inicia en 1987 con
Kärding y su búsqueda de las palabras más usuales del alemán.
5
También se conoce como “ley de Estoup-Zipf” ya que, al parecer había sido señalada por Estoup en
1916. Zipf se habría limitado a confirmarla [MARCUS, NICOLAU y STATI. 1978:237].
8
ANTONIO GARCÍA MEGÍA – DOCTOR EN FILOLOGÍA HISPÁNICA – ALMERÍA
Web personal: http://angarmegia.com Correo electrónico: angarmegia@angarmegia.com
rxf=C
donde,
r es el orden de la palabra en la lista (rango)
f es la frecuencia
C es la constante para el texto
Tabla 1.2 – 1
Rango Frecuencia Rango x frecuencia
10 2 653 26 530
100 265 26 530
1 000 26 26 530
10 000 2 26 530
29 000 1 26 530
Esta relación es la misma que se obtiene para otros fenómenos físicos y naturales
y que recibe el nombre de ley de potencias 1/f. En este caso, hablando en términos
matemáticos, potencia -1.
De acuerdo con Zipf se puede predecir la frecuencia de una palabra partir de su
rango usando la fórmula [GALICIA HARO, S. 2000:Cap.1.3]
frecuencia = k x rango -
9
ANTONIO GARCÍA MEGÍA – DOCTOR EN FILOLOGÍA HISPÁNICA – ALMERÍA
Web personal: http://angarmegia.com Correo electrónico: angarmegia@angarmegia.com
10
ANTONIO GARCÍA MEGÍA – DOCTOR EN FILOLOGÍA HISPÁNICA – ALMERÍA
Web personal: http://angarmegia.com Correo electrónico: angarmegia@angarmegia.com
11
ANTONIO GARCÍA MEGÍA – DOCTOR EN FILOLOGÍA HISPÁNICA – ALMERÍA
Web personal: http://angarmegia.com Correo electrónico: angarmegia@angarmegia.com
“La clase de medida que se obtiene es una función de las reglas bajo las
cuales fueron asignados los números. Las operaciones y relaciones en la
obtención de puntajes; las manipulaciones y operaciones deben ser las de la
estructura numérica a la que la medición es isomórfica. [...] Las mediciones
nominales y ordinales son las realizadas más comúnmente en las ciencias de
la conducta. Los datos medidos por escalas nominales y ordinales deben
analizarse por métodos no paramétricos. Los datos medidos con escalas de
intervalo o de de proporción deben analizarse por métodos paramétricos si los
supuestos del modelo estadístico paramétrico son sostenibles”. [SIEGEL.
1983:50]
12
ANTONIO GARCÍA MEGÍA – DOCTOR EN FILOLOGÍA HISPÁNICA – ALMERÍA
Web personal: http://angarmegia.com Correo electrónico: angarmegia@angarmegia.com
Tabla 1.2 - 2
Escala Relaciones definidas Estadísticos Pruebas
apropiados apropiadas
Nominal Equivalencia Moda Pruebas
Frecuencia estadísticas no
Coeficiente de paramétricas
contingencia
Ordinal Equivalencia Mediana
De mayor a menor Percentiles
Spearman rs
Kendall r
Intervalo Equivalencia Media Pruebas
De mayor a menor Desviación estándar estadísticas
Proporción conocida de un Correlación del paramétricas y
intervalo a cualquier otro momento-producto de no
Pearson. paramétricas.
Correlación del
múltiple momento
producto
Proporci Equivalencia Media geométrica
ón De mayor a menor Coeficiente de
Proporción conocida de un variación
intervalo a cualquier otro
Proporción conocida de un
valor de la escala a
cualquier otro
13
ANTONIO GARCÍA MEGÍA – DOCTOR EN FILOLOGÍA HISPÁNICA – ALMERÍA
Web personal: http://angarmegia.com Correo electrónico: angarmegia@angarmegia.com
14