1º. - Est. Unidimensional Teoria

ESTADÍSTICA
DISTRIBUCIONES UNIDIMENSIONALES.
LA ESTADÍSTICA
INTRODUCCIÓN.
La Estadística se ha consolidado en nuestros días como una necesaria y potente

herramienta para el desarrollo de muchas disciplinas científicas. Sin la Estadística es
muy difícil comprender e interpretar las aportaciones de las Ciencias Sociales, la
Economía, la Biología, la Psicología, etc. Además, cada día cobra mayor importancia su
utilización en la vida cotidiana para la comprensión e investigación de diversos tipos de
procesos, y algunos de sus métodos descriptivos se han popularizado tanto que
constituyen un vehículo de comunicación habitual.
Por todo lo expuesto en el punto anterior, saber Estadística es una necesidad para
todo ciudadano, pero especialmente para un estudiante de Bachillerato, ya que tienen
valores formativos, desarrollando el pensamiento inductivo y contribuyendo a la
construcción del conocimiento empírico.
Se quiere presentar la Estadística como una herramienta básica para la

investigación experimental de cara a una especialización universitaria o profesional y, a
la vez, aportar las claves necesarias para comprender los elementos esenciales de una
investigación estadística, para prevenir ante los posibles abusos que se hacen de la
Estadística y para comprender mejor la naturaleza y el significado de los diferentes
indicadores sociales que ayudan a formar una visión fundamentada de la realidad social
en un determinado momento.
EL ORIGEN DE LA ESTADÍSTICA.
El origen de la Estadística está estrechamente relacionado con los censos
realizados a lo largo de la historia. Desde las culturas más antiguas existe una enorme
preocupación por conocer el capital humano y la distribución de los recursos.
En China, desde la dinastía Han (principios de nuestra era) hasta los tiempos
modernos se han llevado a cabo numerosos recuentos de la población.
El Imperio Romano erigió la figura del “censor”, que con el paso del tiempo fue
desempeñando una labor fundamental en el control del Imperio. La misión de los
censores romanos consistía en controlar el número de habitantes y su distribución por
los distintos territorios. El primer censo romano fue mandado realizar por el rey Servio
Tulio (578-535 a.C.).
En la Edad Media, Carlomagno (742-814 d.C.), Emperador de Occidente,

ordenó la creación de un registro de todas sus propiedades, así como de los bienes
privados. Dos siglos más tarde, Guillermo I, “El Conquistador”, (rey de Inglaterra)
elaboró un catastro, que puede ser considerado como el primero de Europa.
En España, los Reyes Católicos ordenaron el recuento de los hogares de las

provincias de Castilla a Alonso Quintanilla.
Distribuciones unidimensionales. 1
ESTADÍSTICA
En el año 1.662, el inglés John Graunt publicó un tratado con observaciones

políticas y naturales referidas a la ciudad de Londres. Puede considerarse, sin duda,
como el primer trabajo estadístico serio sobre población. Nacía una nueva ciencia: La
Estadística.
Curiosamente, John Graunt no conocía algunos trabajos realizados por Blas

Pascal (1.623-1.662) ni de C. Huygens (1.629-1.695) sobre estos mismos temas.
En 1.787, en España, se realiza bajo el reinado de Carlos III el censo de

Floridablanca.
En el siglo XVII se delimitaron claramente los conceptos relativos a las bases y

a los medios de los estudios estadísticos, formándose dos escuelas: la escuela
descriptiva alemana y la escuela de los aritméticos políticos.
La escuela alemana fue fundada por Hermann Conring (1.606-1.681) y parece

que a ella se debe el término “Estadística”.
La escuela de los aritméticos políticos fue fundada por el ya mencionado John

Graunt (1.620-1.674) y por sir William Petty (1.623-1.687). El nombre de esta escuela
proviene del título de una obra de Petty “Political Arithmetic”.
Un poco más tarde, a partir de los registros de nacimientos y fallecimientos de la

ciudad de Breslau, Edmund Halley (1.656-1.742) presentó una tabla de mortalidad que
se puede considerar como la base de los trabajos actuales contemporáneos.
A principios del siglo XIX la Estadística entró en una nueva fase de desarrollo.
Pierre Simón de Laplace (1.749-1.827) fue el pionero en hacer del cálculo de
probabilidades la herramienta fundamental del análisis estadístico. En su obra “Théorie
analytique del probabilités” (1.812) puso en evidencia las ventajas que se pueden sacar
en el estudio de fenómenos naturales, cuyas causas son demasiadas complejas para que
se puedan conocer todas y analizarlas individualmente.
Inspirándose en los trabajos de Laplace, Adolphe Quételet (1.796-1.874)

extendió el campo de aplicación del método al estudio de cualidades físicas,
intelectuales y morales de los seres humanos, elaborando así una especie de física social
según la cual estas diversas cualidades, consideradas en masa, se repartirían alrededor
de un ser ficticio, el hombre medio.
Por iniciativa de Quételet, se reunió en Bruselas, en 1.853, el I Congreso

Internacional de Estadística, precursor del actual Instituto Internacional de la
Estadística, fundado en Londres en 1.885. A partir de finales del siglo XIX los métodos
del análisis estadístico se extendieron a todos los campos de investigación científica, lo
que implicó un rápido y considerable desarrollo de la teoría estadística. Así podemos
reseñar que:
• Karl Pearson (1.857-1.936) se vio inducido a fundar la Bioestadística o

Biometría prolongada actualmente al campo de la experiencia terapéutica.
ESTADÍSTICA
• Antoine Augustin Cournot (1.801-1.877), Vilfredo Pareto (1.848-1.923) y

León Walras (1.834-1.910) unieron la observación estadística y la economía
dando lugar a la creación de la Econometría.
• James Clerk Maxwell (1.831-1.879) realizó trabajos que condujeron a la
teoría cinética de los gases y que fueron el punto de partida de la mecánica
estadística y de la física nuclear.
• Sir Ronald Aylmer Fisher (1.890-1.962) trabajó sobre la experimentación en
Agronomía usando la Estadística.
• Walter A. Shewhart (1.891-1.967) hizo investigaciones que sirvieron de base
a los métodos utilizados en la industria para el control estadístico de la
calidad y la fiabilidad.
• Charles Eduard Spearman (1.863-1.945) hizo estudios del comportamiento
de los individuos, que después facilitaron el desarrollo de la psicología
aplicada, humana y animal.
Además, hoy día, el método estadístico se ha revelado como un auxiliar

indispensable para la gestión de las empresas, estudios de mercado, control
presupuestario, gestión de los almacenamientos, así como una poderosa herramienta de
investigación científica y técnica, cuyo campo de aplicación no cesa de extenderse.
ESTADÍSTICA
DISTRIBUCIONES UNIDIMENSIONALES.
INTRODUCCIÓN.
La mayoría de las personas entienden por estadísticas los conjuntos de datos
distribuidos en tablas y representados en gráficos, que se utilizan en la publicidad,
aparecen en la prensa, en la televisión, etc.
Ahora bien, en la actualidad se entiende la estadística como un método de toma

de decisiones, de ahí que se emplee en multitud de estudios científicos de todas las
ramas del saber. Así, por ejemplo, la estadística sirve para:
¿Cómo decidir si un nuevo producto comercial tendrá éxito?.
¿Influye el IPC en la tasa de desempleo?.
¿Qué podrá pronosticar un sociólogo a partir de una encuesta sobre la

voluntad de voto?.
A partir de un estudio del crecimiento de la población de un país,

¿cómo podrá un experto en geografía humana calcular la
composición de la población del año 2.050?.
No significa esto que gracias a la estadística se pueda contestar con exactitud a

todas las preguntas; pero si se puede afirmar que mediante procedimientos de inferencia
estadística podemos responder a las cuestiones planteadas con un margen de error
prefijado.
La estadística se puede dividir en dos partes:
Estadística descriptiva o deductiva.
Estadística inferencial o inductiva.
La estadística descriptiva o deductiva trata del recuento, ordenación y

clasificación de los datos obtenidos por las observaciones. Se construyen tablas y se
representan gráficos que permiten simplificar, en gran medida, la complejidad de
todos los datos que intervienen en la distribución. Así mismo se calculan parámetros
estadísticos que caracterizan la distribución. En esta parte de la estadística no se hace
uso del cálculo de probabilidades, y únicamente se limita a realizar deducciones
directamente a partir de los datos y parámetros obtenidos.
La estadística inferencial o inductiva plantea y resuelve el problema de

establecer previsiones y conclusiones generales sobre una población a partir de los
resultados obtenidos de una muestra. Utiliza resultados deducidos de una muestra
mediante estadística descriptiva y se apoya fuertemente en el cálculo de probabilidades.
ESTADÍSTICA
POBLACIÓN Y MUESTRA.
Supongamos que la Consejería de Educación y Ciencia de la Junta de Andalucía
desea conocer en un corto período de tiempo cuáles son las preferencias, a la hora de
elegir carrera, de los alumnos matriculados de 2º de Bachillerato, en un determinado
año. Para ello deberá solicitar de todos los centros que impartan Bachillerato esta
información. Se comprende que este proceso puede resultar complicado y largo. Por
esta razón, la Consejería de Educación y Ciencia elige al azar una serie de centros de
Bachillerato de toda la Comunidad Autónoma, para que contesten a un formulario
diseñado al efecto.
El conjunto formado por todos los alumnos matriculados en 2º de Bachillerato se

llama POBLACIÓN, UNIVERSO O COLECTIVO, y el subconjunto formado por los
alumnos que contestan al formulario se llama MUESTRA.
En general:
Se llama población al conjunto de todos los elementos que cumplen una

determinada característica. Los elementos de la población se llaman individuos o
unidades estadísticas.
Se llama muestra a cualquier subconjunto de la población. El número de

elementos de una muestra se denomina tamaño de la muestra.
A la hora de seleccionar una muestra debemos tener en cuenta que, si queremos

extraer conclusiones para la población a partir de los datos obtenidos de la muestra,
tendremos que exigir que sea realmente representativa de la población. Por lo tanto, lo
primero que hemos de cuidar es la elección de la muestra.
El proceso mediante el cual se extrae una muestra representativa de la población

se conoce con el nombre de muestreo aleatorio.
En el MUESTREO ALEATORIO cada individuo de la población tiene la misma

posibilidad de ser incluido en la muestra. Las muestras así obtenidas se denominan
muestras aleatorias.
Es importante destacar que la composición de la muestra debe estar en

proporción con la composición de la población.
CARACTERES Y MODALIDADES.
Se llama carácter estadístico a una propiedad que permite clasificar a los
individuos de la población.
Se distinguen dos tipos de caracteres estadísticos: CUANTITATIVOS Y

CUALITATIVOS.
ESTADÍSTICA
Caracteres estadísticos cuantitativos son aquellos que se pueden medir.
Por ejemplo:
La talla de un individuo, el diámetro de una pieza de precisión, el número
de acciones vendidas en la Bolsa de Madrid, el cociente intelectual de un
alumno, la renta “per-cápita” en cada una de las comunidades autónomas, las
calificaciones de los alumnos de un grupo en un determinado examen, .....
Caracteres estadísticos cualitativos son aquellos que no se pueden medir.
Por ejemplo:
La profesión de una persona, el estado civil, el color de los ojos, la
carrera que piensa estudiar un alumno/a de 2º de Bachillerato, el idioma elegido
por los alumnos/as de un instituto como primera lengua extranjera, ....
Se llama modalidad de un carácter estadístico a cada una de las opciones que se

pueden establecer dentro de un mismo carácter estadístico cualitativo.
Así, son modalidades del carácter profesión las siguientes: economista,

psicólogo, ingeniero, profesor, ...
Se llama constante a un carácter que sólo tiene una modalidad única. Por
ejemplo, para los alumnos y alumnas que inician la Educación Secundaria Obligatoria
consideramos el siguiente carácter: “número de cursos que han de superar para obtener
el título de Graduado en Educación Secundaria”. Puesto que para todos los alumnos el
número de cursos es similar e igual a 4, podemos afirmar que esta característica resulta
ser una CONSTANTE, es decir, sólo presenta un único valor posible.
VARIABLE ESTADÍSTICA.
Supongamos, por ejemplo, el carácter estadístico cuantitativo “talla de los
alumnos y alumnas de 2º de Bachillerato” de este instituto. Es evidente que este carácter
toma distintos valores: 1’62 m., 1’75 m., 1’69 m., 1’78 m., .... El conjunto de estos
valores se llama VARIABLE ESTADÍSTICA talla.
Se llama variable estadística al conjunto de valores que puede tomar un

carácter estadístico cuantitativo. Las variables estadísticas se clasifican en dos tipos:
DISCRETAS Y CONTINUAS.
Se llama variable estadística discreta aquella variable estadística que puede

tomar solamente valores aislados, es decir, que puede tomar un número finito o infinito
numerable de valores.
Por ejemplo:
Número de empleados de una fábrica, número de hijos de 20 familias,
número de goles marcados en 1ª división en cada una de las jornadas de una
temporada, número de ejemplares vendidos al día de cinco diarios determinados,
....
ESTADÍSTICA
Se llama variable estadística continua aquella variable estadística que puede

tomar infinitos valores dentro de un intervalo, es decir, puede tomar (al menos
teóricamente) todos los valores posibles dentro de un cierto intervalo de la recta real.
Por ejemplo:
La talla de un individuo, el diámetro de una pieza de precisión, tiempo en
el que 20 atletas recorren los 1.000 metros, .....
FRECUENCIAS.
El concepto de frecuencia hace alusión al número de veces que se presenta un
fenómeno. En estadística, la frecuencia va referida al número de veces en que aparece
un determinado valor para un carácter. Podemos diferenciar varios tipos de frecuencias.
Frecuencia absoluta ( ni ) de un valor xi . Es el número de veces que aparece

repetido dicho valor en un conjunto de N observaciones. La suma de las frecuencias
absolutas ni para todos los valores coincide con el valor N.
Frecuencia absoluta acumulada ( N i ) de un valor xi . Es la suma de las

frecuencias absolutas que corresponden a todos los valores iguales o menores al valor
i
xi , N i = ∑ n j . La frecuencia absoluta acumulada para el valor más alto de la variable
j =1
coincide con N.
Frecuencia relativa ( fi ) de un valor xi . Es el cociente entre la frecuencia

absoluta y el tamaño de la población observada, o en su caso, de la muestra. Es decir,
n
para obtener la frecuencia relativa aplicaremos: fi = i . La frecuencia relativa también
N
recibe el nombre de proporción. La suma de las frecuencias relativas para todas los
valores resulta ser 1.
Porcentajes de un valor xi . Lo más frecuente es utilizar este la frecuencia

relativa en términos porcentuales o porcentajes, expresándola como se hace a
continuación: pi = f i ·100 . En este caso, la suma de los porcentajes para todos los
valores es de 100.
Frecuencia relativa acumulada ( Fi ) de un valor xi . Es la suma de las

i
frecuencias relativas de todos los valores iguales o menores al valor xi , Fi = ∑ f j .
j =1
También recibe la denominación de proporción acumulada. La frecuencia relativa

acumulada para el valor más alto de la variable es 1.
ESTADÍSTICA
TRATAMIENTO DE LA INFORMACIÓN.
A continuación vamos a estudiar cómo debemos proceder ordenadamente para
analizar una muestra:
1. RECOGIDA DE DATOS. Consiste en la toma de datos numéricos

procedentes de la muestra.
2. ORDENACIÓN DE LOS DATOS. Una vez recogidos los datos los
colocaremos en orden creciente o decreciente.
3. RECUENTO DE FRECUENCIAS. Efectuamos el recuento de los datos
obtenidos.
4.AGRUPACIÓN DE LOS DATOS. En el caso de que la variable sea
continua, o bien discreta pero con un número de datos muy grande, es muy
aconsejable agrupar los datos en clases. Ahora bien, ¿cuál es el número
idóneo de clases que debemos escoger a la hora de agrupar?. No existe una
contestación tajante a esta pregunta; existen incluso varios criterios para dar
respuesta a esta cuestión.
4. Con carácter muy general podemos enunciar como uno de los criterios
más sencillos el de Norcliffe, que establece que el número de clases debe ser
aproximadamente igual a la raíz cuadrada positiva del número de datos.
4. Una vez decidido el número de clases debemos escoger los límites de
clase (límite inferior, Li, y el límite superior, Ls), que, si es posible, deben
ser números redondos.
4. Es aconsejable que todas las clases tengan la misma amplitud o tamaño.
4. Al punto medio de cada clase se le llama marca de clase.
4. Con el fin de que la clasificación esté bien hecha, los intervalos se deben
construir de tal manera que el límite superior de una clase coincida con el
límite inferior de la siguiente. Y además, se suele adoptar el criterio de que
los intervalos sean cerrados por la izquierda y abiertos por la derecha.
5. CONSTRUCCIÓN DE LA TABLA ESTADÍSTICA. En la tabla deberán
figurar los valores de la variable (y en caso de que se encuentre agrupada en
clases, los límites superior e inferior, así como las marcas de clase),
frecuencias absolutas, frecuencias relativas y porcentajes. A veces es
conveniente incluir las frecuencias absolutas acumuladas y los porcentajes
acumulados.
REPRESENTACIONES GRÁFICAS.
Incluso cuando las tablas estadísticas contienen toda la información, a veces es
conveniente expresarla mediante un gráfico, con el fin de hacerla más clara y evidente.
Según sea la naturaleza del carácter estudiado utilizaremos un tipo u otro de

representación gráfica.
DIAGRAMA DE BARRAS.
Los diagramas de barras o de bastones son especialmente útiles cuando se desea

comparar datos cualitativos o datos cuantitativos de tipo discreto.
ESTADÍSTICA
Para trazarlos se representan sobre el eje de abscisas los valores de la variables,

y sobre el eje de ordenadas las frecuencias absolutas o relativas, según proceda. A
continuación, por los puntos marcados en el eje de abscisas se levantan trazos gruesos o
barras de longitud igual a la frecuencia correspondiente.
También se pueden hacer diagramas de barras de frecuencias absolutas

acumuladas o de frecuencias relativas acumuladas.
POLÍGONO DE FRECUENCIAS.
Los polígonos de frecuencias se forman uniendo los extremos de las barras

mediante una línea quebrada. Así pues, primero se traza el diagrama de barras
correspondiente y, sobre él, el polígono de frecuencias.
HISTOGRAMA.
Los histogramas se utilizan generalmente para distribuciones de variable

estadística continua, o bien, para distribuciones de variable estadística discreta con un
gran número de datos que se han agrupados en clases.
Generalmente se acostumbra a agrupar los datos obtenidos en intervalos de igual

amplitud.
Para construir el histograma se representan sobre el eje de abscisas los límites de

las clases. Sobre dicho eje se construyen unos rectángulos que tienen por base la
amplitud del intervalo y por altura la frecuencia absoluta de cada intervalo, siempre que
todos los intervalos tengan igual amplitud. En caso contrario, las alturas de los
rectángulos han de ser calculadas teniendo en cuenta que sus áreas deben ser
proporcionales a las frecuencias de cada intervalo.
DIAGRAMA DE SECTORES.
Los diagramas de sectores representan las distintas modalidades de un carácter

mediante sectores circulares. El ángulo central de cada sector ha de ser proporcional a la
frecuencia absoluta correspondiente; en consecuencia, el área del sector circular será
proporcional a la frecuencia absoluta.
PICTOGRAMA.
Los pictogramas son dibujos alusivos a la distribución que se pretende estudiar y

que mediante su forma, tamaño, etc. ofrecen una descripción lo más expresiva posible
de la distribución.
CARTOGRAMA.
Los cartogramas son las gráficas que se realizan sobre un mapa, señalando sobre
determinadas zonas con distintos colores o rayados lo que se trate de poner de
manifiesto. Por ejemplo, se suelen utilizar estos tipos de diagramas para representar la
densidad demográfica de una nación, la renta per-cápita, las horas de Sol anuales sobre
una determinada parte de la Tierra, los índices de lluvia de una nación, etc.
ESTADÍSTICA
DIAGRAMA LINEAL.
Los diagramas lineales son muy utilizados para mostrar las fluctuaciones de un
determinado carácter estadístico con el paso del tiempo.
Lo que interesa en este tipo de diagramas es la altura de la línea referida a la

base del diagrama. Con frecuencia se aprovecha para representar sobre la misma escala
varios diagramas lineales y así poder comparar.
PIRÁMIDES DE POBLACIÓN.
Las pirámides de población se utilizan para estudiar de forma conjunta la

variable edad y el atributo sexo.
La gráfica se obtiene representando en la ordenada el grupo de edad y en la

abscisa el sexo. Para la modalidad mujer se suele tomar el semieje positivo y para la
modalidad hombre el semieje negativo.
En la pirámide de población es posible analizar la distribución de la población

por edad y sexo, deducir las vicisitudes sufridas (guerras, catástrofes, etc.), conocer el
comportamiento demográfico (control o no de la natalidad), conocer el desarrollo de la
población, etc. Así mismo, permite realizar previsiones sobre el futuro.
Según la forma de la pirámide de población se puede deducir si se trata de una

población eminentemente joven, madura o vieja. A continuación se representan tres
ejemplos de pirámides de población que responden a cada uno de estos casos:
POBLACIÓN JOVEN POBLACIÓN MADURA POBLACIÓN VIEJA
DIAGRAMA DE TALLOS Y HOJAS.
El diagrama de tallos y hojas es un procedimiento semigráfico de presentar la

información correspondiente a caracteres cuantitativos. Los datos observados se
representan tabularmente localizando cada observación en un árbol de dos niveles,
cuyos tallos se representan verticalmente y sus hojas horizontalmente.
Los pasos para su construcción son los siguientes:
1. Redondear los datos a dos o tres cifras significativas, dependiendo de su rango

de variación. Para ello, si es necesario, expresarlos en las unidades convenientes.
2. Suprimir la última cifra significativa de cada dato, ordenar crecientemente los
valores obtenidos y eliminar las repeticiones. Los valores resultantes definen las
clases de agrupamiento y forman los tallos del diagrama que se escriben en una
ESTADÍSTICA
columna. A continuación, a la derecha de los tallos, se traza una raya vertical

que servirá de separación entre los tallos y las hojas.
3. Cada dato se anota, en la fila correspondiente al tallo que definen sus primeras
cifras, escribiendo únicamente su última cifra. Estas cifras forman las hojas del
diagrama y el número de hojas de cada tallo representa entonces la frecuencia
absoluta de la correspondiente clase.
Una característica fundamental por la que es superior el diagrama de tallos y

hojas a la agrupación tradicional por intervalos es que la condensación de la
información respecto a los datos originales es completamente reversible. Otra ventaja es
que proporciona las características esenciales de un histograma, como puede
comprobarse fácilmente girando el diagrama 90 grados. Su principal inconveniente es
que llega a hacerse pesado si el número de observaciones o su rango de variación es
grande.
PROPIEDADES DE LAS DISTRIBUCIONES DE FRECUENCIAS.

Es frecuente tener que comparar distribuciones de frecuencias para llegar a
ciertas conclusiones descriptivas. Tales comparaciones se hacen en virtud de las
mayores o menores diferencias que observamos en las distribuciones. A tal fin,
conviene conocer algunas propiedades que las caracterizan, para, a través de ellas,
poderlas diferenciar. Pasamos a resumirlas, aunque posteriormente serán desarrolladas.
Estas propiedades son: la tendencia central, la variabilidad, el sesgo o asimetría y la
curtosis o apuntamiento.
1. Tendencia central.- Es un valor de la variable situado hacia el centro de la

distribución de frecuencias. En general, a todo valor de tendencia central se le
denomina promedio o medida de posición, porque es síntesis de los valores de la
variable en la distribución e indica la posición de las muestras en el eje de la
variable.
2. Variabilidad.- Es una medida del grado de concentración de las observaciones en

torno al promedio. Una distribución de frecuencias será homogénea o poco variable
si los datos difieren poco entre sí y, por tanto, se agolpan en torno a su promedio.
Será heterogénea o muy variable si los datos se dispersan mucho en torno al
promedio.
3. Sesgo.- Se refiere al grado de simetría o asimetría de la distribución de frecuencias.

Si hay muchas frecuencias en los valores altos de la variable y pocas en los valores
bajos, se dice que la distribución es asimétrica negativa. Si hay muchas frecuencias
en los valores bajos de la variable y pocas en los valores altos, se dice que la
distribución es asimétrica positiva.
4. Curtosis.- Se refiere al grado de apuntamiento de la distribución de frecuencias. Si

es muy apuntada se llama leptocúrtica, y si es muy aplastada se llama platicúrtica.
Generalmente el grado de curtosis de una distribución se compara con un modelo de
distribución llamado “distribución normal”, que respecto a la curtosis se llama
mesocúrtica.
ESTADÍSTICA
Representaremos gráficamente todo lo expuesto:
1.
Las tres distribuciones son prácticamente idénticas en forma, sin embargo

difieren en sus promedios. La distribución C tiene un promedio mayor que la
distribución B, y ésta mayor que la distribución A.
2.
Las tres distribuciones tienen distintos promedios y quizás distinta variabilidad,

pero además difieren en cuanto al sesgo. La distribución B es simétrica respecto al
promedio, es decir, si la doblamos por el promedio las dos partes coinciden. Las
distribuciones A y C son asimétricas, pues ambas partes no coinciden. La distribución A
es asimétrica positiva y la distribución C es asimétrica negativa.
3.
Las tres distribuciones presentan los datos concentrados en torno al mismo

promedio, pero difieren en la variabilidad. La distribución A es la más homogénea y la
C la más variable.
ESTADÍSTICA
4.
Si B representa la distribución normal o mesocúrtica, A será leptocúrtica y C

será platicúrtica. La C será la que tenga más valores por los extremos y la A la que
menos tenga, a pesar de tener el mismo promedio.
MEDIDAS DE CENTRALIZACIÓN.
MEDIA ARITMÉTICA.
DEFINICIÓN.
Se llama media aritmética de una variable estadística a la suma de todos los

valores de dicha variable dividido por el número de valores.
La media aritmética de la variable X se representa por x .
CÁLCULO DE LA MEDIA ARITMÉTICA.
Sea X una variable discreta que toma los valores x1 , x2 , x3 ,...., xk , con frecuencias
absolutas n1 , n2 , n3 ,...., nk , respectivamente, donde n1 + n2 + n3 + .... + nk = N . La media
aritmética de la variable X viene dada por la expresión:
∑ x ·n i i
x= i =1
Si la variable X es continua, o aún siendo discreta, y por tratarse de muchos

datos se encuentran agrupados en clases, se toman como los valores x1 , x2 , x3 ,...., xk , las
marcas de clase.
PROPIEDADES DE LA MEDIA ARITMÉTICA.
1. Si sumamos a todos los valores una constante “a”, la media aritmética queda
incrementada en esa constante. Si multiplicamos todos los valores por una
constante “b”, la media aritmética queda multiplicada por esa misma constante.
En definitiva, si se hace una transformación lineal en la variable, la media
aritmética queda transformada de igual manera.
ESTADÍSTICA
Si llamamos y i = a + b · xi , tenemos que: y = a + b · x .
Demostración:
k k k
y = ∑ (a + b · xi )· f i = a · ∑ f i + b · ∑ xi · f i = a + b · x
i =1 i =1 i =1
La media es, en consecuencia, sensible tanto a cambios en el origen de

coordenadas como en la unidad de medida de la escala.
2. Si dividimos la población en “p” subpoblaciones con n1 , n2 , n3 , ...., n p

unidades estadísticas cada una, tenemos que la media aritmética se puede hallar
haciendo la media ponderada de las medias correspondientes a las “p”
subpoblaciones. Es decir:
n1 · x1 + n2 · x 2 + n3 · x3 + .... + n p · x p
x=
n1 + n2 + n3 + .... + n p
Demostración:
p
 ni  p
 ni 
n1 · x1 + n2 · x 2 + n3 · x3 + .... + n p · x p
∑ n i ∑ nj · x j 
·   ∑ ∑nj ·x j 
 
=
i =1  j =1 = i =1  j =1 =x
n1 + n2 + n3 + .... + n p N N
OBSERVACIONES:
1. La media aritmética es la medida o parámetro de centralización que más se

utiliza.
2. Presenta la ventaja de tener en cuenta todos los datos de la distribución,
además de resultar muy sencillo su cálculo.
3. Tiene el grave inconveniente de que si la distribución posee valores
extremos, excepcionalmente raros y poco significativos, estos producen una
distorsión sobre el valor de la media, alterando el significado de ésta.
4. No siempre es posible realizar el cálculo de la media aritmética. Por ejemplo:
• Si los datos de la distribución son cualitativos.
• Si los datos de la distribución se encuentran agrupados en clases,
estando alguna de ellas abierta.
En estos casos en los que no es posible calcular la media, se utilizan

otras medidas o parámetros de centralización, como por ejemplo, la moda
y la mediana.
ESTADÍSTICA
MEDIA GEOMÉTRICA.
DEFINICIÓN.
Se llama media geométrica de una variable estadística a la raíz N-ésima del

producto de todos los valores de dicha variable.
La media geométrica se representa por G.
CÁLCULO DE LA MEDIA GEOMÉTRICA.
geométrica de la variable X viene dada por la expresión:
k
G = N ∏ xi
ni
i =1

marcas de clase.
PROPIEDAD DE LA MEDIA GEOMÉTRICA.
Si multiplicamos todos los valores por una constante “b”, la media geométrica
queda multiplicada por esa misma constante. Si elevamos todos los valores a una
constante positiva “c” la media geométrica queda elevada a esa constante. En
conclusión, si se hace una transformación potencial en la variable, la media
geométrica queda transformada de igual manera.
c c
Si llamamos: y i = b · xi , tenemos que: GY = b· G X
Demostración:
 ∑ ni  k
k
c
( )  
k k

GY = N ∏ y i = N ∏ b · xi  ·  ∏ xi
ni c ni ni c
= N  b i =1  = b · G X
i =1 i =1   i =1 
 
OBSERVACIONES:
1. Esta medida de posición sólo es válida si todos los valores observados son
mayores que cero.
2. En la práctica se suelen tomar logaritmos para calcular la media geométrica,
ya que el logaritmo de G es la media aritmética de los logaritmos de los
valores de la variable.
ESTADÍSTICA
MEDIA ARMÓNICA.
DEFINICIÓN.
Se llama media armónica de una variable estadística al inverso de la media

aritmética de los inversos de los valores de dicha variable.
La media geométrica se representa por H.
CÁLCULO DE LA MEDIA ARMÓNICA.
armónica de la variable X viene dada por la expresión:
N
H= k
1
∑
i =1 x i
· ni

marcas de clase.
PROPIEDAD DE LA MEDIA ARMÓNICA.
Si multiplicamos todos los valores por una constante “b”, la media armónica
queda multiplicada por esa misma constante.
Si llamamos: y i = b · xi , tenemos que: H Y = b · H X .
Demostración:
N N N ·b
HY = k
= k
= k
= b· H X
1 1 1
∑
i =1 yi
· ni ∑
i =1 b · x i
· ni ∑
i =1 x i
· ni
OBSERVACIONES:
1. Esta medida de posición sólo es válida si todos los valores observados son
distintos de cero.
2. Su cálculo se puede simplificar hallando la media aritmética de los valores
inversos de la variable y calcular el inverso de ésta.
ESTADÍSTICA
COMPARACIÓN DE LAS TRES MEDIAS.

Cuando se obtienen las tres medias para el mismo conjunto de datos de una
variable se puede demostrar (como veremos en un ejercicio) que siempre resulta que:
H ≤G≤ x
Las tres medias son valores que representan al conjunto del colectivo pero de
forma diferente. Cada una de ellas tiene propiedades distintas, ventajas e inconvenientes
respecto de las otras dos, y situaciones en las que son claramente preferibles. Las tres
tienen unas propiedades comunes importantes: utilizan todos los valores observados y
son únicas para cualquier distribución.
La media aritmética tiene las ventajas, cómo más adelante se probará, de ser el
centro de gravedad de los datos y de hacer mínima la media cuadrática de las
desviaciones. La contrapartida es el gran inconveniente de ser muy sensible a la
existencia de valores extremos en los datos observados.
La ventaja de la media geométrica es que no es tan sensible a los valores

extremos, y en algunos casos es la medida más apropiada, como cuando se quiere
promediar variaciones acumulativas (tasas de crecimiento, tasa de inflación, cálculo de
tipos de interés,....). En estos casos la media aritmética da una medición errónea del
valor medio. Los inconvenientes son que es una medida menos intuitiva que la media
aritmética, tiene un cómputo complejo y puede quedar sin sentido si algún valor es
menor o igual que cero.
La media armónica tiene algunas aplicaciones específicas como al cálculo de

promedios de velocidades, tiempos o rendimientos, pero tiene el inconveniente de que
puede ser muy sensible a valores muy pequeños y no queda definido si algún dato de la
variable es igual a cero.
MODA.
DEFINICIÓN.
Se llama moda de una variable estadística al valor de dicha variable que

presenta mayor frecuencia absoluta.
La moda se representa por M O .
La moda no tiene por qué ser única, puede haber varios valores de la variable
con la mayor frecuencia. En este caso se dirá que la distribución es bimodal, trimodal,
etc., según que sean 2, 3, etc., los valores de la variable que presentan mayor frecuencia.
CÁLCULO DE LA MODA.
Como consecuencia de la definición, el cálculo de la moda resulta muy sencillo

en los casos de datos simples y agrupados. Ahora bien, en el caso de datos agrupados en
ESTADÍSTICA
intervalos es fácil determinar la clase modal (clase con mayor frecuencia), pero el valor
dentro del intervalo que se presume tenga mayor frecuencia se obtiene a partir de la
siguiente expresión:
D1
M O = Li + ci ·
D1 + D2
donde:
Li , es el límite inferior de la clase modal.
ci , es la amplitud del intervalo modal.
D1 , es la diferencia entre la frecuencia absoluta de la clase modal
y la frecuencia absoluta de la clase anterior.
D2 , es la diferencia entre la frecuencia absoluta de la clase modal
y la frecuencia absoluta de la clase siguiente.
CÁLCULO DE LA MODA POR EL MÉTODO GRÁFICO.
Para las distribuciones cuyos datos se encuentran clasificados en intervalos

existe un método gráfico que permite obtener la moda con cierta aproximación. Para
ello se representa el histograma de frecuencias absolutas, a ser posible sobre papel
milimetrado con el fin de poder obtener una mayor precisión.
Seguidamente se unen con líneas los extremos de la clase modal con las
contiguas como en el diagrama adjunto. La moda M O viene dada por la abscisa del
punto de corte.
Mo
ESTADÍSTICA
OBSERVACIONES:
1. Puede que existan distribuciones que no tengan moda; eso ocurre cuando las
frecuencias de todos los datos son iguales.
2. La moda es menos representativa que la media aritmética, pero en algunos
ocasiones es más útil que ésta; por ejemplo, cuando se trata de datos
cualitativos.
3. En la moda no intervienen todos los datos de la distribución.
4. Aun cuando la moda se considera una medida o parámetro de centralización,
no siempre tiene por qué situarse en la zona central; es frecuente encontrar la
moda próxima a los valores extremos de la distribución.
5. La moda representa el valor dominante de la distribución; así, por ejemplo,
en unas elecciones la moda es el partido más votado.
6. En el caso de datos agrupados por intervalos, el valor de la moda depende de
la amplitud, el número y los límites para los intervalos.
MEDIANA.
DEFINICIÓN.
Se llama mediana de una variable estadística a un valor de la variable, tal que el

numero de observaciones menores que él es igual al número de observaciones mayores
que él.
Se notará que el número de datos que preceden a la mediana es igual al número

de datos que la siguen.
La mediana de una variable se representa por M.
CÁLCULO DE LA MEDIANA.
Variable estadística discreta. Datos simples.
En este caso se ordenan los datos de menor a mayor y la mediana será el término
o valor central.
Si el número de datos es impar, el valor central de la variable es único.

Si el número de datos es par no existe término central, sino dos términos
centrales, y por ello se dice que hay dos medianas, que son los dos
valores centrales. No obstante, se suele tomar como mediana la
semisuma de los dos valores centrales aunque dicho valor no pertenezca
al conjunto de datos.
Variable estadística discreta. Datos agrupados.
Para calcular la mediana se forma la tabla estadística, calculando las frecuencias

absolutas acumuladas.
ESTADÍSTICA
La mediana viene dada por el primer valor de la variable cuya frecuencia

absoluta acumulada excede a la mitad del número de datos.
En el caso de que la mitad del número de datos coincida con la frecuencia

absoluta acumulada correspondiente a un valor, la mediana es la semisuma entre ese
valor y el siguiente de la tabla.
Variable estadística continua.
En este caso, de forma análoga a lo hecho en el punto anterior, resulta fácil

detectar cuál es la clase mediana (donde se alcanza la mitad de los datos), pero para
obtener el valor concreto de la variable que deja a su izquierda igual número de datos
que a su derecha, aplicaremos la siguiente expresión:
N
− N i −1
M = Li + ci · 2
ni
donde:
Li , es el límite inferior de la clase mediana.

ci , es la amplitud del intervalo.
N, es el número de datos.
N i −1 , es la frecuencia absoluta acumulada de la clase anterior a la
clase mediana.
ni , es la frecuencia absoluta de la clase mediana.
OBSERVACIONES:
1. La mediana es particularmente útil en los siguientes casos:

a. Cuando entre los datos existe alguno ostensiblemente extremo que, como
hemos visto, afecta a la media.
b. Cuando los datos están agrupados en clases y alguna de ellas es abierta.
2. Como consecuencia de la definición de mediana, se tiene que el 50% de los
datos son menores o iguales y el 50% restante son mayores o iguales.
3. La mediana es el primer parámetro de centralización que depende del orden
de los datos y no de su valor.
4. Geométricamente, y para distribuciones que se pueden representar mediante
un histograma de frecuencias, la mediana es un valor de la variable, tal que
la vertical levantada sobre el mismo divide al histograma en dos partes de
igual área.
5. La mediana es una medida de tendencia central más recomendable que la
media cuando la distribución de frecuencias es muy asimétrica.
6. En el caso de datos agrupados por intervalos, la mediana dependerá de los
intervalos elegidos, de su amplitud, su número y los límites fijados.
7. La mediana se ve menos afectada que la media por la variación de cada una
de las puntuaciones. A veces puede ocurrir que la variación de uno de los
datos haga variar la mediana, pero la variación aleatoria de una gran parte de
ellos puede dejarla invariante.
ESTADÍSTICA
RELACIÓN ENTRE MEDIA ARITMÉTICA, MODA Y MEDIANA.

Si al construir el polígono de frecuencias se observa que la distribución es
simétrica o ligeramente asimétrica es posible comprobar experimentalmente la siguiente
relación:
Media − Moda = 3· ( Media − Mediana )
Gracias a esta relación se puede obtener, con cierto error, alguno de estos
parámetros en función de los otros, siempre y cuando se compruebe que la distribución
es simétrica o ligeramente asimétrica.
MEDIDAS DE POSICIÓN.
Al estudiar la mediana hemos visto que, una vez ordenados de menor a mayor
los datos de la distribución, la mediana divide a éstos en dos partes iguales.
Análogamente tiene interés estudiar otros parámetros que dividan a los datos de la
distribución en función de otras cuantías. Estos parámetros se conocen como cuantiles,
medidas de posición o parámetros de estructura, ya que nos proporcionan información
acerca de la estructura o distribución interna de los datos. Los más importantes son los
cuartiles, quintiles, deciles y percentiles.
CUARTILES.
Se llama cuartiles a tres valores que dividen a la serie de datos en cuatro partes
iguales. Se representan por Q1 , Q2 y Q3 , y se designan cuartil primero, segundo y
tercero, respectivamente.
QUINTILES.
Se llama quintiles a cuatro valores que dividen a la serie de datos en cinco
partes iguales. Se representan por K1 , K 2 , K 3 y K 4 , y se designan quintil primero,
segundo, tercero y cuarto, respectivamente.
DECILES.
Se llama deciles a nueve valores que dividen a la serie de datos en diez partes
iguales. Se representan por D1 , D2 , D3 ,..... y D9 , y se designan decil primero,
segundo, tercero ..... y noveno, respectivamente.
ESTADÍSTICA
PERCENTILES.
Se llama percentiles a 99 valores que dividen a la serie de datos en cien partes
iguales. Se representan por P1 , P2 , P3 ,..... y P99 , y se designan percentil primero,
segundo, tercero ..... y nonagésimo noveno, respectivamente.
Obsérvese que la mediana coincide con el cuartil segundo, el decil quinto y el

percentil de orden 50: M = Q2 = D5 = P50 .
CÁLCULO DE LAS MEDIDAS DE POSICIÓN.
El cálculo de las medidas de posición o cuantiles se hace de forma análoga a la

determinación de la mediana.
Las fórmulas quedarían como siguen:
m·N
− N i −1
Cálculo de los cuartiles: Qm = Li + ci · 4
ni
m·N
− N i −1
Cálculo de los quintiles: K m = Li + ci · 5
ni
m·N
− N i −1
Cálculo de los deciles: Dm = Li + ci · 10
ni
m· N
− N i −1
Cálculo de los percentiles: Pm = Li + ci · 100
ni
donde:
Li , es el límite inferior del cuantil correspondiente.

ci , es la amplitud del intervalo del cuantil.
N, es el número de datos.
N i −1 , es la frecuencia absoluta acumulada de la clase anterior a la
clase del cuantil correspondiente.
ni , es la frecuencia absoluta de la clase del cuantil
correspondiente.
ESTADÍSTICA
CÁLCULO GRÁFICO DE LOS CUANTILES.
Para calcular gráficamente los cuantiles de una distribución existe un método

muy sencillo que consiste en representar el polígono de absolutas acumuladas, situando
en el eje X los valores de la variables (si es discreta), o los intervalos (si es continua), y
en el eje Y los porcentajes correspondientes. Conviene realizar la representación sobre
papel milimetrado, para obtener una mejor precisión.
Para obtener el cuantil de que se trate, se traza una paralela al eje X por el punto
correspondiente al cuantil deseado. Ésta corta al polígono de frecuencias en un punto.
Por este punto de corte se traza una paralela al eje Y, que corta al eje X en el punto
buscado. Evidentemente, este método es aplicable para el cálculo gráfico de la mediana.
MEDIDAS DE DISPERSIÓN.
RANGO O RECORRIDO.
DEFINICIÓN.
Se llama recorrido o rango de una distribución a la diferencia entre el mayor y

el menor valor de la variable estadística.
OBSERVACIONES:
1. Cuanto menor es el recorrido de una distribución mayor es el grado de

representatividad de los valores centrales.
2. El recorrido tiene la ventaja de su sencillez de cálculo.
3. Tiene gran aplicación en procesos de control de calidad, y de una manera
general, en aquellos procesos que se pretende verificar longitudes, pesos,
volúmenes, estando prefijados de antemano los límites permitidos.
4. El recorrido presenta el inconveniente de que sólo depende de los valores
extremos. De esta forma basta con que uno de ellos se separe mucho, para
que el recorrido se vea ostensiblemente afectado.
RANGO INTERCUARTÍLICO.
DEFINICIÓN.
Se llama rango intercuartílico o desviación intercuartílica de una distribución

a la diferencia entre el tercer y el primer cuartil.
La desviación intercuartílica la representaremos por Q.
CÁLCULO DEL RANGO INTERCUARTÍLICO.
El cálculo del rango intercuartílico se hace mediante la expresión: Q = Q3 − Q1 .
ESTADÍSTICA
OBSERVACIONES:
1. El rango intercuartílico palia en alguna medida la dependencia del recorrido

respecto de los valores extremos.
2. El rango intercuartílico indica el campo de variabilidad en el que se incluye
el 50% de los individuos, de donde se excluyen el 25% con los valores más
altos y el 25% con los valores más bajos de la variable.
RANGO ENTRE PERCENTILES.

DEFINICIÓN.
Se llama rango entre percentiles de una distribución a la diferencia entre el

percentil nonagésimo y el percentil décimo.
El rango entre percentiles lo representaremos por P.
CÁLCULO DEL RANGO ENTRE PERCENTILES.
El cálculo del rango entre percentiles se hace mediante expresión: P = P99 − P1 .
DESVIACIONES RESPECTO A LA MEDIA ARITMÉTICA.

DEFINICIÓN.
Se llama desviaciones respecto a la media a las diferencias entre cada valor de

la variable y la media.
CÁLCULO DE LAS DESVIACIONES RESPECTO A LA MEDIA

ARITMÉTICA.
Dada una variable estadística X que toma los valores x1 , x2 , x3 ,...., xk , con media
aritmética, x , las desviaciones respecto a la media son:
x1 − x, x2 − x, x3 − x, ...., xk − x
PROPIEDADES DE LAS DESVIACIONES RESPECTO A LA MEDIA

ARITMÉTICA.
1. La media aritmética de las desviaciones respecto a la media aritmética es

cero.
Demostración:
∑( )
k k k
xi − x · ni ∑ xi · ni ∑n i
i =1
= i =1
− x· i =1
= x− x = 0.
N N N
ESTADÍSTICA
2. La media aritmética de desviaciones al cuadrado respecto a una constante k

cualquiera es mínima cuando k = x .
Demostración:
∑ ( x − x ) − ( k − x )
k k 2
∑ ( xi − k )
2
· ni i · ni
i =1
= i =1
=
N N
∑ ( x − x) ( ) ( )
k 2 k 2 k
i · ni + ∑ k − x · ni − 2· ∑ ( xi − k ) · xi − x · ni
= i =1 i =1 i =1
=
N
∑ ( x − x) ( ) ( )
k 2 2 k k
i · ni + k − x · ∑ ni − 2· ( xi − k )· ∑ xi − x · ni
= i =1 i =1 i =1
=*
N
∑n i
Utilizando la propiedad anterior y que i =1
= 1 , tenemos que:
N
∑ ( x − x)
k k 2
∑ ( xi − k )
2
· ni i · ni
( )
2
i =1
= i =1
+ k−x
N N
expresión que es mínima cuando el segundo sumando es cero, es decir,

cuando k = x .
DESVIACIÓN MEDIA.
DEFINICIÓN.
Se llama desviación media a la media de las desviaciones respecto a la media

aritmética en valor absoluto.
La desviación media se representa por D.M.
CÁLCULO DE LA DESVIACIÓN MEDIA.
El proceso de obtención de la desviación media de un grupo de N valores de una

variable seguiría los siguientes pasos:
Calcular la media aritmética.

Restar la media aritmética a todos y cada uno de los valores de la
variable.
Sumar estas diferencias en valores absolutos.
Dividir el resultado anterior entre el número total de datos.
ESTADÍSTICA
O lo que es lo mismo.....
Dada una variable discreta, X, que toma los valores x1 , x2 , x3 ,...., xk , con
frecuencias absolutas n1 , n2 , n3 ,...., nk , respectivamente, donde n1 + n2 + n3 + .... + nk = N .
La desviación media de la variable X viene dada por la expresión:
∑ x − x ·n i i
D.M . = i =1

marcas de clase.
VARIANZA.
DEFINICIÓN.
Se llama varianza de una variable a la media aritmética de los cuadrados de las

desviaciones respecto a la media.
La varianza se representa por σ 2 o s 2 .
CÁLCULO DE LA VARIANZA.
Sea X una variable estadística que toma los valores x1 , x2 , x3 ,...., xk , con
La varianza viene dada entonces por la siguiente expresión:
∑ ( x − x)
k 2
i · ni
s =
2 i =1

marcas de clase.
Para simplificar los cálculos que implica la fórmula anterior, proponemos otra
expresión equivalente a ella en la que éstos se simplifican:
∑x i
2
· ni
2
s =
2 i =1
−x
N
ESTADÍSTICA
DESVIACIÓN TÍPICA.
DEFINICIÓN.
Se llama desviación típica de una variable a la raíz cuadrada positiva de la

varianza.
La desviación típica se representa por s.
OBSERVACIONES:
1. Tanto la varianza como la desviación típica dependen de todos los valores de

la distribución así como de la media.
2. En los casos en los que no sea posible calcular la media aritmética, no será
posible tampoco obtener la varianza y la desviación típica, por ser funciones
de la media aritmética.
3. La varianza tiene el inconveniente de que no viene expresada en las mismas
unidades que los datos, debido a que las desviaciones van elevadas al
cuadrado. Así, por ejemplo, si los datos son metros, la varianza vendrá dada
en metros cuadrados. En cambio, la desviación típica viene expresada en las
mismas unidades que los datos de la distribución, de ahí que la desviación
típica resulte más interesante que la varianza.
PROPIEDADES DE LA VARIANZA Y DE LA DESVIACIÓN TÍPICA.
1. La varianza y la desviación típica siempre son positivas: s 2 ≥ 0, s ≥ 0 . La

varianza y la desviación típica solamente pueden ser igual a cero si todos los
individuos son iguales al promedio y, naturalmente, iguales entre sí.
2. La varianza es una media cuadrática de dispersión óptima.
Demostración:
La segunda propiedad de las desviaciones respecto a la media aritmética, decía:
∑ ( x − x)
k k 2
∑(x − k )
2
i · ni i · ni
( )
2
i =1
= i =1
+ k − x , para cualquier valor de k, de donde:
N N
∑ ( x − x)
k k 2
∑(x − k)
2
i · ni i · ni
i =1
≥ i =1
= s2
N N
3. Si sumamos a todos los valores una constante “a”, no se modifica la varianza

ni la desviación típica de la variable. Si multiplicamos todos los valores por una
constante “b”, la varianza queda multiplicada por “ b 2 ” y, consecuentemente, la
desviación típica por el valor absoluto de “b”.
Si llamamos: yi = a + b · xi ⇒ s y 2 = b 2 · sx 2 , s y = b · sx .
ESTADÍSTICA
Demostración:
( ) ( ( )) · f = ∑ (b · x − b · x ) · f
k 2 k 2 k 2
s y 2 = ∑ yi − y · f i =∑ ( a + b · xi ) − a + b · x i i i =
i =1 i =1 i =1
( ) ( )
k 2 k 2
= ∑ b 2 · xi − x · fi =b 2 · ∑ xi − x · f i =b 2 · sx 2
i =1 i =1
Si a todos los individuos se les suma la misma cantidad, la dispersión del

conjunto no cambia, no es sensible al cambio de origen. Sin embargo si es
sensible al cambio de escala.
UTILIZACIÓN CONJUNTA DE LA MEDIA ARITMÉTICA Y LA

DESVIACIÓN TÍPICA.
Sabemos que la media aritmética de un conjunto de datos se encuentra,
aproximadamente, hacia el centro de la distribución. La desviación típica nos informa
sobre la dispersión que tienen los datos respecto a la media.
Utilizando ambos parámetros conjuntamente podemos obtener resultados muy

importantes sobre la distribución.
Así, por ejemplo, en las distribuciones unimodales, simétricas o ligeramente

asimétricas, se verifica que:
1. En el intervalo ( x − s , x + s ) se encuentra el 68% de los datos.

( )
2. En el intervalo x − 2s , x + 2s se encuentra el 95% de los datos.
( )
3. En el intervalo x − 3s , x + 3s se encuentra el 99% de los datos.
Estos resultados son consecuencia de lo que en estadística matemática se conoce

con el nombre de desigualdad de Tchebicheff.
DESIGUALDAD DE TCHEBICHEFF.
Si un conjunto de datos estadísticos x1 , x2 , x3 ,...., xk , tienen una varianza

pequeña no pueden existir muchos valores alejados de la media.
Consideremos el conjunto de datos x1 , x2 , x3 ,...., xk , distribuidos a lo largo de la

recta real, como indica la figura siguiente (las alturas son proporcionales a las
frecuencias de datos). Calculamos la media, x , y la desviación típica, s. Con centro en
el punto x , consideramos un intervalo de radio r = s · t , siendo “t” un número real
cualquiera.
ESTADÍSTICA
x − s ·t x x + s ·t
(
Un intervalo tal como x − s · t , x + s · t contiene todos los números reales “x” )
tales que: x − s · t < x < x + s · t .
∑ ( x − x)
k 2
i · ni
Sabemos que: s = 2 i =1
.
N
Esta suma podemos descomponerla en dos sumas de la forma siguiente:
k1 k2
∑( ) ∑( ) ∑ ( x − x)
k 2 2 2
xi − x · ni xi − x · ni i · ni
s =
2 i =1
= i =1
+ i =1
N N N
xi dentro del int. xi fuera del int.
( )
2
Para los valores xi que están dentro del intervalo se verifica: xi − x < s2 ·t 2 , y
( )
2
para los xi que están fuera del intervalo se cumple: xi − x ≥ s 2 · t 2 . Y como, además,
ambas sumas son positivas, tenemos:
k2 k2 k2
∑ ( x − x)
2
i · ni ∑s 2 2
· t · ni ∑n i
s ≥
2 i =1
= = s ·t ·i =1 2 2 i =1
N N N
xi fuera del int./ xi fuera del int./ xi fuera del int.
k2
∑n i =1
i
Como el cociente es la frecuencia relativa de los datos xi que se hallan
N
k2
∑n i
s2
(
fuera del intervalo x − s · t , x + s · t , resulta finalmente: ) i =1
N
≤ 2
s ·t 2
t
1
= 2.
ESTADÍSTICA
DESIGUALDAD DE TCHEBICHEFF:
La frecuencia relativa de los valores xi que están fuera del intervalo de centro x
1
y de radio r = s · t , es menor o igual que 2 .
t
k2
∑n i
1
i =1
≤ para los xi que están fuera del intervalo de centro x y radio s · t ,
N t2
MOMENTOS DE LA DISTRIBUCIÓN DE UNA VARIABLE.

Las diferentes medidas descriptivas que se han analizado hasta ahora para las
variables cuantitativas se pueden unificar utilizando un concepto matemático que se
toma de la física: los momentos.
DEFINICIÓN.
Se llama momento de orden “h” de una variable X respecto a un punto P a la

media aritmética de las potencias h-ésimas de las desviaciones respecto a la media.
El momento de orden “h” respecto a un punto P se representa por Oh .
CÁLCULO DE MOMENTOS.
Sea una variable discreta, X, que toma los valores x1 , x2 , x3 ,...., xk , con
El momento de orden “h” respecto a un punto P se calcula mediante la siguiente
expresión:
k
∑( x − P)
h
i · ni
Oh = i =1

marcas de clase.
OBSERVACIONES:
1. El momento de orden “h” respecto a un punto P resulta ser una constante

obtenida a partir de todos los valores de la variable, cada uno ponderado por
su frecuencia.
2. El momento de orden “h” respecto a un punto P caracteriza la distribución
de una variable alrededor de ese punto P.
ESTADÍSTICA
3. Los momentos más utilizados emplean como punto de referencia P bien el

origen o bien la media aritmética.
k
∑x i
h
· ni
Si P es el origen, se utiliza la notación: ah = i =1
∑ ( x − x)
k h
i · ni
Si P es la media aritmética, se utiliza la notación: mh = i =1
TIPIFICACIÓN DE LAS VARIABLES.

La tipificación de una variable representa sencillamente medir la desviación
respecto de la media en unidades de la desviación típica. Es decir, la desviación de un
individuo determinado respecto a la media aritmética, medida en desviaciones típicas,
x −x
nos da el valor zi tipificado, que para ese individuo i sería: zi = i
sX
X −x
En definitiva la variable tipificada Z se obtiene: Z=
sX
MEDIDAS DE DISPERSIÓN RELATIVAS.

La propia medida puede estar afectada por la unidad de medida de la variable, o
ser más o menos importante según las dimensiones medias del conjunto de los valores
observados. Por ejemplo, si se tiene una dispersión de 1 cm cuando se miden objetos
que tienen como promedio 2 cm, la dispersión es muy grande y se puede decir que son
muy heterogéneos, pero si miden como promedio 10 m, una dispersión de 1 cm implica
que son muy parecidos. Cuando se quiere controlar este problema habrá que utilizar
medidas de dispersión relativas.
COEFICIENTE DE APERTURA.
DEFINICIÓN.
Es el cociente entre los valores máximo y mínimo de la variable.
El coeficiente de apertura se representa por A.
CÁLCULO DEL COEFICIENTE DE APERTURA.
xmax
Para determinar el coeficiente de apertura basta aplicar: A= .
xmin
ESTADÍSTICA
OBSERVACIONES:
1. Respecto al recorrido, el coeficiente de apertura tiene la ventaja de ser

adimensional.
2. Al coeficiente de apertura no le afectan los cambios de escala.
3. Pero tiene la desventaja de ser una medida que ofrece muy poca información
ya que no utiliza ninguna referencia al promedio y sólo utiliza dos datos.
COEFICIENTE DE VARIACIÓN.
DEFINICIÓN.
El coeficiente de variación es el cociente entre la desviación típica y la media

aritmética.
El coeficiente de variación se representa por C.V.
CÁLCULO DEL COEFICIENTE DE VARIACIÓN.
s
Para determinar el coeficiente de variación basta aplicar: C.V . = .
x
OBSERVACIONES:
1. El coeficiente de variación mide el número de veces que la desviación típica

contiene a la media aritmética, y es un indicativo de la falta de
representatividad del promedio de un colectivo: cuanto mayor es este
coeficiente tanto menos representativo es la media aritmética.
2. El coeficiente de variación es una medida adimensional comparable entre
diferentes variables.
3. El coeficiente de variación no se ve afectado por los cambios de escala.
4. El coeficiente de variación tiene el defecto de que no queda definido si la
media aritmética es cero.
ÍNDICE DE DISPERSIÓN RESPECTO A LA MEDIANA.
DEFINICIÓN.
El índice de dispersión respeto a la mediana es el cociente entre la desviación

media y la mediana.
El índice de dispersión se representa por VM .
ESTADÍSTICA
CÁLCULO DEL ÍNDICE DE DISPERSIÓN RESPECTO A LA

MEDIANA.
Para determinar el índice de dispersión respecto a la mediana aplicamos la

D.M .
expresión: VM = .
M
OBSERVACIONES:
1. El índice de dispersión respecto a la mediana mide el número de veces que la

desviación media contiene a la mediana.
2. El índice de dispersión respecto a la mediana tiene el defecto de que no
queda definido si la mediana es cero.
ASIMETRÍA Y CURTOSIS.
La medidas de posición central y las medidas sobre su representatividad no
agotan las medidas posibles para describir un colectivo. Cuando se trata de resumir toda
la información, hay otras medidas que se refieren esencialmente a la forma en que las
frecuencias se reparten entre los valores: nos referimos a la asimetría y la curtosis.
COEFICIENTE DE ASIMETRÍA.
La desviación típica de una variable tipificada se convierte en una especie de
medida del error de cada individuo, cuya suma ponderada por las frecuencias para el
conjunto de los valores siempre es cero (recordemos las propiedades de las desviaciones
respecto a la media aritmética), y cuya suma de cuadrados, también ponderada, es
siempre uno. Cuando hay asimetría positiva hay un gran número de desviaciones
pequeñas negativas y un número menor de desviaciones grandes positivas. Ya que su
suma es siempre cero, es preciso usar alguna forma de promediarlas sin que se anulen ni
se pierda el signo. La forma más lógica es elevar las desviaciones tipificadas a la tercera
potencia ponderando por la frecuencia que tiene cada individuo en el colectivo.
DEFINICIÓN.
El coeficiente de asimetría es el momento de orden 3 respecto a la media

dividido por el cubo de la desviación típica.
El coeficiente de asimetría se representa por C. As .
CÁLCULO DEL COEFICIENTE DE ASIMETRÍA.
ESTADÍSTICA
El coeficiente de asimetría se calcula mediante la siguiente expresión:
3
k  xi − x 
∑ 
i =1  s 
 · ni
C. As. =
N

marcas de clase.
OBSERVACIONES:
1. El coeficiente de asimetría será cero cuando la distribución sea totalmente

simétrica y una desviación positiva compense exactamente otra negativa.
2. El coeficiente de asimetría crecerá en valor absoluto con el grado de
asimetría.
3. En el coeficiente de asimetría el signo informa sobre la dirección en que se
produce la asimetría.
4. La influencia de la unidad de medida se ha eliminado al utilizar desviaciones
tipificadas con lo que el coeficiente de asimetría es comparable.
5. La existencia de asimetría produce una diferencia entre la media aritmética y
la mediana, provocada fundamentalmente porque la mediana sólo considera
el aspecto ordinal de los valores. Esta diferencia se acentúa con la intensidad
de la asimetría, por lo que se utiliza también como base para la medida de la
x−M
asimetría el coeficiente A1 , cuya expresión es: A1 = .
s
6. Tanto el coeficiente de asimetría como el coeficiente A1 son positivos si la
distribución es asimétrica positiva, ya que las desviaciones negativas son
muy numerosas pero pequeñas, mientras que las positivas son pocas pero
muy grandes, y al elevarlas al cubo superan a las primeras y dan un resultado
positivo.
7. Tanto el coeficiente de asimetría como el coeficiente A1 son negativos si la
distribución es asimétrica negativa, ya que las desviaciones positivas son
muy numerosas pero pequeñas, mientras que las negativas son pocas pero
muy grandes, y al elevarlas al cubo superan a las primeras y dan un resultado
negativo.
COEFICIENTE DE CURTOSIS.
Esta medida descriptiva es mucho menos intuitiva que las anteriores y tiene que
ver con la forma en que los valores se reparten a lo largo del recorrido de la variable.
Las situaciones que se contemplan comparan variables con la misma variabilidad y poca
o ninguna asimetría: si una variable comparada con la otra tiene más valores en los
extremos y en la zona central y menos en la intermedia, entonces se dice que tiene un
menor apuntamiento que la otra, que tiene una menor curtosis. Para medir esta
característica habrá que utilizar de nuevo las desviaciones respecto a la media aritmética
y eliminar el signo elevándolas a una potencia par. Como la potencia dos ya se ha
ESTADÍSTICA
utilizado para la varianza, elevaremos las desviaciones a la cuarta potencia. También, de

nuevo, es preferible utilizar las desviaciones tipificadas, lo que elimina el efecto de la
unidad de medida:
4
k  xi − x 
∑ 
i =1  s 
 · ni
Ya hemos comentado que esta medida tiene sentido si se comparan variables con
la misma dispersión. Por eso se suele utilizar una variable modelo, la distribución
Normal (que estudiaremos en temas posteriores) que tiene en la expresión anterior un
valor igual a 3.
DEFINICIÓN.
El coeficiente de curtosis es el resultado de restar 3 al momento de orden 4

respecto a la media dividido por el cuadrado de la varianza.
El coeficiente de curtosis se representa por C. Cur.
CÁLCULO DEL COEFICIENTE DE CURTOSIS.
El coeficiente de curtosis se calcula mediante la siguiente expresión:
4
k  xi − x 
∑ 
i =1  s 
 · ni
C.Cur. = −3
N

marcas de clase.
OBSERVACIONES:
1. Cuando una variable tiene un coeficiente de curtosis igual a cero significa

que tiene el mismo apuntamiento que la Distribución Normal, y se dice que
es mesocúrtica.
2. Cuando una variable tiene un coeficiente de curtosis mayor que cero
significa que tiene más apuntamiento que la Distribución Normal, y se dice
que es leptocúrtica.
3. Cuando una variable tiene un coeficiente de curtosis menor que cero
significa que tiene menos apuntamiento que la Distribución Normal, y se
dice que es platicúrtica.
ESTADÍSTICA
DIAGRAMA DE CAJA.
Se trata de un procedimiento descriptivo que combina varias de las medidas que
se han visto en los apartados precedentes, y que proporciona una información
complementaria al diagrama de barras o al histograma correspondiente, además de
detectar los posibles datos atípicos de un colectivo, por lo que habitualmente se presenta
junto a ellos. También se le denomina BOX-PLOT o BOX-WHISKER.
Se compone de un rectángulo cuyos extremos se sitúan en los cuartiles primero y

tercero, y que en su interior tiene una línea que señala la posición de la mediana. De este
rectángulo salen dos rectas de longitud 1’5 veces la longitud de la desviación
intercuartílica, (si el valor mínimo o el valor máximo de la distribución es superior o
inferior, respectivamente, al final de la recta correspondiente, esta empezaría o acabaría,
según se trate, en el valor mínimo o el valor máximo). Los datos que quedan fuera de
este intervalo se señalan mediante puntos o círculos y son valores atípicos que se
encuentran muy alejados de los demás.
La razón de utilizar la mediana, los cuartiles y la desviación intercuartílica para

construir este diagrama se debe a que estas son medidas que dependen menos de la
existencia de valores que son atípicos por ser muy grandes o muy pequeños. En algunos
casos puede señalizarse la posición de la media aritmética mediante los vértices superior
e inferior de un rombo.
La interpretación de los elementos de este diagrama es la siguiente:
Entre los extremos del rectángulo se encuentra el 50% de los datos. La

posición de la mediana indica cómo se reparte ese porcentaje en dos mitades.
Las dos rectas que salen del rectángulo delimitan un intervalo cuyos
extremos son: LI = Q1 − 1,5· ( Q3 − Q1 ) y LS = Q3 + 1,5· ( Q3 − Q1 ) .
Los datos que caen fuera del intervalo mencionado se consideran atípicos y
se marcan mediante puntos o círculos.

1º. - Est. Unidimensional Teoria

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

1º. - Est. Unidimensional Teoria

Diunggah oleh

Hak Cipta:

Format Tersedia

ESTADÍSTICA

La Estadística se ha consolidado en nuestros días como una necesaria y potente

Se quiere presentar la Estadística como una herramienta básica para la

En la Edad Media, Carlomagno (742-814 d.C.), Emperador de Occidente,

En España, los Reyes Católicos ordenaron el recuento de los hogares de las

En el año 1.662, el inglés John Graunt publicó un tratado con observaciones

Curiosamente, John Graunt no conocía algunos trabajos realizados por Blas

En 1.787, en España, se realiza bajo el reinado de Carlos III el censo de

En el siglo XVII se delimitaron claramente los conceptos relativos a las bases y

La escuela alemana fue fundada por Hermann Conring (1.606-1.681) y parece

La escuela de los aritméticos políticos fue fundada por el ya mencionado John

Un poco más tarde, a partir de los registros de nacimientos y fallecimientos de la

Inspirándose en los trabajos de Laplace, Adolphe Quételet (1.796-1.874)

Por iniciativa de Quételet, se reunió en Bruselas, en 1.853, el I Congreso

• Karl Pearson (1.857-1.936) se vio inducido a fundar la Bioestadística o

• Antoine Augustin Cournot (1.801-1.877), Vilfredo Pareto (1.848-1.923) y

Además, hoy día, el método estadístico se ha revelado como un auxiliar

Ahora bien, en la actualidad se entiende la estadística como un método de toma

¿Cómo decidir si un nuevo producto comercial tendrá éxito?.

¿Influye el IPC en la tasa de desempleo?.

¿Qué podrá pronosticar un sociólogo a partir de una encuesta sobre la

A partir de un estudio del crecimiento de la población de un país,

No significa esto que gracias a la estadística se pueda contestar con exactitud a

La estadística se puede dividir en dos partes:

Estadística descriptiva o deductiva.

Estadística inferencial o inductiva.

La estadística descriptiva o deductiva trata del recuento, ordenación y

La estadística inferencial o inductiva plantea y resuelve el problema de

El conjunto formado por todos los alumnos matriculados en 2º de Bachillerato se

Se llama población al conjunto de todos los elementos que cumplen una

Se llama muestra a cualquier subconjunto de la población. El número de

A la hora de seleccionar una muestra debemos tener en cuenta que, si queremos

El proceso mediante el cual se extrae una muestra representativa de la población

En el MUESTREO ALEATORIO cada individuo de la población tiene la misma

Es importante destacar que la composición de la muestra debe estar en

Se distinguen dos tipos de caracteres estadísticos: CUANTITATIVOS Y

Caracteres estadísticos cuantitativos son aquellos que se pueden medir.

Caracteres estadísticos cualitativos son aquellos que no se pueden medir.

Se llama modalidad de un carácter estadístico a cada una de las opciones que se

Así, son modalidades del carácter profesión las siguientes: economista,

Se llama variable estadística al conjunto de valores que puede tomar un

Se llama variable estadística discreta aquella variable estadística que puede

Se llama variable estadística continua aquella variable estadística que puede

Frecuencia absoluta ( ni ) de un valor xi . Es el número de veces que aparece

Frecuencia absoluta acumulada ( N i ) de un valor xi . Es la suma de las

Frecuencia relativa ( fi ) de un valor xi . Es el cociente entre la frecuencia

Porcentajes de un valor xi . Lo más frecuente es utilizar este la frecuencia

Frecuencia relativa acumulada ( Fi ) de un valor xi . Es la suma de las

También recibe la denominación de proporción acumulada. La frecuencia relativa

1. RECOGIDA DE DATOS. Consiste en la toma de datos numéricos

Según sea la naturaleza del carácter estudiado utilizaremos un tipo u otro de

Los diagramas de barras o de bastones son especialmente útiles cuando se desea

Para trazarlos se representan sobre el eje de abscisas los valores de la variables,

También se pueden hacer diagramas de barras de frecuencias absolutas

Los polígonos de frecuencias se forman uniendo los extremos de las barras

Los histogramas se utilizan generalmente para distribuciones de variable

Generalmente se acostumbra a agrupar los datos obtenidos en intervalos de igual

Para construir el histograma se representan sobre el eje de abscisas los límites de

Los diagramas de sectores representan las distintas modalidades de un carácter

Los pictogramas son dibujos alusivos a la distribución que se pretende estudiar y

Lo que interesa en este tipo de diagramas es la altura de la línea referida a la

Las pirámides de población se utilizan para estudiar de forma conjunta la

La gráfica se obtiene representando en la ordenada el grupo de edad y en la