menos datos.
Ejemplo.
UE: Curso semestral que se dictó en el periodo académico 1997 – I, en la EAPE de la FCM de la
UNMSM.
Conjunto de unidades de Observación: Todos los cursos semestrales, dictados en el Periodo
Académico 1997 - I
Variable: Porcentaje de avance del curso(X).
Tipo de variable: cuantitativa continua.
Conjunto de datos: Constituyen los datos poblacionales
{ 45 40 50 50 55 45 40 48 48 45 50 48 50 40 45 48 48 45}
Cómo estos datos, son datos poblacionales y N < 30, entonces las fórmulas a utilizar para hallar los
indicadores son los siguientes:
18
x
i1
i
Indicadores de dispersión.
1. Longitud de recorrido.
LoR = 55 - 40 = 15%
2. Desviación Media.
18
x i
DeM i 1
= 3.15 %
18
Interpretación.
Observando la columna de las desviaciones, xi , tenemos que 10 datos se alejan de la media en
menos de 3.15 o lo que es equivalente a que el 55% de los datos se aleja de la media en menos de
3.15 lo que podríamos interpretar como que los datos no están muy dispersos.
3. Varianza.
x X
N
i
i1
X 2
(a)
N
N N
x 2 X xi
2
N X
i
X 2 i1 i 1
N N N
x
2
i
X2 X
2
(b)
N
Por lo tanto, el valor de la varianza puede ser obtenido a partir de las fórmulas (a) o (b).
Para el ejemplo utilizaremos las dos fórmulas.
Cálculos según (a) Cálculos según (b)
LIC. MARÍA A. ZACARÍAS DÍAZ 31
xi ( xi ) ( xi )2 xi xi2
40 -6.6 43.56 40 1600
40 -6.6 43.56 40 1600
40 -6.6 43.56 40 1600
45 -1.6 2.56 45 2025
45 -1.6 2.56 45 2025
45 -1.6 2.56 45 2025
45 -1.6 2.56 45 2025
45 -1.6 2.56 45 2025
48 1.4 1.96 48 2304
48 1.4 1.96 48 2304
48 1.4 1.96 48 2304
48 1.4 1.96 48 2304
48 1.4 1.96 48 2304
50 3.4 11.56 50 2500
50 3.4 11.56 50 2500
50 3.4 11.56 50 2500
50 3.4 11.56 50 2500
55 8.4 70.56 55 3025
840 270.08 840 39470
270.08 39470
X2 15.004 % 2 X2 (46.6) 2 21.217 % 2
18 18
El valor de la varianza calculada a partir de la fórmula (b) proporciona un valor aproximado de ella.
4. Desviación estándar.
X 3.874 % X 4.6 %
5. Coeficiente de Variación.
CoV = 0.083
Nota. Si tuviera que compararse dos o más conjuntos de datos, puede hacerse en términos de los
indicadores de dispersión absoluta (si los conjuntos de datos están expresados en las mismas
unidades)
CUADRO RESUMEN
Interpretación.
El CoV = 0.099 nos dice que la dispersión de los datos es baja, ahora observamos los indicadores de
tendencia central, como no existe mucha diferencia entre el valor de la media y el valor de la
mediana, se elige la media aritmética como indicador de tendencia central, luego concluimos que la
mayoría de los datos están en torno a la medía, es decir, en la mayoría de los cursos el avance del
Silabo está en torno al 46.6 % a mitad del periodo académico, es decir hay un ligero atraso.
Calculo de los diferentes indicadores de Tendencia Central y Dispersión, cuando se tiene más de 30
datos.
Ejemplo
La profesora del curso de estadística I, grupo 4 Sem. 2003 – I, de la EAP de Estadística, FCM,
generalmente, al finalizar el semestre obtiene el porcentaje de asistencia de cada uno de sus
alumnos, para posteriormente ver si hubo o no relación con la nota que obtuvieron. Los datos se
dan a continuación:
0.48 0.35 0.42 0 0.26 0.13 0.06 0.16 0.84 0.55 0.74 0.26
0.1 0.71 0.74 0.74 0.45 0.39 0.81 0.68 0.06 0.19 0.23 0.71
0.61 0.1 0.32 0.61 0.71 0.55 0.65 0.65 0.77 0.74 0.61 0.55
Cómo estos datos, son datos poblacionales y N > 30, entonces las fórmulas a utilizar para hallar los
indicadores son los siguientes:
m
2 X 2
f
i i
X i fi
1 1
X X i 1
2
2 2
i fi 0 X
N i 1 N N
X i 1 X 'i
' Xi fi Xif i X i f 2i
0.07 - 0.19 0.125 6 0.75 0.09375
0.20 - 0.32 0.255 4 1.02 0.2601
0.33 - 0.45 0.385 4 1.54 0.5929
0.46 - 0.58 0.515 5 2.575 1.326125
0.59 - 0.71 0.645 6 3.87 2.49615
0.71 - 0.84 0.775 10 7.75 6.00625
35 17.505 10.775275
2. Cálculo de la mediana.
Procedimiento.
a. Se construye la tabla de frecuencias acumuladas ( absolutas o relativas)
X i 1 X i Fi
' '
0.06 - 0.19 6
0.19 - 0.32 10
0.32 - 0.45 14
0.45 - 0.58 19
0.58 - 0.71 25
0.71 - 0.84 35
LIC. MARÍA A. ZACARÍAS DÍAZ 34
b. Se halla N/2 = 17.5
c. Se busca en la tabla de frecuencias construida, la menor frecuencia absoluta acumulada
que supere a N/2, para el ejemplo es:
F4 = 19 > 17.5, a esta cuarta frecuencia acumulada le corresponde el cuarto intervalo,
es decir [ 0.45 - 0.58), en este intervalo se encontrara el valor de la mediana.
d. Utilizando la fórmula, Me X 3` A4
0.5N F3 , obtenemos el valor de la mediana,
F4 F3
Me = 0.45 + 0.13( 17.5 – 14)/ (19 – 14) = 0.541 %
3. Cálculo de la moda.
El comportamiento de la variable nos muestra la presencia de dos valores más frecuentes es decir
dos Modas.
Mo1 = 0.125 % Mo2 = 0.775%
Interpretación.
El coeficiente de Variación, CoV, como es superior a 0.25 nos dice que los datos están muy dispersos,
y al ver los valores de tendencia central la media y la mediana estos son diferentes, aparentemente
están cerca el uno del otro, pero al observar la tabla de frecuencias y el polígono de frecuencias
vemos que hay dos valores frecuentes, 0125 y 0.775 en torno a los cuales se acumulan los datos es
decir existen 2 modas, por lo que la media aritmética ni la mediana no son los adecuados para
representar a los datos.
Del análisis hecho al problema anterior concluimos, que no basta contar con los indicadores, siempre
es conveniente complementar el análisis con la representación gráfica de la distribución de los datos
o comportamiento de la variable.
Ejemplo
Se tiene información respecto al peso de los alumnos ingresantes a la facultad de Medicina de la
Universidad AAA.
Posteriormente se supo que la balanza estaba malograda y que daba en exceso un peso adicional de
3 kg. Al obtener los indicadores correctos, las autoridades concluyeron que el peso de las alumnas
es muy bajo. ¿Es cierto lo que dicen las autoridades?
Solución.
Sea la variable X: peso de la alumna.
Donde X = 45 kg. y X2 = 9 kg2
Sea la variable Y: peso correcto de la alumna, que está definida como:
Y = X - 3
Por propiedades de la media y la varianza, tenemos que:
Y X 3 = 45 - 3 = 42 kg.
Y2 X2 = 9 Y 3 kg
Como el CV = 0.071 < 0.15, es decir la variabilidad de los pesos de las alumnas es bajo, entonces el
peso medio de las alumnas es de 42 kg. Luego la conclusión de las autoridades es cierta.
Es deseo de las autoridades que los alumnos tengan un buen rendimiento académico, y como para
ello los alumnos deben tener un buen estado físico, las autoridades deciden mejorar el peso de las
alumnas sometiéndolas a una dieta durante un mes, esta dieta da lugar a un incremento del 10% en
el peso mensualmente. ¿Cuál es el peso medio y la variabilidad de los pesos de las alumnas al
finalizar el mes?
Solución.
Sea la variable X : Peso de la alumna
Donde: X = 42 kg. y X2 = 9 kg2
Sea la variable Y : Peso incrementado de la alumna, que está definido como: Y = 1.1X
Por propiedades de la media y la varianza, tenemos que:
Y k X = 1.1 (42) ó 46.2 kg.
C0V = 0.1154
Si bien las alumnas han incrementado su peso pero la variabilidad de los pesos también se a
incrementado, ya que el CoV = 0.11 > 0.071
N 1 12 N 2 22 . . .N k k2 N1 ( 1 ) 2 N k ( k ) 2 ... N k ( k ) 2
2
N N
Intra var ianza Inter var ianza
Esta propiedad nos dice que la variabilidad total de los datos, es decir, X2 puede deberse tanto a la
variabilidad dentro de cada grupo, intravarianza, como a la variabilidad entre los diferentes grupos,
intervarianza.
Ejemplo.
La siguiente tabla contiene la media aritmética y desviación estándar del promedio ponderado de los
alumnos por Escuelas Académicos Profesionales de la Facultad de Ciencias Matemáticas, del periodo
académico 2002 – I que cursaron. (No incluye a los ingresantes 2002).
Solución.
Unidad Estadística: El alumno de la FCM que cursaron el periodo académico 2002 – I (No incluye
ingresantes)
Conjunto de UE: Todos los alumnos de la FCM que cursaron el periodo académico 2002 –I.
Constituyen la población.
Sea la variable X: Promedio Ponderado.
Tipo de variable: Cuantitativa continua.
Conjunto de datos: Vienen a ser datos poblacionales.
a. Hallamos la media aritmética del Promedio Ponderado de todos los alumnos de la facultad.
La varianza se expresa en unidades que son el cuadrado de la unidad de la variable, que no tiene
significado real, por ello es preferible utilizar otra medida de dispersión y esta es la desviación típica
o estándar que se define como la raíz cuadrada positiva de la varianza.
2
Ejemplo.
El siguiente cuadro estadístico y gráfica muestran
Porcentaje Cursos
de avance
40 - 43 3
43 - 46 5
46 - 49 5
49 - 52 4
52 - 55 1
Total 18
Que, la distribución de los datos es casi simétrica, por lo tanto, podemos aplicar las propiedades de la
desviación estándar.
En este caso la variable es: Porcentaje de avance de los cursos, donde μ = 46.6 % y σ = 4.61 %
Podemos observar que no hay ningún curso cuyo avance sea calificado como muy bajo o muy alto, y
en cuanto al porcentaje de cursos dentro de cada categoría, difiere en cuanto a lo establecido,
debido a que el polígono es casi simétrico no es simétrico y porque son pocos los datos.
Los datos de una variable pueden tomar varias apariencias numéricas, dependiendo de la unidad en
la cual es medida. Por ejemplo si se registra el ingreso de los trabajadores en soles o dólares, lo que
da lugar a que, la media aritmética y la varianza con cada una de las unidades sea diferente, pero si
se da en su forma estandarizada, las medias y las varianzas serán iguales en una u otra unidad.
Una variable estandarizada se denota con Z y su definición es:
X X
Z
X
Donde: X es la media y X es la desviación estándar de X
x X
Esta definición indica que un dato, zi i , mide, en cuánto, un dato xi se aleja de su media
X
en términos de su desviación estándar.
Ejemplo
La nota media y la varianza del primer examen parcial del curso de cálculo I de un grupo de
estudiantes es:
X = 10 puntos X2 = 4 puntos2
Donde X: Nota de cálculo I.
En unidades estándar:
x X 11 10
z 0.5
X 2
Ejemplo.
La siguiente tabla muestra información estadística, respecto a las notas del primer examen parcial
del curso de Estadística, de todos los alumnos del curso, los cuales están divididos en dos grupos
1 13 9
2 13 4
El alumno Juan obtuvo 12 puntos y pertenece al grupo 1, y la alumna Rosa también obtuvo 12
puntos y pertenece al grupo 2. ¿Quién esta en mejor posición?
Rpta.
Nota estandarizada de Juan: z J = (12 - 13) / 3 = - 0.33
Comparando estas notas estandarizadas, que la nota de Rosa es menor que la nota de Juan, entonces
Juan esta en mejor posición.
PARÁMETRO.
A las medidas resumen obtenidas a partir de todos los datos poblacionales se les llama parámetros,
es el caso de las medidas resumen obtenidas para los problemas dados líneas arriba.
ESTADÍGRAFO.
A las medidas resumen obtenidas a partir de los datos muestrales se les llama estadígrafos.
Definición: Estadística es la ciencia que proporciona métodos por medio de los cuales podemos
recolectar, clasificar, presentar, resumir y analizar datos numéricos relativos a un conjunto de
individuos u objetos, también nos permite extraer conclusiones válidas y efectuar decisiones lógicas
basadas en dichos análisis.
A. Estadística Descriptiva.
Esta relacionada con la recolección, tabulación, presentación de datos y el cálculo de medidas
resumen que permiten obtener información estadística, a partir de ésta se obtendrá conclusiones
sea a nivel de la población o la muestra. Se ha aplicado estadística descriptiva.
B. Estadística Inferencial
Relacionada con el proceso de generalizar conclusiones respecto de la población total, sí la
información con la que se cuenta ha sido obtenida de una parte o muestra de la población. Esta
generalización podrá hacerse, sí el tamaño de muestra y la selección de los individuos integrantes de
la muestra han sido seleccionados utilizando métodos estadísticos.
Ejemplo.
1. El propietario de una fabrica de corbatas, desde hace 2 años cuenta con 50 trabajadores. Posee
información respecto de la producción diaria de ellos, esta algo satisfecho, sin embargo cree que
sí introduce algunas modificaciones, la producción podría mejorar. Es así que divide el grupo de
trabajadores en dos, en el salón A ubica a 25 trabajadores, quienes trabajan en las mismas
condiciones de siempre, en el salón B ubica a los otros 25 trabajadores, en este ambiente
establece nuevas condiciones de trabajo: Música de ambiente, alfombra y mejor iluminación. Al
día siguiente, después de un mes de esta modificación, registro la producción de cada trabajador
y los resultados son los siguientes:
Salón A Salón B
12 21 13 16 18 36 41 40 44 47
24 32 16 18 20 45 45 44 42 48
28 25 33 26 30 46 48 49 50 49
26 29 35 45 59 51 51 53 54 54
32 31 30 40 30 56 52 55 52 59
Solución.
Considerando los datos poblacionales
1.c. Al propietario le diría, que del análisis anterior, vemos que la producción de corbatas de los
trabajadores del salón B es más pareja, además la producción promedio de este grupo de
trabajadores es mucho mayor que los trabajadores del grupo A, por lo que concluimos que las
condiciones de ambiente han influido en la producción y se debe implementar las mismas
condiciones en el salón A.
1.d. Las medidas resumen que se ha obtenido se llaman parámetros, porque se han calculado a
partir de todos los datos poblacionales.
2.a. La producción de la muestra de los trabajadores del salón B es más pareja y oscila entre 36 y 48
corbatas, mientras que la producción de la muestra de los trabajadores del salón A es más
dispersa y oscila entre 12 y 32 corbatas, a partir de estas cantidades podemos deducir que la
muestra de trabajadores del salón B produce más que la muestra de trabajadores del salón A.
El coeficiente de variación indica que la muestra de datos de la producción del salón A están
dispersos, en cambio la muestra de datos de la producción de los trabajadores del salón B
están poco dispersos, y el indicador de tendencia central, después de observar la muestra de
datos originales de la producción del salón A, vemos que no hay datos extremos, entonces la
media es el indicador de tendencia central adecuado, es decir la producción media de los
trabajadores de la muestra es de 19 corbatas, y la de los trabajadores de la muestra del salón
B es de 43.2 corbatas, por lo que concluimos que los trabajadores de la muestra del salón B
producen mucho más que los trabajadores de la muestra del salón A.
2.c. Que a nivel de muestras los trabajadores del salón B producen mucho más que los del salón A.
2.d. Las medidas resumen obtenidas tienen el nombre de Estadígrafos.
2.e. Las medidas resumen obtenidas están en situación de incertidumbre, ya que se han obtenido a
partir de una parte de la población.
2.f. Se utilizó estadística descriptiva, para utilizar la estadística inferencial se debe hacer uso de
probabilidades, dado que las medidas resumen están en situación de incertidumbre.
Ejemplo.
En los siguientes enunciados identifique si en su contenido se encuentra, un estadígrafo, un
parámetro o un dato e indique el nombre, justifique su respuesta. Asimismo diga si se esta utilizando
Estadística descriptiva o inferencial. Interprete la información que proporciona cada enunciado.
a. De los 7 mil 108 docentes que obtuvieron nota aprobatoria en el último examen de la
Carrera Pública Magisterial (2012), 3 mil 122, es decir el 44%, recibió antes capacitación por
parte del Ministerio de Educación, lo que evidencia que las clases de actualización, que se
imparten de manera gratuita, han permitido una mejora en el conocimiento de los maestros
y la más alta nota fue de 19 puntos.
b. Siete de cada diez mujeres no denuncia el maltrato que recibe de su pareja debido a que
siente vergüenza, miedo a más agresión, temor al divorcio, culpa, o no sabe a dónde ir,
informó el director del Instituto Guestalt de Lima, Manuel Saravia Oliver, quien indicó que "la
violencia familiar es un grave problema de salud pública".
Solución “a”
➢ Subpoblación constituida por 7108 docentes que aprobaron el último examen de la Carrera
Pública Magisterial.
Información obtenida.
Capacitación Profesores
Si 3122
No 3986
Para este mismo conjunto de datos también se cuenta con la característica, Y: Nota Obtenida, pero
sólo proporcionan la nota más alta obtenida por uno de los profesores que es 19 puntos, en este
caso sólo se cuenta con un dato.
Solución “b”
Suponemos que el Instituto Guestalt ha llevado a cabo una encuesta por muestreo y no un censo
porque la población constituida por mujeres peruanas que tienen pareja es muy grande. La muestra
es de tamaño n.
U.E es la mujer peruana que tiene pareja.
De la muestra de tamaño n de mujeres que tienen pareja, se considera a la submuestra de mujeres
de tamaño n1 que son maltratadas y en estas se mide la variable, X: Si denuncia o no denuncia el
maltrato que recibe de su pareja.
Datos, {1, 0, 1, 0, ……0, 0} donde 0= No denuncia que recibe maltrato de su pareja, 1= si denuncia que
recibe maltrato.
Información obtenida.
Denuncia de Porcentaje de
Maltrato Mujeres
Si 30
No 70