Anda di halaman 1dari 23

EJEMPLOS DEL CAPÍTULO 3 Estadística descriptiva: medidas numéricas

Secciones de la 3.1 a la 3.4


Contenido del capítulo
3.1 MEDIDAS DE POSICIÓN
O LOCALIZACIÓN
Media
Mediana
Moda
Percentiles
Cuartiles
3.2 MEDIDAS DE VARIABILIDAD
Rango
Rango intercuartílico
Varianza
Desviación estándar
Coeficiente de variación
3.3 MEDIDAS DE LA FORMA DE
LA DISTRIBUCIÓN, POSICIÓN
RELATIVA Y DETECCIÓN DE
OBSERVACIONES ATÍPICAS
Forma de la distribución
Valor z
Teorema de Chebyshev
Regla empírica
Detección de observaciones
atípicas
3.4 ANÁLISIS EXPLORATORIO
DE DATOS
Resumen de cinco números
Diagrama de caja
3.5 MEDIDAS DE ASOCIACIÓN
ENTRE DOS VARIABLES
Covarianza
Interpretación de la covarianza
Coeficiente de correlación
Interpretación del coeficiente
de correlación
3.6 MEDIA PONDERADA
Y TRABAJO CON DATOS
AGRUPADOS
Media ponderada
Datos agrupados
3.3 MEDIDAS DE LA FORMA DE
LA DISTRIBUCIÓN, POSICIÓN
RELATIVA Y DETECCIÓN DE
OBSERVACIONES ATÍPICAS
Forma de la distribución
Valor z
Teorema de Chebyshev
Regla empírica
Detección de observaciones
atípicas
BREVE RESUMEN DE LOS
CUATRO TIPOS DE MEDIDAS VISTAS

MEDIDA DE LA FORMA DE LA DISTRIBUCIÓN DE DATOS

En el capítulo 2 se vio que un histograma proporciona una representación gráfica de la forma de


una distribución. Una medida numérica importante de la forma de una distribución es el sesgo.

Sesgo es el grado de asimetría de una distribución, es decir, cuánto se aparta de la simetría.

Algunos estadísticos como Pearson, Fisher y Bowley, entre otros, han propuesto fórmulas para
obtener la medida numérica de que tan sesgados están los datos de una distribución.

Dado que Excel se basa en las fórmulas de Fisher, las mencionaremos:

sesgo = �/((�−1)(�−2)) ∑1▒((�_�−�  )/�)^3 para muestras, en donde


n es el tamaño de
la muestra y s es la desviación estándar muestral

Función en Excel: COEFICIENTE.ASIMETRIA(datos)

sesgo =" " 1/� ∑1▒((�_�−µ)/�)^3 para poblaciones de tamaño N, con


desviación estándar �
y media µ

Función en Excel: COEFICIENTE.ASIMETRIA.P(datos)


Ejemplo Figura 3.3

En una distribución simétrica, la media, la mediana y la moda son iguales. Cuando los datos están
sesgados positivamente, la media por lo general será mayor que la mediana; cuando están
sesgados negativamente, la media será menor que la mediana.
Valor z

Además de las medidas de posición, variabilidad y forma, también interesa la posición relativa
de los valores dentro de un conjunto de datos.

Las medidas de posición relativa ayudan a determinar a qué distancia de la media está un
valor determinado.

A partir de la media y la desviación estándar se puede determinar la posición relativa de


cualquier observación, este es el valor Z

El valor z se llama valor estandarizado o también variable aleatoria estándar.

El valor z puede interpretarse como el número de desviaciones estándar que xi se encuentra de


la media x.

Tome en cuenta que el valor de Z es adimensional, dado de los datos, la media y la desviación
estándar siempre tienen las mismas unidades y terminan eliminándose entre sí.

Z = (�_�−�  )/�
si despejamos nos queda Zs = �_�−�  
estándar siempre tienen las mismas unidades y terminan eliminándose entre sí.

Z = (�_�−�  )/�
si despejamos nos queda Zs = �_�−�  

Z veces el valor de la S = Desviación de �_� con respecto a �  


o posición relativa del dato �_� con respecto a �  

Por ejemplo, si z1 =1.2 indicaría que X1 es 1.2 desviaciones estándar mayor que la media muestral.

De modo parecido, si Z 2= - 2.5 indicaría que X2 es 2.5 desviaciones estándar menor que la media
muestral.

Un valor z mayor que cero ocurre para observaciones con un valor mayor que la media, y un
valor z menor que cero ocurre para observaciones con un valor menor que la media.

Un valor z de cero indica que el valor de la observación es igual a la media.

En conclusión:

El valor z para cualquier observación puede interpretarse como una medida de la posición
relativa de la observación en un conjunto de datos.

Por tanto, se dice que las observaciones de dos conjuntos de datos diferentes con el mismo valor z
tienen la misma posición relativa en términos de que presentan igual número de desviaciones
estándar de la media.

Ejemplo: Tabla 3.4


Considerando que �   = 44 y que s = 8 vemos latable 3.4

El valor z de -1.50 de la quinta observación indica que ésta es la más alejada de la media: está
1.50 desviaciones estándar por debajo de la media.
El valor z de -1.50 de la quinta observación indica que ésta es la más alejada de la media: está
1.50 desviaciones estándar por debajo de la media.

Teorema de Chebyshev
El teorema de Chebyshev permite hacer afirmaciones acerca de la proporción de los valores de
datos que deben estar dentro de un número específico de desviaciones estándar de la media.

TEOREMA DE CHEBYSHEV
Por lo menos (1 - �/�^� )x 100 % de los valores de datos debe estar dentro de z
desviaciones estándar de la media, donde Z es cualquier valor mayor que 1.

Z no necesariamente tiene que ser un valor entero.

A continuación se mencionan algunas implicaciones de este teorema cuando z = 2, 3 y 4


desviaciones estándar.

• Si Por lo menos 0.75, o 75%, de los datos debe estar dentro de z = 2 desviaciones estándar
de la media.
• Al menos 0.89, u 89%, de los datos debe estar dentro de z = 3 desviaciones estándar de
la media.
• Por lo menos 0.94, o 94%, de los datos debe estar dentro de z = 4 desviaciones estándar
de la media.

Ejemplo:
Como ejemplo del uso del teorema de Chebyshev, suponga que las calificaciones obtenidas en
los exámenes parciales por 100 estudiantes universitarios en un curso de estadística para negocios
tenían una media de 70 y una desviación estándar de 5.

¿Cuántos alumnos obtuvieron una calificación de entre 58 y 82 en los exámenes?

Si las calificaciones de los exámenes están entre 58 y 82, observe que según la fórmula

Z = (�_�−�  )/� Z = ( 82-70)/ 5 = 2.4 (=2.4 desv. std por encima de la


media)
tenían una media de 70 y una desviación estándar de 5.

¿Cuántos alumnos obtuvieron una calificación de entre 58 y 82 en los exámenes?

Si las calificaciones de los exámenes están entre 58 y 82, observe que según la fórmula

Z = (�_�−�  )/� Z = ( 82-70)/ 5 = 2.4 (=2.4 desv. std por encima de la


media)

y Z = (58 - 70) / 5 = -2.4 (= 2.4 desv. std por debajo de la media)

Al aplicar el teorema de Chebyshev con Z = 2.4, tenemos

(1 - �/�^� )x 100 % = ( 1 - 1/ 〖� .� 〗 ^� )x100 % = 82.6%

Se interpreta como que al menos 82.6% de los estudiantes debe obtener


calificaciones de entre 58 y 82 en los exámenes.

Regla empírica del Teorema de Chebyshev

Una de las ventajas del teorema de Chebyshev estriba en que se aplica a cualquier conjunto
de datos sin importar su forma de distribución. De hecho, podría usarse con cualquiera de las
distribuciones de la figura 3.3. Sin embargo, en muchas aplicaciones prácticas los conjuntos de
datos exhiben una distribución simétrica con forma de pila o de campana, como se aprecia en
la figura 3.4.

Cuando se piensa que los datos se aproximan a esta distribución, la regla empírica
se usa para determinar el porcentaje de valores de datos que deben estar dentro de un número
específico de desviaciones estándar de la media.

REGLA EMPÍRICA
Cuando los datos tienen una distribución en forma de campana:
Cuando se piensa que los datos se aproximan a esta distribución, la regla empírica
se usa para determinar el porcentaje de valores de datos que deben estar dentro de un número
específico de desviaciones estándar de la media.

REGLA EMPÍRICA
Cuando los datos tienen una distribución en forma de campana:

• Aproximadamente 68% de los valores de datos estará dentro de una desviación


estándar de la media.

• Aproximadamente 95% de los valores de datos estará dentro de dos desviaciones


estándar de la media.

• Casi todos los valores de datos (99.7%) deben estar dentro de tres desviaciones
estándar de la media.
Ejemplo :

Los envases de detergente líquido se llenan automáticamente en una línea de


producción.

Los pesos de llenado suelen tener una distribución en forma de campana.


Si el peso medio de llenado es de 16 onzas y la desviación estándar de 0.25 onzas, se utiliza la
regla empírica para formular las conclusiones siguientes.

• Aproximadamente 68% de los envases llenos pesará entre 15.75 y 16.25 onzas (dentro
de una desviación estándar de la media), porque

16 ± 1(0.25) = entre 15.75 y 16.25 onzas

• Aproximadamente 95% de los envases llenos pesará entre 15.50 y 16.50 onzas (dentro
de dos desviaciones estándar de la media), porque

16 ± 2(0.25) = entre 15.50 y 16.50 onzas

• Casi todos los envases llenos (99.7%) pesarán entre 15.25 y 16.75 onzas (dentro de tres
desviaciones estándar de la media), porque

16 ± 3(0.25) = entre 15.25 y 16.75 onzas


Detección de observaciones atípicas

Un conjunto de datos a veces tiene una o más observaciones con valores inusualmente
grandes o sumamente pequeños. Estos valores extremos se llaman observaciones atípicas.

Por tanto, al usar puntuaciones Z para identificar observaciones extremas,


se recomienda tomar en cuenta como una observación atípica cualquier valor de datos
con una puntuación z menor que -3 o mayor que 3.

La exactitud de estos valores debe verificarse y determinar si pertenecen al conjunto de


datos.

Por lo tanto, es una buena idea buscar observaciones atípicas antes de tomar decisiones
basadas en el análisis de datos.

Suelen cometerse errores en el registro y la introducción de los datos en la computadora.

Las observaciones atípicas no necesariamente tienen que eliminarse, pero debe


verificarse qué tan exactas y apropiadas son.

NOTAS Y COMENTARIOS

1. El teorema de Chebyshev es aplicable a cualquier conjunto de datos y se utiliza para


establecer el número mínimo de valores de datos que estará dentro de cierto número de
desviaciones estándar de la media.
Si se sabe que los datos tienen una forma aproximada de campana, se puede decir más.

Por ejemplo, la regla empírica permite afirmar que aproximadamente 95% de los valores de
datos estará dentro de dos desviaciones estándar de la media;

2. Antes de analizar un conjunto de datos, los expertos en estadística efectúan varias


revisiones para confirmar su validez.
En un estudio grande no es raro que se cometan errores en el registro de los valores de datos
o al introducirlos en una computadora.

La identificación de las observaciones es una herramienta empleada para verificar la validez


de los datos.

En resumen, a lo largo de este capítulo hemos visto cuatro tipo de medidas:

1) Las de posición o localización o centralización (media, mediana, moda, percentiles y


cuartiles);
En resumen, a lo largo de este capítulo hemos visto cuatro tipo de medidas:

1) Las de posición o localización o centralización (media, mediana, moda, percentiles y


cuartiles);

2) Las de variabilidad (Rango, Rango intercuartílico, Varianza, Desviación estándar y


Coeficiente de variación);

3) La de forma ( sesgo o coeficiente da asimetría) y

4) La de posición relativa ( valor Z)

Ejercicio para hacer en clase de manera manual


Resolver ejercicios del 25 al 28 de la página 107
25. Considere una muestra con los datos 10, 20, 12, 17 y 16. Calcule el valor z de cada una de estas
cinco observaciones.
26. Suponga una muestra con una media de 500 y una desviación estándar de 100. ¿Cuáles son los
valores z de los datos siguientes: 520, 650, 500, 450 y 280?
27. Considere una muestra con una media de 30 y una desviación estándar de 5. Utilice el teorema
de Chebyshev para determinar el porcentaje de datos que se encuentra dentro de cada uno
de los rangos siguientes.
a) 20 a 40
b) 15 a 45
c) 22 a 38
d) 18 a 42
e) 12 a 48
28. Suponga que los datos tienen una distribución con forma de campana, una media de 30 y una
desviación estándar de 5. Use la regla empírica para determinar el porcentaje de los datos que
está dentro de cada uno de los rangos siguientes.
a) 20 a 40
b) 15 a 45
c) 25 a 35

Asignación (tarea)
Resolver los problemas 31 de la página 107-108
y 35 de la página 109 (usar archivo de datos "Speakers")
WEB archivo
Speakers
fica de la forma de
ción es el sesgo.

simetría.

sto fórmulas para


ución.

muestras, en donde

tamaño N, con

σ
ando los datos están
uando están
posición relativa

la media está un

relativa de

ar.

ue xi se encuentra de

media y la desviación
tre sí.
tre sí.

n respecto a �  

que la media muestral.

menor que la media

r que la media, y un
e la media.

a.

ida de la posición

con el mismo valor z


de desviaciones

media: está
media: está

ón de los valores de
ndar de la media.

entro de z
1.

= 2, 3 y 4

ones estándar

tándar de

es estándar

ones obtenidas en
dística para negocios

enes?

la fórmula

r encima de la
enes?

la fórmula

r encima de la

jo de la media)

6%

btener

quier conjunto
ualquiera de las
s los conjuntos de
mo se aprecia en

pírica
ro de un número
pírica
ro de un número

una desviación

dos desviaciones

s desviaciones
nzas, se utiliza la

zas (dentro

zas (dentro

entro de tres
sualmente
ones atípicas.

lor de datos

onjunto de

decisiones

omputadora.

be

iliza para
úmero de

decir más.

los valores de

varias

alores de datos

ficar la validez

centiles y
centiles y

tándar y

de cada una de estas


FORMULARIO
00. ¿Cuáles son los
�  ̅= (∑1▒�_𝒊 )/�
Utilice el teorema
S =
√(�&(∑1▒ 〖 (�𝒊−�
 ̅) 〗 ^� )/(�−𝟏))

media de 30 y una
los datos que Z = (𝑋_𝑖−𝑋  ̅)/�
Teorema de chebyshev
(1 - 𝟏/𝒁^� )x
100 % con Z>1

akers")

Anda mungkin juga menyukai