Anda di halaman 1dari 42

Estadística Descriptiva en SPSS

Marcelo Rodríguez
Ingeniero Estadístico - Magister en Estadística

Universidad Católica del Maule


Facultad de Ciencias Básicas
Pedagogía en Matemática
Estadística I

22 de octubre de 2011

mrodriguez@ucm.cl (UCM) Descriptiva 22/10/2011 1 / 42


Introducción a la Estadística Descriptiva

Una vez desarrollado el plan de muestreo y generados los datos es


necesario organizarlos, presentarlos y resumirlos adecuadamente con el
objetivo de obtener información, la que nos servirá como apoyo a la
toma de decisiones.
Existen tres formas de resumir los datos; organización mediante tablas,
gráficos y medidas descriptivas.
La organización de datos consiste en determinar qué unidades de
análisis pertenecen a qué atributos de la variable bajo estudio,
estableciendo para ello las frecuencias con las que estas unidades
pertenecen a esos atributos.
Una vez realizada esta organización se procede a la presentación de los
datos organizados a través de tablas o cuadros y de gráficos
estadísticos.

mrodriguez@ucm.cl (UCM) Descriptiva 22/10/2011 2 / 42


Organización de Datos

Definición (Clase)
Una “clase” o categoría es uno de los posibles atributos que puede tener
una unidad de análisis que es caracterizada a través de una variable.

Definición (Intervalo de clase)


Este atributo pasa a denominarse “intervalo de clase” cuando la variable es
continua o “clase” cuando ésta es no es continua. Por simplificación,
cualquiera sea el tipo de variable, nos referiremos a estas categorías como
“clase”. Es imprescindible que estas clases sean excluyentes o disjuntas, ya
que de esta forma no existe ambigüedad en la clasificación de las unidades
de análisis.

mrodriguez@ucm.cl (UCM) Descriptiva 22/10/2011 3 / 42


Organización de Datos

Supongamos que se desea estudiar una variable que esta agrupada en k


clases excluyentes, digamos c1 , c2 , . . . , ck .

Definición (Frecuencia Absoluta)


Corresponde al número de unidades de análisis que pertenecen a la clase ci
y se denota por ni , (i = 1, . . . , k), donde
k
X
ni = n.
i=1

mrodriguez@ucm.cl (UCM) Descriptiva 22/10/2011 4 / 42


Organización de Datos

Definición (Frecuencia Relativa)


Corresponde al porcentaje de unidades de análisisPk que pertenecen a la clase
ci y se denota por fi , (i = 1, . . . , k), donde i=1 fi = 100. Entonces,
ni
fi = · 100.
n

Definición (Frecuencia Relativa Acumulada)


Corresponde al porcentaje acumulado de unidades de análisis que
pertenecen a las clases c1 , c2 , . . . , ck y se denota por Fi , (i = 1, . . . , k),
donde
X i
Fi = fj .
j=1

Así, F1 = f1 y Fk = 100.

mrodriguez@ucm.cl (UCM) Descriptiva 22/10/2011 5 / 42


Tabla Estadística para variables cualitativas

Una tabla estadística es una tabla de frecuencias, de cada clase. En el caso


que la variable sea cualitativa sería de la siguiente forma.

Porcentaje
Clases Frecuencia (ni ) Porcentaje (fi ) Acumulado (Fi )
c1 n1 f1 F1
c2 n2 f2 F2
.. .. .. ..
. . . .
ck nk fk Fk = 100
Total n 100

Se puede también utilizar para variables discreta con un bajo rango de


variabilidad.

mrodriguez@ucm.cl (UCM) Descriptiva 22/10/2011 6 / 42


Ejemplo: Rendimiento Laboral

Ejemplo
En un estudio se está analizando el rendimiento laboral, para lo cual se
considera una muestra de 15 trabajadores, a las cuales se les mide el
rendimiento (1=bajo, 2=medio y 3=alto). Los datos se entregan a
continuación.

Rendimiento 3 2 1 1 2 1 3 3 2 3 3 2 2 2 2

Identifique la variable, su tipo y escala de medición.


Encuentre la tabla de frecuencia. Calcule la frecuencia: absoluta (ni ),
relativa (fi ) y relativa acumulada (Fi ).
Interprete.

mrodriguez@ucm.cl (UCM) Descriptiva 22/10/2011 7 / 42


Organización de Datos: Método para crear los intervalos de
clases

Paso 1: Contar el número n de datos.


Paso 2: Calcular el rango (R),

R = max − min,

donde min y max corresponden a los valores mínimos y


máximos de los datos, respectivamente.
Paso 3: Escoger el número de clases (intervalos). Se sugiere ,el entero
más próximo de la regla de Sturges, dada por

k = 1 + 3, 3 log(n),

donde log(•) es el logaritmo en base 10. También el


investigador puede elegir el número de clases según
especificaciones propias.
mrodriguez@ucm.cl (UCM) Descriptiva 22/10/2011 8 / 42
Organización de Datos: Método para crear los intervalos de
clases

Paso 4: Calcular la amplitud (A)

R
A= .
k
Paso 5: Para determinar los extremos de la primera clase (intervalo)
se debe tomar como límite inferior el valor min y como límite
superior el valor min +A. Este sería c1
Paso 6: Para obtener las restantes clases (cj ), se suma sucesivamente
A al límite inferior, donde el límite inferior de las sucesivas
clases corresponderá a límite superior de la clase anterior.

mrodriguez@ucm.cl (UCM) Descriptiva 22/10/2011 9 / 42


Tabla Estadística para variables cuantitativas

Finalmente, si la variable bajo estudio es cuantitativa continua (o discreta


con un alto rango de variabilidad), entonces el esquema de tabla anterior
sufre un leve modificación que está relacionada con la creación de los
“intervalos de clases”. En este caso, la tabla es el siguiente:
Intervalos de Marca de Frecuencia Porcentaje Porcentaje
Clase clase (mi ) (ni ) (fi ) Acumulado (Fi )
c1 = [min; min +A[ m1 n1 f1 F1
c2 = [min +A; min +2A[ m2 n2 f2 F2
. . . . .
. . . . .
. . . . .
ck = [min +(k − 1)A; max] mk nk fk Fk
Total n 100

Donde la marca de clase i-ésima (mi ) corresponde al promedio del intervalo


i-ésimo (i = 1, ..., k).

Observación
Si desea crear los datos (aproximadamente) con esta tabla, repita la mi
tantas veces como lo indique la ni .
mrodriguez@ucm.cl (UCM) Descriptiva 22/10/2011 10 / 42
Ejemplo

Ejemplo
Se realizó un estudio con 30 individuos, pertenecientes a una
misma empresa. El coeficiente intelectual, fue la variable que
se registró mediante una prueba de conocimiento. Los puntajes
de la prueba son los siguientes:
8,70 9,20 9,30 9,60 9,90 10,10 10,20 10,30 10,40 10,40
10,50 10,90 11,40 11,40 11,50 11,60 11,80 11,90 12,30 12,30
12,40 12,70 12,80 13,00 13,10 13,60 13,80 14,50 14,70 15,80

Identifique la variable, su tipo y escala de medición.


Encuentre los intervalos de clases. Encuentre la tabla de frecuencia.
Calcule la frecuencia: absoluta (ni ), relativa (fi ) y relativa acumulada
(Fi ).
Interprete.

mrodriguez@ucm.cl (UCM) Descriptiva 22/10/2011 11 / 42


Gráficos Estadísticos de frecuencias

Las grandes cantidades de datos estadísticos resultan incómodos de


interpretar y si éstos no están ordenados de alguna manera.
La principal ventaja de la construcción de gráficos con los datos de
una investigación, es que nos permite visualizar más claramente la
distribución de éstos, hacer una mejor comparación de resultados y un
análisis objetivo de estos últimos.
Una buena definición de lo que es un “gráfico” es la siguiente.

Definición (Gráfico)
es una representación pictórica, mediante figuras geométricas u otros
elementos, que proporciona un resumen de la información que interesa
destacar y, lo más importante, recordar.

mrodriguez@ucm.cl (UCM) Descriptiva 22/10/2011 12 / 42


Gráficos Estadísticos de frecuencias: Barra Simple
Representa distribuciones de frecuencias de variables cualitativas o discretas
con bajo rango de variabilidad. Es un conjunto de rectángulos adyacentes
(con un espacio entre ellos). En el eje horizontal deben ir las clases y en el
eje vertical las frecuencias o los porcentajes.

50,0%

40,0%
Porcentaje

30,0%

46,67%
20,0%

33,33%

10,0% 20,00%

0,0%
Bajo Medio Alto
Grado de dulzor de la especie Royal Gala

mrodriguez@ucm.cl (UCM) Descriptiva 22/10/2011 13 / 42


Gráficos Estadísticos de frecuencias: Histograma
Se usa para variables continuas o discretas con alto rango de variabilidad.
Es un conjunto de rectángulos adyacentes. En el eje horizontal deben ir los
intervalos (clases) y en el eje vertical las frecuencias o los porcentajes.

mrodriguez@ucm.cl (UCM) Descriptiva 22/10/2011 14 / 42


Gráficos Estadísticos de frecuencias: Sectorial

Muestra una comparación proporcional entre las distintas clases de la


variable, en particular se usa para variables cualitativas.

mrodriguez@ucm.cl (UCM) Descriptiva 22/10/2011 15 / 42


Medidas de Resumen
Estas medidas estadísticas resumen al conjunto de datos, también se les
denomina estadísticos. Estas medidas se clasifican en medidas de posición,
dispersión y forma.

(Medidas de Posición)
Entregan la posición relativa que poseen los individuos dentro de la
distribución y se subdividen en dos:
a) Las medidas de tendencia central, que tienden a ubicarse en el centro
de la distribución, entre las cuales se encuentran:
La media o promedio aritmético.
La mediana o valor del centro.
La moda, o valor más frecuente.
b) Los percentiles, que tienden a ubicarse en distintas partes de la
distribución de la variable, entre los que se encuentran:
Los cuartiles (dividen al conjunto en cuatro partes iguales).
Los deciles (dividen al conjunto en 10 partes iguales).

mrodriguez@ucm.cl (UCM) Descriptiva 22/10/2011 16 / 42


Medidas de tendencia central: Media
Definición (Media)
La media o promedio aritmético de un conjunto de n datos digamos
x1 , x2 , . . . , xn , viene dado por:
n
X xi
x= .
n
i=1

Definición (Media Recortada al 5%)


Es el promedio de los datos sin considerar el 5% más pequeño, ni el 5%
más alto.

El uso de la media es exclusivamente para variables cuantitativas.


La media puede ser afectado de manera desproporcionada por la
existencia de datos atípicos (fuera de lo común).
La media recortada al 5%, comúnmente no es afectada por valores
atípicos.
mrodriguez@ucm.cl (UCM) Descriptiva 22/10/2011 17 / 42
Medidas de tendencia central: Mediana

Definición (Mediana)
Corresponde al valor central cuando las n observaciones se ordenan de
menor a mayor. Es decir, considere las siguientes observaciones
x1 , x2 , ..., xn , además si ordenamos estas observaciones de menor a mayor
tenemos x(1) , x(2) , ..., x(n) , entonces la mediana sería

 x( n+1 ) , si n es impar;
2
Me = x( n2 ) + x( n2 +1)
 , si n es par.
2

No se puede usar esta medida si la escala de medición de la variables


es nominal.
Su cálculo no es afectado por la existencia de datos atípicos.

mrodriguez@ucm.cl (UCM) Descriptiva 22/10/2011 18 / 42


Medidas de tendencia central: Moda

Definición (Moda (Mo ))


Corresponde al valor o categoría con más alta frecuencia en los datos.

El uso de esta medida es para cualquier tipo de variable.


En el caso de variables cuantitativas, los datos pueden ser agrupados
en clases y la moda se define como la marca de clase que tiene la
mayor frecuencia.
Puede existir más de una moda en un conjunto de datos.

mrodriguez@ucm.cl (UCM) Descriptiva 22/10/2011 19 / 42


Medidas de posición: Los Percentiles

Definición (Percentil α)
Los percentiles cumplen con la condición de superar a no más del
(1 − α)100% de los datos y de ser superado, a los más por el porcentaje
complementario de las observaciones.

Considere los siguientes datos ordenados de menor a mayor


x(1) , x(2) , ..., x(n) . Entonces,

Pα = (1 − d) · x(e) + d · x(e+1) .

Donde,
i = α(n + 1),
e = parte entera de i,
d = i − e.
Esta técnica es la que utiliza IBM-SPSS.
mrodriguez@ucm.cl (UCM) Descriptiva 22/10/2011 20 / 42
Medidas de posición: Cuartiles
Definición (Cuartiles)
Los cuartiles dividen a un conjunto ordenado de datos en 4 grupos de igual
tamaño:
El cuartil 1 (Q1 ) marca la parte alta del primer cuarto de los datos,
corresponde al P0,25 .
El cuartil 3 (Q3 ) marca la parte baja del último cuarto de los datos,
corresponde al P0,75 .
El cuartil 2 (Q2 ) corresponde a la P0,50 = Me .

Metodología para el cálculo aproximado de Q1 y Q3


Paso 1: Ordene los datos de menor a mayor y encuentre la Me .
Paso 2: Divida los datos en 2 mitades, por encima y por debajo de la
Me . Si n es impar incluya la mediana en ambas mitades.
Paso 3: Encuentre la mediana en ambas mitades, estas son Q1 y Q3 .
mrodriguez@ucm.cl (UCM) Descriptiva 22/10/2011 21 / 42
Medidas de dispersión

Las segundas medidas estadísticas de resumen, las de dispersión, nos


entregan el grado de dispersión, variabilidad u homogeneidad que poseen
los datos dentro del conjunto, generalmente respecto de una medida de
tendencia central, entre las que se encuentran:
El rango o desviación máxima
El rango intercuartil.
La varianza.
La desviación estándar o típica.
El coeficiente de variación.
Entre otras.

mrodriguez@ucm.cl (UCM) Descriptiva 22/10/2011 22 / 42


Medidas de Dispersión: Rango y Rango Intercuartil

Definición (Rango)
Corresponde a la diferencia entre el mayor y menor de los datos.

R = Máx − Mín

Definición (Rango Intercuartil)


Esta medida de variabilidad es resistente a valores atípicos y se concentra
en el 50% de los datos. También llamado “Amplitud Intercuartil”.

RI = Q3 − Q1

El uso de R y RI no es para variables nominales.


R es afectado por la existencia de datos atípicos.
RI no es afectado por la existencia de datos atípicos.

mrodriguez@ucm.cl (UCM) Descriptiva 22/10/2011 23 / 42


Medidas de Dispersión: Varianza

Definición (Varianza)
La varianza de las observaciones x1 , x2 , ..., xn es
n
1 X
s2 = (xi − x)2 .
n−1
i=1

Esta mide las variaciones promedio que existen en los datos con respecto a
la media de la muestra.

Su calculo es afectado por la existencia de datos atípicos.


El uso de esta medida es exclusivamente para variables cuantitativas.
Esta medida no se puede interpreta, pues tiene unidades de medida al
cuadrado.

mrodriguez@ucm.cl (UCM) Descriptiva 22/10/2011 24 / 42


Medidas de dispersión: Desviación Estándar

Definición (Desviación estándar)


Se define la desviación estándar (típica) como
v

u n
u 1 X
s= s = 2 t (xi − x)2 .
n−1
i=1

Su calculo es afectado por la existencia de datos atípicos.


El uso de esta medida es exclusivamente para variables cuantitativas.
Se interpreta como la cantidad de desviaciones promedio de los datos
con respecto a la media.

mrodriguez@ucm.cl (UCM) Descriptiva 22/10/2011 25 / 42


Medidas de Dispersión: Coeficiente de variación

Definición (Coeficiente de variación)


Corresponde a una medida de dispersión relativa a la media. Esta dada por
s
CV = 100%
x

No depende de la unidad de medida.


x > 0.
Útil para comparar variabilidad entre grupos.
Mientras más pequeño es el valor del CV más homogéneos (parecidos
entre si) son los datos.

mrodriguez@ucm.cl (UCM) Descriptiva 22/10/2011 26 / 42


Relación entre el promedio y la desviación estándar

Regla empírica
Definición (Regla empírica ) Media = 0 y Desviación Estándar =1.

Para un conjunto de datos (n


grande) que tienen un histograma 1.250

simétrico, con forma de campana,


los intervalos, que se presenta a 1.000

continuación, contienen

Frecuencia
aproximadamente los siguientes 750

porcentajes de los datos.


500

Intervalo Porcentaje
[x − s; x + s] 68, 27% 250

[x − 2s; x + 2s] 95, 45%


[x − 3s; x + 3s] 99, 73% 0

-3 -2 -1 0 1 2 3
Normal

mrodriguez@ucm.cl (UCM) Descriptiva 22/10/2011 27 / 42


Intervalo de Confianza del 95% para la verdadera media
poblacional µ (para muestras grandes)

Definición (Intervalo de Confianza para µ)


Intervalo de Confianza del 95% para la verdadera media poblacional µ
(para muestras grandes), se define como
 
s s
x − 1, 96 · √ ; x + 1, 96 · √
n n

Se recomienda utilizar este intervalo para n ≥ 30.


s
1, 96 · √ es llamado error de estimación.
n
s
√ es llamado error típico de la media.
n

mrodriguez@ucm.cl (UCM) Descriptiva 22/10/2011 28 / 42


Medidas de Forma

Definición (Sesgo)
Índice que expresa el grado de asimetría de la distribución de los datos
(histograma). La asimetría positiva indica que los valores más extremos se
encuentran por encima de la media. La asimetría negativa indica que los
valores más extremos se encuentran por debajo de la media. Su formula es
 n 
X
3
  (xi − x) 
n  i=1 
sk = 
3

(n − 1)(n − 2)   s 

Si sk = 0, entonces la distribución es simétrica.


Si sk < 0, entonces la distribución es asimétrica negativa.
Si sk > 0, entonces la distribución es asimétrica positiva.
mrodriguez@ucm.cl (UCM) Descriptiva 22/10/2011 29 / 42
Medidas de Forma: Relación Entre Promedio y la Mediana

Distribución Simétrica (No Sesgada):


x = Me
Distribución Asimétrica Positiva, :
Me < x
Distribución Asimétrica Negativa:
x < Me

Una distribución es simétrica si la mitad izquierda de su distribución es


la imagen de su mitad derecha.
La asimetría es positiva o negativa en función de a qué lado se
encuentra la cola de la distribución.
La media tiende a desplazarse hacia las valores extremos (colas).

mrodriguez@ucm.cl (UCM) Descriptiva 22/10/2011 30 / 42


Medidas de Forma: Error típico del sesgo

Definición (Error típico del sesgo)


Es la desviación típica de la distribución muestral del índice de asimetría, el
cual permite tipificar el valor del índice de asimetría e interpretarlo como
una puntuación z. Índices tipificados mayores que 1,96 en valor absoluto
permiten afirmar que existe asimetría (positiva o negativa, dependiendo del
signo del índice). Su formula es
s
6n(n − 1)
esk = .
(n − 2)(n + 1)(n + 3)

sk
Si, ≤ 1, 96, entonces la distribución de los datos es simétrica.
esk

mrodriguez@ucm.cl (UCM) Descriptiva 22/10/2011 31 / 42


Resumen de los datos: Coeficientes de apuntamiento
Definición (Curtosis)
Índice que expresa el grado en que una distribución acumula casos en sus
colas en comparación con los casos acumulados en las colas de una
distribución normal con la misma varianza. Su formula es
 n 
X
4
(xi − x)  
2
  
n(n + 1)  i=1 
− n(n − 1)
k= 
(n − 1)(n − 2)(n − 3)  s4 
 (n − 2)(n − 3)

Si k > 0, entonces la distribución es más puntiagudas (Leptocurtica)..


Si k = 0, (proximos a cero) entonces indican semejanza con la curva
normal.
Si k < 0, entonces la distribución es más aplanada (Mesocurtica).
. mrodriguez@ucm.cl (UCM) Descriptiva 22/10/2011 32 / 42
Medidas de Forma: Error típico de la curtosis

Definición (Error típico de la curtosis)


El error típico del índice de curtosis, el cual puede utilizarse para tipificar el
valor del índice de curtosis y poder interpretarlo como una puntuación z..
Índices mayores que 1,96 en valor absoluto permiten afirmar que la
distribución se aleja de la distribución normal. Su formula es
s
24n(n − 1)2
ek = .
(n − 3)(n − 2)(n + 3)(n + 5)

k
Si, ≤ 1, 96, entonces la distribución de los datos es como la normal.
ek
Dependiendo del signo de k, se identifica si es platicurtica o mecocurtica.

mrodriguez@ucm.cl (UCM) Descriptiva 22/10/2011 33 / 42


Identificación de Datos Atípicos: Método de la puntuación z

Definición (Método de la puntuación z:)


Si consideramos la regla empírica, sabemos que aproximadamente el 100%
de los datos está en el intervalo [x − 3s; x + 3s]. Es muy improbable que un
dato esté fuera de este intervalo, y en caso que fuese, éste se llamaría un
dato atípico. Es decir, un dato es no atípico si

xi − x xi − x
xi ∈ [x − 3s; x + 3s] ⇔ ∈ [−3; 3] ⇔ ≤3
s s
xi −x
∴ Si consideramos la transformación zi = s , entonces un dato xi es
atípico si |zi | > 3.

mrodriguez@ucm.cl (UCM) Descriptiva 22/10/2011 34 / 42


Identificación de Datos Atípicos: Método de Tukey

Definición (Método de Tukey:)


Considere las siguientes barreras (bisagras),
Barrera Interior Inferior: BII = Q1 − 1, 5RI
Barrera Interior Superior: BIS = Q3 + 1, 5RI
Barrera Exterior Inferior: BEI = Q1 − 3RI
Barrera Exterior Superior: BES = Q3 + 3RI
Identifique los datos en este diagrama

No atípico
z }| {
· · · · · · [ [BEI · · · · · · [ [BII · · · · · · BIS] ] · · · · · · BES] ] · · · · · ·
| {z } | {z } | {z } | {z }
Potencial Posible Posible Potencial

mrodriguez@ucm.cl (UCM) Descriptiva 22/10/2011 35 / 42


Identificación de Datos Atípicos: Diagrama de Caja

Definición (Diagrama de caja)


El diagrama de caja, entrega información sobre
centralidad, dispersión y la forma de la distribución de los datos,
identifica valores atípicos
y es útil para comparar dos distribuciones.

(Procedimiento para realizar esta gráfica)


Paso 1: Los bordes de la caja se representan por Q1 y Q3 , se debe
trazar una linea vertical que atraviese la caja en la Me .
Paso 2: Trazar líneas desde los bordes de la caja hasta los valores
adyacentes (el menor y mayor de los datos no atípicos).
Paso 3: Marque los posibles valores atípicos con o y los potenciales
con ∗.

mrodriguez@ucm.cl (UCM) Descriptiva 22/10/2011 36 / 42


Identificación de Datos Atípicos: Diagrama de Caja

mrodriguez@ucm.cl (UCM) Descriptiva 22/10/2011 37 / 42


Solución del ejemplo con SPSS

mrodriguez@ucm.cl (UCM) Descriptiva 22/10/2011 38 / 42


Solución del ejemplo con SPSS

mrodriguez@ucm.cl (UCM) Descriptiva 22/10/2011 39 / 42


Solución del ejemplo con SPSS

mrodriguez@ucm.cl (UCM) Descriptiva 22/10/2011 40 / 42


Solución del ejemplo de la altura de las plantas con SPSS

mrodriguez@ucm.cl (UCM) Descriptiva 22/10/2011 41 / 42


Solución del ejemplo, con SPSS

mrodriguez@ucm.cl (UCM) Descriptiva 22/10/2011 42 / 42