Ya ha sido abordado en temas precedentes el anlisis de la forma de la distribucin de frecuencias desde una aproximacin grfica. De hecho, se trata de la forma ms directa e intuitiva de hacerse una idea acerca de la forma de la distribucin de una variable. Como se vio en su momento, conocer la forma de una distribucin resultaba relevante a la hora de decidir qu estadsticos de posicin y dispersin era oportuno utilizar con variables cuantitativas. En cualquier caso, su examen va a aportar informacin relevante por s misma a la hora de describir a una variable. Ejemplo: Qu nos dice la forma de la distribucin de la variable Salario actual que se muestra en el siguiente histograma?
2 En este tema se presentan diversos ndices que permiten cuantificar esa forma de la distribucin, en concreto, dos facetas de la misma: la asimetra y el apuntamiento (o curtosis).
1. Asimetra
La simetra (tambin denominada sesgo) de una distribucin de frecuencias hace referencia al grado en que valores de la variable, equidistantes a un valor que se considere centro de la distribucin, poseen frecuencias similares. Es un concepto ms intuitivo a nivel visual, especialmente, si se observa una representacin grfica (diagrama de barras, histograma) de la distribucin de frecuencias. sta ser simtrica si la mitad izquierda de la distribucin es la imagen especular de la mitad derecha. Ejemplos de distribucin simtrica:
Media y mediana coinciden en las distribuciones simtricas. Si slo hay una moda (distribucin unimodal), el valor de sta tambin ser igual a las dos anteriores En distribuciones unimodales, el nivel de simetra se suele describir de acuerdo a tres grandes categoras: distribuciones simtricas, distribuciones asimtricas positivas (o asimetra a la derecha) y distribuciones asimtricas negativas (o asimetra a la izquierda). Tomando como eje de referencia a la moda, estas categoras de asimetra vienen definidas por el diferente grado de dispersin de los datos a ambos lados (colas) de ese eje virtual. La cola ms dispersa en el lado de los valores altos de la variable caracteriza a la asimetra positiva; si en el lado de los ms bajos, a la asimetra negativa; y si la dispersin es igual o muy similar a ambos lados, a una distribucin de frecuencias simtrica.
En caso de asimetra, los valores de la media, de la mediana y de la moda difieren. En concreto, si la asimetra es positiva: X > Mdn Mo; si negativa: X < Mdn Mo. Ejemplo de las puntuaciones de un grupo de sujetos en un test de habilidades sociales antes, durante y despus de recibir 6 sesiones de entrenamiento en habilidades sociales.
A continuacin se presentan diferentes ndices estadsticos que permiten cuantificar el nivel de asimetra de una variable. Destacar antes que para variables categricas no tiene sentido el plantear este tipo de ndices, dado que no existe un orden intrnseco a los valores de la variable. Ver, por ejemplo, los dos diagramas de barras de una misma distribucin de frecuencias de la variable Estado civil en las que lo nico que se ha cambiado es la posicin de las barras:
4
20
20
15
15
Frecuencia
Frecuencia
10
10
Estado civil
Estado civil
1.1. Variables ordinales: el ndice de asimetra intercuartlico. El ndice de asimetra intercuartlico se basa en las distancias entre los cuartiles a fin de establecer un resumen de la asimetra de la distribucin. La frmula es la siguiente:
AsQ3 Q1
Q1
Q2 Q3
Q1 Q2 Q3
Q3 Q2 = Q2 Q1 AsQ3-Q1 = 0 Simetra
Q1 Q2 Q3
Q3 Q2 > Q2 Q1 AsQ3-Q1 > 0 Asimetra +
Ejercicio 1: Obtener el AsQ3-Q1 para las distribuciones de frecuencias de 3 grupos de 10 casos cada uno (A, B y C) que, en el desarrollo de una investigacin, cumplimentaron un test que constaba de 10 tems, cada uno de los cuales era valorado con 1 punto si estaba ejecutado de forma totalmente
5 correcta, un 0 en cualquier otro caso. La puntuacin en el test para cada sujeto se obtena como suma de las puntuaciones de los tems, pudiendo por tanto oscilar entre 0 y 10 (aunque la variable podra considerarse como cuantitativa, asmase para este ejercicio que es ordinal). Obtener tambin los respectivos diagramas de caja y bigotes.
Grupo A Grupo B Nota ni ni 0 1 4 1 3 5 2 3 8 3 5 9 4 8 15 5 11 18 6 15 15 7 24 9 8 16 8 9 9 5 10 5 4 100 100 Grupo C ni 5 11 14 23 15 12 9 6 2 2 1 100
Interpretacin: los valores menores que 0 indican asimetra negativa; los mayores, asimetra positiva; y cuando sea 0, o muy prximo a 0, simetra. No est limitado a un rango de valores.
(X
i 1
X )3
3 n SX
n (X
i
X )3
3 n SX
6 Acorde al tipo de variable que nos ocupa, el histograma representa la mejor opcin en la visualizacin de la asimetra de una variable, si bien, el diagrama de caja y bigotes tambin constituye una opcin vlida para tal fin. A continuacin se presenta un ejemplo con ambos tipos de grficos superpuestos (Barn-Lpez, 2005), en que se muestran 3 variables que ilustran distribuciones con diferente nivel de asimetra:
0.5 0.20 0.05 0.10 0.1 0.2 0.15
0.20
0.15
0.05
0.10
0.3
0.4
xs 78 %
xs 66 % 0.00
xs 78 %
0.00
10
12
14 x
16
18
20
0.0 -2
-1
0 x
6 x
10
12
14
Tal como ya se destac en el captulo previo, una ventaja importante de los diagramas de
caja y bigotes es la facilidad para representar varios de ellos conjuntamente y, en consecuencia, para realizar comparaciones entre diferentes distribuciones. Ejemplo con las puntuaciones en un test de impulsividad para un grupo de sujetos introvertidos y para otro grupo de extravertidos:
100
80
60
Escala impulsivitat
40
20
0
N= 45 37
Introvertit
Extravertit
Factor extraversi-introversi
7 Ejercicio 2: La distribucin de frecuencias que se muestra a continuacin corresponde a las puntuaciones en un test de habilidades sociales aplicado a una muestra de 86 sujetos tras la tercera de seis sesiones que recibieron a fin de mejorar este tipo habilidades. Valorar la asimetra de esta distribucin, con el primer coeficiente de Pearson. Puede verse el histograma de esta distribucin de frecuencias ms arriba en la introduccin de esta seccin (Durante).
Porcentaje vlido 2,3 2,3 4,7 11,6 18,6 23,3 17,4 9,3 5,8 3,5 1,2 100,0 Porcentaje acumulado 2,3 4,7 9,3 20,9 39,5 62,8 80,2 89,5 95,3 98,8 100,0
0 1 2 3 4 5 6 7 8 9 10 Total
Frecuencia Porcentaje 2 2,3 2 2,3 4 4,7 10 11,6 16 18,6 20 23,3 15 17,4 8 9,3 5 5,8 3 3,5 1 1,2 86 100,0
2. Apuntamiento (curtosis)
El apuntamiento o curtosis de una distribucin de frecuencias no tiene un referente natural como en el caso de la simetra, sino que se sustenta en la comparacin respecto a una distribucin de referencia, en concreto, la distribucin normal o campana de Gauss. En consecuencia, su obtencin slo tendr sentido en variables cuya distribucin de frecuencias sea similar a la de la curva normal en la prctica ello se reduce, bsicamente, a que sea unimodal y ms o menos simtrica. El apuntamiento expresa el grado en que una distribucin acumula casos en sus colas en comparacin con los casos acumulados en las colas de una distribucin normal cuya dispersin sea equivalente (Pardo y Ruiz, 2002). As, de forma anloga a la asimetra, se diferencian 3 grandes categoras de apuntamiento: Distribucin platicrtica (apuntamiento negativo): indica que en las colas hay ms casos acumulados que en las colas de una distribucin normal. Distribucin leptocrtica (apuntamiento positivo): justo lo contrario. Distribucin mesocrtica (apuntamiento normal): como en la distribucin normal. J. Gabriel Molina y Mara F. Rodrigo Estadstica descriptiva en Psicologa Curso 2009-2010
El ndice K2 se basa en la comparacin de la dispersin existente en el 80% central de la distribucin con la existente en el 50% central. Su frmula es la siguiente:
K2
Interpretacin: valores igual o muy prximos a 1 corresponden a una distribucin mesocrtica (apuntamiento como la distribucin normal); valores mayores que 1 ponen de manifiesto que la distribucin es leptocrtica (ms puntiaguda que la normal); mientras que si son menores que 1 indican que la distribucin es platicrtica (ms aplastada que la normal). Este coeficiente no est limitado a un rango de valores.
Ejercicio 3: Obtener el ndice de apuntamiento K2 para la distribucin de frecuencias presentada en
(X
X )4 3
4 N SX
n (X
i
X )4
4 N SX
3 )
Interpretacin: el valor de este coeficiente para la distribucin normal ser igual a 0, o sea que cualquier distribucin para la que se obtenga un valor de ApF igual o prximo a 0 significar que su nivel de apuntamiento es como el de la distribucin normal (mesocrtica). Valores mayores que 0, expresan que la distribucin es leptocrtica, mientras que si son menores que 0 ponen de manifiesto que la distribucin es platicrtica. No est limitado a un rango de valores.
9
Ejercicio 4: Valorar la curtosis a partir del histograma de la distribucin de la variable con las
puntuaciones en el test de habilidades sociales. En el mismo aparece superpuesta la curva suavizada de esta variable en el caso en que se distribuyese segn la curva normal.
Referencias:
Barn-Lpez, J. (2005). Bioestadstica: mtodos y aplicaciones. Apuntes y material disponible en http://www.bioestadistica.uma.es/baron/apuntes/ Rius, F., Barn-Lpez, F. J., Snchez, E. y Parras, L. (2006). Bioestadstica: mtodos y aplicaciones. Disponible en www.bioestadistica.uma.es/libro/ Pardo, A. y Ruiz, M. A. (2002). SPSS: Gua para el anlisis de datos. Madrid: McGraw-Hill.