ÍNDICE
Una vez tabulados y organizados los datos, y antes de proceder análisis estadístico
más sofisticados, es necesario realizar un análisis preliminar de los mismos con el fin
de detectar cualquier anomalía que pueda llevar a cometer errores los resultados
obtenidos. Normalmente este procedimiento conlleva un análisis descriptivo de las
variables, incluyendo tablas de frecuencia, cálculo de los estadísticos básicos y
representación gráfica de los datos, así como una comprobación del cumplimiento de
los supuestos (e.g., normalidad, homoscedasticidad, linealidad, etc.) del análisis
estadístico a realizar con posterioridad (e.g., prueba t, análisis de varianza, análisis
de regresión, etc.).
2
ANÁLISIS DESCRIPTIVO-EXPLORATORIO DE DATOS
Profa. Mª JOSÉ BLANCA
SEXO
Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
Válidos hombre 6 50,0 50,0 50,0
Mujer 6 50,0 50,0 100,0
Total 12 100,0 100,0
3
ANÁLISIS DESCRIPTIVO-EXPLORATORIO DE DATOS
Profa. Mª JOSÉ BLANCA
formatos más útiles para las variables categóricas son el diagrama de barras
(también denominada diagramas de rectángulos) y el gráfico de sectores.
¾ Frecuencias
¾ Gráficos
¾ Gráficos de barras
¾ Frecuencias o Porcentajes
SEXO
7
2
Frecuencia
0
hombre Mujer
SEXO
4
ANÁLISIS DESCRIPTIVO-EXPLORATORIO DE DATOS
Profa. Mª JOSÉ BLANCA
¾ Gráfico
¾ Barras
¾ Simples
¾ Resúmenes para grupos de casos
¾ Definir
¾ Seleccionar variable y mover a Eje de Categorías
¾ Nº de casos para representar frecuencias
¾ % de casos para representar porcentajes
5
ANÁLISIS DESCRIPTIVO-EXPLORATORIO DE DATOS
Profa. Mª JOSÉ BLANCA
¾ Gráfico
¾ Pareto
¾ Simples
¾ Recuento o sumas para grupos de casos
¾ Definir
¾ Seleccionar variable y mover a Eje de Categorías
6
ANÁLISIS DESCRIPTIVO-EXPLORATORIO DE DATOS
Profa. Mª JOSÉ BLANCA
SEXO
hombre
Mujer
7
ANÁLISIS DESCRIPTIVO-EXPLORATORIO DE DATOS
Profa. Mª JOSÉ BLANCA
Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
Válidos suspenso 1 8,3 9,1 9,1
aprobado 6 50,0 54,5 63,6
bien 1 8,3 9,1 72,7
notable 2 16,7 18,2 90,9
sobresaliente 1 8,3 9,1 100,0
Total 11 91,7 100,0
Perdidos Sistema 1 8,3
Total 12 100,0
2
Frecuencia
0
suspenso aprobado bien notable sobresaliente
8
ANÁLISIS DESCRIPTIVO-EXPLORATORIO DE DATOS
Profa. Mª JOSÉ BLANCA
sobresaliente Omitido
suspenso
notable
bien
aprobado
9
ANÁLISIS DESCRIPTIVO-EXPLORATORIO DE DATOS
Profa. Mª JOSÉ BLANCA
d) Mediana o valor por debajo del cual se encuentra el 50% de los casos. Si se
ordenan los datos de mayor a menor, la mediana correspondería al valor situado
en el centro de la distribución.
a) Rango, amplitud total o recorrido, que denota la diferencia entre el valor máximo y
mínimo de la distribución de la variable
b) Recorrido intercuartílico o amplitud intercuartil (AIC), el cual es la diferencia entre
el primer (percentil 25) y el tercer cuartil (percentil 75). El 50% de los casos de la
distribución se encuentra entre ambos cuartiles.
c) Varianza, la cual se define como el promedio de las desviaciones cuadráticas
respecto a la media. La raíz cuadrada de la varianza constituye la desviación
típica, índice más útil como medida de variabilidad que la varianza porque viene
expresado en las unidades de medida de la variable original. Estos índices
representan el grado de concentración o dispersión de los valores de la variable
en torno a la media y, por tanto, ofrece también información de la eficacia de la
media en la representación de este conjunto de valores.
Casos
Válidos Perdidos Total
N Porcentaje N Porcentaje N Porcentaje
Inteligencia_D48 129 98,5% 2 1,5% 131 100,0%
10
ANÁLISIS DESCRIPTIVO-EXPLORATORIO DE DATOS
Profa. Mª JOSÉ BLANCA
Descriptivos
Percentiles
5 10 25 50 75 90 95
Promedio Inteligencia_D48
ponderado(definición 1) 23,00 25,00 28,00 30,00 33,00 37,00 38,00
Bisagras de Tukey Inteligencia_D48 28,00 30,00 33,00
11
ANÁLISIS DESCRIPTIVO-EXPLORATORIO DE DATOS
Profa. Mª JOSÉ BLANCA
7 7
6 6
5 5
4 4
3 3
2 2
Frecuencia
Frecuencia
1 1
0 0
2,00 3,00 4,00 5,00 6,00 7,00 8,00 9,00 4,00 5,00 6,00 7,00 8,00 9,00
VAR00001 VAR00002
NORMAL
g1=0
12
ANÁLISIS DESCRIPTIVO-EXPLORATORIO DE DATOS
Profa. Mª JOSÉ BLANCA
Descriptivos
H0 : γ1 = 0
Estadístico Error típ.
g1
Inteligencia_D48 Media
Intervalo de confianza Límite inferior
30,55
29,77
,397
z=
para la media al 95%
Error típico
Límite superior
31,34 0,250
Media recortada al 5%
z= = 1,17
30,47 0,213
Mediana 30,00
Varianza 20,296 z < 1,96 Se acepta H 0
Desv. típ. 4,505 La variable es simétrica
Mínimo 21
Máximo 43
Rango 22
Amplitud intercuartil 5
Asimetría ,250 ,213
Curtosis ,057 ,423
13
ANÁLISIS DESCRIPTIVO-EXPLORATORIO DE DATOS
Profa. Mª JOSÉ BLANCA
14
ANÁLISIS DESCRIPTIVO-EXPLORATORIO DE DATOS
Profa. Mª JOSÉ BLANCA
Pruebas de normalidad
Kolmogorov-Smirnov
a
Shapiro-Wilk
p < 0,05
Estadístico gl Sig. Estadístico gl Sig. Se rechaza H 0
RAZONAMI ,313 24 ,000 ,666 24 ,010** La variable no sigue la
**. Este es un límite superior de la significación verdadera. distribución normal
a. Corrección de la significación de Lilliefors
Histograma
60
50
40
Frecuencia
30
20
10
Media =29,47
Desviación típica =7,146
N =839
0
10 20 30 40 50
amabilidad
__
Pruebas de normalidad
Kolmogorov-Smirnov a Shapiro-Wilk
Estadístico gl Sig. Estadístico gl Sig.
amabilidad ,052 839 ,000 ,996 839 ,038
a. Corrección de la significación de Lilliefors
15
ANÁLISIS DESCRIPTIVO-EXPLORATORIO DE DATOS
Profa. Mª JOSÉ BLANCA
También hay que tener en cuenta que la violación de la normalidad puede venir
causada por la presencia de valores atípicos. A veces es útil analizar la normalidad
eliminando estos valores.
1,5
1,0
,5
Violación de la
0,0
normalidad
Normal esperado
-,5
-1,0
-1,5
-2,0
-10 0 10 20 30 40
Valor observado
16
ANÁLISIS DESCRIPTIVO-EXPLORATORIO DE DATOS
Profa. Mª JOSÉ BLANCA
Normal esperado
-1
-2
-3
40 60 80 100 120 140 160 180 200
Valor observado
2
Normal esperado
-2
0 10 20 30 40 50 60
Valor observado
1,5
1,0
,5
Desv. de normal
0,0
-,5
-1,0
0 10 20 30 40
Valor observado
17
ANÁLISIS DESCRIPTIVO-EXPLORATORIO DE DATOS
Profa. Mª JOSÉ BLANCA
,3
,2
,1
Desv. de normal
0,0
-,1
-,2
40 60 80 100 120 140 160 180 200
Valor observado
Los datos perdidos son los datos no registrados y son importantes haya medidas
repetidas de la misma variable o medidas de distintas variables, ya sea de forma
longitudinal o transversal. El primer caso sucede cuando se siguen diseños
intrasujeto, experimentales, como los diseños unifactoriales y factoriales de medidas
repetidas, o cuasi-experimentales, como el diseño pretest-postest y sus variaciones.
El segundo caso es propio de los estudios correlacionales, de encuesta o de estudios
encaminados a realizar análisis multivariantes, en los que se registran distintas
variables.
18
ANÁLISIS DESCRIPTIVO-EXPLORATORIO DE DATOS
Profa. Mª JOSÉ BLANCA
Una solución en los casos en los que el patrón de valores perdidos no sea
aleatorio consiste en su estimación, procediendo a la sustitución por los valores
estimados. Es decir, se trata de predecir qué valores tendría la variable en caso de
haber sido registrada. Como es obvio, en toda predicción se cometen errores que
aportan sesgos a los resultados, por lo que esta opción tampoco está libre de
críticas. No hay una regla sobre la magnitud de la proporción de valores perdidos
aceptable en relación con el tamaño muestral que indique cuándo debe procederse
a la anulación de casos o al análisis del patrón y/o a la estimación de los valores. Es
una decisión que dependerá del buen criterio del investigador y de su experiencia en
el análisis de datos. El SPSS ha introducido en sus nuevas versiones una rutina para
el análisis de los valores perdidos, incluyendo el patrón y la estimación para
variables cuantitativas.
19
ANÁLISIS DESCRIPTIVO-EXPLORATORIO DE DATOS
Profa. Mª JOSÉ BLANCA
Los valores atípicos son datos inusuales demasiado grandes o pequeños. Se pueden
encontrar tanto en situaciones univariantes, si se detectan sólo en una variable, o
multivariantes, en caso de que un sujeto presente una combinación de puntuaciones
poco frecuente en dos o más variables. En este apartado nos centraremos en los
primeros.
20
ANÁLISIS DESCRIPTIVO-EXPLORATORIO DE DATOS
Profa. Mª JOSÉ BLANCA
Cuando se detecta un valor atípico la primera acción es, por tanto, determinar
si el valor está o no fuera del rango de la variable. En caso afirmativo, ya se sabe que
proviene de un error en la recogida, introducción o especificación de los datos y,
consecuentemente, se debe proceder a la revisión de los mismos. En caso negativo,
también hay que descartar los errores citados y revisar los datos. Si éstos son
correctos, entonces es muy probable que el valor sea una característica del sujeto
que lo diferencia del resto de los participantes en la investigación. Entonces, habrá
que determinar si este sujeto forma o no parte de nuestra población de interés
(Tabachnick y Fidell, 1989). Si no forma parte de la misma, el caso debe ser
eliminado. Si forma parte, el investigador debe adoptar una decisión con respecto a la
inclusión o exclusión del dato o datos. Para esta decisión es útil evaluar cómo los
valores atípicos afectan a la normalidad y a otros supuestos del análisis paramétrico,
aunque el analista debe tener presente que nunca deben ser eliminados por no
ajustarse a las expectativas de la investigación.
Si se decide mantener los casos atípicos, se puede optar por realizar una
transformación matemática de la variable, de forma que se reduzca la influencia de
estos valores, o bien realizar otra prueba estadística distinta a la prevista (e.g.,
análisis no paramétrico o pruebas estadísticas robustas) en la que los valores
atípicos no sean tan determinantes en la solución. Por otro lado, si se decide
eliminarlos, es conveniente volver a realizar el análisis preliminar ya que pueden
aparecer nuevos valores atípicos.
21
ANÁLISIS DESCRIPTIVO-EXPLORATORIO DE DATOS
Profa. Mª JOSÉ BLANCA
mayores que 2,5 cuando la muestra está compuesta por menos de 80 casos. Con el
SPSS, estas puntuaciones se obtienen seleccionando Analizar, Estadísticos
Descriptivos y Descriptivos. Una vez seleccionada la variable y trasladada al cuadro
Variables, se activa la opción Guardar valores tipificados como variables. Entonces,
el SPSS incorporará en el Editor de datos una nueva variable con el mismo nombre
que la variable original pero anteponiendo una Z, para indicar que son las
puntuaciones tipificadas.
Otro procedimiento es averiguar la cuantía en que los datos se alejan del 50%
central de la distribución. En función de este criterio, se distinguen dos tipos de
valores atípicos:
22
ANÁLISIS DESCRIPTIVO-EXPLORATORIO DE DATOS
Profa. Mª JOSÉ BLANCA
Sin embargo, este procedimiento se simplifica con el SPSS ya que los valores
aislados y extremos son fácilmente detectables de una forma gráfica, mediante los
gráficos de tallo y hojas y los de cajas, que posteriormente se explicarán.
Las representaciones más útiles para las variables cuantitativas son los diagramas de
barras, histogramas, polígono de frecuencias, diagramas de tallos y hojas (stem and
leaf) y los gráficos de cajas (box-plot). Los tres primeros son útiles para analizar la
forma de la distribución de los datos y el último proporciona información gráfica de la
mayoría de los estadísticos descriptivos y de la presencia de valores aislados y
extremos.
2
Frecuencia
0
4,00 5,00 6,00 7,00 8,00 9,00 13,00 15,00 20,00 30,00
RAZONAMI
23
ANÁLISIS DESCRIPTIVO-EXPLORATORIO DE DATOS
Profa. Mª JOSÉ BLANCA
Histograma
16 16
14 14
12 12
10 10
8 8
6 6
Frecuencia
4 4
Desv. típ. = 144,95
2 Desv. típ. = 144,95
Media = 580,4 2
Media = 580,4
0 N = 76,00
0 N = 76,00
35
40 , 0
45 , 0
50 , 0
55 , 0
60 , 0
65 , 0
70 , 0
75 , 0
80 , 0
85 , 0
90 , 0
95 , 0
10 , 0
10 0 , 0
11 0, 0
11 0, 0
12 0, 0
12 0, 0
35
40 ,0
45 ,0
50 ,0
55 ,0
60 ,0
65 0
70 ,0
75 ,0
80 ,0
85 ,0
90 ,0
95 ,0
10 ,0
10 0,0
11 0,0
11 0,0
12 0,0
12 0,0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
5
0
5
0
50
0
0
0
0
0
0,
0
0
0
0
0
0
0
0
5
0
5
0
50
,0
,0
TR TR
¾ Gráfico
¾ Líneas
¾ Simples
¾ Resúmenes para grupos de casos
¾ Definir
¾ Seleccionar variable y mover a Eje de Categorías
24
ANÁLISIS DESCRIPTIVO-EXPLORATORIO DE DATOS
Profa. Mª JOSÉ BLANCA
también los valores esperados bajo la curva normal, lo que sirve como punto de
referencia para interpretar estas características de la distribución.
Los gráficos de tallos y hojas (stem and leaf) se pueden utilizar para
variables cuantitativas discretas y continuas. El gráfico implica dividir el valor de la
variable en dos partes: el tallo (steam) y la hoja (leaf). Hay muchas posibilidades para
determinar el tamaño del tallo y de la hoja, dependiendo del rango de la variable. Si
éste incluye sólo números de dos dígitos, lo más frecuente es tomar el primero como
tallo y el segundo como hoja. Posteriormente, tras organizar los datos en orden
creciente, se sitúan todos los tallos ordenados en una columna y se va añadiendo a
la derecha de éstos las hojas correspondientes. Para ilustrar el gráfico, supongamos
los siguientes datos pertenecientes a las puntuaciones obtenidas por 32 sujetos en
un test de ansiedad:
17, 20, 21, 24, 26, 27, 28, 28, 30, 34, 35, 35, 35, 37, 38, 38,
41, 42, 42, 43, 44, 44, 46, 48, 48, 50, 55, 55, 56, 58, 64
1-
2-
3-
4-
5-
6-
25
ANÁLISIS DESCRIPTIVO-EXPLORATORIO DE DATOS
Profa. Mª JOSÉ BLANCA
1-7
2-0146788
3-04555788
4-122344688
5-05568
6-4
¾ Estadísticos descriptivos
¾ Explorar
¾ Gráficos
¾ Tallos y hojas
1,00 1. 7 1,00 1. 2
7,00 2. 0146788 2,00 2. 04
9,00 3. 004555788 3,00 3. 034
9,00 4. 122344688 5,00 4. 00455
5,00 5. 05568 7,00 5. 3456666
1,00 6. 4 5,00 6. 35578
3,00 7. 569
Stem width: 10,00 3,00 8. 469
Each leaf: 1 case(s)
Stem width: 100,00
Each leaf: 1 case(s)
(a) (b)
26
ANÁLISIS DESCRIPTIVO-EXPLORATORIO DE DATOS
Profa. Mª JOSÉ BLANCA
Stem-and-Leaf Plot
3,00 0. 111
12,00 1. 222233344556
8,00 2. 00333456
5,00 3. 01245
3,00 4. 567
2,00 5. 01
1,00 6. 0
(c)
Stem-and-Leaf Plot
2,00 1. 03
5,00 2. 04678
6,00 3. 145789
11,00 4. 01223556789
18,00 5. 001112445666778889
24,00 6. 012345567777788888899999
2,00 7. 12
En los casos en los que existan valores atípicos, el SPSS los identifica con el
término Extremes, junto con la frecuencia y el valor del primer valor atípico. En este
caso, no se distingue entre valores aislados y extremos, por lo que hay que
27
ANÁLISIS DESCRIPTIVO-EXPLORATORIO DE DATOS
Profa. Mª JOSÉ BLANCA
Stem-and-Leaf Plot
28
ANÁLISIS DESCRIPTIVO-EXPLORATORIO DE DATOS
Profa. Mª JOSÉ BLANCA
* Puntuación extrema
o Puntuación aislada
Percentil 75
Mediana
Percentil 25
Menor valor no
aislado ni extremo
o Puntuación aislada
* Puntuación extrema
29
ANÁLISIS DESCRIPTIVO-EXPLORATORIO DE DATOS
Profa. Mª JOSÉ BLANCA
Una vez ejecutado el programa, el gráfico se puede editar haciendo doble clic
sobre él en el visor de resultados. En el menú Diseño, se pueden modificar
características de los ejes y cambiar la amplitud de la caja, introducir títulos,
leyendas, notas al pie del gráfico y marco exterior. Desde el menú Formato, se
pueden modificar la trama de relleno y el color, estilos de las líneas, etc.
Número
del caso Valor
ORGANOS Mayores 1 887 8,00
2 26 8,00
3 537 8,00
4 1071 8,00
5 210 ,a
Menores 1 1059 ,00
2 281 ,00
3 992 1,00
4 913 1,00
5 278 ,b
a. En la tabla de valores extremos mayores sólo se
muestra una lista parcial de los casos con el valor 8.
b. En la tabla de valores extremos menores sólo se
muestra una lista parcial de los casos con el valor 1.
30
ANÁLISIS DESCRIPTIVO-EXPLORATORIO DE DATOS
Profa. Mª JOSÉ BLANCA
10
2 865
737
1054
1024
730
872
1125
1004
953
411
816
238
890
1033
222
242
739
581
968
585
471
735
809
873
992
913
278
851
848
201
353
936
571
215
531
229
394
533
0 1059
281
-2
N= 1108
ORGANOS
31
ANÁLISIS DESCRIPTIVO-EXPLORATORIO DE DATOS
Profa. Mª JOSÉ BLANCA
100
80
60
40
20
0
N= 1108
EDAD
Para poder realizar una comparación de los grupos implicados es útil realizar
el diagrama de cajas o de tallos y hojas en la misma gráfica. Para obtener el de
cajas hacer clic en Gráficos y señalar la opción Diagrama de cajas de dependientes
juntas.
32
ANÁLISIS DESCRIPTIVO-EXPLORATORIO DE DATOS
Profa. Mª JOSÉ BLANCA
SEXO
Resumen del procesamiento de los casos
Casos
Válidos Perdidos Total
sexo N Porcentaje N Porcentaje N Porcentaje
CSAPD Mujer 80 87,0% 12 13,0% 92 100,0%
Hombre 51 83,6% 10 16,4% 61 100,0%
33
ANÁLISIS DESCRIPTIVO-EXPLORATORIO DE DATOS
Profa. Mª JOSÉ BLANCA
Descriptivos
Percentiles
Percentiles
sexo 5 10 25 50 75 90 95
Promedio CSAPD Mujer 48,1500 55,0000 61,0000 68,0000 77,0000 82,8000 88,9500
ponderado(definición 1) Hombre 42,2000 51,2000 55,0000 61,0000 69,0000 75,8000 83,0000
Bisagras de Tukey CSAPD Mujer 61,0000 68,0000 77,0000
Hombre 55,0000 61,0000 68,5000
34
ANÁLISIS DESCRIPTIVO-EXPLORATORIO DE DATOS
Profa. Mª JOSÉ BLANCA
Valores extremos
Número
sexo del caso Valor
CSAPD Mujer Mayores 1 96 97,00
2 129 95,00
3 26 90,00
4 28 89,00
5 137 88,00
Menores 1 1 38,00
2 17 45,00
3 69 45,00
4 68 48,00
5 70 51,00
Hombre Mayores 1 130 100,00
2 11 86,00
3 127 81,00
4 79 77,00
5 135 76,00
Menores 1 61 38,00
2 138 41,00
3 58 43,00
4 73 45,00
5 44 51,00
SEXO = Mujer
Histograma
16
14
12
10
6
Frecuencia
4
Desv. típ. = 11,42
2 Media = 68,5
0 N = 80,00
40,0 50,0 60,0 70,0 80,0 90,0
45,0 55,0 65,0 75,0 85,0 95,0
CSAPD
35
ANÁLISIS DESCRIPTIVO-EXPLORATORIO DE DATOS
Profa. Mª JOSÉ BLANCA
SEXO = Hombre
Histograma
12
10
4
Frecuencia
0 N = 51,00
40,0 50,0 60,0 70,0 80,0 90,0 100,0
45,0 55,0 65,0 75,0 85,0 95,0
CSAPD
SEXO = Mujer
Gráficos de tallo y hojas
CSAPD Stem-and-Leaf Plot for
SEXO= Mujer
1,00 3 . 8
3,00 4 . 558
12,00 5 . 125557788999
32,00 6 . 00111222233445555555667889999999
19,00 7 . 0023444556777888999
10,00 8 . 0000133689
3,00 9 . 057
SEXO = Hombre
Gráficos de tallo y hojas
CSAPD Stem-and-Leaf Plot for
SEXO= Hombre
1,00 3 . 8
3,00 4 . 135
20,00 5 . 12223334556777788999
15,00 6 . 011122334777789
9,00 7 . 034455567
2,00 8 . 16
1,00 Extremes (>=100)
36
ANÁLISIS DESCRIPTIVO-EXPLORATORIO DE DATOS
Profa. Mª JOSÉ BLANCA
110
100 130
90
80
70
60
50
40
30
N= 80 51
Mujer Hombre
sexo
37
ANÁLISIS DESCRIPTIVO-EXPLORATORIO DE DATOS
Profa. Mª JOSÉ BLANCA
Estadístico
de Levene gl1 gl2 Sig.
csapd Basándose en la media ,023 1 129 ,880
Basándose en la
,059 1 129 ,809
mediana.
Basándose en la
mediana y con gl ,059 1 128,035 ,809
corregido
Basándose en la media
,036 1 129 ,850
recortada
38
ANÁLISIS DESCRIPTIVO-EXPLORATORIO DE DATOS
Profa. Mª JOSÉ BLANCA
RESUMEN
39
ANÁLISIS DESCRIPTIVO-EXPLORATORIO DE DATOS
Profa. Mª JOSÉ BLANCA
BIBLIOGRAFÍA
40
ANÁLISIS DESCRIPTIVO-EXPLORATORIO DE DATOS
Profa. Mª JOSÉ BLANCA
41