Análisis Descriptivo-Exploratorio de Datos

ANÁLISIS DESCRIPTIVO-EXPLORATORIO DE DATOS
ÍNDICE
1. ANÁLISIS DESCRIPTIVO CON VARIABLES NOMINALES 4

2. ANÁLISIS DESCRIPTIVO CON VARIABLES ORDINALES 8
3. ANÁLISIS DESCRIPTIVO CON VARIABLES CUANTITATIVAS 10
3.1. ESTADÍSTICOS DESCRIPTIVOS 10
3.2. DATOS PERDIDOS 19
3.3. VALORES ATÍPICOS 21
3.4. REPRESENTACIONES GRÁFICAS 24
3.5. ANÁLISIS DESCRIPTIVO CON MUESTRAS SEPARADAS 33
Profa. Mª JOSÉ BLANCA
EXPLORACIÓN Y DESCRIPCIÓN DE DATOS
Una vez tabulados y organizados los datos, y antes de proceder análisis estadístico
más sofisticados, es necesario realizar un análisis preliminar de los mismos con el fin
de detectar cualquier anomalía que pueda llevar a cometer errores los resultados
obtenidos. Normalmente este procedimiento conlleva un análisis descriptivo de las
variables, incluyendo tablas de frecuencia, cálculo de los estadísticos básicos y
representación gráfica de los datos, así como una comprobación del cumplimiento de
los supuestos (e.g., normalidad, homoscedasticidad, linealidad, etc.) del análisis
estadístico a realizar con posterioridad (e.g., prueba t, análisis de varianza, análisis
de regresión, etc.).
Este análisis preliminar permitirá:

• Detectar errores en la introducción y codificación de los datos.
• Detectar los valores perdidos o missing. Éstos constituyen los valores no
registrados o ausentes, por causas de diversa índole (e.g., mortalidad
experimental, error en la recogida de datos, error en la introducción de datos en
soporte informático, etc.)
• Detectar valores atípicos, es decir, observaciones con valores inusuales
demasiado grandes o pequeños.
• Conocer los estadísticos descriptivos y la distribución de los datos.
• Evaluar si los datos satisfacen los supuestos del análisis estadístico a realizar con
posterioridad (e.g., homogeneidad de varianza, normalidad, linealidad, etc.)
Los resultados de este análisis pueden determinar si la prueba estadística

inferencial seleccionada es adecuada o no, la conveniencia de seleccionar otra
prueba (e.g. elegir entre una prueba paramétrica y no paramétrica), o sugerir
transformaciones matemáticas de variables previa al contraste de hipótesis.
2
1. ANÁLISIS DESCRIPTIVO CON VARIABLES NOMINALES
El análisis descriptivo de una variable categórica medida en escala nominal se

centra en el resumen de los datos mediante la creación de la tabla de distribución de
frecuencias, que consiste en calcular el número de veces que cada categoría se
repite. Es decir, el número de sujetos que existe en las distintas categorías. Con este
simple análisis podemos averiguar la categoría de menor y mayor frecuencia,
constituyendo esta última la moda. Otros índices que se pueden extraer son las
proporciones y porcentajes del total de sujetos que comparten las categorías. Los
porcentajes acumulados en la mayoría de los casos no tienen sentido, puesto que
las categorías no permiten una ordenación.
La tabla de distribución de frecuencias se obtiene en el SPSS seleccionando

Analizar, Estadísticos descriptivos y Frecuencias. Posteriormente, se selecciona
la variable y se mueve al cuadro Variables. Finalmente, se hace clic en Aceptar. En el
análisis preliminar de datos, esta tabla no sólo permite analizar las frecuencias de
cada categoría sino también analizar el número de valores perdidos y detectar
errores en la introducción de datos. Por ejemplo, si la variable tiene sólo dos
categorías, codificadas con los valores 1 y 2, la aparición de una nueva categoría
codificada con el valor 3 indicaría un valor imposible de la variable y, por tanto, un
error en la recogida o introducción de los datos en el soporte informático. Igualmente,
permite evaluar la adecuación de la introducción de la variable en un posterior
análisis. Generalmente, no se recomienda introducir variables con un 90% de casos
en una de las categorías (Tabachnick y Fidell, 1989).
SEXO
Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
Válidos hombre 6 50,0 50,0 50,0
Mujer 6 50,0 50,0 100,0
Total 12 100,0 100,0
Los datos también pueden representarse gráficamente, de forma que se

pueda realizar un análisis visual y rápido de las características de los mismos. Los
3
formatos más útiles para las variables categóricas son el diagrama de barras
(también denominada diagramas de rectángulos) y el gráfico de sectores.
En el diagrama de barras, se colocan en el eje de abscisas las categorías o

los números que la representan y en el eje de ordenadas la frecuencia. Así, el eje de
abscisa se divide en tantas partes como categorías tenga la variable, dejando un
espacio entre ellas de la misma magnitud. El orden de las categorías es arbitrario, ya
que al ser una variable nominal no admite un ordenamiento entre ellas.
Posteriormente, el eje de ordenadas se escala desde 0 hasta, al menos, la frecuencia
más alta. Finalmente, sobre cada categoría se eleva un rectángulo con altura igual a
su frecuencia. La anchura de los rectángulos, aunque es arbitraria, debe ser igual
para todas las categorías. El diagrama de barras también se puede realizar sobre los
porcentajes o proporciones de cada categoría.
Para realizar este gráfico existen dos procedimientos. El primero es el más

simple y directo, y se realiza desde el menú Estadísticos Descriptivos:
¾ Frecuencias
¾ Gráficos
¾ Gráficos de barras
¾ Frecuencias o Porcentajes
SEXO
7
2
Frecuencia
0
hombre Mujer
SEXO
4
El segundo procedimiento se realiza a través del menú Gráficos, y dentro de

él Barras. Posteriormente, se selecciona el icono de Simple y Resúmenes para
grupos de casos y se hace clic en Definir. Finalmente, se selecciona la variable y se
mueve hacia el cuadro Eje de categorías. Esta variable se ha podido introducir en el
editor de datos de forma numérica o alfabética (cadena). Para representar las
frecuencias en el cuadro Las barras representan se selecciona la opción Nº de casos,
y para el porcentaje, % de casos. En el cuadro Opciones se puede determinar si se
creará una categoría que represente el número de sujetos con valores perdidos,
activando o desactivando la opción Mostrar los grupos definidos por los valores
perdidos. También se pueden introducir títulos al gráfico en la opción Títulos.
¾ Gráfico
¾ Barras
¾ Simples
¾ Resúmenes para grupos de casos
¾ Definir
¾ Seleccionar variable y mover a Eje de Categorías
¾ Nº de casos para representar frecuencias
¾ % de casos para representar porcentajes
Una vez creado el gráfico en el visor de resultados, se puede proceder a

modificar sus características mediante su edición. Para editar un gráfico, se hace
doble clic sobre él y aparece una ventana en la que se pueden seleccionar los menús
de Archivo, Edición, Ver, Galería, Diseño, Serie, Formato, Analizar y Gráfico y ?-
Ayuda. En el menú Diseño, se pueden modificar características de los ejes y cambiar
la amplitud de las barras y el espacio entre ellas, introducir títulos, leyendas y notas al
pie del gráfico. Desde el menú Formato, se pueden modificar la trama de relleno y el
color de las barras (previamente debe seleccionarse el marco de las barras en la
gráfica haciendo clic sobre las barras), estilos de las líneas que bordean las barras y
el estilo de barras (normal, sombreada o efecto tridimensional). En este menú
también se puede cambiar la orientación del gráfico, representado las categorías en
el eje de ordenadas y las frecuencias o porcentajes en el de abscisa.
5
Una variante del gráfico de barras es el gráfico de Pareto, en el cual las

categorías se representan en orden creciente en función de sus frecuencias.
También se dibuja una línea que representa la frecuencia acumulada, la cual puede
ser omitida una vez editado el gráfico desde el visor de resultados. Para realizarlo se
selecciona el menú Gráficos, y dentro de él Pareto. Posteriormente, se selecciona el
icono Simple y Recuentos o sumas para grupos de casos en el cuadro Los datos de
gráfico son, haciendo clic en Definir. Finalmente, se selecciona la variable y se
mueve hacia el cuadro Eje de categorías.
¾ Gráfico
¾ Pareto
¾ Simples
¾ Recuento o sumas para grupos de casos
¾ Definir
Por otra parte, el gráfico de sectores o pictogramas son representaciones

en forma de círculo dividido en tantas secciones como categorías tiene la variable,
cuyas superficies son proporcionales a la frecuencia o porcentaje de las mismas.
Estos gráficos son adecuados para variables con pocas categorías, ya que de lo
contrario se dificulta el análisis visual.
Para obtener el gráfico, se elige la opción Frecuencia dentro del menú

Estadísticos descriptivos. También, a través del menú Gráficos, seleccionando
Sectores en Gráficos. Aparece entonces el cuadro Los datos de gráfico son y se
elige la opción Resúmenes para grupos de casos y se hace clic en Definir.
Posteriormente, se selecciona la variable a representar y se mueve al cuadro Definir
sectores por. Finalmente, para representar frecuencias se elige la opción Nº de
casos, y para el porcentaje, % de casos. Para indicar el tratamiento de los valores
perdidos se elige Opciones y se activa o no el cuadro de Mostrar los grupos
definidos por los valores perdidos.
6
SEXO
hombre
Mujer
Al igual que los gráficos anteriormente mencionados, el de sectores se puede

modificar mediante la edición del gráfico (haciendo doble clic sobre el mismo). En el
menú Diseño se puede modificar la situación de los sectores, agrupar categorías con
frecuencia baja, decidir el formato de las etiquetas de los sectores, introducir títulos y
notas al pie. Desde el menú Formato, se puede modificar la trama de relleno y el
color de cada sector (previamente debe seleccionarse el sector correspondiente
haciendo clic sobre él), estilos de líneas, etc.
2. ANÁLISIS DESCRIPTIVO CON VARIABLES ORDINALES
El análisis descriptivo con variables categóricas medidas en escala ordinal, sigue el

mismo procedimiento básico explicado con variables nominales, es decir, la
distribución de frecuencias, proporciones y porcentajes de cada categoría, a
excepción de que éstas poseen un ordenamiento lógico, con un sistema de
codificación dotado de significado. Este ordenamiento, a diferencia del caso anterior,
permite interpretar la distribución acumulada de frecuencias y porcentajes
acumulados. La acumulación se puede realizar en orden creciente o decreciente,
dependiendo del objetivo del investigador y de la interpretabilidad de los datos.
7
nota final no numérica
Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
Válidos suspenso 1 8,3 9,1 9,1
aprobado 6 50,0 54,5 63,6
bien 1 8,3 9,1 72,7
notable 2 16,7 18,2 90,9
sobresaliente 1 8,3 9,1 100,0
Total 11 91,7 100,0
Perdidos Sistema 1 8,3
Total 12 100,0
El diagrama de barras y el gráfico de sectores son los más apropiados para

la representación gráfica. En el primero, el orden de las categorías representadas en
el eje de abscisa no es arbitrario, como en el caso de las variables nominales, sino
que debe seguir la jerarquía establecida entre las mismas. Normalmente, esta
ordenación se realiza en sentido creciente.

7
2
Frecuencia
0
suspenso aprobado bien notable sobresaliente
En el gráfico de sectores las diferentes categorías también deben estar

ordenadas, en dirección a las agujas del reloj. El SPSS sitúa, por defecto, la división
del sector correspondiente a la categoría codificada con el valor más pequeño en el
radio que representa las 12 en punto de la esfera del reloj. Posteriormente, procede
hacia la izquierda con el siguiente valor de la jerarquía.
8
sobresaliente Omitido
suspenso
notable
bien
aprobado
3. ANÁLISIS DESCRIPTIVO CON VARIABLES CUANTITATIVAS
El análisis descriptivo de variables cuantitativas, es decir, medidas en escala de

intervalo o razón, al igual que en los casos anteriores, se centra en el análisis de la
distribución de frecuencias mediante el cálculo de los estadísticos descriptivos y
representaciones gráficas que la sintetizan y que proporcionan información sobre las
características del conjunto de datos.
3.1. ESTADÍSTICOS DESCRIPTIVOS
Los estadísticos descriptivos incluyen medidas de tendencia central, de

dispersión, de posición y de forma. A continuación se resumirán los más importantes
y que se pueden obtener con el SPSS.
Las medidas de tendencia central incluyen los índices que resumen y

representan al conjunto de datos de la variable. Los estadísticos más usados son:
a) Media aritmética, que es la suma de todos las puntuaciones de la variable dividida
por el número de casos.
b) Media recortada al 5% (5% trimmed mean), la cual representa la media aritmética
de los valores comprendidos entre los percentiles 5 y 95. Es decir, se ordenan los
datos de menor a mayor, se excluyen el 5% de los casos extremos en cada lado
de la distribución, y con el 90% restante se calcula la media. Este índice es útil
cuando la distribución de la variable contiene valores atípicos.
c) Moda, que corresponde al valor de la variable con mayor frecuencia.
9
d) Mediana o valor por debajo del cual se encuentra el 50% de los casos. Si se
ordenan los datos de mayor a menor, la mediana correspondería al valor situado
en el centro de la distribución.
Las medidas de dispersión representan la variabilidad existente en los datos,

es decir, indican el grado en que los valores de la variable están próximos entre sí,
como el rango o la amplitud intercuartil, o bien el grado en que están próximos a una
medida de tendencia central, como en el caso de la varianza y desviación típica.
a) Rango, amplitud total o recorrido, que denota la diferencia entre el valor máximo y
mínimo de la distribución de la variable
b) Recorrido intercuartílico o amplitud intercuartil (AIC), el cual es la diferencia entre
el primer (percentil 25) y el tercer cuartil (percentil 75). El 50% de los casos de la
distribución se encuentra entre ambos cuartiles.
c) Varianza, la cual se define como el promedio de las desviaciones cuadráticas
respecto a la media. La raíz cuadrada de la varianza constituye la desviación
típica, índice más útil como medida de variabilidad que la varianza porque viene
expresado en las unidades de medida de la variable original. Estos índices
representan el grado de concentración o dispersión de los valores de la variable
en torno a la media y, por tanto, ofrece también información de la eficacia de la
media en la representación de este conjunto de valores.
Los estadísticos de tendencia central y de dispersión se obtienen con el

procedimiento Explorar del módulo Estadísticos descriptivos.
Resumen del procesamiento de los casos
Casos
Válidos Perdidos Total
N Porcentaje N Porcentaje N Porcentaje
Inteligencia_D48 129 98,5% 2 1,5% 131 100,0%
10
Descriptivos
Estadístico Error típ.

Inteligencia_D48 Media 30,55 ,397
Intervalo de confianza Límite inferior 29,77
para la media al 95% Límite superior
31,34
Media recortada al 5% 30,47
Mediana 30,00
Varianza 20,296
Desv. típ. 4,505
Mínimo 21
Máximo 43
Rango 22
Amplitud intercuartil 5
Asimetría ,250 ,213
Curtosis ,057 ,423
Las medidas de posición informan sobre el lugar que ocupa un determinado

valor o puntuación en relación con el conjunto de valores de la variable. Las más
extendidas son:
a) Los centiles o percentiles, que constituyen 99 valores que dividen la distribución
de la variable en cien partes iguales. Se denomina percentil K a la puntuación que
deja debajo de sí el k por ciento de las observaciones.
b) Los deciles, que constituyen 9 valores que dividen la distribución en diez
secciones que contienen cada una el 10 por ciento de los datos. Cada decil tiene
su correspondencia con un percentil, de forma que el decil 1 es equivalente al
percentil 10, el 2 al 20, y así sucesivamente.
c) Los cuartiles, los cuales son tres valores que dividen la distribución en cuatro
secciones que contienen cada una el 25 por ciento de los datos. Al igual que los
deciles, cada cuartil tiene una correspondencia con un percentil, de forma que el
cuartil 1 es equivalente al percentil 25, el 2 al percentil 50 y a la mediana, y el 3 al
percentil 75.
Percentiles
Percentiles
5 10 25 50 75 90 95
Promedio Inteligencia_D48
ponderado(definición 1) 23,00 25,00 28,00 30,00 33,00 37,00 38,00
Bisagras de Tukey Inteligencia_D48 28,00 30,00 33,00
Finalmente, las medidas de forma proporcionan información sobre la apariencia

de la distribución de los datos. Se analizan de forma matemática la simetría y
11
apuntamiento, mediante los índices de asimetría y de curtosis, aunque hay que

complementarlo con el análisis gráfico de los datos.
a) El coeficiente de asimetría más extendido y que proporciona el SPSS se basa en

el momento de tercer orden respecto a la media (g1), el cual indica el grado en
que existe la misma proporción de valores equidistantes a la media por encima y
por debajo de la misma. Una distribución simétrica arrojará un coeficiente g1
igual a 0. En una distribución asimétrica positiva los valores por debajo de la
media serán más frecuentes que los valores por encima de la misma y el
coeficiente será superior a 0. Por el contrario, en una distribución asimétrica
negativa los valores por encima de la media son más frecuentes y el coeficiente
será inferior a 0.
7 7
6 6
5 5
4 4
3 3
2 2
Frecuencia
Frecuencia
1 1
0 0
2,00 3,00 4,00 5,00 6,00 7,00 8,00 9,00 4,00 5,00 6,00 7,00 8,00 9,00
VAR00001 VAR00002
Distribución asimétrica positiva Distribución asimétrica negativa

o asimétrica a la derecha o asimétrica a la izquierda
g1>0 g1<0
NORMAL
g1=0
12
Es difícil encontrar casos en los que el coeficiente de asimetría sea

exactamente 0. Por ello, se puede realizar un contraste de hipótesis para
averiguar si la magnitud en que éste se aleja de 0 es significativa, es decir, si la
distribución es o no simétrica. Para un tamaño muestral grande, el coeficiente de
asimetría es asintóticamente normal con media 0 y varianza aproximadamente
de 6/N, siendo N el número de casos. Por tanto, se estandariza el coeficiente de
asimetría, dividiéndolo por su error estándar y, con un nivel de significación de
0,05, se compara con el valor crítico z= ± 1,96 . Así, una distribución será
asimétrica positiva si su coeficiente estandarizado supera el valor de 1,96 y
asimétrica negativa si es menor que –1,96. En caso contrario, es decir, si el
coeficiente estandarizado está entre 1,96 y –1,96, no hay razón para rechazar la
simetría de la distribución. No obstante, algunos autores como Tabachnik y Fidell
(1989) con muestras de tamaño pequeño y moderado aconsejan utilizar niveles
de significación más conservadores, por ejemplo, al 0,01 y utilizar el valor crítico
de ± 2,657 . Igualmente, señalan que si el tamaño muestral es muy grande la
hipótesis nula puede ser rechazada incluso con pequeñas desviaciones de la
simetría. En estos casos aconsejan analizar la magnitud del coeficiente de
asimetría y complementarlo con el análisis gráfico de los datos.
Descriptivos
H0 : γ1 = 0
Estadístico Error típ.
g1
Inteligencia_D48 Media
Intervalo de confianza Límite inferior
30,55
29,77
,397
z=
para la media al 95%
Error típico
Límite superior
31,34 0,250
Media recortada al 5%
z= = 1,17
30,47 0,213
Mediana 30,00
Varianza 20,296 z < 1,96 Se acepta H 0
Desv. típ. 4,505 La variable es simétrica
Mínimo 21
Máximo 43
Rango 22
Amplitud intercuartil 5
Curtosis ,057 ,423
b) El coeficiente de curtosis representa el grado de apuntamiento de la distribución.

el más común es el basado en el cuarto momento respecto a la media (g2) Un
apuntamiento similar al de la curva normal recibe el nombre de distribución
13
mesocúrtica. Una distribución con un apuntamiento mayor que el de la curva

normal se denomina leptocúrtica, siendo el histograma correspondiente más alto
en el centro y estrecho en la cola. Por el contrario, una distribución con un
apuntamiento menor que el de la curva normal se denomina platicúrtica, siendo el
histograma más bajo en el centro y ancho en la cola. El coeficiente de curtosis se
basa en el momento de cuarto orden con respecto a la media, cuyo valor cercano
a 0 revela una distribución mesocúrtica, mayor que cero sugiere una leptocúrtica,
y menor que 0 indica una platicúrtica.
Para muestras grandes, el coeficiente de curtosis es asintóticamente normal

con media cero y varianza aproximadamente de 24/N, siendo N el número de
casos. Por tanto, para probar la hipótesis nula de que su valor es 0, se
estandariza el coeficiente, dividiéndolo por su error estándar y comparándolo con
el valor crítico ± 1,96 , procediéndose de la misma forma que la explicada en el
coeficiente de asimetría.
g2>0 g2=0 g2<0
La mayoría de los análisis paramétricos, como la prueba t o el análisis de

varianza, requieren que la variable proceda de una distribución normal. Para que
este supuesto se satisfaga, los índices de asimetría y de apuntamiento deben ser
iguales a 0, comprobado mediante la prueba de hipótesis anteriormente explicada.
Otra forma de comprobar la normalidad es mediante las pruebas de Shapiro-Wilk,
para muestras menores o iguales a 50, y Kolmogorov-Smirnov, para muestras
mayores que 50. Las hipótesis nula y alternativa de ambas pruebas son las
siguientes:
Ho: las puntuaciones se distribuyen según la curva normal
H1: las puntuaciones no se distribuyen según la curva normal
14
Si la significación (valor p) es menor o igual a 0,05, se rechaza la hipótesis

nula y, por tanto, se puede concluir que el supuesto de normalidad no se satisface.
Si la significación es mayor que 0,05, se acepta la hipótesis nula y, por consiguiente,
se asume la distribución normal de los datos obtenidos.
Pruebas de normalidad p > 0,05

Kolmogorov-Smirnov a
Shapiro-Wilk Se acepta H 0
Estadístico gl Sig. Estadístico gl Sig. La variable sigue la
Inteligencia_D48 ,076 129 ,063 ,986 129 ,191 distribución normal
a. Corrección de la significación de Lilliefors
Pruebas de normalidad
Kolmogorov-Smirnov
a
Shapiro-Wilk
p < 0,05
Estadístico gl Sig. Estadístico gl Sig. Se rechaza H 0
RAZONAMI ,313 24 ,000 ,666 24 ,010** La variable no sigue la
**. Este es un límite superior de la significación verdadera. distribución normal
La interpretación de la significación asociada a las pruebas debe realizarse en

función del tamaño muestral. Si éste es grande, pequeñas desviaciones de la
normalidad pueden resultar significativas y, por tanto, es más conveniente completar
la evaluación con criterios gráficos.
Histograma
60
50
40
Frecuencia
30
20
10
Media =29,47
Desviación típica =7,146
N =839
0
10 20 30 40 50
amabilidad
__
Pruebas de normalidad
Kolmogorov-Smirnov a Shapiro-Wilk
Estadístico gl Sig. Estadístico gl Sig.
amabilidad ,052 839 ,000 ,996 839 ,038
15
También hay que tener en cuenta que la violación de la normalidad puede venir
causada por la presencia de valores atípicos. A veces es útil analizar la normalidad
eliminando estos valores.
Entre los métodos gráficos para evaluar la normalidad se incluyen los

diagramas de barras, histogramas y gráficos de tallos y hojas. Especialmente útiles
son los histogramas con la representación de la curva normal que ofrece el SPSS
(en Estadísticos descriptivos y Frecuencias). También existen gráficos específicos
que proporcionan información concreta sobre el ajuste de los datos a la curva
normal:
Gráfico de probabilidad normal. Se representan los valores observados en

el eje de abscisa y los esperados bajo la curva normal en el eje de ordenadas. Estos
últimos se representan mediante una recta diagonal que divide el gráfico. Si los
datos se distribuyen según la curva normal, los valores observados representados
con puntos deben situarse cercanos a esta recta. En caso contrario, habría indicios
de una violación de la normalidad.
Seguidamente, se presentan dos gráficos. En el primero se representa las

puntuaciones obtenidas en un test de razonamiento y se puede observar indicios de
que la normalidad es violada. En el segundo se representa las puntuaciones
extraídas de un test de rapidez perceptiva. Esta gráfica presenta indicios de que el
supuesto de normalidad es satisfecho.
Gráfico Q-Q normal de RAZONAMI

2,0
1,5
1,0
,5
Violación de la
0,0
normalidad
Normal esperado
-,5
-1,0
-1,5
-2,0
-10 0 10 20 30 40
Valor observado
16
Gráfico Q-Q normal de LOCAL

3
Normal esperado
-1
-2
-3
40 60 80 100 120 140 160 180 200
Valor observado
La variable sigue una

distribución normal
Gráfico Q-Q normal de amabilidad
2
Normal esperado
-2
0 10 20 30 40 50 60
Valor observado
Gráfico de probabilidad normal sin tendencia. En este gráfico se recogen

las desviaciones de las puntuaciones respecto a la recta. Si la distribución es normal,
estos puntos serían próximos a cero. Por tanto, bajo este supuesto, los puntos
representados deberían repartirse equitativamente arriba y abajo de la línea
horizontal.
Gráfico Q-Q normal sin tendencias de RAZONAMI

2,0
1,5
1,0
,5
Desv. de normal
0,0
-,5
-1,0
0 10 20 30 40
Valor observado
17
Gráfico Q-Q normal sin tendencias de LOCAL

,4
,3
,2
,1
Desv. de normal
0,0
-,1
-,2
40 60 80 100 120 140 160 180 200
Valor observado
Las representaciones gráficas proporcionan una idea sobre la normalidad,

pero siempre es adecuado realizar una prueba estadística para confirmar lo que se
puede intuir del análisis gráfico.
3.2. DATOS PERDIDOS
Los datos perdidos son los datos no registrados y son importantes haya medidas
repetidas de la misma variable o medidas de distintas variables, ya sea de forma
longitudinal o transversal. El primer caso sucede cuando se siguen diseños
intrasujeto, experimentales, como los diseños unifactoriales y factoriales de medidas
repetidas, o cuasi-experimentales, como el diseño pretest-postest y sus variaciones.
El segundo caso es propio de los estudios correlacionales, de encuesta o de estudios
encaminados a realizar análisis multivariantes, en los que se registran distintas
variables.
En ocasiones se puede volver al proceso de recogida de datos y realizar un

nuevo registro que sustituya al valor perdido. Sin embargo, en la práctica ésto no
siempre es posible, por lo que la presencia de valores perdidos supone la pérdida de
sujetos y la reducción de la muestra. Por ello, la planificación de una investigación
debe tener en cuenta la posible aparición de estos valores, aumentando el número
de sujetos que previamente se había establecido para la muestra.
18
La reducción muestral será tanto más importante cuanto menos sujetos

participen en la investigación. Así, cuando se dispone de un tamaño muestral grande
y pocos valores perdidos, anular estos casos no constituye un problema. Si el
número de valores perdidos es elevado o se dispone de un tamaño muestral
pequeño o moderado, no se deberían anular sin antes haber comprobado si los
valores perdidos se distribuyen o no de forma aleatoria a través de las
observaciones, es decir, sin haber analizado el patrón de los valores perdidos.
Este patrón no es aleatorio si los sujetos con valores perdidos tienen características
diferenciales de aquellos con datos completos o valores registrados en todas las
variables. Por ejemplo, es posible que en una encuesta un grupo de personas que
se caracterizan por compartir una cierta edad o ciertas actitudes no contesten de
forma sistemática a determinados ítems. Eliminar de la investigación a estos sujetos
supondría una pérdida de la validez externa de la investigación. El análisis del
patrón se realiza dividiendo a la muestra en dos grupos definidos por casos
completos y casos incompletos en la variable objeto de análisis. Posteriormente, se
analizan las diferencias entre ambos grupos en el resto de variables (e.g., edad,
sexo, inteligencia, etc.). Si las diferencias son significativas, entonces los valores
perdidos no siguen un patrón aleatorio.
Una solución en los casos en los que el patrón de valores perdidos no sea
aleatorio consiste en su estimación, procediendo a la sustitución por los valores
estimados. Es decir, se trata de predecir qué valores tendría la variable en caso de
haber sido registrada. Como es obvio, en toda predicción se cometen errores que
aportan sesgos a los resultados, por lo que esta opción tampoco está libre de
críticas. No hay una regla sobre la magnitud de la proporción de valores perdidos
aceptable en relación con el tamaño muestral que indique cuándo debe procederse
a la anulación de casos o al análisis del patrón y/o a la estimación de los valores. Es
una decisión que dependerá del buen criterio del investigador y de su experiencia en
el análisis de datos. El SPSS ha introducido en sus nuevas versiones una rutina para
el análisis de los valores perdidos, incluyendo el patrón y la estimación para
variables cuantitativas.
19
3.3. VALORES ATÍPICOS
Los valores atípicos son datos inusuales demasiado grandes o pequeños. Se pueden
encontrar tanto en situaciones univariantes, si se detectan sólo en una variable, o
multivariantes, en caso de que un sujeto presente una combinación de puntuaciones
poco frecuente en dos o más variables. En este apartado nos centraremos en los
primeros.
Algunos estadísticos como la media son muy sensibles a la existencia de

valores extremos. Por ejemplo, la media de los datos 2, 4, 6, 8 y 100 es igual a 24,
valor que no es representativo del conjunto de números. Por ello, los valores atípicos,
sobre todo en las pruebas paramétricas, pueden ocasionar que el modelo no se
ajuste a los datos o distorsionar la interpretación de los resultados, por lo que se
recomienda realizar un análisis cuidadoso de los mismos (Neter, Wasserman y
Kutner, 1990; Stevens, 1986; Tabachnick y Fidell, 1989; Pascual y Camarasa, 1991).
Estos valores pueden provenir de:
Errores en la recogida de datos. El investigador por diversas razones puede no

registrar correctamente la variable, e incluso hacerlo con un valor imposible, fuera
del rango de la misma. En ocasiones, se puede volver al proceso de recogida de
datos y realizar un nuevo registro. Sin embargo, en la mayoría de las
investigaciones, esto no es posible bien por la dificultad que conlleva la
localización del sujeto, bien por su inadecuación por motivos metodológicos que
pondrían en peligro la validez interna de la investigación. En estos casos, el valor
atípico se convertiría en un valor perdido.
Errores en la introducción de datos en soporte informático, lo que se puede
corregir fácilmente mediante la revisión de los mismos.
Errores en la especificación de los valores de la variable. Como señalan
Tabachnick y Fidell (1989) puede ocurrir un error en la especificación de los
valores perdidos, de forma que éstos son leídos como datos reales. Este error
también es fácil de detectar y corregir.
20
El dato es correcto y es una característica distintiva del sujeto. El paso

siguiente será adoptar una decisión sobre su inclusión o exclusión de la
investigación.
Cuando se detecta un valor atípico la primera acción es, por tanto, determinar
si el valor está o no fuera del rango de la variable. En caso afirmativo, ya se sabe que
proviene de un error en la recogida, introducción o especificación de los datos y,
consecuentemente, se debe proceder a la revisión de los mismos. En caso negativo,
también hay que descartar los errores citados y revisar los datos. Si éstos son
correctos, entonces es muy probable que el valor sea una característica del sujeto
que lo diferencia del resto de los participantes en la investigación. Entonces, habrá
que determinar si este sujeto forma o no parte de nuestra población de interés
(Tabachnick y Fidell, 1989). Si no forma parte de la misma, el caso debe ser
eliminado. Si forma parte, el investigador debe adoptar una decisión con respecto a la
inclusión o exclusión del dato o datos. Para esta decisión es útil evaluar cómo los
valores atípicos afectan a la normalidad y a otros supuestos del análisis paramétrico,
aunque el analista debe tener presente que nunca deben ser eliminados por no
ajustarse a las expectativas de la investigación.
Si se decide mantener los casos atípicos, se puede optar por realizar una
transformación matemática de la variable, de forma que se reduzca la influencia de
estos valores, o bien realizar otra prueba estadística distinta a la prevista (e.g.,
análisis no paramétrico o pruebas estadísticas robustas) en la que los valores
atípicos no sean tan determinantes en la solución. Por otro lado, si se decide
eliminarlos, es conveniente volver a realizar el análisis preliminar ya que pueden
aparecer nuevos valores atípicos.
Existen distintos procedimientos para detectar si una puntuación es atípica o

no. Un procedimiento sencillo es convertir la variable en puntuaciones típicas,
siempre que ésta siga una distribución aproximadamente normal, y considerar como
potenciales valores atípicos los casos con puntuaciones típicas mayores que 3 en
valor absoluto (Stevens, 1986; Tabacknick y Fidell, 1989). Otros autores, como
Hair, Anderson, Tatham y Black (1995) aconsejan considerar puntuaciones típicas
21
mayores que 2,5 cuando la muestra está compuesta por menos de 80 casos. Con el
SPSS, estas puntuaciones se obtienen seleccionando Analizar, Estadísticos
Descriptivos y Descriptivos. Una vez seleccionada la variable y trasladada al cuadro
Variables, se activa la opción Guardar valores tipificados como variables. Entonces,
el SPSS incorporará en el Editor de datos una nueva variable con el mismo nombre
que la variable original pero anteponiendo una Z, para indicar que son las
puntuaciones tipificadas.
Otro procedimiento es averiguar la cuantía en que los datos se alejan del 50%
central de la distribución. En función de este criterio, se distinguen dos tipos de
valores atípicos:
• Valores aislados (outliers): son aquellos que se encuentran a una distancia de

la mediana 1,5 veces la longitud de la amplitud intercuartil. Por tanto, son los casos
que quedan fuera del intervalo:
Md ± 1,5(AIC)
AIC= P75- P25
• Valores extremos (extreme): son aquellos que se encuentran a una distancia de
la mediana 3 veces la longitud de la amplitud intercuartil. Por tanto, son los casos
que quedan fuera del intervalo:
Md ± 3 (AIC)
22
Sin embargo, este procedimiento se simplifica con el SPSS ya que los valores
aislados y extremos son fácilmente detectables de una forma gráfica, mediante los
gráficos de tallo y hojas y los de cajas, que posteriormente se explicarán.
3.4. REPRESENTACIONES GRÁFICAS
Las representaciones más útiles para las variables cuantitativas son los diagramas de
barras, histogramas, polígono de frecuencias, diagramas de tallos y hojas (stem and
leaf) y los gráficos de cajas (box-plot). Los tres primeros son útiles para analizar la
forma de la distribución de los datos y el último proporciona información gráfica de la
mayoría de los estadísticos descriptivos y de la presencia de valores aislados y
extremos.
Los diagramas de barras se utilizan para variables cuantitativas discretas. En

el eje de abscisa se colocan los distintos valores de la variable y en el de ordenadas
las frecuencias. Su elaboración sigue el mismo procedimiento que los explicados
para las variables nominales y ordinales. En la siguiente gráfica, se presentan las
puntuaciones obtenidas en un test de razonamiento.
2
Frecuencia
0
4,00 5,00 6,00 7,00 8,00 9,00 13,00 15,00 20,00 30,00
RAZONAMI
Los histogramas se utilizan para variables cuantitativas continuas y son

similares al diagrama de barras, excepto que los rectángulos aparecen contiguos.
Para su elaboración, se agrupan los datos en intervalos, colocándose los límites
exactos en el eje de abscisa. Finalmente, se levanta un rectángulo cuya altura
23
determina un área proporcional a la frecuencia del intervalo. En las siguientes

gráficas se representa el tiempo de reacción en una tarea de percepción de una
muestra de 76 sujetos. La primera gráfica se ha extraído desde el módulo
Estadísticos descriptivos (Explorar). La segunda incluye la curva normal y se obtiene
desde el menú Gráficos, o desde Estadísticos descriptivos (Frecuencias).
Histograma
16 16
14 14
12 12
10 10
8 8
6 6
Frecuencia
4 4
Desv. típ. = 144,95
2 Desv. típ. = 144,95
Media = 580,4 2
Media = 580,4
0 N = 76,00
0 N = 76,00
35
40 , 0
45 , 0
50 , 0
55 , 0
60 , 0
65 , 0
70 , 0
75 , 0
80 , 0
85 , 0
90 , 0
95 , 0
10 , 0
10 0 , 0
11 0, 0
11 0, 0
12 0, 0
12 0, 0
35
40 ,0
45 ,0
50 ,0
55 ,0
60 ,0
65 0
70 ,0
75 ,0
80 ,0
85 ,0
90 ,0
95 ,0
10 ,0
10 0,0
11 0,0
11 0,0
12 0,0
12 0,0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
5
0
5
0
50
0
0
0
0
0
0,
0
0
0
0
0
0
0
0
5
0
5
0
50
,0
,0
TR TR
A partir del histograma y gráfico de barras se puede construir el polígono de

frecuencias, trazando una línea que una los centros de la base superior de cada
rectángulo o barra. Este gráfico se obtiene en
¾ Gráfico
¾ Líneas
¾ Simples
¾ Resúmenes para grupos de casos
¾ Definir
Las tres gráficas descritas proporcionan información sobre la forma de la

distribución. Con ellos se puede inspeccionar visualmente los datos, observando si la
distribución es campaniforme, el grado de asimetría, el grado de apuntamiento y la
presencia de posibles valores atípicos. Éstos se detectan por la existencia de
rectángulos de poca altura aislados en los extremos del eje de abscisa, de forma que
se evidencia una interrupción en la continuidad de los mismos. En el caso del
histograma, como ya se ha mencionado, el SPSS tiene la opción de representar
24
también los valores esperados bajo la curva normal, lo que sirve como punto de
referencia para interpretar estas características de la distribución.
Los gráficos de tallos y hojas (stem and leaf) se pueden utilizar para
variables cuantitativas discretas y continuas. El gráfico implica dividir el valor de la
variable en dos partes: el tallo (steam) y la hoja (leaf). Hay muchas posibilidades para
determinar el tamaño del tallo y de la hoja, dependiendo del rango de la variable. Si
éste incluye sólo números de dos dígitos, lo más frecuente es tomar el primero como
tallo y el segundo como hoja. Posteriormente, tras organizar los datos en orden
creciente, se sitúan todos los tallos ordenados en una columna y se va añadiendo a
la derecha de éstos las hojas correspondientes. Para ilustrar el gráfico, supongamos
los siguientes datos pertenecientes a las puntuaciones obtenidas por 32 sujetos en
un test de ansiedad:
17, 20, 21, 24, 26, 27, 28, 28, 30, 34, 35, 35, 35, 37, 38, 38,
41, 42, 42, 43, 44, 44, 46, 48, 48, 50, 55, 55, 56, 58, 64
En primer lugar, se sitúan todos los tallos en una columna.
1-
2-
3-
4-
5-
6-
Posteriormente, añaden a cada tallo las hojas respectivas. EL primer valor es

17, por tanto, a la derecha del 1 se coloca un 7. El segundo valor es 20, y por
consiguiente a la derecha del segundo tallo se coloca un 0, y tras éste se introducen
las cifras 1, 4, 6, 7, 8, 8, ya que los valores siguientes son 21, 24, 26, 27, 28, 28,
respectivamente. Y así de forma sucesiva se procede con cada tallo.
25
1-7
2-0146788
3-04555788
4-122344688
5-05568
6-4
El SPSS realiza las divisiones de forma automática y se obtiene en
¾ Estadísticos descriptivos
¾ Explorar
¾ Gráficos
¾ Tallos y hojas
El gráfico que se obtiene con el SPSS correspondiente al ejemplo anterior se

muestra en la figura (a). La frecuencia de cada tallo se indica en la parte izquierda del
gráfico (Frequency), la cual debe coincidir con el número de cifras representado a la
derecha del tallo. El tamaño del tallo (Stem wide) se expresa en la parte inferior,
indicándose el número de dígitos que lo representa. En la figura (a) y (b), el tallo
está representado por dos y tres dígitos, respectivamente, indicando que se toma en
el primer caso la decena, y en el segundo la centena.
ANSIEDAD Stem-and-Leaf Plot Stem-and-Leaf Plot
Frequency Stem & Leaf Frequency Stem & Leaf
1,00 1. 7 1,00 1. 2
7,00 2. 0146788 2,00 2. 04
9,00 3. 004555788 3,00 3. 034
9,00 4. 122344688 5,00 4. 00455
5,00 5. 05568 7,00 5. 3456666
1,00 6. 4 5,00 6. 35578
3,00 7. 569
Stem width: 10,00 3,00 8. 469
Each leaf: 1 case(s)
Stem width: 100,00
(a) (b)
26
Una inspección de la forma que adquiere el gráfico en sentido vertical

proporciona información sobre la simetría y curtosis de la distribución, aunque ésta
última es más difícil de interpretar ya que se carecen de valores de referencia como
en el caso del histograma con el dibujo de la curva normal. Los gráficos
representados en la figura (a) y (b) sugieren una distribución campaniforme simétrica,
y los de la figura (c) y (d) una distribución asimétrica positiva y negativa,
respectivamente. Como es obvio, la interpretación de aquí derivada hay que
complementarla con el análisis estadístico oportuno.
Stem-and-Leaf Plot
Frequency Stem & Leaf
3,00 0. 111
12,00 1. 222233344556
8,00 2. 00333456
5,00 3. 01245
3,00 4. 567
2,00 5. 01
1,00 6. 0
Stem width: 10,00

(c)
Stem-and-Leaf Plot
2,00 1. 03
5,00 2. 04678
6,00 3. 145789
11,00 4. 01223556789
18,00 5. 001112445666778889
24,00 6. 012345567777788888899999
2,00 7. 12
Stem width: 10,00

(d)
En los casos en los que existan valores atípicos, el SPSS los identifica con el
término Extremes, junto con la frecuencia y el valor del primer valor atípico. En este
caso, no se distingue entre valores aislados y extremos, por lo que hay que
27
contrastarlo con la información extraída del gráfico de cajas. En la figura siguiente se

aprecia la existencia de un valor atípico por defecto con un valor igual o inferior a 1, y
otro por exceso con un valor igual o superior a 100.
Stem-and-Leaf Plot
1,00 Extremes (=<1)

,00 3.
6,00 3 . 555788
6,00 4 . 122344
3,00 4 . 688
1,00 5. 0
4,00 5 . 5568
1,00 6. 4
1,00 Extremes (>=100)
Stem width: 10,00

Finalmente, los gráficos de cajas (box plot) proporcionan mediante inspección

visual diferentes medidas de tendencia central, de dispersión y de posición. También
es el procedimiento más útil para detectar puntuaciones aisladas y extremas. Las
partes del gráfico son las siguientes:
• Un eje vertical en el que se sitúan los valores de la variable y que abarca el rango
de la distribución
• A la derecha del eje se sitúa una caja o rectángulo que constituye la parte central,
cuyo lado superior representa el percentil 75 y el inferior el 25. Por tanto, la
amplitud de la caja es la amplitud intercuartil. La caja está dividida por una línea
horizontal que representa la mediana.
• De cada lado, superior e inferior, de la caja sale verticalmente una pata
(whiskers), la cual representa el valor mayor y menor, respectivamente, que no es
aislado ni extremo, los cuales coincidirán con el máximo y mínimo de la
distribución si no hay valores atípicos.
• Las puntuaciones extremas están representadas por un asterisco (*) junto con el
número de caso que lo presenta y las aisladas por un círculo (o).
28
Escala GRÁFICO DE CAJA
* Puntuación extrema
o Puntuación aislada
Mayor valor no aislado

ni extremo
Percentil 75
Mediana
Percentil 25
Menor valor no
aislado ni extremo
o Puntuación aislada
* Puntuación extrema
La longitud de la caja y de las patas proporcionan información sobre la

variabilidad de las observaciones, lo que es especialmente útil cuando se comparan
diferentes distribuciones. La longitud de las patas también informa de la simetría de
la distribución. Cuando ambas tienen la misma longitud, evidencia una distribución
simétrica; cuando la pata superior tiene mayor longitud que la inferior, sugiere una
distribución asimétrica positiva, y cuando ocurre lo contrario una asimétrica negativa.
No obstante, esta información hay que contrastarla con la obtenida en el histograma
o en el diagrama de tallos y hojas.
El gráfico se puede obtener mediante el SPSS en el menú Estadísticos

descriptivos, seleccionando Explorar, y dentro de éste Gráficos y Diagrama de cajas.
La segunda opción es con el menú Gráficos, seleccionando Diagrama de cajas.
Aparece entonces el cuadro Diagrama de cajas, en el que se elige la opción simple,
se activa Resúmenes para distintas variables y se hace clic en Definir.
Posteriormente, se selecciona la variable y se mueve al cuadro Las cajas
representan.
29
Una vez ejecutado el programa, el gráfico se puede editar haciendo doble clic
sobre él en el visor de resultados. En el menú Diseño, se pueden modificar
características de los ejes y cambiar la amplitud de la caja, introducir títulos,
leyendas, notas al pie del gráfico y marco exterior. Desde el menú Formato, se
pueden modificar la trama de relleno y el color, estilos de las líneas, etc.
El siguiente ejemplo está extraído del SPSS con el procedimiento EXPLORAR.

La variable es cuantitativa discreta y representa una puntuación global del nivel de
conocimiento sobre donación de órganos de una muestra de 1108 sujetos. Las
puntuaciones pueden variar de 0 a 10, indicando en orden creciente el nivel de
conocimiento.
Valores extremos
Número
del caso Valor
ORGANOS Mayores 1 887 8,00
2 26 8,00
3 537 8,00
4 1071 8,00
5 210 ,a
Menores 1 1059 ,00
2 281 ,00
3 992 1,00
4 913 1,00
5 278 ,b
a. En la tabla de valores extremos mayores sólo se
muestra una lista parcial de los casos con el valor 8.
b. En la tabla de valores extremos menores sólo se
muestra una lista parcial de los casos con el valor 1.
30
10
2 865
737
1054
1024
730
872
1125
1004
953
411
816
238
890
1033
222
242
739
581
968
585
471
735
809
873
992
913
278
851
848
201
353
936
571
215
531
229
394
533
0 1059
281
-2
N= 1108
ORGANOS
Análisis ponderado por PESO
Del gráfico se pueden extraer las siguientes conclusiones:

• La mediana es igual a 6.
• El percentil 25 es igual a 5.
• El percentil 75 es igual a 7.
• El 50% de los casos presentan puntuaciones en conocimiento sobre donación de
órganos entre 5 y 7.
• El valor máximo de las puntuaciones es 8. Es decir, la persona que mayor
puntuación presenta en nivel de conocimiento obtiene un 8.
• El valor mínimo que no es ni valor extremo ni aislado es 3.
• Hay tres puntuaciones aisladas, cuyos valores son 0, 1 y 2. De aquí se puede
deducir que sólo una pequeña porción de examinados tiene un conocimiento
muy escaso sobre el tema.
• La longitud superior de la pata inferior sugiere que se trata de una distribución
asimétrica negativa.
En la siguiente gráfica se representa la variable edad de la misma muestra que el

caso anterior. Se puede observar que no hay puntuaciones extremas o aisladas.
31
100
80
60
40
20
0
N= 1108
EDAD
Análisis ponderado por PESO
3.5. ANÁLISIS DESCRIPTIVO CON MUESTRAS SEPARADAS
Frecuentemente es necesario realizar un análisis descriptivo separado para

subgrupos de casos, por ejemplo para hombres y mujeres. Este análisis se puede
realizar segmentando el archivo (en Datos). No obstante, el procedimiento Explorar
permite hacer el análisis sin necesidad de segmentación. En el cuadro de diálogo
(figura 1), en Factores se introduce la variable de agrupación (variable
independiente) y en el apartado Dependientes se introducen las variables que se
desean analizar (variables dependientes).
Para poder realizar una comparación de los grupos implicados es útil realizar
el diagrama de cajas o de tallos y hojas en la misma gráfica. Para obtener el de
cajas hacer clic en Gráficos y señalar la opción Diagrama de cajas de dependientes
juntas.
32
Figura 1. Análisis descriptivo para muestras separadas
Para ejemplificar el procedimiento, supongamos que un investigador desea

saber si existen diferencias entre hombres y mujeres en una serie de medidas de
rapidez perceptiva e inteligencia. Para ello administra los tests D-48, CSA-DAT y
SR-DAT a 131 sujetos. Tras la tabulación de datos, se obtienen los siguientes
resultados con el procedimiento Explorar para la variable CSA (Dependiente: CSA y
Factor: sexo):
SEXO
Resumen del procesamiento de los casos
Casos
Válidos Perdidos Total
sexo N Porcentaje N Porcentaje N Porcentaje
CSAPD Mujer 80 87,0% 12 13,0% 92 100,0%
Hombre 51 83,6% 10 16,4% 61 100,0%
33
Descriptivos
sexo Estadístico Error típ.

CSAPD Mujer Media 68,4500 1,2765
para la media al 95% Límite superior 70,9908
Mediana 68,0000
Varianza 130,352
Desv. típ. 11,4172
Mínimo 38,00
Máximo 97,00
Rango 59,00
Amplitud intercuartil 16,0000
Curtosis ,167 ,532
Hombre Media 62,1961 1,6168
para la media al 95% Límite superior 65,4436
Mediana 61,0000
Varianza 133,321
Desv. típ. 11,5465
Mínimo 38,00
Máximo 100,00
Rango 62,00
Amplitud intercuartil 14,0000
Curtosis 1,338 ,656
Percentiles
Percentiles
sexo 5 10 25 50 75 90 95
Promedio CSAPD Mujer 48,1500 55,0000 61,0000 68,0000 77,0000 82,8000 88,9500
ponderado(definición 1) Hombre 42,2000 51,2000 55,0000 61,0000 69,0000 75,8000 83,0000
Bisagras de Tukey CSAPD Mujer 61,0000 68,0000 77,0000
Hombre 55,0000 61,0000 68,5000
34
Valores extremos
Número
sexo del caso Valor
CSAPD Mujer Mayores 1 96 97,00
2 129 95,00
3 26 90,00
4 28 89,00
5 137 88,00
Menores 1 1 38,00
2 17 45,00
3 69 45,00
4 68 48,00
5 70 51,00
Hombre Mayores 1 130 100,00
2 11 86,00
3 127 81,00
4 79 77,00
5 135 76,00
Menores 1 61 38,00
2 138 41,00
3 58 43,00
4 73 45,00
5 44 51,00
SEXO = Mujer
Histograma
16
14
12
10
6
Frecuencia
4
Desv. típ. = 11,42
2 Media = 68,5
0 N = 80,00
40,0 50,0 60,0 70,0 80,0 90,0
45,0 55,0 65,0 75,0 85,0 95,0
CSAPD
35
SEXO = Hombre
Histograma
12
10
4
Frecuencia
2 Desv. típ. = 11,55

Media = 62,2
0 N = 51,00
40,0 50,0 60,0 70,0 80,0 90,0 100,0
45,0 55,0 65,0 75,0 85,0 95,0
CSAPD
SEXO = Mujer
Gráficos de tallo y hojas
CSAPD Stem-and-Leaf Plot for
SEXO= Mujer
1,00 3 . 8
3,00 4 . 558
12,00 5 . 125557788999
32,00 6 . 00111222233445555555667889999999
19,00 7 . 0023444556777888999
10,00 8 . 0000133689
3,00 9 . 057
Stem width: 10,00

SEXO = Hombre
Gráficos de tallo y hojas
CSAPD Stem-and-Leaf Plot for
SEXO= Hombre
1,00 3 . 8
3,00 4 . 135
20,00 5 . 12223334556777788999
15,00 6 . 011122334777789
9,00 7 . 034455567
2,00 8 . 16
1,00 Extremes (>=100)
Stem width: 10,00

36
110
100 130
90
80
70
60
50
40
30
N= 80 51
Mujer Hombre
sexo
Cuando se analizan variables cuantitativas en diferentes subgrupos, es útil

también analizar la normalidad y la igualdad de varianza en las muestras. La
homogeneidad de varianzas es un supuesto de la mayoría de las pruebas
paramétricas de contraste de medias como la prueba t o el análisis de varianza.
Existen diversas pruebas para evaluar la homogeneidad de varianzas. La más

utilizada es la prueba de Levene.
Esta prueba se obtiene en:

⇒ Estadísticos descriptivos
⇒ Explorar
⇒ Gráficos
⇒ Dispersión de nivel con prueba de Levene
⇒ No transformadas
Las correspondientes hipótesis nula y alternativa son:

Ho: Las varianzas de los grupos son iguales
H1: Al menos dos varianzas no son iguales
De la tabla de resultados se interpreta la primera línea. Si la significación (Sig.)

es mayor que 0,05, la hipótesis nula se acepta y se asume que el supuesto se
37
satisface. Si la significación es igual o menor que 0,05, la hipótesis nula se rechaza y

se asume que el supuesto de homogeneidad de varianzas se viola. En el ejemplo de
la variable CSA, la significación es 0,88, por lo que la prueba indica que las varianzas
son iguales.
A veces la violación de la homogeneidad puede venir provocada por la

existencia de valores atípicos en los datos. De aquí la importancia de realizar un
análisis exploratorio de los datos antes de realizar el definitivo.
Prueba de homogeneidad de la varianza
Estadístico
de Levene gl1 gl2 Sig.
csapd Basándose en la media ,023 1 129 ,880
Basándose en la
,059 1 129 ,809
mediana.
Basándose en la
mediana y con gl ,059 1 128,035 ,809
corregido
Basándose en la media
,036 1 129 ,850
recortada
38
RESUMEN
Estadísticos Representación gráfica SPSS

V. categóricas nominales Frecuencias Diagrama de barras E. descriptivos
Proporciones Gráfico de sectores Frecuencias:
Porcentajes ⇒ Analizar
Moda ⇒ Estadísticos Descr
⇒ Frecuencias
Gráficos:
⇒ Gráficos
⇒ Barras
⇒ Sectores
V. categóricas ordinales Frecuencias Diagrama de barras E. descriptivos
Proporciones Gráfico de sectores Frecuencias:
Porcentajes ⇒ Analizar
Frecuencias acum. ⇒ Estadísticos Descr
Proporciones acum. ⇒ Frecuencias
Porcentajes acum. Gráficos:
Moda ⇒ Gráficos
⇒ Barras
⇒ Sectores
V. cuantitativas E. tendencia central Diagrama de barras
E. descriptivos
E. de dispersión Histograma
E. de posición G. de tallos y hojas
Explorar
E. de forma G. de cajas
(asimetría, G. de probabilidad
apuntuamiento, normal
normalidad) G. de probabilidad
Valores perdidos normal sin tendencia
Valores extremos
39
BIBLIOGRAFÍA
Amón, J. (1997). Estadística para psicólogos. I. Estadística descriptiva (15ª ed.).

Madrid: Ediciones Pirámide, S.A.
Aron, A. y Aron, E. (2002). Estadística para psicólogos (2ª ed.). Madrid: Prentice Hall.
Botella, J., León, O. y San Martín, R. (1993). Análisis de datos en Psicología I.
Madrid: Ediciones Pirámide, S.A.
Escobar, M (1999). Análisis gráfico/exploratorio. Madrid: La muralla, S.A.
Ferrán, M. (2001). SPSS para Windows. Análisis Estadístico. Madrid: McGraw-Hill.
Ferrán, M. (2002). Curso SPSS para Windows. Madrid: McGraw-Hill.
Filgueira, E. (2001). Análisis de datos con SPSSWIN. Madrid: Alianza Editorial, S.A.
Gardner, R.C. (2002). Estadística para psicología usando SPSS para Windows.
Madrid: Prentice-Hall.
Hair, J.F., Anderson, R.E., Tatham, R.L. y Black, W. (1995). Multivariate data
analysis (4 ed.). Englewood Cliffs: Prentice Hall.
Neter, J., Wasserman, W. & Kutner, M.H. (1990). Applied linear statistical models
(3rd. ed.). Boston: Irwin.
Pagano, R.R. (1999). Estadística para las ciencias del comportamiento. México:
Thomson.
Palmer, A.L. (1999). Análisis de datos. Etapa Exploratoria. Madrid: Pirámide.
Pardo, A. y San Martín, R. (1998). Análisis de datos en psicología II (2ª Ed). Madrid:
Pirámide.
Pascual, J. y Camarasa, C. (1991). Diseños: Supuestos, potencia y tamaño del
efecto. En J. Pascual, M.T. Anguera, G. Vallejo y F. Salvador, Psicología
experimental (pp. 75-106). Valencia: NAU Llibres.
Pardo, A. y Ruiz, M.A. (2005). Análisis de datos con SPSS 13 Base. Madrid:
McGraw-Hill.
Pérez López, C. (2001). Técnicas estadísticas con el SPSS. Madrid: Prentice Hall.
Pérez López, C. (2003). Estadística. Problemas resueltos y aplicaciones. Madrid:
Prentice Hall.
40
Pérez, F.J., Manzano, V. y Fazeli, H. (1998). Análisis de datos en Psicología. Madrid:

Pirámide.
Rial, A., Varela, J. y Rojas, A.J. (2001). Depuración y análisis preliminares de datos
en SPSS. Madrid: RA-MA Editorial.
San Martín, R. y Pardo, A. (1987). Psicoestadística. Contrastes paramétricos y no
paramétricos. Madrid: Pirámide.
Sánchez Carrión, J.J. (1995). Manual de análisis de datos. Madrid: Alianza Editorial,
S.A.
Stevens, J. (1986). Applied multivariate statistics for the social sciences. New Jersey:
Lawrence Erlbaum Associates, Publishers.
Tabachnick, B.G y Fidell, L.S. (1989). Using multivariate statistics (2nd. ed.). New
York: HarperCollins Publishers, Inc.
41

Análisis Descriptivo-Exploratorio de Datos

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Análisis Descriptivo-Exploratorio de Datos

Diunggah oleh

Hak Cipta:

Format Tersedia

ANÁLISIS DESCRIPTIVO-EXPLORATORIO DE DATOS

1. ANÁLISIS DESCRIPTIVO CON VARIABLES NOMINALES 4

EXPLORACIÓN Y DESCRIPCIÓN DE DATOS

Este análisis preliminar permitirá:

Los resultados de este análisis pueden determinar si la prueba estadística

1. ANÁLISIS DESCRIPTIVO CON VARIABLES NOMINALES

El análisis descriptivo de una variable categórica medida en escala nominal se

La tabla de distribución de frecuencias se obtiene en el SPSS seleccionando

Los datos también pueden representarse gráficamente, de forma que se

En el diagrama de barras, se colocan en el eje de abscisas las categorías o

Para realizar este gráfico existen dos procedimientos. El primero es el más

El segundo procedimiento se realiza a través del menú Gráficos, y dentro de

Una vez creado el gráfico en el visor de resultados, se puede proceder a

Una variante del gráfico de barras es el gráfico de Pareto, en el cual las

Por otra parte, el gráfico de sectores o pictogramas son representaciones

Para obtener el gráfico, se elige la opción Frecuencia dentro del menú

Al igual que los gráficos anteriormente mencionados, el de sectores se puede

2. ANÁLISIS DESCRIPTIVO CON VARIABLES ORDINALES

El análisis descriptivo con variables categóricas medidas en escala ordinal, sigue el

nota final no numérica

El diagrama de barras y el gráfico de sectores son los más apropiados para

nota final no numérica

nota final no numérica

En el gráfico de sectores las diferentes categorías también deben estar

3. ANÁLISIS DESCRIPTIVO CON VARIABLES CUANTITATIVAS

El análisis descriptivo de variables cuantitativas, es decir, medidas en escala de

3.1. ESTADÍSTICOS DESCRIPTIVOS

Los estadísticos descriptivos incluyen medidas de tendencia central, de

Las medidas de tendencia central incluyen los índices que resumen y

Las medidas de dispersión representan la variabilidad existente en los datos,

Los estadísticos de tendencia central y de dispersión se obtienen con el

Resumen del procesamiento de los casos

Estadístico Error típ.

Las medidas de posición informan sobre el lugar que ocupa un determinado

Finalmente, las medidas de forma proporcionan información sobre la apariencia

apuntamiento, mediante los índices de asimetría y de curtosis, aunque hay que

a) El coeficiente de asimetría más extendido y que proporciona el SPSS se basa en

Distribución asimétrica positiva Distribución asimétrica negativa

Es difícil encontrar casos en los que el coeficiente de asimetría sea

b) El coeficiente de curtosis representa el grado de apuntamiento de la distribución.

mesocúrtica. Una distribución con un apuntamiento mayor que el de la curva

Para muestras grandes, el coeficiente de curtosis es asintóticamente normal

g2>0 g2=0 g2<0

La mayoría de los análisis paramétricos, como la prueba t o el análisis de

Si la significación (valor p) es menor o igual a 0,05, se rechaza la hipótesis

Pruebas de normalidad p > 0,05

La interpretación de la significación asociada a las pruebas debe realizarse en

Entre los métodos gráficos para evaluar la normalidad se incluyen los

Gráfico de probabilidad normal. Se representan los valores observados en

Seguidamente, se presentan dos gráficos. En el primero se representa las

Gráfico Q-Q normal de RAZONAMI

Gráfico Q-Q normal de LOCAL

La variable sigue una

Gráfico Q-Q normal de amabilidad

Gráfico de probabilidad normal sin tendencia. En este gráfico se recogen

Gráfico Q-Q normal sin tendencias de RAZONAMI

Gráfico Q-Q normal sin tendencias de LOCAL

Las representaciones gráficas proporcionan una idea sobre la normalidad,

3.2. DATOS PERDIDOS

En ocasiones se puede volver al proceso de recogida de datos y realizar un

La reducción muestral será tanto más importante cuanto menos sujetos

3.3. VALORES ATÍPICOS

Algunos estadísticos como la media son muy sensibles a la existencia de

Errores en la recogida de datos. El investigador por diversas razones puede no

El dato es correcto y es una característica distintiva del sujeto. El paso