Anda di halaman 1dari 46

CURSO DE CAPACITACIN:

ANLISIS ESTADSTICO CON SPSS PARA WINDOWS


(PAQUETE ESTADSTICO PARA LAS CIENCIAS
SOCIALES)

SPSS PARA WINDOWS


(VERSIN 13.0)

TOMO II: Anlisis Estadstico

Lic. Andrea Blazsek


Ing. Augusto Norte
MENDOZA, NOVIEMBRE DE 2006

Anlisis Estadstico con SPSS versin 13.0

Lic. Andrea Blazsek Ing. Augusto Norte

INDICE

INDICE.................................................................................................................................... 3
INTRODUCCIN .................................................................................................................... 4
1.

ESTADSTICA DESCRIPTIVA........................................................................................ 5
1.1. ANLISIS UNIVARIADO .................................................................................................. 5
1.1.1. Distribucin de frecuencias ................................................................................... 5
1.1.2. Medidas de tendencia central: media, moda, mediana. ........................................ 9
1.1.3. Medidas de dispersin ........................................................................................ 11
ANLISIS BIVARIADO ............................................................................................................. 12
1.1.4. Asociacin entre dos variables ........................................................................... 12
1.1.5. Coeficientes de asociacin ................................................................................. 16

2.

ESTADSTICA INFERENCIAL...................................................................................... 18
2.1. PRUEBAS NO PARAMTRICAS .................................................................................... 18
2.1.1. Chi cuadrado de Pearson ................................................................................... 18
2.2. PRUEBAS PARAMTRICAS .......................................................................................... 26
2.2.1. Medias ................................................................................................................ 26
2.2.2. Contraste sobre una media................................................................................. 30
2.2.3. Contraste sobre dos medias independientes ...................................................... 32
2.2.4. Anlisis de varianza de un factor ........................................................................ 37
2.2.5. Correlaciones Bivariadas .................................................................................... 41

BIBLIOGRAFA .................................................................................................................... 47

Anlisis Estadstico con SPSS versin 13.0

Lic. Andrea Blazsek Ing. Augusto Norte

Introduccin
El presente manual ilustra los procedimientos para anlisis de datos ms utilizados en
ciencias sociales que ofrece el paquete estadstico SPSS. El mismo no pretende ser un libro
de estadstica ni de metodologa y por lo tanto no contiene explicaciones ni conceptos de
tales materias.
Para la mejor comprensin de los procedimientos y la correcta interpretacin de sus
resultados, se sugiere revisar los siguientes conceptos metodolgicos y estadsticos:
Poblacin, Muestra, Distribucin de la muestra, Distribucin muestral, Teorema central del
lmite, Parmetro de la poblacin y estadstico de la muestra, Prueba de hiptesis, Hiptesis
nula e hiptesis alternativa, Distribucin Normal, Distribucin t de Student, Distribucin Chi
cuadrado, Nivel de significancia e intervalo de confianza.

Nota: Se recuerda a los usuarios que al trabajar con la versin de prueba de SPSS que se
brinda junto con este manual, se puede pedir que los resultados sean generados en otros idiomas ya
que la misma se encuentra en ingls. Para los ejemplos utilizados en este manual se ha configurado
la salida de resultados en espaol. Para cambiar el idioma en el que se generarn los resultados se
debe ingresar en el men Edicin / Opciones ( Edit / Options) y en la pestaa General dentro
del recuadro Resultados (Output) seleccionar Espaol (Spanish) en donde dice Idioma
(Language).

Anlisis Estadstico con SPSS versin 13.0

Lic. Andrea Blazsek Ing. Augusto Norte

1. Estadstica Descriptiva
1.1. Anlisis univariado
1.1.1. Distribucin de frecuencias
El procedimiento Frecuencias (Frequencies) proporciona estadsticos y representaciones
grficas que resultan tiles para describir muchos tipos de variables. Es un buen procedimiento para
una inspeccin inicial de los datos.
Particularmente, la distribucin de frecuencias muestra el nmero de veces que ocurre cada
valor (o categora) de una variable. Se representa mediante conjuntos de pares (xi, fi) en donde xi
representan los valores de la variable (categoras, en el caso en que la variable es cualitativa) y fi el
nmero de veces que ocurre la categora o el valor xi.
Para los informes de frecuencias y los grficos de barras, puede organizar los diferentes
valores en orden ascendente o descendente u ordenar las categoras por sus frecuencias. Es posible
suprimir el informe de frecuencias cuando una variable posee muchos valores diferentes. Puede
etiquetar los grficos con las frecuencias (la opcin por defecto) o con los porcentajes.
Para obtener una distribucin de frecuencias en SPSS, se procede de la siguiente manera: se
elige en el men Analizar (Analyze) la opcin Estadsticos descriptivos (Descriptive Statistics), y
luego la opcin Frecuencias (Frequencies).
Datos: Utilice cdigos numricos o cadenas cortas para codificar las variables categricas (medidas de nivel
nominal u ordinal).
Supuestos: Las tabulaciones y los porcentajes proporcionan una descripcin til para los datos de cualquier
distribucin, especialmente para las variables con categoras ordenadas o desordenadas. Muchos de los
estadsticos de resumen optativos, tales como la media y la desviacin tpica, se basan en la teora normal y
son apropiados para las variables cuantitativas con distribuciones simtricas. Los estadsticos robustos, tales
como la mediana, los cuartiles y los percentiles son apropiados para las variables cuantitativas que pueden o
no cumplir el supuesto de normalidad.

Para utilizar el procedimiento Frecuencias (Frequencies) accedemos a travs del men


Analizar / estadsticos descriptivos / Frecuencias... (Analyze / Descriptive Statistics /
Frequencies) y nos encontramos con el cuadro de dilogo:

Anlisis Estadstico con SPSS versin 13.0

Lic. Andrea Blazsek Ing. Augusto Norte

A la izquierda del cuadro se ubica el listado de variables: las variables contenidas en la matriz
de datos. Las variables aparecen segn el orden que tienen en la matriz de datos (se puede
optar por el orden alfabtico en el men Edit: Options....). De este listado se deben
seleccionar las variables para el anlisis univariado, en este caso, la distribucin de
frecuencias. Para seleccionar las variables, se utilizan los procedimientos habituales de
seleccin empleados en las aplicaciones Windows. Para seleccionar una sola variable, se
apunta con el mouse a la misma y se aprieta el botn izquierdo del mouse. La variable
quedar seleccionada. Para seleccionar varias variables contiguas, se apunta con el mouse a
la primera, se aprieta el botn izquierdo y se arrastra la flecha del mouse hasta seleccionar
todas las variables. Tambin se pueden utilizar las teclas Shift y . Para seleccionar
variables que se ubican en lugares discontinuos, se mantiene apretada la tecla Ctrl y se las
selecciona con el mouse (apretando el botn izquierdo).

En el centro del cuadro de dilogo se ubica un cuadro de texto que lleva el nombre Variables.
En este cuadro se ubicarn las variables que se han seleccionado para el anlisis. Para
pasarlas del listado de variables a este cuadro, se acciona la flecha negra que separa el
listado del cuadro de texto. Para volver a pasar las variables al listado de variables, se las
selecciona y se las pasa al listado accionando la pequea flecha negra.

El botn Estadsticos (Statistics...) Al activarlo, se generar un cuadro que contiene las


instrucciones de clculo de medidas de tendencia central, de posicin, de dispersin y de
distribucin.

El botn Grficos (Charts...) Permite la obtencin de grficos de barra, de sectores e


histogramas.

El botn Formato (Format...). Permite cambiar el formato del cuadro de distribucin de


frecuencias (por ejemplo, ordenar los resultados de manera descendente o ascendente
segn los cdigos o las frecuencias).

Los botones OK, Pegar (Paste), Reset, Cancel y Help.


A continuacin realizaremos un ejemplo simple para ilustrar este procedimiento.
-

Accedemos a travs del men Analizar / estadsticos descriptivos / Frecuencias...


(Analyze / Descriptive Statistics / Frequencies)

Trasladamos las variables Lnea de pobreza [LIN_POB] y lnea de indigencia


[LIN_IND] a la lista Variable(s).

Anlisis Estadstico con SPSS versin 13.0

Lic. Andrea Blazsek Ing. Augusto Norte

Luego hacemos clic en Aceptar (Ok) y observamos los cuadros generados en el visor de
resultados (Output).

Interpretacin:
El primer cuadro nos muestra por defecto algunos estadsticos descriptivos relacionados con
esta prueba. En l se puede ver un resumen en donde se indica la cantidad de casos que fueron
procesados y los que fueron excluidos del anlisis.
Estadsticos

Vlidos
Perdidos

LINEA DE
POBREZA
3625
196

LINEA DE
INDIGENCIA
3625
196

Los siguientes dos cuadros son las tablas de distribucin de frecuencias propiamente dichas
de cada una de las variables seleccionadas.
LINEA DE POBREZA

Vlidos

Perdidos
Total

Pobre
No pobre
Total
Ns/Nc

Frecuencia
2145
1480
3625
196
3821

Porcentaje
56,1
38,7
94,9
5,1
100,0

Porcentaje
vlido
59,2
40,8
100,0

Porcentaje
acumulado
59,2
100,0

Anlisis Estadstico con SPSS versin 13.0

Lic. Andrea Blazsek Ing. Augusto Norte

LINEA DE INDIGENCIA

Vlidos

Perdidos
Total

Pobre
No pobre
Total
Ns/Nc

Frecuencia
1047
2578
3625
196
3821

Porcentaje
27,4
67,5
94,9
5,1
100,0

Porcentaje
vlido
28,9
71,1
100,0

Porcentaje
acumulado
28,9
100,0

Los cuadros de distribucin de frecuencias generados en SPSS contienen los siguientes elementos:

La descripcin (etiqueta) de la variable como ttulo del cuadro

El sistema de categoras de la variable (las etiquetas de valores)

La frecuencia absoluta, es decir, el nmero de ocurrencia de cada categora. En la misma


columna aparece tambin el total de casos de la poblacin o muestra (3821 en el
ejemplo).

El porcentaje que se obtiene dividiendo la frecuencia absoluta de cada categora al total


de casos, y multiplicando el resultado por 100.

El porcentaje vlido es el porcentaje que se obtiene al designar alguna categora o valor


de la variable como valor perdido por el usuario.

El porcentaje acumulado es la suma de los porcentajes vlidos. La sumatoria empieza


con el porcentaje del primer valor, al cual se suma el porcentaje del segundo valor, etc.

La diferencia entre el porcentaje y el porcentaje vlido


LINEA DE POBREZA

Vlidos

Perdidos
Total

Pobre
No pobre
Total
Ns/Nc

Frecuencia
2145
1480
3625
196
3821

Porcentaje
56,1
38,7
94,9
5,1
100,0

Porcentaje
vlido
59,2
40,8
100,0

Porcentaje
acumulado
59,2
100,0

En el caso en que determinados valores de la variable se definen como valores perdidos (en
el ejemplo, la categora Ns/Nc de la variable Lnea de pobreza se defini como valor perdido, en
realidad esta categora indica que no se dispone de los datos de ingresos del hogar), el clculo del
porcentaje vlido se realiza tomando como base el total del cual se resta la cantidad de casos
perdidos. Es decir, la base de clculo del porcentaje vlido ser 3821 196 = 3625.
Al realizar este clculo, se acepta implcitamente el hecho de que los valores perdidos se
distribuyen en la poblacin con la misma proporcin que los restantes valores de la variable.

Anlisis Estadstico con SPSS versin 13.0

Lic. Andrea Blazsek Ing. Augusto Norte

Cuando se definen ciertos cdigos o valores como valores perdidos siempre hay que
evaluar el porcentaje de dichos casos en la distribucin de frecuencias de la variable. Si el porcentaje
excede el 5%, la distribucin de estos casos segn la frecuencia vlida puede sesgar los resultados,
sobre todo por el hecho de que a veces los casos de no respuesta tienen alguna caracterstica que
los diferencia del resto de la muestra y por ende, no se reparten en la misma proporcin que los
casos vlidos.
La distribucin de frecuencias se puede utilizar para todos los niveles de medicin: nominal,
ordinal, intervalar y de razn. Para los niveles de medicin intervalar y de razn se aconseja
presentar los datos bajo forma agrupada, es decir, obteniendo variables con intervalos. El
procedimiento de recodificacin de las variables (vase el captulo 6) permite agrupar una variable
cuantitativa en una variable con intervalos de clase.
1.1.2. Medidas de tendencia central: media, moda, mediana.
Para calcular la media de una variable cuyo nivel de medicin es intervalar o de razn
(recurdese que el clculo de la media no tiene sentido para variables nominales y ordinales), se
procede de la siguiente manera: se elige la opcin Estadsticos Descriptivos (Descriptive
Statistics) del men Analizar (Analyze). En la opcin Estadsticos Descriptivos se elige
Descriptivos... (Descriptives)

Al seleccionar esta opcin, se genera un cuadro de dilogo que contiene en la parte izquierda
el listado de variables de la matriz. Al activar el botn Opciones (Options) se puede visualizar el
cuadro que contiene algunos estadsticos relacionados con las medidas de tendencia central y de
dispersin. Para el clculo de la media se hace clic con el mouse en la opcin Media (Mean) (al
elegir la opcin, aparece una tilde en la casilla correspondiente). Para desactivar las otras opciones
seleccionadas, se hace un clic con el mouse en las casillas correspondientes. Despus se hace clic
en el botn Continue, volvindose al cuadro inicial. El procedimiento de seleccin de variables para
las cuales se quiere calcular la media es el mismo que en el caso de las distribuciones de
frecuencias.
Para calcular la moda y la mediana se debe utilizar la opcin Frecuencias... En esta opcin
tambin se puede calcular la media.
Recurdese que la moda se puede calcular para todos los niveles de medicin, e indica el
valor o categora que tiene la frecuencia mxima en la distribucin. La mediana se puede calcular a
partir del nivel ordinal, e indica el valor que divide a la serie de datos (ordenada de manera
ascendente o descendente) en dos partes numricamente iguales.

Anlisis Estadstico con SPSS versin 13.0

Lic. Andrea Blazsek Ing. Augusto Norte

Accedemos a travs del men Analizar / estadsticos descriptivos / Frecuencias...


(Analyze / Descriptive Statistics / Frequencies)

En el cuadro de dilogo correspondiente a las distribuciones de frecuencias, se eligen las


variables para las cuales se quieren obtener las medidas de tendencia central. Luego en el cuadro
que se activa desde el botn Estadsticos (Statistics) se eligen las opciones contenidas en Tendencia
Central (Central Tendency): Media (Mean), Mediana (Median) y Moda (Mode). Se pulsa el botn
Continue, volvindose al cuadro inicial. En el caso en que no se quiere obtener una distribucin de
frecuencias de las variables (solamente se quieren calcular las medidas de tendencia central) se
desactiva la opcin Mostrar tablas de frecuencia (Display frequency tables) en el cuadro inicial,
haciendo un solo clic con el botn izquierdo del mouse en la casilla tildada.

10

Anlisis Estadstico con SPSS versin 13.0

Lic. Andrea Blazsek Ing. Augusto Norte

Ejemplo: (con la tabla de frecuencias desactivada)


Clculo de la media, mediana y moda del ingreso total familiar, en base a la EPH, onda
octubre de 2002.
Estadsticos
MONTO DEL INGRESO TOTAL FAMILIAR
N
Vlidos
983
Perdidos
72
Media
739,7294
Mediana
502,0000
Moda
300,00

El clculo se ha realizado sobre el total de hogares relevados en la EPH


En el mismo cuadro de dilogo correspondiente a la opcin Estadsticos del cuadro
Frecuencias se pueden calcular los valores correspondientes a diferentes medidas de posicin:
cuartiles, quintiles, deciles, percentiles. Los cuartiles (dividen a la serie ordenada en cuatro partes
iguales) se obtienen al elegir la opcin Cuartiles (Quartiles). Los quintiles (dividen a la serie ordenada
en 5 partes iguales), los deciles (dividen a la serie en 10 partes iguales), etc., se pueden obtener al
teclear en la casilla correspondiente a Puntos de corte para ... grupos iguales (Cut points for ..
equal groups) la cantidad de divisiones iguales que se quiere aplicar a la serie de datos.
1.1.3. Medidas de dispersin
Las medidas de dispersin se pueden calcular recurriendo a la opcin Frequencies (pulsando
el botn Statistics en el cuadro de dilogo correspondiente a Frequencies) o la opcin Descriptives
(eligiendo Options... en el cuadro de dilogo).
Se pueden calcular las siguientes medidas de dispersin:

La amplitud o rango (Range) es la diferencia entre el valor mximo y el mnimo de un


conjunto de datos.

La varianza (Variance) es la media de las desviaciones que tienen los casos con respecto a
la media de la serie de datos, elevadas al cuadrado.

La desviacin tpica (Std. Deviation) es la raz cuadrada de la varianza.

Para calcular las medidas descritas, se hace clic con el mouse en las siguientes opciones:
Desviacin tpica, Varianza, Amplitud.
Ejemplo: Clculo del rango, desviacin tpica y varianza del ingreso total familiar, en base a
la EPH, onda octubre de 2002.
Estadsticos descriptivos
N
MONTO DEL INGRESO
TOTAL FAMILIAR
N vlido (segn lista)

Rango
983

6730,00

Mnimo
20,00

Mximo
6750,00

Desv. tp.

Varianza

730,0916

533033,7

983

11

Anlisis Estadstico con SPSS versin 13.0

Lic. Andrea Blazsek Ing. Augusto Norte

Anlisis bivariado
1.1.4. Asociacin entre dos variables
Para poder analizar la asociacin entre dos variables, en primer lugar se deben comparar
porcentajes. Dichos porcentajes se obtienen mediante una tabulacin cruzada (un cruce) de las dos
variables que se quieren analizar. La tabulacin cruzada es una tabla de dos entradas, que permite
examinar conjuntamente el comportamiento de dos variables.
Ejemplo de tabla de asociacin 2x2 (con dos variables dicotmicas):

Variable Y
Y1
Y2
Total columna

Variable X
x1
x2
f11
f12
f21
f22
f11 + f21
f12 + f22

Total Fila
f11 + f12
f21 + f22
N

En el ejemplo se han cruzado dos variables dicotmicas X e Y, con sus correspondientes


categoras: x1 x2; y1 y2. Las frecuencias f11, f12, f21 y f22 corresponden a la cantidad de casos
observada en cada una de las cuatro combinaciones de las categoras de las dos variables: x1y1,
x2y1, x1y2, x2y2, respectivamente.
Las frecuencias correspondientes al total marginal de las columnas (total columna) y al total
marginal de las filas (total fila) se llaman frecuencias marginales, y en realidad, representan la
distribucin de frecuencias para cada variable en parte. As, la frecuencia marginal de la columna
representa la distribucin de frecuencias de la variable X, sin tener en cuenta la influencia de la
variable Y. N representa el total de la poblacin o de la muestra.
En una tabla de asociacin se pueden calcular tres tipos de porcentajes.
Los porcentajes por fila se obtienen dividiendo el valor absoluto de cada celda al total
marginal de la fila correspondiente y multiplicando por 100, es decir f11/(f11+ f12) *100; f12(/f11 + f12)*
100 para la primera fila del cuadro y f21(/f21 + f22)*100; (f22/f21 + f22)*100 para la segunda fila. Los
porcentajes as obtenidos deben sumar 100 horizontalmente.
Los porcentajes por columna se obtienen dividiendo el valor absoluto de cada celda al total
marginal de la columna correspondiente y multiplicando el resultado por 100, es decir f11/(f11 +
f21)*100; f21/(f11 + f21)*100 para la primera columna del cuadro y f12/(f12 + f22)*100; (f22/f12 + f22)*100 para
la segunda columna. Los porcentajes as obtenidos deben sumar 100 verticalmente.
Los porcentajes totales se obtienen dividiendo el valor de cada celda a n y multiplicando el
resultado por 100: f11/n*100, f 12/n*100, f21/n*100 y f22/n*100. La suma de dichos porcentajes debe dar
100.
Para efectuar de una manera correcta la comparacin de los porcentajes por columna y por
fila, en el caso en que se quiere estudiar el efecto que produce una variable sobre la otra, se debe
seguir la regla de Zeisel. Segn esta regla, la comparacin de los porcentajes siempre se debe hacer
en el sentido opuesto al que han sido sacados. As, en el caso en que el porcentaje se obtuvo por
columna (utilizando como base de clculo los totales marginales de columna), la comparacin se
hace horizontalmente, y a la inversa, si los porcentajes se han sacado en el sentido de la fila, la
comparacin se debe hacer verticalmente.

12

Anlisis Estadstico con SPSS versin 13.0

Lic. Andrea Blazsek Ing. Augusto Norte

A continuacin se ilustra la lgica subyacente a esta forma de comparacin.


Variable X
Variable Y
y1
y2
Total columna

x1
a
c
a+c

x2
b
d
b+d

Total Fila
a+c
c+d
a+b+c+d

Si se calculan los porcentajes por columna se obtienen los siguientes resultados: a/(a+c)*100
y c/(a+c)*10 para la primera columna y b/(b+d)*100 y d/(b+d)*100 para la segunda columna. Si la
diferencia porcentual se calcula en el mismo sentido en que han sido sacados los porcentajes, se
obtiene:
(1)

a/(a+c)*100 - c/(a+c)*100 = (a-c) / (a+c) *100

o para la segunda columna


(2)

b/(b+d)*100 - b/(b+d)*100 = (b-d) / (b+d) *100

Cabe destacar que el resultado (1) es independiente de b y d, es decir si la comparacin se


hace en el mismo sentido en que se han calculado los porcentajes, no se toma en cuenta toda la
informacin contenida en la tabla. Lo mismo sucede con el resultado (2), en tanto que es
independiente de a y c.
Si los porcentajes se comparan en el sentido opuesto al que han sido sacados, los resultados
son:
(1)
(2)

a/(a+c)*100 - b/(b+d)*100 = (ad-bc)/(a+c)(b+d)*100


c/(a+c)*100 - d/(b+d)*100 = (bc-ad)/(a+c)(b+d)*100
En este caso el resultado obtenido refleja los valores contenidos en toda la tabla.

La diferencia porcentual calculada de este modo representa un coeficiente de asociacin,


llamado Epsilon. Si bien no es del todo riguroso y es muy simple, tiene ventajas prcticas, ya que es
muy fcil de calcular. Esta diferencia porcentual se calcula en sentido contrario al que han sido
sacados los porcentajes. Por ejemplo, si los porcentajes han sido sacados verticalmente, el
coeficiente Epsilon se obtiene, restando horizontalmente, dos a dos, los porcentajes de las
columnas. Si la tabla es 2x2, es suficiente calcular un solo coeficiente Epsilon. En el caso de tablas
que tienen dimensiones ms grandes, se deben calcular varios coeficientes.
Para obtener una tabla de asociacin entre dos variables en el SPSS, accedemos a travs
del men Analizar / Estadsticos Descriptivos / Tablas de contingencia... (Analyze / Descriptive
Statistics / Crosstabs) y de esta manera nos encontramos con el siguiente cuadro de dilogo:

13

Anlisis Estadstico con SPSS versin 13.0

Lic. Andrea Blazsek Ing. Augusto Norte

En el cuadro de dilogo que se genera se eligen del listado de variables las dos variables que
se quieren asociar. Una de ellas se ubicar horizontalmente (por fila) y la otra, verticalmente (por
columna) en la tabla de dos entradas. La variable que se ubicar por fila se debe pasar al cuadro
correspondiente a Filas (Rows) y la variable que se situar por columna, se debe pasar al cuadro
llamado Columnas (Columns).
Para poder calcular los porcentajes en el interior de cada celda, se elige en el cuadro de
dilogo correspondiente a las tablas de asociacin la opcin Casillas (Cells....)
En el cuadro que se genera al activar esta opcin, se hace clic con el mouse en las casillas
correspondientes a Porcentajes (Percentages) indicando el tipo de porcentajes que se quiere
obtener: Fila (Row) (calculado sobre el total de la fila), Columna (Column) (calculado sobre el total de
la columna), Total (calculado sobre el total de la poblacin). Una vez activadas las opciones, se hace
clic en el botn Continue y se vuelve al cuadro inicial.
En el caso en que una de las variables (o ambas) contienen valores perdidos (del sistema o
definidos por el usuario), estos valores se omitirn de la tabla de asociacin.
Dado que se pueden sacar tres tipos de porcentajes, es importante establecer cul de los tres
presenta mayor inters para el anlisis. Tambin es muy importante, antes de efectuar la asociacin,
formular la hiptesis asociativa que vincula las dos variables que se estudian.
Generalmente el porcentaje sobre el total no se utiliza para la interpretacin de la relacin de
asociacin, excepto cuando se analizan tipologas obtenidas con las categoras de las dos variables.
Un ejemplo podra ser la tipologa de pobreza obtenida a partir del cruce de la variable Lnea de
pobreza (Hogares encima de la lnea de pobreza y hogares debajo de la lnea de pobreza) con la
variable Necesidades bsicas insatisfechas. Esta asociacin permite obtener los siguientes tipos de
pobreza: pobreza crnica (Hogares que se ubican debajo de la lnea de pobreza y tienen por lo
menos una necesidad bsica insatisfecha), nueva pobreza (hogares que son pobres por lnea de
pobreza pero no tienen carencias crticas), pobreza inercial (hogares pobres por NBI, pero cuyos

14

Anlisis Estadstico con SPSS versin 13.0

Lic. Andrea Blazsek Ing. Augusto Norte

ingresos los ubican encima de la lnea de pobreza) y hogares no pobres (no presentan carencias
crticas y se ubican encima de la lnea de pobreza). Para analizar la proporcin de cada uno de estos
tipos en los hogares estudiados, se realiza el cruce correspondiente y se calculan los porcentajes
sobre el total.
Ejemplo: Cruce de la variable NBI con la variable Pobreza por ingresos para establecer tipos
de pobreza. Datos de la EPH onda octubre de 1996 (total hogares)

LINEA DE POBREZA Pobre


No pobre
Total

Recuento
% del total
Recuento
% del total
Recuento
% del total

NBI
Pobre
No pobre
93
210
9,5%
21,5%
40
635
4,1%
64,9%
133
845
13,6%
86,4%

Total
303
31,0%
675
69,0%
978
100,0%

En el cuadro del ejemplo se puede observar que el 9,5% de los hogares se encuentra en
pobreza crnica, el 21,5% debajo de la lnea de pobreza (nuevos pobres), el 4,1% son pobres
inerciales y un 64,9% del total de los hogares no son pobres.
Cuando se desea comparar porcentajes por fila o columna, en primer lugar se debe
establecer cul de las dos variables es la independiente (la causa) y cul es la dependiente (el
efecto). Obviamente no en todas las situaciones es posible establecer la causa de un fenmeno,
sobre todo en ciencias sociales, donde la mayora de los fenmenos tienen causas mltiples, y
generalmente las relaciones no son asimtricas (de causa a efecto), sino recprocas (una de las
variables influye en la otra, y viceversa). Pese a estas dificultades, en ciertas situaciones se puede
establecer con precisin cul es la variable independiente.

Generalmente las variables de base y de personalidad son independientes en relacin con


las variables de opinin y comportamiento, ya que las suelen determinar. Ejemplos de
variables de base son: edad, sexo, ocupacin, nivel educativo, raza, religin, etc. Las
variables de personalidad son de tipo psicolgico, a saber, coeficiente de inteligencia,
motivacin, rasgos de personalidad, etc.

La relativa permanencia de una variable con respecto a la otra (los cambios en la primera no
ocurren con frecuencia, mientras que la segunda vara a menudo) hace que se pueda asumir
que la primera es la independiente y la segunda la dependiente.

La anterioridad temporal de una variable con respecto a la otra. La variable anterior puede
considerarse como variable independiente.

A veces, los objetivos de la investigacin permiten plantear cul es la variable independiente,


y cul la dependiente.

En todas estas situaciones, cuando se conoce cul es la variable independiente, segn la


regla de Zeisel, los porcentajes se deben obtener en el sentido de la variable independiente,
efectundose la comparacin de porcentajes en el sentido opuesto. Para facilitar la lectura de los
porcentajes, generalmente la variable independiente se suele ubicar en la columna. Esta ubicacin
es solamente una convencin y no influye en los datos. En el caso de haber ubicado la variable

15

Anlisis Estadstico con SPSS versin 13.0

Lic. Andrea Blazsek Ing. Augusto Norte

independiente por columna, la comparacin se hace horizontalmente, dado que los porcentajes se
han calculado en el sentido vertical. En el siguiente ejemplo se muestra el procedimiento.
Resumen del procesamiento de los casos

N
LINEA DE POBREZA
* NIVELREC

Vlidos
Porcentaje
994

Casos
Perdidos
N
Porcentaje

94,2%

61

5,8%

Total
Porcentaje

1055

100,0%

Jefes de hogar por nivel educativo segn lnea de pobreza

LINEA DE POBREZAPobre

Total

Recuento
% de NIVELREC
No pobre Recuento
% de NIVELREC
Recuento
% de NIVELREC

Primario
254
63,2%
148
36,8%
402
100,0%

NIVELREC
Secundario Superior Universitario
195
14
29
53,1%
27,5%
16,7%
172
37
145
46,9%
72,5%
83,3%
367
51
174
100,0%
100,0%
100,0%

Total
492
49,5%
502
50,5%
994
100,0%

Los porcentajes han sido sacados verticalmente, pero la comparacin se debe hacer por fila.
Leyendo dichos porcentajes, se puede observar que a menor nivel educativo, aumenta el porcentaje
de los jefes de hogar que estn en situacin de pobreza (se comparan los porcentajes en sentido
horizontal: 63,2%, 53,1%, 27,5% y 16,7%). A la inversa, a mayor nivel educativo, desciende el
porcentaje de jefes de hogar pobres.
1.1.5. Coeficientes de asociacin
Los coeficientes de asociacin se utilizan para evaluar la intensidad de la asociacin. Estos
coeficientes varan entre 0 y 1 para variables nominales, y 1 y 1 para variables ordinales. En el caso
de las variables nominales, 0 indica la ausencia de asociacin y 1 la presencia de una asociacin
perfecta. En el caso de las variables ordinales es posible establecer la direccin de la asociacin, -1
indicando una asociacin perfecta negativa, y +1, una asociacin perfecta positiva.
Se utilizan distintos coeficientes en funcin del nivel de medicin de las variables.
En el caso en que las variables son nominales y dicotmicas, el coeficiente ms utilizado es el
Phi. Si la tabla tiene dimensiones ms grandes, se recomienda el uso del coeficiente V de Cramer.
En el caso de dos variables ordinales, se pueden utilizar los coeficientes Tau-b y Tau-c de
Kendall. Para las tablas simtricas (igual cantidad de filas y columnas) se debe utilizar el Tau-b. Para
las tablas asimtricas (la cantidad de filas no coincide con la cantidad de columnas) se debe utilizar
el Tau-c.
Si se asocia una variable ordinal con una nominal, se debe utilizar un coeficiente
correspondiente al nivel nominal.

16

Anlisis Estadstico con SPSS versin 13.0

Lic. Andrea Blazsek Ing. Augusto Norte

Para calcular estos coeficientes, se debe activar la opcin Statistics de la instruccin Tablas
de contingencia (Crosstabs) y se hace clic en los nombres de los coeficientes que se desea calcular
(Phi y V de Cramer; Tau-b de Kendall; Tau-c de Kendall).

17

Anlisis Estadstico con SPSS versin 13.0

Lic. Andrea Blazsek Ing. Augusto Norte

2. Estadstica Inferencial
2.1. Pruebas No Paramtricas
2.1.1. Chi cuadrado de Pearson
Para evaluar si hay alguna relacin entre las variables, comnmente se recurre a la diferencia
de porcentajes. Tambin se pueden obtener coeficientes de asociacin, que indican la intensidad de
la asociacin. Sin embargo, antes de interpretar las diferencias porcentuales y los eventuales
coeficientes, se debe evaluar la significacin estadstica de la relacin e inferir su validez respecto a
la poblacin. La prueba estadstica que permite realizar esto es el Chi-cuadrado.
El mtodo tradicional de la prueba de hiptesis consiste en los siguientes pasos:

Se formula la hiptesis de investigacin que afirma una relacin entre dos variables.

Se formula la hiptesis nula segn la cual no hay relacin entre las dos variables, es decir, las
variables son independientes.

Se elige la prueba: Chi-cuadrado.

Se elige un nivel de significacin (). indica el riesgo de equivocarse y rechazar la hiptesis


nula, cuando en realidad sta es verdadera. En lenguaje estadstico se llama error tipo I.
Generalmente el nivel de significacin con el cual se trabaja en las ciencias sociales es 0,05.
Esto significa que de 100 muestras que se podran seleccionar a partir de la poblacin
considerada, en 5 se rechaza errneamente la hiptesis nula. En el caso de la asociacin,
esto significa que en 5 muestras de 100, si bien se ha obtenido una relacin, sta se debe al
azar y no refleja la existencia una relacin en la poblacin.

Se determinan los grados de libertad de la tabla de asociacin. La distribucin Chi-cuadrado


es una familia de distribuciones que depende de los grados de libertad, los cuales se
obtienen mediante un clculo. Los grados de libertad indican la cantidad de datos que se
pueden emplear en el clculo estadstico sin restricciones. En el caso de las distribuciones
univariadas, los grados de libertad son n-1. En el caso de las tablas de asociacin, los grados
de libertad se calculan utilizando la frmula (c-1)(r-1), en donde c representa la cantidad de
columnas del cuadro, y r la cantidad de filas. Por ejemplo, si la tabla tiene 2 columnas y 3
filas, los grados de libertad son 2.

Conociendo y los grados de libertad, se puede obtener el valor crtico del estadstico 2 ,
recurriendo a las tablas de la distribucin de Chi-cuadrado. El valor crtico correspondiente al
nivel de significacin seleccionado y a los grados de libertad de la tabla de asociacin se
encuentra en la interseccin de la fila (grados de libertad) con la columna (nivel de
significacin).

Determinacin de la zona de rechazo de la hiptesis nula. El valor crtico delimita la zona de


aceptacin de la zona de rechazo. Todos los valores observados del estadstico 2, que son
mayores al valor crtico se ubicarn en la zona de rechazo de la hiptesis nula.

Se calcula el valor observado del 2 y se compara con el valor crtico.

Toma de decisin: si el valor observado es mayor que el valor crtico, se puede rechazar la
hiptesis nula, es decir la hiptesis de independencia entre las variables consideradas. Esto
significa que la relacin entre las variables es estadsticamente significativa, a un nivel de
significacin del 5%.

El clculo del estadstico Chi-cuadrado se hace comparando las frecuencias observadas con
las frecuencias esperadas, que se obtienen en el caso en que las dos variables fueran
independientes. Las frecuencias esperadas se calculan multiplicando las frecuencias marginales de

18

Anlisis Estadstico con SPSS versin 13.0

Lic. Andrea Blazsek Ing. Augusto Norte

las columnas y filas, correspondientes a cada una de las celdas de la tabla de asociacin y
dividiendo el producto a la cantidad de casos.
Para la tabla de asociacin general que se presenta a continuacin, la frecuencia esperada
para la primera celda de la tabla con la frecuencia observada f11 es (f11 + f12)(f11 + f21) / n. Cuanto
mayor es la diferencia entre las frecuencias observadas y esperadas, mayor ser la probabilidad de
que la muestra provenga de una poblacin en la que las variables estn relacionadas.

Variable X
Variable Y

X1

x2

Total Fila

Y1

f11

f12

f11 + f12

Y2

f21

f22

f21 + f22

Total columna

f11 + f21

f12 + f22

Para efectuar la Prueba de Chi cuadrado accedemos a travs del men Analizar /
Estadsticos Descriptivos / Tablas de contingencia... (Analyze / Descriptive Statistics /
Crosstabs) y de esta manera nos encontramos con el siguiente cuadro de dilogo:

La lista de variables contiene un listado con todas las variables del archivo de datos. Para
llevar a cabo un contraste con las especificaciones que el procedimiento tiene establecidas por
defecto:

Trasladar al menos una variable al cuadro de Filas (Row(s)) y una variable al cuadro de
Columnas (Column(s)).

19

Anlisis Estadstico con SPSS versin 13.0

Lic. Andrea Blazsek Ing. Augusto Norte

Luego hacer click en el botn Estadsticos (Statistics) y tildar la opcin Chi cuadrado (Chisquare).

Tambin se pueden obtener las frecuencias esperadas. Para esto se debe hacer click en el
botn Casillas (Cells) y tildar la opcin Esperadas (Expected). Se puede observar que la
opcin Observadas (Observed) est predeterminada. Esta opcin permite obtener las
frecuencias absolutas observadas en cada celda de la tabla de asociacin.

Advertencia: El estadstico Chi-cuadrado puede estar sesgado y no se recomienda su


utilizacin en el caso en que haya celdas con valores esperados menos de 1, y haya ms del 20% de
las celdas con valores esperados menos de 5. Esta situacin se produce en los casos en que la

20

Anlisis Estadstico con SPSS versin 13.0

Lic. Andrea Blazsek Ing. Augusto Norte

muestra es pequea, o las variables cruzadas contienen muchas categoras. En el ltimo caso
conviene agrupar las categoras, reduciendo la cantidad de las mismas.
A continuacin realizaremos dos ejemplos para este procedimiento.
Se plantea la siguiente hiptesis de investigacin: las mujeres tienen mayor probabilidad
de estar desocupadas que los hombres. Se quiere contrastar la hiptesis utilizando los datos de
la base EPH2002.sav. La poblacin en estudio es la poblacin econmicamente activa (PEA).
Se formula la hiptesis nula: no hay relacin entre el sexo y la desocupacin.
Para realizar esta prueba de hiptesis, previamente se debe acondicionar la base de datos.
En este caso, se debe realizar un filtro para seleccionar solamente la PEA. La expresin que se
introducir en la opcin del filtro es la siguiente: estado = 1 | estado = 2.
Una vez aplicado el filtro,
-

Trasladamos al recuadro Fila(s) (Row(s)) la variable Condicin de actividad [estado]

Trasladamos al recuadro Columna(s) (Column(s)) la variable Sexo

Luego damos click en el botn Casillas (Cells), tildamos las opciones Esperadas
(Expected) y Columna (Column) y damos click en Continuar (Continue).

21

Anlisis Estadstico con SPSS versin 13.0

Lic. Andrea Blazsek Ing. Augusto Norte

Luego damos click en el botn Estadsticos (Statistics), tildamos la opcin Chi cuadrado
(Chi-square) y damos click en Continuar (Continue).

Luego damos click en Aceptar (Ok) y observamos los cuadros generados en el visor de
resultados (Output).

22

Anlisis Estadstico con SPSS versin 13.0

Lic. Andrea Blazsek Ing. Augusto Norte

Tabla de contingencia CONDICION DE ACTIVIDAD * SEXO

CONDICION DE
ACTIVIDAD

Ocupado

Desocupado

Total

Recuento
Frecuencia esperada
% de SEXO
Recuento
Frecuencia esperada
% de SEXO
Recuento
Frecuencia esperada
% de SEXO

SEXO
Varn
Mujer
787
527
782,2
531,8
89,0%
87,7%
97
74
101,8
69,2
11,0%
12,3%
884
601
884,0
601,0
100,0%
100,0%

Total
1314
1314,0
88,5%
171
171,0
11,5%
1485
1485,0
100,0%

Pruebas de chi-cuadrado

Chi-cuadrado de Pearson
Correccin apor
continuidad
Razn de verosimilitud
Estadstico exacto de
Fisher
Asociacin lineal por
lineal
N de casos vlidos

Sig. asinttica
(bilateral)
,427

,506

,477

,627

,429

Valor
,630b

,630

gl

Sig. exacta
(bilateral)

Sig. exacta
(unilateral)

,456

,238

,427

1485

a. Calculado slo para una tabla de 2x2.


b. 0 casillas (,0%) tienen una frecuencia esperada inferior a 5. La frecuencia mnima esperada
es 69,21.

Interpretacin:
Si se analiza la tabla de asociacin obtenida, se distinguen los siguientes valores:

las frecuencias absolutas observadas en cada celda. Por ejemplo, hay 787 varones
ocupados y 74 mujeres desocupadas.

los totales de cada fila y columna, es decir, las frecuencias marginales que representan la
distribucin de frecuencia simple de cada una de las variables cruzadas.

el segundo valor de la celda indica la frecuencia esperada (por ejemplo, 782,2 en el caso
de los varones ocupados). Si se analizan dichas frecuencias, se puede notar que la
diferencia entre los valores observados y esperados es muy reducida.

los porcentajes por columna. Se puede observar que la diferencia porcentual entre
varones y mujeres segn las dos categoras de la condicin de actividad (ocupado y
desocupado) es muy reducida.

El Chi-cuadrado utilizado en la evaluacin de la significacin estadstica de la relacin es el


Chi-cuadrado (Chi-Square) de Pearson. El SPSS efecta otros dos contrastes tambin: Likelihood
Ratio (Razn de Mxima Verosimilitud) y Linear-by-Linear Association. La razn de mxima
verosimilitud se utiliza en el contexto de modelos lineales logartmicos (que representa un sistema

23

Anlisis Estadstico con SPSS versin 13.0

Lic. Andrea Blazsek Ing. Augusto Norte

general de anlisis de tablas de asociacin), y para muestras grandes tiene valores semejantes al
Chi-cuadrado de Pearson.
Tambin se indica la frecuencia mnima esperada (Minimum Expected Frequency), que en
ninguna celda debe ser menor de 1. Si en el 20% de las celdas se obtienen valores esperados entre
1 y 5, la salida de resultados indicar esta situacin. En nuestro ejemplo se consigna que no hay
ninguna celda que tenga una frecuencia esperada inferior a 5.
Si las variables que se han cruzado son dicotmicas, en vez de leer el valor del Chi-Cuadrado
(Chi-Square), se debe leer el valor del Continuity Correction que es la correccin de Yates
(correccin por continuidad) aplicada al clculo del Chi-Cuadrado de las tablas dicotmicas.
En el ejemplo presentado, el Chi-cuadrado de Pearson es 0,630 y la correccin por
continuidad introduce una leve modificacin al valor del Chi-cuadrado: 0,506.
Cabe notar que en la salida del SPSS se registran los valores de las pruebas de contraste en
la columna correspondiente a Valor (se lee la fila correspondiente al Chi-cuadrado de Pearson /
correccin por continuidad), los grados de libertad en la columna llamada gl (grados de libertad) y los
valores-P en la columna Sig. Asinttica (significacin asinttica bilateral)
El valor-P mide la probabilidad de obtener al azar un determinado estadstico. En el ejemplo
presentado, el valor-P representa la probabilidad de obtener el valor 0,506 del estadstico de Chicuadrado al azar. Observamos que el valor-P de este estadstico es 0,477, casi 0,5. Esto significa
que la probabilidad de rechazar la hiptesis nula equivocadamente a partir de los resultados del
ejemplo es 0,5; probabilidad significativamente mayor que = 0,05.
En consecuencia, la evaluacin de los resultados de la salida de SPSS para el Chi-cuadrado
se puede hacer de dos formas:

Se compara el valor crtico del estadstico 2 (obtenido de las tablas, en funcin del nivel
de significacin y los grados de libertad) con el valor observado obtenido en la salida de
resultados. Si el valor observado es mayor que el valor crtico, se puede rechazar la
hiptesis nula de independencia. A la inversa, si el valor observado es menor que el valor
crtico, hay que aceptar la hiptesis nula.

Se compara el valor del (generalmente 0,05) con el valor-P (Significacin) obtenido en


la salida de resultados. Si el valor-P es mayor que =0,05, hay que aceptar la hiptesis
nula de independencia (es decir, no hay relacin entre las variables estudiadas). Si el
valor-P es menor que =0,05, se rechaza la hiptesis nula, confirmndose de este modo
la existencia de una relacin entre las dos variables.

En este ejemplo, el valor-P es significativamente mayor que =0,05, por lo tanto se acepta la
hiptesis nula, es decir, se puede inferir, que a nivel de la poblacin en cuestin, no hay relacin
entre las dos variables estudiadas: sexo y condicin de actividad.
Veamos otro ejemplo, en donde trabajamos con una variable dicotmica y otra, policotmica
(que tiene ms de dos categoras). Planteamos la siguiente hiptesis de investigacin: existe relacin
entre sexo y categora ocupacional. La hiptesis nula correspondiente es: no hay relacin entre sexo
y categora ocupacional.
Nuevamente se debe acondicionar la base, seleccionando, esta vez, al conjunto de
ocupados.
Se obtiene la siguiente tabla de asociacin:

24

Anlisis Estadstico con SPSS versin 13.0

Lic. Andrea Blazsek Ing. Augusto Norte

Tabla de contingencia CATEGORIA OCUPACIONAL * SEXO


SEXO
CATEGORIA
Patrn
OCUPACIONAL
Cta. propia

Asalariado

Trabaj. sin salario

Total

Recuento
Frecuencia esperada
% de SEXO
Recuento
Frecuencia esperada
% de SEXO
Recuento
Frecuencia esperada
% de SEXO
Recuento
Frecuencia esperada
% de SEXO
Recuento
Frecuencia esperada
% de SEXO

Varn
36
28,2
4,6%
225
195,9
28,6%
510
549,4
64,9%
15
12,6
1,9%
786
786,0
100,0%

Mujer
11
18,8
2,1%
102
131,1
19,4%
407
367,6
77,4%
6
8,4
1,1%
526
526,0
100,0%

Total
47
47,0
3,6%
327
327,0
24,9%
917
917,0
69,9%
21
21,0
1,6%
1312
1312,0
100,0%

Si se realiza un mero examen de los porcentajes, se pueden notar diferencias porcentuales


por categora ocupacional: entre los patrones y los trabajadores por cuenta propia se observa una
cierta predominancia de los varones, y entre los asalariados, sobresalen las mujeres.
Pruebas de chi-cuadrado

Chi-cuadrado de Pearson
Razn de verosimilitud
Asociacin lineal por
lineal
N de casos vlidos

Valor
24,425a
25,144
18,035

3
3

Sig. asinttica
(bilateral)
,000
,000

,000

gl

1312

a. 0 casillas (,0%) tienen una frecuencia esperada inferior a 5.


La frecuencia mnima esperada es 8,42.

En cuanto a la prueba Chi-cuadrado, se observa que el valor del estadstico es 24,4 y la


significacin o valor-P correspondiente a este valor del Chi-cuadrado es 0,000, es decir, bastante
menor que =0,05. Esto significa, que esta vez, la hiptesis nula se rechaza y se acepta la existencia
de una relacin entre sexo y categora ocupacional

25

Anlisis Estadstico con SPSS versin 13.0

Lic. Andrea Blazsek Ing. Augusto Norte

2.2. Pruebas Paramtricas


Presuposiciones de la estadstica paramtrica:
-

La distribucin poblacional de la variable dependiente es normal: el universo tiene una


distribucin normal.
El nivel de medicin de la variable es por intervalos o de razn.
Cuando dos o ms poblaciones son estudiadas, stas tienen una varianza homognea:
las poblaciones en cuestin tienen una dispersin similar en sus distribuciones. (Test de
Levene)

Comparacin de medias
La opcin Comparar medias (Compare Means) del men Analizar (Analyze) contiene varios
de los procedimientos estadsticos diseados para efectuar contrastes de hiptesis sobre medias, en
concreto, la prueba T y el anlisis de varianza de un factor.
En las pruebas para comparacin de medias la Hiptesis nula que se formula es del tipo las
medias de las poblaciones comparadas son iguales. Evaluando la probabilidad de que esta H0 se
cumpla podemos responder a preguntas tales como Son distintas las medias de las poblaciones
en estudio? , Qu tan distintas podran ser en el universo? , Con qu porcentaje de
confiabilidad puedo asegurarlo?
2.2.1. Medias
El procedimiento Medias calcula medias de subgrupo y estadsticos univariados relacionados
para variables dependientes dentro de las categoras de una o ms variables independientes. Si lo
desea, puede obtener el anlisis de varianza de un factor, la eta y pruebas de linealidad.
Este procedimiento en particular es utilizado mayormente para un anlisis exploratoriodescriptivo de primera instancia ya que, si no se seleccionan el anlisis de varianza de un factor, la
eta o las pruebas de linealidad que se ofrecen accesoriamente a este procedimiento, se calculan las
medias de los subgrupos sin hacer ninguna prueba de hiptesis.
Datos: Las variables dependientes son cuantitativas y las independientes son categricas. Los valores de las
variables categricas pueden ser numricos o de cadena corta.
Supuestos: Algunos de los estadsticos opcionales de subgrupo, como la media y la desviacin tpica, se basan
en la teora normal y son adecuados para variables cuantitativas con distribuciones simtricas. Los estadsticos
robustos, tales como la mediana y el rango, son adecuados para las variables cuantitativas que pueden o no
cumplir el supuesto de normalidad. El anlisis de varianza es robusto a las desviaciones de la normalidad,
aunque los datos de cada casilla deberan ser simtricos. El anlisis de varianza tambin supone que los
grupos proceden de poblaciones con la misma varianza. Para comprobar este supuesto, utilice la prueba de
homogeneidad de las varianzas de Levene, disponible en el procedimiento ANOVA de un factor.

Si ud todava no abre ningn archivo de datos, abra el archivo EPH 2002.sav.


Para utilizar el procedimiento Medias accedemos a travs del men Analizar / Comparar
medias / Medias... (Analyze / Compare Means / Means) y de esta manera nos encontramos con el
siguiente cuadro de dilogo:

26

Anlisis Estadstico con SPSS versin 13.0

Lic. Andrea Blazsek Ing. Augusto Norte

Para obtener los estadsticos que el procedimiento ofrece debe:

Trasladar a la lista Dependientes (Dependent list) la/s variable/s que interesa describir o
aquellas en las que se van a comparar los grupos.
Trasladar a la lista Independientes (Independent list) la/s variable/s que definen los grupos
que interesa describir o comparar.

El botn Opciones (Options) permite seleccionar los estadsticos descriptivos concretos que
interese obtener y algunos contrastes sobre medias o linealidad.

Tambin es posible combinar ms de una variable independiente para, dentro de los grupos
definidos por una primera variable, formar subgrupos definidos por una segunda variable (o una
tercera, o una cuarta, etc.). Es decir, cada estadstico solicitado puede calcularse en cada uno de los

27

Anlisis Estadstico con SPSS versin 13.0

Lic. Andrea Blazsek Ing. Augusto Norte

subgrupos resultantes de combinar dos o ms variables independientes. Esto se consigue definiendo


capas (layers).
Para definir capas (layers) utilice los botones Siguiente y Anterior (Next , Previous) del
apartado Capa x de n (Layer x of n) donde x se refiere al nmero de capa en el que nos
encontramos y n al nmero total de capas definidas.
A continuacin realizaremos un ejemplo simple para ilustrar este procedimiento.
-

Accedemos a travs del men Analizar / Comparar medias / Medias... (Analyze /


Compare Means / Means)

Trasladamos la variable Aos cumplidos a la lista de variables dependientes y la variable


Sexo a la lista de variables independientes.

28

Anlisis Estadstico con SPSS versin 13.0

Lic. Andrea Blazsek Ing. Augusto Norte

En el botn Opciones (Options) seleccionamos los siguientes estadsticos:

Una vez seleccionados los estadsticos hacemos click en Continuar (Continue) y luego en
Aceptar (Ok) y observamos los cuadros generados en el visor de resultados (Output).

Interpretacin:
El primer cuadro nos muestra por defecto algunos estadsticos descriptivos relacionados con
esta prueba. En l se puede ver un resumen en donde se indica la cantidad de casos que fueron
procesados y los que fueron excluidos del anlisis (que para nuestro ejemplo no se excluye ninguno)
Resumen del procesamiento de los casos

N
AOS CUMPLIDOS
* SEXO

Incluidos
Porcentaje

3821

100,0%

Casos
Excluidos
N
Porcentaje
0

,0%

N
3821

Total
Porcentaje
100,0%

En el segundo cuadro se puede observar el valor de los 4 estadsticos seleccionados para la


variable edad calculados por separado para el grupo de varones y para el grupo de mujeres (ya que
se utiliz la variable sexo como variable de agrupacin)

29

Anlisis Estadstico con SPSS versin 13.0

Lic. Andrea Blazsek Ing. Augusto Norte

Informe
AOS CUMPLIDOS
SEXO
Varn
Mujer
Total

Media
30,03
33,30
31,81

Desv. tp.
21,179
22,518
21,975

N
1742
2079
3821

% del
total de N
45,6%
54,4%
100,0%

2.2.2. Contraste sobre una media


El procedimiento Prueba T para una muestra contrasta si la media de una sola variable
difiere de una constante especificada.
Datos: Para contrastar los valores de una variable cuantitativa con un valor de contraste hipotetizado, elija una
variable cuantitativa e introduzca un valor de contraste hipotetizado.
Supuestos: Esta prueba asume que los datos estn normalmente distribuidos; sin embargo, esta prueba es
bastante robusta frente a las desviaciones de la normalidad.

Atencin: Antes de realizar el prximo ejemplo aplicamos un filtro estado = 1 para trabajar
con los ocupados
Para utilizar el procedimiento Prueba T para una muestra accedemos a travs del men
Analizar / Comparar medias / Prueba T para una muestra... (Analyze / Compare Means / OneSample T test) y de esta manera nos encontramos con el siguiente cuadro de dilogo:

La lista de variables contiene un listado con todas las variables del archivo de datos excepto
las que tienen formato cadena. Para llevar a cabo un contraste con las especificaciones que el
procedimiento tiene establecidas por defecto:

Trasladar a la lista Contrastar variables (Test variable(s)) la/s variable/s cuya media
poblacional se desea contrastar.

Indicar el Valor de prueba (Test value) el valor poblacional concreto que se desea contratar.
Este valor se utiliza para todas las variables seleccionadas en la lista Contrastar variables.

En el botn Opciones(Options) se permite controlar algunos aspectos de este anlisis:

30

Anlisis Estadstico con SPSS versin 13.0

Lic. Andrea Blazsek Ing. Augusto Norte

Intervalo de confianza (Confidence Interval): k %. Esta opcin permite establecer en escala


porcentual, el nivel de confianza (1-) con el que deseamos obtener el intervalo de confianza
para la diferencia entre la media muestral y el Valor de prueba. El valor de k es, por defecto,
95, pero es posible seleccionar cualquier otro valor comprendido entre 0,01 y 99,99.

Valores perdidos (Missing values): Podemos optar entre dos formas diferentes de tratar los
casos con valores perdidos:

Excluir casos segn anlisis (Exclude cases analysis by analysis). Esta opcin
excluye de cada anlisis (de cada prueba T) los casos con valor perdido en la variable
concreta que se est contrastando.

Excluir casos segn lista (Exclude cases listwise). Esta opcin excluye de todos los
anlisis los casos con algn valor perdido en cualquiera de las variables
seleccionadas en la lista Contrastar variables.

A continuacin realizaremos un ejemplo para este procedimiento.


-

Trasladamos la variable Ingreso total individual [p47t] a la lista Contrastar variables


(Test variables) y asignamos un Valor de prueba (Test value) igual a 330.

Luego damos click en Aceptar (Ok) y observamos los cuadros generados en el visor de
resultados (Output).

Interpretacin:
La Hiptesis nula (H0) que se plantea en esta prueba nos dice que las medias de las
poblaciones comparadas son iguales. En este caso bien la podemos enunciar como : la diferencia
entre la media de la poblacin y el valor de prueba es nula o bien como la media de la poblacin
es igual al valor de prueba

31

Anlisis Estadstico con SPSS versin 13.0

Lic. Andrea Blazsek Ing. Augusto Norte

El primer cuadro nos muestra por defecto algunos estadsticos descriptivos relacionados con
esta prueba.
Estadsticos para una muestra

INGRESO TOTAL
INDIVIDUAL

Media

1314

451,51

Desviacin
tp.

Error tp. de
la media

502,200

13,854

En el segundo cuadro nos encontramos con los resultados de la prueba para una muestra
propiamente dicha.
Prueba para una muestra
Valor de prueba = 330

t
INGRESO TOTAL
INDIVIDUAL

8,771

gl
1313

Sig. (bilateral)
,000

Diferencia
de medias
121,51

Intervalo de confianza
para la diferencia
(95%)
Inferior
Superior
94,33

148,69

Se encuentra el valor calculado para el estadstico t que en nuestro ejemplo es 8,771.


Los grados de libertad (gl = N-1) que junto con el nivel de significacin alfa (en el SPSS se
define como intervalo de confianza en %) se utilizan para entrar en la tabla de la distribucin t y de esta
manera comparar con el valor obtenido para t en nuestra prueba y as determinar la aceptacin o el
rechazo de la Hiptesis nula. En nuestro ejemplo para gl = 1313 y alfa = 0,05
La Significacin bilateral nos indica directamente (sin necesidad de recurrir a la tabla) la
probabilidad de que la hiptesis nula sea cierta. Para nuestro ejemplo, es la probabilidad de obtener
una media en la poblacin igual al valor de prueba. Siendo este valor en nuestro ejemplo igual a
0,000 determinamos el rechazo de la hiptesis nula.
La Diferencia de medias es la diferencia entre la media de la muestra y el valor de prueba.
El Intervalo de confianza para la diferencia nos indica los valores entre los cuales puede
oscilar la diferencia de medias con una confiabilidad igual al porcentaje que hayamos indicado en el
botn opciones en intervalo de confianza. Nos dice: Podemos asegurar con una confiabilidad del
95% (o del % que se haya indicado) que la media poblacional se encuentra comprendida entre:
(Valor de prueba + Lm. Inferior) y (Valor de prueba + Lm. Superior)
(
330
+
94,33 ) y (
330
+
148,69 ) , o sea, entre: 424,33 y 478,69.

2.2.3. Contraste sobre dos medias independientes


El procedimiento Prueba T para muestras independientes permite contrastar hiptesis
referidas a la diferencia de las medias de dos grupos de casos. Para esta prueba, idealmente los
sujetos deben asignarse aleatoriamente a dos grupos.

32

Anlisis Estadstico con SPSS versin 13.0

Lic. Andrea Blazsek Ing. Augusto Norte

Datos: Los valores de la variable cuantitativa de inters se hallan en una nica columna del archivo de datos.
El procedimiento utiliza una variable de agrupacin con dos valores para separar los casos en dos grupos. La
variable de agrupacin puede ser numrica (valores como 1 y 2, o 6,25 y 12,5) o de cadena corta (como S y
NO). Tambin puede usar una variable cuantitativa, como la EDAD, para dividir los casos en dos grupos
especificando un punto de corte (el punto de corte 21 divide la EDAD en un grupo de menos de 21 aos y otro
de ms de 21).
Supuestos: Para la prueba t de igualdad de varianzas, las observaciones deben ser muestras aleatorias
independientes de distribuciones normales con la misma varianza de poblacin. Para la prueba t de varianzas
desiguales, las observaciones deben ser muestras aleatorias independientes de distribuciones normales. La
prueba t para dos muestras es bastante robusta a las desviaciones de la normalidad.

Para utilizar el procedimiento Prueba T para muestras independientes accedemos a travs


del men Analizar / Comparar medias / Prueba T para muestras independientes (Analyze /
Compare Means / Independent-Samples T test) y nos encontramos con el cuadro de dilogo:

La lista de variables contiene un listado con todas las variables numricas y de cadena corta
del archivo de trabajo. Para llevar a cabo un contraste con las especificaciones que el procedimiento
tiene establecidas por defecto:

Trasladar a la lista Contrastar variables (Test variable(s)) la/s variable/s en la que desea
comparar los grupos. Todas estas variables deben ser de tipo numrico. Cada variable
seleccionada genera una prueba T acompaada de su nivel crtico y del intervalo de
confianza para la diferencia entre las medias.

Trasladar al cuadro Variable de agrupacin (Grouping variable) la variable que define los
grupos que se desean comparar. Esta variable puede ser de tipo numrico o de cadena corta.

Definir grupos (Define Groups). Tras seleccionar una variable de agrupacin, es necesario
iniciar cules son los cdigos que definen los dos grupos que se desea comparar. Para ello:

Pulsar el botn Definir Grupos (Define Groups) para acceder al subcuadro de dilogo
Definir grupos (Define Groups) que se muestra a continuacin:

33

Anlisis Estadstico con SPSS versin 13.0

Lic. Andrea Blazsek Ing. Augusto Norte

Usar valores especificados (Use specified values). Si la variable de agrupacin


posee cdigos que definen los dos grupos que deseamos comparar, esos cdigos
deben introducirse en los cuadros de texto Grupo 1 y Grupo 2 (Group 1, Group 2).
Los casos que posean otros cdigos sern excluidos del anlisis.

Punto de corte (Cut point). Si se desea utilizar como variable de agrupacin una
variable cuantitativa continua, esta opcin permite introducir un valor como punto de
corte: los casos con puntuacin igual o mayor que el punto de corte forman un grupo;
el resto de los casos forman el otro grupo. Esta opcin no est disponible si, como
variable de agrupacin, se elige una variable de tipo cadena corta.

En el botn Opciones(Options) se permite controlar algunos aspectos de este anlisis:

Intervalo de confianza (Confidence Interval): k %. Esta opcin permite establecer, en escala


porcentual, el nivel de confianza (1-) con el que deseamos obtener el intervalo de confianza
para la diferencia entre la media muestral y el Valor de prueba. El valor de k es, por defecto,
95, pero es posible seleccionar cualquier otro valor comprendido entre 0,01 y 99,99.

Valores perdidos (Missing values): Podemos optar entre dos formas diferentes de tratar los
casos con valores perdidos:

Excluir casos segn anlisis (Exclude cases analysis by analysis). Esta opcin
excluye de cada anlisis (de cada prueba T) los casos con valor perdido en la variable
concreta que se est contrastando.

Excluir casos segn lista (Exclude cases listwise). Esta opcin excluye de todos los
anlisis los casos con algn valor perdido en cualquiera de las variables
seleccionadas en la lista Contrastar variables.

A continuacin realizaremos un ejemplo para este procedimiento.


Para este ejemplo mantendremos aplicado el filtro estado = 1
-

Accedemos a travs del men Analizar / Comparar medias / Prueba T para muestras
independientes ( Analyze / Compare Means / Independent-Samples T test)

34

Anlisis Estadstico con SPSS versin 13.0

Lic. Andrea Blazsek Ing. Augusto Norte

Trasladamos la variable Ingreso total individual [p47t] a la lista Contrastar variables


(Test variable(s))

Trasladamos la variable [sexo] al cuadro Variable de agrupacin (Grouping variables).

Pulsamos el botn Definir Grupos (Define Groups)

Usar valores especificados (Use specified values). Introducimos el valor 1 para el


Grupo 1 y el valor 2 para el Grupo 2

Hacemos click en Continuar (Continue) y Luego en Aceptar (Ok) y observamos los


cuadros generados en el visor de resultados (Output).

Interpretacin:
La Hiptesis nula (H0) que se plantea en esta prueba nos dice que las medias de las
poblaciones comparadas son iguales.
El primer cuadro nos muestra por defecto algunos estadsticos descriptivos relacionados con
esta prueba.

35

Anlisis Estadstico con SPSS versin 13.0

Lic. Andrea Blazsek Ing. Augusto Norte

Estadsticos de grupo

INGRESO TOTAL
INDIVIDUAL

SEXO
Varn
Mujer

N
787
527

Media
488,65
396,05

Desviacin
tp.
504,990
493,296

Error tp. de
la media
18,001
21,488

En el segundo cuadro nos encontramos con los resultados de la prueba de muestras


independientes propiamente dicha.
Prueba de muestras independientes
Prueba de
Levene para
la igualdad de
varianzas

F
INGRESO Se han asumido
7,445
TOTAL
varianzas iguales
INDIVIDUAL No se han
asumido varianzas
iguales

Sig.

Prueba T para la igualdad de medias

Sig.
(bilateral)

Error
tp. de 95% Intervalo de
confianza para la
Diferen
la
diferencia
cia de diferen
Inferior Superior
medias
cia

1312

,001

92,592 28,162 37,345 147,840

3,303 1145,7

,001

92,592 28,032 37,593 147,592

,006 3,288

gl

La t y los gl se calculan de distinta manera para varianzas iguales que para varianzas
desiguales. Es por eso que en primer lugar nos encontramos con la Prueba de Levene para la
igualdad de las varianzas . Dicho test da un valor F que relaciona ambas varianzas muestrales
indicndonos la homogeneidad de las mismas. Si el valor de F se aproxima a 1 entonces las
varianzas sern similares, a mayor valor de F mayor diferencia entre las varianzas.
La HF postula que las varianzas de las subpoblaciones son iguales.
El nivel de significancia (Sig.) nos indica la probabilidad de que se cumpla la HF. Un valor
mayor a 0,05 nos indica que se debe aceptar esta hiptesis.
A partir de aqu estudiamos el cuadro siguiendo la fila que indica que se han asumido
varianzas iguales o desiguales segn corresponda. En nuestro ejemplo el nivel de significancia es
igual a 0,006 o sea mucho menor que 0,05 con lo cual rechazamos la HF y asumimos varianzas
desiguales (o sea que leemos los valores de la segunda fila).
El anlisis que se hace de los dems valores de la tabla es el mismo que se hizo para
Contraste sobre una media.
Nota: Las diferencias de ingresos medios pueden estar sometidas a la influencia de factores como los estudios
y no solamente el sexo. En estas situaciones, debe asegurarse de que las diferencias en otros factores no
enmascaren o resalten una diferencia significativa entre las medias.

36

Anlisis Estadstico con SPSS versin 13.0

Lic. Andrea Blazsek Ing. Augusto Norte

2.2.4. Anlisis de varianza de un factor


El procedimiento ANOVA de un factor genera un anlisis de varianza de un factor para una
variable dependiente cuantitativa respecto a una nica variable de factor (la variable independiente).
El anlisis de varianza se utiliza para contrastar la hiptesis de que varias medias son iguales. Esta
tcnica es una extensin de la prueba t para dos muestras.
Datos: Los valores de la variable de factor deben ser enteros y la variable dependiente debe ser cuantitativa.
Supuestos: Cada grupo es una muestra aleatoria independiente procedente de una poblacin normal. El
anlisis de varianza es robusto a las desviaciones de la normalidad, aunque los datos debern ser simtricos.
Los grupos deben proceder de poblaciones con varianzas iguales. Para contrastar este supuesto, se utiliza la
prueba de Levene de homogeneidad de varianzas.

Para utilizar el procedimiento ANOVA de un factor accedemos a travs del men Analizar /
Comparar medias / ANOVA de un factor... (Analyze / Compare Means / One-Way ANOVA) y nos
encontramos con el cuadro de dilogo:

La lista de variables contiene un listado con todas las variables numricas del archivo de trabajo
(No figuran las variables de cadena). Para llevar a cabo un ANOVA de un factor con las
especificaciones que el procedimiento tiene establecidas por defecto:

Trasladar a la lista Dependientes (Dependent List) la/s variable/s en la que desea comparar
los grupos. Se generar un ANOVA de un factor para cada una de las variables
seleccionadas.

Trasladar al cuadro Factor (Factor) la variable que define los grupos que se desean
comparar. Esta variable debe ser categrica (nominal u ordinal).

En el botn Opciones(Options) se permite controlar algunos aspectos de este anlisis:

37

Anlisis Estadstico con SPSS versin 13.0

Lic. Andrea Blazsek Ing. Augusto Norte

Estadsticos (Statistics). Este recuadro incluye algunos estadsticos descriptivos y la prueba de


Levene para contrastar la hiptesis de homogeneidad de varianzas:

Descriptivos (Descriptive): Ofrece estadsticos descriptivos referidos tanto a cada grupo


como al total muestral: nmero de observaciones, media, desviacin tpica, error tpico de la
media, intervalo de confianza para la media al 95% y valores mnimo y mximo.

Efectos fijos y aleatorios (Fixed and random effects): Muestra la desviacin tpica, el error
tpico de la media, intervalo de confianza para la media al 95% para los modelos de efectos
fijos, y el error tpico de la media, intervalo de confianza para la media al 95% y la varianza
entre componentes para los modelos de efectos aleatorios.

Homogeneidad de varianzas (Homogeneity of variance test): El estadstico F del ANOVA de


un factor se basa en el cumplimiento de dos supuestos fundamentales: normalidad y
homocedasticidad.
Normalidad significa que la variable dependiente se distribuye normalmente en todas las
poblaciones muestreadas (tantas como grupos definidos por la variable independiente o
factor). No obstante, si los tamaos de los grupos son grandes, el estadstico F se comporta
razonablemente bien incluso con distribuciones poblaciones sensiblemente alejadas de la
normalidad.
Homocedasticidad o igualdad de varianzas significa que todas las poblaciones
muestreadas (tantas como grupos definidos por la variable independiente o factor) poseen la
misma varianza. Con grupos de distinto tamao, el incumplimiento de este supuesto debe ser
cuidadosamente vigilado. La opcin Homogeneidad de varianzas (Homogeneity of variance
test) permite contrastar este supuesto mediante la prueba de Levene.

Los test para igualdad de medias de grupo de Brown-Forsythe y de Welch son preferibles
al estadstico de F cuando no se pueden asumir varianzas iguales.

Grfico de las medias (Means Plot). Esta opcin permite obtener un grfico de lneas con la
variable factor en el eje de abscisas y la variable dependiente en el de ordenadas

Valores perdidos (Missing values): Podemos optar entre dos formas diferentes de tratar los casos
con valores perdidos:

38

Anlisis Estadstico con SPSS versin 13.0

Lic. Andrea Blazsek Ing. Augusto Norte

Excluir casos segn anlisis (Exclude cases analysis by analysis). Esta opcin excluye de
cada ANOVA los casos que tienen algn valor perdido en la variable factor o en la variable
dependiente que est siendo analizada.

Excluir casos segn lista (Exclude cases listwise). Esta opcin excluye de todos los ANOVA
solicitados los casos con algn valor perdido en la variable factor o en cualquiera de las
variables seleccionadas en la lista Dependientes.
A continuacin realizaremos un ejemplo para este procedimiento.
Para este ejemplo mantendremos aplicado el filtro estado = 1

Accedemos a travs del men Analizar / Comparar medias / ANOVA de un factor...


(Analyze / Compare Means / One-Way ANOVA)

Trasladamos la variable Ingreso total individual [p47t] a la lista Dependientes


(Dependent List)

Trasladamos la variable Mximo nivel que cursa o curs [nivel] al cuadro Factor (Factor)

Luego presionamos el botn Opciones (Options) y seleccionamos Descriptivos


(Descriptives).

39

Anlisis Estadstico con SPSS versin 13.0

Lic. Andrea Blazsek Ing. Augusto Norte

Hacemos click en Continuar (Continue) y Luego en Aceptar (Ok) y observamos los


cuadros generados en el visor de resultados (Output).

Interpretacin:
La Hiptesis nula (H0) que se plantea en esta prueba nos dice que las medias de los
grupos comparados son iguales. Es decir que toda la varianza de los ingresos es atribuible a
otros factores, independientes del nivel educativo, lo cual implica que los promedios poblacionales de
ingresos son iguales en todos los niveles educativos, y que la varianza entre los grupos es igual a
cero.
El primer cuadro nos muestra por defecto algunos estadsticos descriptivos relacionados con
esta prueba.
Descriptivos
INGRESO TOTAL INDIVIDUAL

N
preescolar
10
primario
360
nacional
128
comercial
215
normal
34
tcnica
135
otra enseanza media
26
superior
96
universitaria
307
9
3
Total
1314

Media
167,50
267,75
294,34
397,03
353,26
451,21
308,96
568,48
769,22
166,67
451,51

Desviacin
tpica
96,875
217,963
275,218
346,911
343,509
422,449
262,121
473,454
761,574
288,675
502,200

Error tpico
30,634
11,488
24,326
23,659
58,911
36,359
51,406
48,322
43,465
166,667
13,854

Intervalo de confianza para


la media al 95%
Lmite
Lmite inferior superior Mnimo
98,20
236,80
10
245,16
290,34
0
246,20
342,47
0
350,39
443,66
0
233,41
473,12
0
379,30
523,12
0
203,09
414,83
0
472,55
664,41
0
683,69
854,75
0
-550,44
883,78
0
424,33
478,69
0

Mximo
300
1800
1500
2000
1500
3000
1000
2950
5900
500
5900

En el segundo cuadro nos encontramos con los resultados del Anlisis de Varianza
propiamente dicho.

40

Anlisis Estadstico con SPSS versin 13.0

Lic. Andrea Blazsek Ing. Augusto Norte

ANOVA
INGRESO TOTAL INDIVIDUAL

Inter-grupos
Intra-grupos
Total

Suma de
cuadrados
50165019,152
280979675,219
331144694,371

gl
9
1304
1313

Media
cuadrtica
5573891,017
215475,211

F
25,868

Sig.
,000

Se presenta la Suma de cuadrados (es decir la suma de las diferencias respecto a la media,
elevadas al cuadrado) entre los grupos (Inter-grupos, varianza explicada) y dentro de los grupos (o
varianza residual).
Los grados de libertad Inter-grupos (gl = cant. grupos 1) e Intra-grupos (gl = N-1).
La Media cuadrtica es el promedio de la suma de cuadrados obtenida como la suma de
cuadrados / grados de libertad.
El valor que obtenemos de F que nos permite verificar la aceptacin o rechazo de la Hiptesis
nula (H0) se calcula como el cociente: media cuadrtica Inter-grupos / media cuadrtica Intra-grupos)
La Significacin es la probabilidad asociada a ese valor de F. Siendo este valor igual a 0,000
determinamos el rechazo de la hiptesis nula, y se concluye que a nivel del universo de referencia el
nivel educativo es un factor significativo para explicar las diferencias de ingreso.
Nota: Para calcular qu porcentaje de la variable dependiente es explicada por la variable
independiente puede realizarse un cuadro como el siguiente:

Inter-grupos(Varianza explicada)
Intra-grupos(Varianza residual)
Total

Suma de cuadrados
50165019,152
280979675,219
331144694,371

Porcentaje de la varianza
15,1%
84,9%
100%

En este cuadro se calcula qu porcentaje corresponde a la Varianza explicada y qu


porcentaje corresponde a la Varianza residual sobre el Total de la Varianza. De esta manera se
puede decir que un 15,1% de la variabilidad de ingresos es atribuible al nivel educativo. Resta
explicar el 84,9% con otras variables independientes.

2.2.5. Correlaciones Bivariadas


El procedimiento Correlaciones Bivariadas estudia la relacin entre variables cuantitativas y
permite calcular el coeficiente de correlacin de Pearson, la rho de Spearman y la tau-b de
Kendall con sus niveles de significacin.
Las correlaciones miden cmo estn relacionadas las variables o los rdenes de los rangos.
Antes de calcular un coeficiente de correlacin, inspeccione los datos para detectar valores atpicos
(que pueden producir resultados equvocos ) y evidencias de una relacin lineal.
Datos: Utilice variables cuantitativas simtricas para el coeficiente de correlacin de Pearson y variables
cuantitativas o variables con categoras ordenadas para la rho de Spearman y la tau-b de Kendall.

41

Anlisis Estadstico con SPSS versin 13.0

Lic. Andrea Blazsek Ing. Augusto Norte

Supuestos: El coeficiente de correlacin de Pearson asume que cada pareja de variables es normal bivariada.

Para utilizar el procedimiento Correlaciones Bivariadas accedemos a travs del men


Analizar / Correlaciones / Bivariadas... (Analyze / Correlate / Bivariate) y nos encontramos con el
siguiente cuadro de dilogo:

La lista de variables contiene un listado con todas las variables numricas del archivo de trabajo
(No figuran las variables de cadena). De este cuadro de dilogo es posible obtener varios
coeficientes de correlacin y algunos estadsticos descriptivos bsicos. Para ello:

Trasladar a la lista Variables (Variables) la/s variable/s cuyo grado de relacin se desea
estudiar. Es necesario trasladar el menos dos variables.

Coeficientes de correlacin (Correlation coefficients).


Los valores de los coeficientes de correlacin varan entre -1 y 1.
El signo del coeficiente indica la direccin de la relacin.
Su valor absoluto indica la intensidad. Los valores absolutos mayores indican que la
relacin es ms estrecha.


Pearson. Medida de asociacin lineal entre dos variables medidas en un nivel por intervalos
o de razn: Dos variables pueden estar perfectamente relacionadas, pero si la relacin no es
lineal, el coeficiente de correlacin de Pearson no ser un estadstico adecuado para medir
su asociacin.

Tau b de Kendall. Medida no paramtrica de asociacin para variables ordinales o de rangos


que tiene en consideracin los empates. Un valor de -1 o +1 slo se puede obtener a partir de
tablas cuadradas.

Spearman. Versin no paramtrica del coeficiente de correlacin de Pearson, que se basa


en los rangos de los datos en lugar de hacerlo en los valores reales. Resulta apropiada para
datos ordinales, o los de intervalo que no satisfagan el supuesto de normalidad.

Prueba de significacin (Test of Significance).

42

Anlisis Estadstico con SPSS versin 13.0

Lic. Andrea Blazsek Ing. Augusto Norte

Junto con cada coeficiente de correlacin se presenta la informacin necesaria para


contrastar la hiptesis nula de que el valor poblacional del coeficiente es cero.

Bilateral (Two-tailed) Opcin apropiada para cuando no existen expectativas sobre la


direccin de la relacin. Indica la probabilidad de obtener coeficientes tan extremos
como el obtenido, y en cualquier direccin, cuando la hiptesis nula es cierta. Un nivel
de significacin bilateral (de dos colas) contrasta una hiptesis nula en la que la
direccin del efecto no se especifica de antemano.

Unilateral. (One-tailed). Opcin apropiada para cuando existen expectativas sobre la


direccin de la relacin. Indica la probabilidad de obtener coeficientes tan extremos
como el observado, y en la misma direccin, cuando la hiptesis nula es cierta.
Contrasta la hiptesis nula en la que se especifica con antelacin la direccin del
efecto.

Marcar las correlaciones significativas. Marca con un asterisco los coeficientes de correlacin
significativos al nivel 0,05 y, con dos asteriscos, los significativos al nivel 0,01.
En el botn Opciones(Options) se permite controlar algunos aspectos de este anlisis:

Estadsticos (Statistics). Si se ha elegido el coeficiente de correlacin de Pearson, este


recuadro permite seleccionar una o ms de las siguientes opciones:


Medias y desviaciones tpicas (Means and Standard deviations). Muestra, para cada
variable, la media aritmtica, la desviacin tpica insesgada y el nmero de casos vlidos

Productos cruzados y covarianzas. (Cross-products deviations and covariances). Muestra,


para cada par de variables, el numerador del coeficiente de correlacin de Pearson (es decir,
los productos cruzados de las desviaciones de cada puntuacin respecto a su media) y ese
mismo numerador dividido por n-1 (es decir, la covarianza).

Valores perdidos (Missing values): Podemos optar entre dos formas diferentes de tratar los
casos con valores perdidos:

Excluir casos segn pareja (Exclude cases pairwise). Se excluyen del clculo de cada
coeficiente de correlacin los casos con valor perdido en alguna de las dos variables que se
estn correlacionando.

43

Anlisis Estadstico con SPSS versin 13.0

Lic. Andrea Blazsek Ing. Augusto Norte

Excluir casos segn lista (Exclude cases listwise). Se excluyen del clculo de todos los
coeficientes de correlacin los casos con valor perdido en cualquiera de las variables
seleccionadas.

A continuacin realizaremos un ejemplo para este procedimiento.

Atencin: Para este ejemplo desactivamos todos los filtros que puedan estar activos.
-

Accedemos a travs del men Analizar / Correlaciones / Bivariadas... (Analyze /


Correlate / Bivariate)

Trasladamos al cuadro Variables las siguientes variables del archivo de trabajo:

AOS CUMPLIDOS [edad]


INGRESO TOTAL INDIVIDUAL [p47t]
MONTO DEL INGRESO TOTAL FAMILIAR [itf]
MONTO DEL INGRESO PER CAPITA FAMILIAR [ipcf]
CANTIDAD DE PERSONAS EN EL HOGAR [pob_tot]

Hacemos click en Aceptar (Ok) y observamos los cuadros generados en el visor de


resultados (Output).

Interpretacin:
La Hiptesis nula (H0) que se plantea en esta prueba es de independencia lineal y se puede
enunciar como el coeficiente de correlacin vale cero en la poblacin.
La Hiptesis alternativa a probar es correlacional del tipo A mayor X, mayor Y , A mayor
X, menor Y.

44

Anlisis Estadstico con SPSS versin 13.0

Lic. Andrea Blazsek Ing. Augusto Norte

La prueba en s no considera a una variable como independiente y a otra como


dependiente, ya que no se trata de una prueba que evala la causalidad.
El siguiente cuadro ofrece la informacin referida al coeficiente de correlacin de Pearson:
Correlaciones

AOS CUMPLIDOS

INGRESO TOTAL
INDIVIDUAL

CANTIDAD
DE
MONTO DEL MONTO DEL
INGRESO INGRESO INGRESO PERSONAS
EN EL
TOTAL
PER CAPITA
TOTAL
AOS
HOGAR
CUMPLIDOS INDIVIDUAL FAMILIAR FAMILIAR
Correlacin de Pearson
1
,346**
,037*
,185**
-,369**
Sig. (bilateral)
,000
,025
,000
,000
N
3821
3821
3585
3821
3821
Correlacin de Pearson
1
,469**
,583**
-,186**
,346**
Sig. (bilateral)
,000
,000
,000
,000
N

MONTO DEL INGRESO


Correlacin de Pearson
TOTAL FAMILIAR
Sig. (bilateral)
N
MONTO DEL INGRESO
Correlacin de Pearson
PER CAPITA FAMILIAR
Sig. (bilateral)
CANTIDAD DE
PERSONAS EN EL
HOGAR

N
Correlacin de Pearson
Sig. (bilateral)
N

3821

3821

3585

,037*
,025

,469**
,000

3585

3585

3585

,185**
,000
3821

,583**
,000
3821
-,186**

,804**
,000
3585

-,369**
,000
3821

,000
3821

,037*
,027
3585

3821

3821

,804**
,000

,037*
,027

3585

3585

1
3821
-,304**

-,304**
,000
3821
1

,000
3821

3821

**. La correlacin es significativa al nivel 0,01 (bilateral).


*. La correlacin es significante al nivel 0,05 (bilateral).

Cada celda contiene tres valores referidos al cruce entre cada dos variables:

Correlacin de Pearson: El valor del coeficiente de correlacin de Pearson.


Sig. (Bilateral): El nivel crtico bilateral que corresponde a ese coeficiente.
N: El nmero de casos vlidos sobre el que se han efectuado los clculos.

Rechazaremos la hiptesis nula de independencia (y concluiremos que existe relacin lineal


significativa) cuando el nivel crtico (Sig.) sea menor que el nivel de significacin establecido (si se
establece 0,05 entonces se tiene un 95% de confianza en que la correlacin sea verdadera y 5% de
probabilidad de error. Si fuera menor que 0,01 tendramos un 99% de confianza y un 1% de
probabilidad de error)
En nuestro ejemplo hemos resaltado con colores tres situaciones particulares:

En verde una correlacin significativa entre la variable aos cumplidos y la variable


Ingreso total individual. Esta correlacin tiene una intensidad de 0,346 en el rango de 0 a
1, es una relacin directa, es decir, del tipo A mayor edad, mayor ingreso ya que su
signo es positivo, y es significativa al 99% ya que presenta un nivel crtico (Sig) igual a
0,000.

45

Anlisis Estadstico con SPSS versin 13.0

Lic. Andrea Blazsek Ing. Augusto Norte

En rojo una correlacin significativa entre la variable aos cumplidos y la variable


Cantidad de personas en el hogar. Esta correlacin tiene una intensidad de 0,369 en el
rango de 0 a 1, el signo negativo indica que es una relacin inversa, es decir, del tipo A
mayor edad del sujeto, menor cantidad de personas en su hogar, y es significativa al 99%
ya que presenta un nivel crtico (Sig) igual a 0,000.

En amarillo una correlacin poco significativa entre la variable Ingreso total familiar y la
variable Cantidad de personas en el hogar. Esta correlacin tiene una intensidad muy
baja de solo 0,037 en el rango de 0 a 1, el signo positivo indica que es una relacin
directa, es decir, del tipo A mayor cantidad de personas en el hogar, mayor Ingreso Total
familiar, y es significativa al 95% ya que presenta un nivel crtico (Sig) igual a 0,027.
Concluimos que existe una correlacin entre ambas variables pero de una intensidad tan
baja que la torna insignificante.

En el mismo cuadro se encuentran correlaciones con coeficientes ms altos que los


resaltados, sin embargo, esto se debe a que una de estas variables ha sido calculada a partir de la
otra con la cual existe una correlacin tan alta.
A continuacin se presenta una clasificacin del grado de correlacin:
Correspondencia entre el grado de correlacin y el valor de r
r menor que 0,200
r de 0,200 a 0,400
r de 0,400 a 0,700
r de 0,700 a 0,900
r de 0,900 a 1,000

Correlacin leve, casi insignificante.


Baja correlacin, definida, pero baja.
Correlacin moderada, sustancial.
Correlacin marcada, alta.
Correlacin altsima, muy significativa.

Consideracin Importante: elevando el coeficiente de Pearson al cuadrado (r2) se obtiene la


varianza de factores comunes, es decir, el porcentaje de la variacin de una variable debido a la
variacin de la otra.

46

Anlisis Estadstico con SPSS versin 13.0

Lic. Andrea Blazsek Ing. Augusto Norte

Bibliografa

Briones, G. Mtodos y Tcnicas de Investigacin para las Ciencias Sociales. Mxico,


Limusa, 1982.

Carrin Snchez, Juan Javier Manual de anlisis de datos. Madrid, Alianza Editorial, 1995.

Hernndez Sampieri R., Fernndez Collado C., Baptista Lucio P. Metodologa de la


Investigacin. Colombia, McGrawHill, 1994.

Galtung J Teora y Mtodos de Investigacin Social, tomo I y II. Buenos Aires, Eudeba,
1973.

47

Anda mungkin juga menyukai