Anda di halaman 1dari 207

See

discussions, stats, and author profiles for this publication at: https://www.researchgate.net/publication/284722577

INTRODUCCIN AL ANLISIS ESTADSTICO


CON SPSS PARA WINDOWS
Book January 2000

CITATIONS

READS

38

2 authors:
Constantino Arce

Eulogio Real Deus

University of Santiago de Compostela

University of Santiago de Compostela

74 PUBLICATIONS 576 CITATIONS

49 PUBLICATIONS 244 CITATIONS

SEE PROFILE

SEE PROFILE

Available from: Eulogio Real Deus


Retrieved on: 08 August 2016

INTRODUCCIN AL ANLISIS ESTADSTICO


CON SPSS PARA WINDOWS

Constantino Arce
Eulogio Real

NDICE

PRESENTACIN .......................................................................................................................4
PRIMERA PARTE: COMENZANDO A TRABAJAR CON SPSS PARA WINDOWS .................6
1. Cmo entrar en SPSS para Windows ....................................................................................7
2. Creacin de un Archivo de Datos ...........................................................................................8
2.1. Cmo escribir los datos...................................................................................................8
2.2. Cmo corregir un error ..................................................................................................12
2.3. Cmo grabar los datos ..................................................................................................12
2.4. Cmo salir de SPSS para Windows..............................................................................13
2.5. Cmo entrar en un archivo de datos ya existente.........................................................14
2.6. Cmo borrar una fila o una columna (y cmo recuperarla)...........................................15
2.7. Cmo moverse con rapidez dentro del archivo de datos ..............................................16
2.8. Manejo del Archivo de Resultados ................................................................................18
2.9. Cmo Imprimir el Archivo de Resultados ......................................................................22
SEGUNDA PARTE: FORMATO DE LOS DATOS Y TRANSFORMACIONES........................25
3. Formato de los Datos de Entrada.........................................................................................26
4. Transformacin de las Variables ..........................................................................................32
4.1. Cmo recodificar las variables ......................................................................................33
4.2. Cmo crear nuevas variables ........................................................................................38
4.3. Cmo seleccionar sujetos .............................................................................................49
4.4. Cmo clasificar a los sujetos por orden en una o ms variables .................................52
TERCERA PARTE: ANLISIS ESTADSTICO CON SPSS PARA WINDOWS ......................54
5. Descripcin de Variables (Frecuencias y Descriptivos)........................................................55
5.1. Distribucin de frecuencias ...........................................................................................55
5.2. Interpretacin de la posicin de un sujeto en un grupo.................................................73
6. Relaciones entre Variables (Correlacin y Regresin) .........................................................76
6.1. La covarianza ................................................................................................................77
6.2. El coeficiente de correlacin de Pearson ......................................................................79
6.3. Regresin lineal con una variable independiente..........................................................84
6.4. Regresin mltiple.........................................................................................................96
7. Comparaciones entre Medias(t de Student) .......................................................................101
7.1. Dos muestras independientes.....................................................................................102
7.2. Dos muestras relacionadas.........................................................................................108
8. Introduccin al Anlisis de Varianza ...................................................................................112
8.1. Anlisis de varianza con un factor...............................................................................112
8.2. Anlisis de varianza con dos o ms factores ..............................................................120
9. Tablas de Contingencia ......................................................................................................125
10. Introduccin al Anlisis Estadstico No-Paramtrico ........................................................132
10.1. Prueba de bondad de ajuste de Kolmogorov-Smirnov..............................................133
10.2. Prueba U de Mann-Whitney para dos muestras independientes..............................134
10.3. Prueba T de Wilcoxon para dos muestras relacionadas ..........................................138

10.4. Prueba de Kruskal-Wallis para k muestras independientes .....................................145


10.5. Prueba de Friedman para k muestras relacionadas .................................................149
CUARTA PARTE: GENERACIN DE GRFICOS CON SPSS PARA WINDOWS..............156
11. Ejemplos de uso del Men de Grficos de SPSS ............................................................159
11.1. Generacin de un grfico de sectores ......................................................................159
11.2. Generacin de un grfico de dispersin....................................................................166
QUINTA PARTE: ESTADSTICA AVANZADA CON SPSS PARA WINDOWS .....................173
12. Anlisis de Varianza con Medidas Repetidas...................................................................174

(M Jos Ferraces, M Soledad Rodrguez, Elena Andrade)


12.1.Analisis de varianza de un factor con medidas repetidas ..........................................174
12.2. Anlisis de varianza de dos factores con medidas repetidas....................................179
13. Introduccin al Anlisis de Covarianza .............................................................................184

(M Jos Ferraces, M Soledad Rodrguez, Elena Andrade)


13.1. Ancova con una covariable .......................................................................................184
14. ANLISIS FACTORIAL ....................................................................................................189

(Gloria Seoane, M Soledad Rodrguez)


14.1. Ejecucin del Anlisis Factorial .................................................................................191
14.2. Resultados e interpretacin.......................................................................................196
BIBLIOGRAFA.......................................................................................................................205

PRESENTACIN
Cada da son ms los profesionales que necesitan de la estadstica. Para facilitar su
trabajo se ha desarrollado un importante nmero de programas de ordenador. Dado
que la estadstica es, hoy en da, un campo de conocimiento muy amplio no basta con
un solo programa. Es necesario contar con un paquete de programas. Este libro trata
sobre uno de estos paquetes de programas, denominado Statistical Package for the
Social Science (abreviadamente, SPSS).
Debido a la amplitud del alcance del paquete de programas SPSS, existe un
importante problema de comunicacin entre los constructores del SPSS y sus
usuarios. Esta dificultad puede producir graves problemas de ansiedad en las
personas; sobre todo en aquellas que se acercan por primera vez al sistema SPSS.
El sistema SPSS podra considerarse como un bosque desonocido, que usted ha de
cruzar. Yo voy a cruzar el bosque ahora mismo y le invito a que me acompae. Para
ello elegir un camino. Lgicamente, el bosque es muy grande y existen muchos
caminos alternativos. Si me acompaa, luego, haciendo uso de su experiencia e
imaginacin es muy probable que pueda cruzar el bosque usted slo por otros muchos
caminos. Probablemente, el nmero de caminos sea, incluso, infinito.
Hace algn tiempo, escrib un libro titulado Introduccin al anlisis estadstico con
SPSS/PC+ en la Editorial PPU. El objetivo era el mismo que busco ahora. Lo nico
que cambia es la versin del SPSS que vamos a utilizar. El entorno Windows es un
sistema que permite al usuario la manipulacin de programas sin escribir apenas nada.
Lo nico que tiene que hacer el usuario es moverse de unos mens a otros donde se le
va ofreciendo una gran variedad de recursos informticos para que elija los que le
interesan.
En el presente libro asumo que usted tiene acceso a un ordenador, con el sistema
SPSS instalado para alguna de las versiones de Windows. Con respecto al entorno
Windows no asumo ningn tipo de conocimiento. En consecuencia, le indicar todos
los pasos detenidamente, sin omisiones, hasta que usted adquiera cierta experiencia.
Otra novedad importante en este libro, con respecto a la versin anterior est en que
he dado participacin en el mismo a mis compaeros de Universidad y amigos, Gloria
Seoane, Mara Jos Ferraces, Mara Soledad Rodrguez, Eulogio Real y Elena
Andrade. Su participacin ayudar, sin duda, a enriquecer la idea original del libro.

RELACIN DE AUTORES:
Constantino Arce Fernndez
Departamento de Mtodos.
de Compostela
Jos Eulogio Real Deus
Departamento de Mtodos.
de Compostela
Gloria Seoane
Departamento de Mtodos.
de Compostela
Mara Jos Ferraces Otero
Departamento de Mtodos.
de Compostela
Mara Soledad Rodrguez
Departamento de Mtodos.
de Compostela
Elena Andrade
Departamento de Mtodos.
de Compostela

Facultad de Psicologa. Universidad de Santiago

Facultad de Psicologa. Universidad de Santiago

Facultad de Psicologa. Universidad de Santiago

Facultad de Psicologa. Universidad de Santiago

Facultad de Psicologa. Universidad de Santiago

Facultad de Psicologa. Universidad de Santiago

PRIMERA PARTE: COMENZANDO A TRABAJAR CON SPSS


PARA WINDOWS

1. Cmo entrar en SPSS para Windows


Una vez instalado SPSS en el ordenador, Windows crea un acceso al programa en el
men "Inicio". Este acceso se representa mediante un icono. La apariencia de este
icono vara dependiendo de la versin de SPSS que ud. utilice:
Icono para la versin 6.0
de SPSS

Icono para las versiones posteriores de


SPSS

Al hacer doble clic sobre el icono aparecer una ventana como la siguiente:

Veamos con detalle los elementos que aparecen en esta ventana:


En la parte superior de la ventana observamos la cabecera, donde aparece el rtulo
"Sin ttulo - Editor de datos de SPSS". Esta cabecera nos indica que nos
encontramos en la ventana del editor de datos. Esta ventana es la que nos permite,
pues, introducir datos en SPSS para analizarlos ms tarde.
Debajo de la cabecera aparece una lista de palabras (Archivo, Edicin, Ver, Datos,
Transformar, Analizar, Grficos, Utilidades, Ventana, ?) correspondientes a
distintas opciones. A esta lista de palabras se la denomina "men". Cada una de las
opciones del men contiene otras opciones, o "submens", asociados con ella. As,

la opcin Archivo contiene todas las acciones que pueden llevarse a cabo en el
manejo de archivos; la opcin Transformar contiene todas las transformaciones
que el programa nos permite realizar con los datos, etc.
Inmediatamente debajo de este men aparece una barra con diferentes botones.
Cada uno de ellos sirve para realizar rpidamente algunas de las acciones ms
habituales en el uso de SPSS: Abrir un archivo, imprimir, etc. Al situar el puntero
del ratn sobre uno de estos botones aparecer un mensaje que nos indicar la
finalidad del mismo. Estas acciones tambin pueden llevarse a efecto utilizando las
opciones del men; los botones sirven simplemente para efectuarlas de forma ms
rpida.
Ocupando el espacio interno de la ventana del editor de datos de SPSS se
encuentran las celdillas de datos, que se encuentran organizadas en filas y
columnas. Las filas se hallan numeradas consecutivamente, mientras que las
columnas aparecen etiquetadas todas ellas con la palabra "var" (variable). Cada
celdilla contendr un nico dato. Cada columna de datos contendr datos de una
misma variable, mientras que cada fila de datos contendr datos de una misma
fuente.
Debajo de las celdillas de datos vemos dos solapas llamadas Vista de datos y Vista
de variables. La primera de ellas nos muestra precisamente las celdillas de datos.
Finalmente, en la parte inferior de la ventana, aparece un mensaje que nos indica
que el procesador de SPSS est preparado. En esta zona inferior es donde aparecen
los mensajes que SPSS nos puede mostrar para informarnos de los procesos que se
estn llevando a cabo durante la sesin de trabajo.

2. Creacin de un Archivo de Datos


Ahora ya vamos a comenzar a trabajar con SPSS. Un requisito indispensable es
disponer de un archivo de datos. El archivo de datos contiene aquella informacin
susceptible de anlisis que ha sido obtenida en una investigacin. Pueden ser las
respuestas dadas por una muestra de sujetos a un cuestionario; los resultados
obtenidos por un grupo de sujetos en una tarea experimental, o las relaciones
existentes entre un grupo de variables. En el caso ms simple, el archivo de datos
contiene los registros obtenidos por una muestra de sujetos en una serie de variables.
Este tipo de datos suele disponerse en una matriz rectangular, donde cada fila
corresponde a un sujeto, y cada columna a una variable.
2.1. Cmo escribir los datos
Como yo no conozco su investigacin, ni tengo acceso a sus datos, lo que voy hacer es
simular que realizo una investigacin y que obtengo un conjunto de datos, que aunque
no son iguales a los suyos, s se van a parecer en la forma.
Imagine que estuviera interesado en realizar una encuesta sociolingstica en Galicia,
la Comunidad Autnoma donde vivo. Para ello, utilizo el cuestionario que se muestra
a continuacin.

Encuesta sociolingstica
Nada
1
1
1
1

Regular
2
2
2
2

1.2.3.4.-

Entiendo el gallego hablado


Entiendo el gallego escrito
Soy capaz de hablar en gallego
Soy capaz de escribir en gallego

5.6.7.8.9.-

Gallego
Con los hijos hablo normalmente
1
Con los familiares hablo normalmente
1
Con los amigos/amigas hablo normalmente
1
En el trabajo/estudio hablo normalmente
1
Si tengo que intervenir en pblico hablo
1

10.11.12.13.-

El
El
El
La

Bien
3
3
3
3

Castellano
2
2
2
2
2

Los dos
3
3
3
3
3

Totalmente
en desacuerdo
gallego sirve para tratar cualquier tema
1
gallego es til en el mundo de hoy
1
gallego debe ser la lengua habitual de Galicia
1
situacin de la lengua gallega est mejorando
1

14.- La lengua de la enseanza en Galicia debe ser

17.- Sexo

19.- Estudios

Hombre
1

Ninguno
1

Galicia (ciudad)
1

Mujer
2

Primarios
2

De acuerdo

2
2
2
2

3
3
3
3

Castellano
2

Si (nivel elemental)
1

15.- Asistira a un curso de gallego

16.- Lugar de nacimiento

Gallego
1

En desacuerdo

Galicia (villa)
2

Totalmente
de acuerdo
4
4
4
4

Las dos
3

Si (nivel perfeccionamiento)
2

Galicia (rural)
3

No
3

Fuera de Galicia
4

18.- Edad ....... aos

Medios
3

Superiores
4

20.- Profesin
1
6

Estudiante
Trabajador asalariado

2 Profesor
7 Labores de casa

3 Funcionario administracin
8 Otras

4 Profesin liberal 5 Trabajador autnomo

Si deseara conocer la opinin representativa de la poblacin gallega tendra que


administrar, sin duda, el cuestionario a un gran nmero de personas. Pero, para hacer
el ejemplo asequible, voy asumir que el cuestionario ha sido administrado a tan slo
20 personas. Lo que nosotros tenemos, por tanto, son 20 cuestionarios, que contienen
las respuestas emitidas por 20 personas. Lo que queremos es crear un archivo de datos
donde queden recogidas las respuestas de estas 20 personas. Para ello, decidimos
utilizar el Editor de Datos del sistema SPSS para Windows.
Imagine que el que se ofrece a continuacin es el cuestionario correspondiente al
primero de los sujetos.

Encuesta original de Bieito Silva, profesor del ICE de la Universidad de Santiago de Compostela.

Cuestionario correspondiente al sujeto 1


Nada
1
1
1
1

Regular
2
2
2
2

1.2.3.4.-

Entiendo el gallego hablado


Entiendo el gallego escrito
Soy capaz de hablar en gallego
Soy capaz de escribir en gallego

5.6.7.8.9.-

Gallego
Con los hijos hablo normalmente
1
Con los familiares hablo normalmente
1
Con los amigos/amigas hablo normalmente
1
En el trabajo/estudio hablo normalmente
1
Si tengo que intervenir en pblico hablo
1

10.11.12.13.-

El
El
El
La

Bien
3
3
3
3

Castellano
2
2
2
2
2

Los dos
3
3
3
3
3

Totalmente
en desacuerdo
gallego sirve para tratar cualquier tema
1
gallego es til en el mundo de hoy
1
gallego debe ser la lengua habitual de Galicia
1
situacin de la lengua gallega est mejorando
1

14.- La lengua de la enseanza en Galicia debe ser

17.- Sexo

19.- Estudios

Hombre
1

Ninguno
1

Galicia (ciudad)
1

Mujer
2

Primarios
2

De acuerdo

2
2
2
2

3
3
3
3

Castellano
2

Si (nivel elemental)
1

15.- Asistira a un curso de gallego

16.- Lugar de nacimiento

Gallego
1

En desacuerdo

Galicia (villa)
2

Totalmente
de acuerdo
4
4
4
4

Las dos
3

Si (nivel perfeccionamiento)
2

Galicia (rural)
3

No
3

Fuera de Galicia
4

18.- Edad ....... aos

Medios
3

Superiores
4

20.- Profesin
1
6

Estudiante
Trabajador asalariado

2 Profesor
7 Labores de casa

3 Funcionario administracin
8 Otras

4 Profesin liberal 5 Trabajador autnomo

Para grabar estos datos no tenemos que movernos de la pantalla donde estbamos
situados. En efecto, nos encontramos ya en el editor de datos que es, como ya se ha
comentado, la ventana en la que se guardan los datos que van a ser analizados. Fjese
de nuevo en la rejilla que constituye la parte interna de la ventana. La rejilla que usted
est viendo es, en realidad, una pequea porcin de una hoja gigantesca, con miles de
filas y miles de columnas. Si desea comprobarlo, haga clic con el botn izquierdo del
ratn, una sola vez, sobre la flecha abajo en forma de tringulo invertido, que est
situada en la parte inferior derecha de la ventana del editor de datos. Observar que ha
avanzado una lnea hacia abajo. Si hace clic otra vez, avanzar otra lnea ms, y as
sucesivamente. Existen miles de lneas. Si desea explorar este aspecto por s mismo,
asegrese de que est situado sobre la flecha abajo, haga clic y no suelte el dedo.
Observar como van pasando filas y ms filas. Fjese en el pequeo cuadrado situado
dentro de la barra vertical que limita, en su parte inferior, la flecha abajo que usted
est pulsando. Este cuadrado es el indicador de desplazamiento, y sirve para saber
cuntas filas hemos bajado en el archivo de datos. A medida que vamos bajando filas,
el indicador de desplazamiento se va aproximando a la parte inferior de la barra
vertical.
Cuando lo estime oportuno, vuelva a las primeras lneas del editor de datos. Para
hacer esto de forma rpida, coloque el puntero sobre el indicador de desplazamiento y
haga clic con el botn izquierdo del ratn. Sin soltar el botn, arrastre el indicador

10

hasta la parte superior de la barra vertical, y luego sultelo. Se encontrar ahora en la


primera lnea.
Con las columnas sucede lo mismo. Aunque en la pantalla slo se ofrecen unas
cuantas existen, en realidad, miles de columnas. Con la flecha derecha, que est
situada en la parte inferior derecha de la ventana podra moverse usted a travs de las
columnas. No obstante, en este caso, no lo intente porque las columnas no estn
numeradas y, aunque se mueva a la derecha, no podr apreciarlo. Fjese que tambin
existe un indicador de desplazamiento en la barra horizontal situada en la parte
inferior de la ventana del editor de datos. Este otro indicador de desplazamiento le
sirve para saber cuntas columnas se ha movido hacia la derecha.
En SPSS se asume que en la fila 1 se coloca la informacin relativa al primer sujeto,
en la fila 2 la informacin relativa al segundo sujeto, y as sucesivamente. De forma
similar, se asume que la informacin que situemos en la primera columna es el primer
registro (o medida) que hemos efectuado para un sujeto, la informacin que situemos
en la segunda columna es el segundo registro, y as sucesivamente. Por tanto, para
grabar las respuestas del sujeto 1 lo que tenemos que hacer es situarnos en la primera
fila de la rejilla.
Es probable que la casilla de la rejilla correspondiente a la fila 1 y a la columna 1
tenga los bordes ms marcados que el resto de las casillas. Si no fuera as, site el
puntero sobre esta casilla, y haga clic. Los bordes de la casilla aparecern ahora ms
marcados. Para estar seguro de que se encuentra realmente en la primera casilla,
observe si el indicador de desplazamiento vertical se encuentra en lo ms alto de la
barra vertical, y si el indicador de desplazamiento horizontal se encuentra totalmente a
la izquierda de la barra horizontal. Tambin puede ir de un solo golpe a la primera
casilla pulsando la combinacin de teclas Ctrl+Inicio (pulse la tecla Ctrl y, sin
soltarla, pulse a continuacin la tecla Inicio).
Lo que queremos indicar al sistema marcando esta casilla es que ste es el lugar en el
que deseamos introducir el primer dato. Hemos elegido la fila 1 porque se trata del
primer sujeto, y hemos elegido la columna 1 porque se trata del primer registro de este
sujeto.
Si busca ahora la respuesta del primer sujeto al primer tem del cuestionario,
observar que se trata de un 3. Para introducir los datos abandonamos
momentneamente el ratn y cogemos el teclado del ordenador. Pulsamos la tecla
correspondiente al nmero 3 y cuando lo hayamos hecho pulsamos la tecla que tiene
la flecha mirando hacia la derecha []. Si lo hace as, en un instante podr observar
como ha aparecido escrito el nmero 3 (con dos decimales) en la casilla deseada.
Justo encima de esta casilla, tambin podr observar como el sistema le ha concedido
un nombre a esta respuesta. Le ha denominado var00001, que se puede interpretar
como "variable 1".
Ahora que ya ha registrado la primera respuesta del sujeto 1, fjese como la casilla que
est ahora bordeada es la casilla correspondiente a la columna 2. El sistema est
esperando que introduzca la segunda respuesta emitida por este sujeto. Si vuelve otra
vez al cuestionario, podr observar como esta respuesta es nuevamente un 3. Escriba
11

el nmero 3 y pulse la tecla con la flecha que mira hacia la derecha [].
Inmediatamente aparecer el nmero 3 (con dos decimales) escrito en la posicin
deseada. Observe tambin como encima de esta casilla aparece ahora la etiqueta
var00002, que puede interpretarse como variable 2. Contine introduciendo as los
datos correspondiente al sujeto 1. Proceda despacio. Espere siempre a que el nmero
que introduzca aparezca en la casilla correspondiente, antes de introducir un nuevo
nmero. Cuando llegue al tem 18 del cuestionario, fjese en que debe escribir dos
nmeros en lugar de uno solo, antes de pulsar la tecla con la flecha que mira hacia la
derecha. Cuando llegue al tem 20, asegrese, aunque sea el ltimo, de que tambin
pulsa la tecla que mira hacia la derecha. En ese momento habr acabado de introducir
la informacin relativa al sujeto 1.
2.2. Cmo corregir un error
Antes de continuar, repase todos los datos y asegrese de que no existe ningn error.
Para ello vaya a la columna 1. Para hacer esto rpidamente, de un solo "golpe", pulse
Ctrl+[] (Pulse la tecla Ctrl y, sin soltarla, pulse la tecla flecha a la izquierda []).
Repase ahora los datos. El primer nmero debe ser un 3, el segundo un 3, el tercero...
Si observa algn error, sitese en la casilla que contenga dicho error. Utilice para ello
las flechas del teclado, la que mira hacia la izquierda o la que mira hacia la derecha,
segn proceda. Una vez situado en la casilla que contiene el error, escriba el nmero
correcto y pulse la tecla con la flecha que mira hacia la derecha. Ver como aparece
ahora el nmero deseado en la casilla correspondiente.
2.3. Cmo grabar los datos
Cuando haya finalizado de escribir los datos correspondientes al sujeto 1, lo que
vamos hacer es grabarlos en un archivo. Hasta ahora, aunque usted vea los datos
escritos en la rejilla, en realidad, no estn grabados an. Para grabarlos haga lo
siguiente. Mueva el puntero del ratn a la parte superior izquierda de la pantalla,
donde est la opcin Archivo, y haga clic con el botn izquierdo del ratn. Se
despliega un men debajo con varias opciones. Baje hasta la opcin Guardar, y haga
clic.
Tambin puede utilizar, en la barra de botones, el botn con el icono que
representa un diskette.
En ambos casos se encontrar el siguiente cuadro de dilogo:

12

Preste atencin al recuadro situado a la derecha del rtulo Nombre de archivo. Dentro
del mismo hay una barra vertical que parpadea ligeramente. Esta barra es el "cursor",
que le indica que puede escribir en ese recuadro el nombre del archivo. El nombre de
un archivo consta de dos partes separadas por un punto (.). La primera parte puede ser
un nombre cualquiera, a eleccin del usuario. El nombre que vamos a elegir aqu ser
encuest. La segunda parte del nombre, a la que se denomina extensin, tiene que ser
necesariamente .sav, y no es necesario especificarla, puesto que SPSS la adjudica por
defecto (puede verlo en el recuadro inferior, donde figura la leyenda Guardar como
tipo). Por tanto, el nombre completo del archivo de datos una vez almacenado ser
encuest.sav. Escriba encuest en el recuadro donde debe especificarse el nombre de
archivo. Cuando lo haya hecho, coja nuevamente el ratn, mueva el puntero a la parte
derecha de la pantalla, colquese sobre el botn Guardar y haga clic.
Volver aparecer la pantalla con la rejilla. Sus datos, a diferencia de la vez anterior,
estn ahora grabados en un archivo denominado encuest.sav. Puede apreciarlo porque
en la cabecera de la ventana, en lugar del rtulo "Sin ttulo" aparece el nombre del
archivo: "encuest".
Este podra ser un buen momento para finalizar la primera sesin de trabajo con el
sistema SPSS para Windows.
2.4. Cmo salir de SPSS para Windows
Para salir, site el puntero del ratn sobre la opcin Archivo, y haga clic. Se abrir un
men ya conocido para usted. Elija la ltima opcin del men, denominada Salir, y
vuelva a hacer clic. Ya ha salido usted de SPSS para Windows. Existen otras formas
de salir de un programa en Windows, pero le aconsejo que no las utilice. Aunque no
suelen dar problemas, estn pensadas ms bien para cerrar sin ms una pequea
aplicacin sin mens o una ventana, que para salir de un programa complejo como
SPSS.

13

2.5. Cmo entrar en un archivo de datos ya existente


Supongamos que ahora, en su segunda sesin de trabajo, lo que desea es grabar los
datos de los restantes 19 sujetos. Recuerde que el nmero de sujetos era 20. Hasta
ahora slo hemos grabado los datos del primer sujeto en el archivo encuest.sav.
Vamos a entrar ahora en este mismo archivo y grabar los datos correspondientes a los
otros 19 sujetos. Suponga que estos son los datos.
Sujeto
Sujeto
Sujeto
Sujeto
Sujeto
Sujeto
Sujeto
Sujeto
Sujeto
Sujeto
Sujeto
Sujeto
Sujeto
Sujeto
Sujeto
Sujeto
Sujeto
Sujeto
Sujeto
Sujeto

1:
2:
3:
4:
5:
6:
7:
8:
9:
10:
11:
12:
13:
14:
15:
16:
17:
18:
19:
20:

(Estos datos ya
2 2 2 2 2 2 2 3
3 3 3 3 3 1 3 3
3 3 2 2 2 2 2 3
1 1 1 1 2 2 2 2
2 2 1 1 2 2 2 2
2 2 2 2 2 2 2 2
2 2 2 2 2 2 2 2
3 3 2 2 2 2 2 2
3 3 3 3 3 3 2 3
3 3 2 2 2 2 2 2
3 3 2 2 3 3 3 2
3 3 3 3 1 1 3 3
3 2 2 2 2 3 3 2
3 3 2 2 3 3 3 3
3 3 2 1 2 2 2 2
3 3 3 2 3 3 3 3
3 3 3 1 2 2 2 2
3 3 3 2 3 3 3 3
3 3 1 2 2 2 2 2

estn
2 3 3
3 3 3
2 2 2
2 1 1
1 3 2
3 3 4
2 3 3
2 4 3
3 4 3
3 3 2
3 3 2
2 3 3
2 2 2
3 4 4
2 4 4
3 4 4
2 4 4
3 4 4
2 3 2

grabados)
3 3 3 3 1
3 3 3 3 3
2 3 2 3 4
1 2 2 3 4
4 4 3 3 1
4 1 3 3 4
3 1 3 3 4
3 4 3 2 1
4 1 1 2 1
4 2 3 2 3
3 3 3 2 3
4 4 3 1 3
2 3 3 3 2
4 4 3 1 3
4 3 3 1 2
4 4 3 2 3
4 4 3 3 1
4 3 3 3 1
2 3 2 3 4

1
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2

38
19
20
40
30
37
32
20
48
22
43
44
29
55
42
44
41
30
34

3
2
4
3
2
4
4
4
4
3
3
3
3
3
3
4
3
2
4

3
7
1
7
7
2
4
1
7
1
7
8
7
7
7
7
7
7
4

Para entrar en SPSS para Windows siga los pasos indicados en el apartado 1.
Recuerde que lo que deseamos hacer ahora es entrar nuevamente en el archivo
encuest.sav que ha creado usted en la sesin anterior. Para ello, siga los siguientes
pasos:
1. Sitese sobre Archivo y haga clic.
2. Sobre el men que se despliega debajo de Archivo, elija la opcin Abrir.
Tambin puede abrir directamente el archivo de datos situndose, en la barra de
botones, sobre el botn con el icono que representa una carpeta abierta.
Observar que aparece un cuadro de dilogo muy similar al que vio en la sesin
anterior. Lo que se ofrece en este recuadro es un listado, ordenado alfabticamente, de
todos los archivos de datos de que dispone usted en el directorio de trabajo. Entre
ellos se encuentra encuest.sav. Sitese sobre l y haga clic. Se resaltar el nombre el
archivo y, adems, ver como aparece escrito el nombre de este archivo en el recuadro
situado a la izquierda del rtulo Nombre de archivo. Lo que usted le ha indicado al
programa es que desea trabajar con este archivo. A continuacin, coloque el puntero
del ratn sobre el botn Abrir y haga clic. Inmediatamente aparecern los datos
introducidos en la sesin anterior.
Para continuar grabando datos, site el puntero del ratn en la fila 2, columna
var00001, y haga clic. Observar como esta casilla aparece ahora con los bordes
sombreados.
14

Tal como habamos indicado en la primera sesin, la fila 2 est reservada para el
segundo sujeto. En la columna var00001 escribiremos la primera respuesta de este
sujeto, en la columna var00002 escribiremos la segunda respuesta, y as
sucesivamente hasta la columna var00020, donde escribiremos la respuesta dada por
este sujeto al ltimo tem del cuestionario.
Como la respuesta al primer tem es un 2, escriba un 2 y pulse, en el teclado, la flecha
que mira hacia la derecha. Observar como aparece un 2 (con dos decimales) en la
casilla deseada. Adems, podr observar como la casilla sombreada es ahora la
correspondiente a var00002. En esta casilla, y en las siguientes de la misma fila,
aparece ahora una coma (,). No se preocupe por ello. Lo nico que indica esta coma es
que faltan todava 19 datos por introducir para el segundo sujeto. Escriba otra vez el
nmero 2, dado que esta es la respuesta de este sujeto al tem 2 del cuestionario.
Contine as hasta finalizar con este sujeto.
Seguramente habr podido apreciar que el tiempo que tarda ahora el ordenador en
situar las respuestas en la casilla correspondiente es menor que el que le llevaba
cuando se trataba del primer sujeto. La razn es que ahora las variables ya estn
creadas. En el primer sujeto todas las columnas se denominaban var, y el programa
necesitaba un cierto tiempo para asignarle, por defecto, un nombre a cada columna
(variable).
En la primera sesin ya se ha indicado cmo debe proceder si se equivoca en un
nmero y decide escribir otro en su lugar. Existen dos botones que sirven de auxilio
en el caso de que necesite insertar un sujeto o una variable que se le pas por alto. Son
stos:
El botn Insertar caso le permite insertar los datos de un sujeto entre dos filas
del archivo de datos.
El botn Inservar variable le permite insertar una nueva variable entre otras dos
cualesquiera.
2.6. Cmo borrar una fila o una columna (y cmo recuperarla)
2.6.1. Cmo borrar una fila (y cmo recuperarla)

Si el nmero de errores cometidos al introducir los datos de un sujeto es muy grande,


lo que probablemente desear es borrar toda la informacin correspondiente a ese
sujeto y volver a escribirla de nuevo. Para ello, proceda como se se indica a
continuacin.
A la izquierda de cada una de las filas de la rejilla aparece un botn gris con un
nmero entero escrito en l. Este botn es el que ayuda a identificar la fila (sujeto). La
primera fila est identificada con el nmero 1, la fila 2 con el nmero 2, y as
sucesivamente. Vamos ahora a hacer una prueba borrando los datos que usted acaba
15

de introducir para el segundo sujeto. Si no le apetece volver a escribir de nuevo los


datos, no se preocupe; luego le mostrar cmo puede recuperarlos otra vez.
Dado que lo que desea es borrar la fila 2, primero tiene que seleccionarla. Para ello,
sitese sobre el botn gris con el nmero 2, que identifica esta fila y, a continuacin,
haga clic. Observe que ahora el botn aparece "hundido", y la casilla inmediatamente
a su derecha, marcada. El resto de las casillas de la misma fila aparecen ahora en
vdeo inverso (caracteres blancos sobre fondo negro). Aunque usted slo puede ver las
primeras columnas, en realidad, las restantes (hasta la 20) tambin han sido
seleccionadas. Si desea comprobarlo usted mismo puede desplazarse hacia la derecha
utilizando el indicador de desplazamiento horizontal que se encuentra en la parte
interior de la ventana de datos. No utilice las flechas del teclado para desplazarse;
anulara la seleccin que acaba de hacer. Cuando haya hecho esta comprobacin,
vuelva a la posicin inicial; es decir, a la primera columna de esta fila. Site ahora el
puntero del ratn sobre la opcin Edicin, y haga clic. Del men que se despliega
ahora elija la opcin Eliminar y haga clic. Observar ahora como la informacin
contenida en la fila 2 ha desaparecido. Tambin puede realizar esta accin utilizando
la tecla Supr (borrar) de su teclado.
Si no desea volver a introducir los datos, no tiene por qu hacerlo. Dentro del mismo
men anterior existe otra opcin que le permite anular su ltima accin. Vuelva a
situarse sobre la opcin Edicin, y seleccione ahora la opcin Deshacer. Observar
como todos los datos de la fila 2 han sido recuperados.
Tambin puede utilizar el botn Deshacer para anular la ltima accin.

2.6.2. Cmo borrar una columna

Al introducir los datos puede ocurrir que, accidentalmente, se cree una variable ms
de las deseadas. Es posible que tambin esto le haya pasado a usted, y que de ese
modo haya creado la variable var00021, que no necesita. Si ese es el caso y desea
borrarla, haga lo siguiente.
1. Site el puntero del ratn sobre el botn gris con el rtulo var00021, y haga clic.
Observar como la casilla inmediatamente inferior aparece ahora marcada, y las
que se encuentran bajo ella se muestran en vdeo inverso. Dado que slo tiene dos
filas, slo podr ver en vdeo inverso la casilla de la fila 2. Si hubiese ms filas
tambin apareceran de ese modo.
2. Site el puntero del ratn sobre la opcin Edicin y haga clic.
3. Elija la opcin Eliminar, y haga clic de nuevo. Observar como la columna
var00021 ha desaparecido.
2.7. Cmo moverse con rapidez dentro del archivo de datos
Ahora ya sabe que puede moverse arriba y abajo del archivo de datos utilizando el
indicador de desplazamiento vertical de la parte derecha de la ventana, y puede
16

moverse a izquierda y derecha utilizando el indicador de desplazamiento horizontal de


la parte inferior de la ventana. Tambin ha visto que puede ir rpidamente a la primera
columna del archivo de datos utilizando la combinacin de teclas Ctrl+[]. Pero
existen ms combinaciones de teclas que le permiten moverse con rapidez y facilidad,
no slo en la ventana de datos, sino tambin en cualquier otra ventana de SPSS. Las
combinaciones ms tiles son las siguientes:
Tecla(s)

Funcin

Inicio
Fin
Ctrl+[]
Ctrl+[]
Ctrl+[]
Ctrl+[]
Ctrl+Inicio
Ctrl+Fin

Nos lleva a la primera columna sin cambiarnos de fila


Nos lleva a la ltima columna sin cambiarnos de fila
Nos lleva a la primera columna sin cambiarnos de fila
Nos lleva a la ltima columna sin cambiarnos de fila
Nos lleva a la primera fila sin cambiarnos de columna
Nos lleva a la ltima fila sin cambiarnos de columna
Nos lleva a la primera fila y primera columna (principio del archivo)
Nos lleva a la ltima fila y ltima columna (final del archivo

Recuerde que las combinaciones del tipo Ctrl+... significan que pulse la tecla Ctrl y,
sin soltarla, pulse a continuacin la otra tecla. Otras herramientas para desplazarse por
el archivo de datos son stas:
El botn Ir a caso le permitir ir directamente a un caso, o sujeto determinado.
nicamente debe especificar el nmero de fila correspondiente al sujeto.
El botn Variables le mostrar informacin sobre las variables existentes en su
archivo de datos. Tambin le permite ir directamente a una variable determinada.
El botn Buscar le ayuda a localizar un dato determinado dentro de una variable
del archivo de datos.
Continuemos ahora con la introduccin de datos. Para empezar a escribir la
informacin relativa al tercer sujeto, necesitar situarse nuevamente en la primera
columna (var00001). Para ello, utilice la tecla Inicio, o la combinacin de teclas
Ctrl+[] ya comentada. Cuando est en la primera columna, baje a la fila 3.
Comience a escribir los datos correspondientes al tercer sujeto. Cuando haya
finalizado con este sujeto, vuelva a la primera columna para comenzar a escribir los
datos del siguiente sujeto. Contine del mismo modo hasta llegar al ltimo sujeto.
Procure hacerlo despacio y no cometer errores. Una vez que haya terminado de
introducir todos los datos, sera conveniente que los revisase por si hubiese algn
error. Si todo est bien, daremos por finalizada la segunda sesin de trabajo, grabando
el archivo de datos y saliendo de SPSS para Windows.
Para grabar el archivo simplemente tenemos que proceder del mismo modo que se
describe en el apartado 2.3, con la nica diferencia de que nuestro archivo de datos
ahora ya tiene nombre, por lo que SPSS no nos pedir ninguno. Una vez grabados los
datos podemos salir de SPSS tal y como se describe en el apartado 2.4.

17

2.8. Manejo del Archivo de Resultados


En las dos sesiones anteriores usted ha aprendido a crear un archivo de datos
utilizando la ventana de datos de SPSS. En esta nueva sesin va a aprender a guardar
los resultados de un anlisis estadstico. Para ello, es necesario disponer del archivo de
datos, por lo que recuperaremos primero el archivo encuest.sav.
Puede abrir el archivo encuest.sav utilizando los mens, o el botn con el dibujo de
una carpeta abierta que se encuentra en la barra de botones. Este procedimiento ya lo
ha visto en el apartado 2.5. Cuando aparezca el cuadro de dilogo, seleccione el
archivo encuest.sav de la lista que aparece en el recuadro de mayor tamao, y pulse el
botn Abrir.
Si todo ha ido bien, en la ventana de datos aparecern ahora los datos de los 20 sujetos
que contestaron la encuesta sociolingstica. Vamos, a continuacin, a pedirle a SPSS
que nos proporcione una distribucin de frecuencias para los 20 tems del
cuestionario.
Una distribucin de frecuencias es una Tabla de datos con dos columnas principales.
Una primera columna con todos los valores observados para una variable. Y una
segunda columna con el nmero de casos (frecuencias) que ha obtenido cada uno de
dichos valores. Ver que resulta realmente sencillo hacer esto en SPSS. Coloque el
puntero del ratn sobre la opcin Analizar. En el men que se despliega a
continuacin, elija la opcin Estadsticos descriptivos. Finalmente, del men que se
desplegar a la derecha, elija la opcin Frecuencias. Aparecer el siguiente cuadro de
dilogo:

Observe el cuadro de dilogo. En la zona izquierda aparece un recuadro con todas las
variables que contiene el archivo de datos, ordenadas desde var00001 hasta
var00020. A su derecha aparece un botn con una flecha que apunta hacia la derecha,
donde se encuentra otro recuadro, que lleva el encabezado Variables. En este ltimo
recuadro es en el que debe usted colocar aquellas variables que van a entrar en el
anlisis. Puesto que queremos obtener la distribucin de frecuencias para las 20
variables, debemos seleccionar todas ellas en el recuadro de la izquierda y moverlas al

18

recuadro vaco de la derecha. Para ello, coloque el puntero del ratn sobre la primera
de las variables, var00001, que aparece en vdeo inverso. Pulse el botn izquierdo del
ratn y no lo suelte. A continuacin, vaya bajando despacio el puntero hasta el borde
inferior del recuadro. Observar que, a medida que mueve el puntero hacia abajo, van
quedando marcadas las variables de la lista. Cuando llegue a la parte inferior del
recuadro, donde se halla var00011, la lista continuar descendiendo hasta que llegue a
la ltima variable, var00020. Ahora todas las variables estn seleccionadas y aparecen
en vdeo inverso. Suelte el botn izquierdo, y no lo pulse de nuevo; deshara la
seleccin anterior. Para introducir las variables en el recuadro de la derecha,
simplemente tiene que pulsar el botn con la flecha que apunta a ese recuadro. Ahora
todas las variables han pasado al recuadro de la derecha, lo que significa que todas
ellas entrarn en el anlisis. Pulse ahora el botn Aceptar para realizar el anlisis de
frecuencias.
Una vez que comienza el anlisis, SPSS crea una nueva ventana donde se almacenan
los resultados. La ventana tiene este aspecto:

La ventana de resultados contiene varios elementos que vamos a comentar de arriba


abajo, al igual que hicimos para la ventana de datos:
En la parte superior de la ventana aparece la cabecera con el rtulo "Resultados1 Visor SPSS". Esto nos indica que nos hallamos en la ventana donde se muestran los
resultados de los anlisis efectuados.
Debajo de la cabecera aparece un men ligeramente diferente al de la ventana de
datos. En lugar de las opciones Datos y Transformar, propias del men del editor

19

de datos, aparecen ahora las opciones Insertar y Formato, que son especficas del
visor de resultados.
Inmediatamente debajo del men aparece una barra con botones. Aunque algunos
de ellos son iguales a los de la ventana del editor de datos, la mayora son
diferentes y especficos de esta nueva ventana.
Ocupando el espacio interno del visor de resultados, vemos dos zonas
diferenciadas a la izquierda y la derecha. La zona de la izquierda nos permite
"navegar" por los resultados obtenidos, desde el ttulo del anlisis y los estadsticos
generales para los 20 anlisis de frecuencias hasta cada una de las 20 tablas de
frecuencias obtenidas para las variables incluidas en el anlisis. La zona de la
derecha nos muestra el resultado concreto que hayamos elegido en la zona de la
izquierda. Tambin es posible desplazarse directamente por los resultados
utilizando la barra de desplazamiento vertical de la zona de la derecha.
Finalmente, en la zona inferior de la ventana aparece de nuevo el mensaje que nos
indica que el procesador de SPSS est preparado.
El manejo del visor de resultados es muy sencillo una vez que se comprende su
funcionamiento. Para familiarizarse con el mismo, pruebe a seleccionar, en la zona
izquierda del visor, la tabla de frecuencias para la variable var00019. En la zona
derecha aparecer una tabla como la siguiente:
VAR00019

Vlidos

2.00
3.00
4.00
Total

Frecuencia
4
9
7
20

Porcentaje
20.0
45.0
35.0
100.0

Porcentaje
vlido
20.0
45.0
35.0
100.0

Porcentaje
acumulado
20.0
65.0
100.0

Lo que usted observa en esta tabla es la distribucin de frecuencias correspondiente a


la pregunta 19 del cuestionario, que fue etiquetada por SPSS como var00019. La
primera columna de la tabla contiene los valores de var00019. Recuerde que existan
4 categoras para el tem "Estudios": 1=ninguno, 2=primarios, 3=medios,
4=superiores. La segunda columna, etiquetada con la palabra Frecuencia, contiene las
frecuencias (o nmero de sujetos) para cada una de los valores de var00019. El valor
4 de esta columna indica que 4 sujetos tienen estudios primarios (no hay ningn sujeto
sin estudios), el valor 9 siguiente indica que 9 sujetos tenan estudios medios, y el
valor 7 indica que 7 sujetos tenan estudios superiores. Finalmente, se presenta el total
de sujetos que respondieron a la pregunta (20). La tercera columna, etiquetada con la
palabra Porcentaje, contiene la misma informacin que la columna anterior, pero con
las frecuencias transformadas en porcentajes. La cuarta columna, etiquetada como
Porcentaje vlido, contiene los porcentajes vlidos, que en este caso son los mismos
que los de la columna anterior. Finalmente, la columna etiquetada como Porcentaje
acumulado contiene los porcentajes acumulados. stos nos indicaran que el 20% de
los sujetos tenan estudio primarios o menos, el 65% estudios medios o menos, y que
el 100% de los sujetos tenan estudios superiores o menos; un resultado lgico, puesto
que no hay ningn nivel de estudios superior a ste.

20

Del mismo modo que ha examinado las tablas de frecuencias para la variable
var00019 puede examinar tambin cualquier otro resultado incluido dentro del visor.
Existen una serie de botones que le facilitan el trabajo de moverse por el visor.
Veamos su funcin:
El botn Seleccionar ltimos resultados le permite ir, dentro de la ventana del
visor de resultados, a los ltimos anlisis efectuados.
El botn Designar ventana le permite, cuando tiene varias ventanas de
resultados abiertas, indicar cul de ellas recibir los resultados de los siguientes
anlisis.
Los botones Ascender y Degradar le permiten subir o bajar un nivel un
resultado o grupo de resultados en la casilla izquierda del visor.
Los botones Expandir y Contraer le permiten encoger o desplegar un
conjunto de resultados obtenidos en un slo anlisis.
Los botones Mostar y Ocultar sirven para mostrar u ocultar partes del
listado de resultados.
El botn Insertar encabezado le permite insertar un encabezado antes de un
resultado.
El botn Insertar ttulo le permite poner ttulo a un grupo de resultados.
El botn Insertar texto le permite colocar un texto informativo junto a un
resultado.
A continuacin, vamos a guardar los resultados obtenidos en un archivo. La forma en
que guardamos un archivo de resultados es casi exactamente igual a la empleada para
el archivo de datos. En primer lugar, mueva el puntero del ratn hacia la opcin
Archivo y haga clic. A continuacin, seleccione, dentro del men que se despliega, la
opcin Guardar. Tambin puede hacer esto mismo pulsando sobre el botn que
representa un diskette. En ambos casos aparecer el siguiente cuadro de dilogo:

21

Como ve, este cuadro de dilogo es casi idntico al que apareca cuando grab usted
el archivo de datos. Fjese en el recuadro situado a la derecha del rtulo Nombre de
archivo. Aparece ya escrito un nombre para el archivo: Resultados1.spo. Este es el
nombre que SPSS asignar, por defecto, al archivo de resultados, pero puede
reemplazarse por otro ms adecuado. Pulse la tecla Supr del teclado de su ordenador;
esto borrar el nombre asignado por defecto al archivo de resultados. Escriba ahora
encuest en el recuadro vaco. Ahora el archivo se guardar con el nombre encuest.spo
(recuerde que la extensin, .spo, es asignada automticamente por SPSS). Pulse ahora
el botn Guardar.
Una vez hecho esto, el rtulo "Resultados1" en la cabecera de la ventana de resultados
se ver sustituido por el nombre de nuestro archivo de resultados: "encuest.spo".
Adems de guardar el archivo de resultados en el formato asignado por SPSS, tambin
es posible exportarlos en un formato distinto (por ejemplo, como texto simple).
El botn Exportar es el que le permite exportar sus resultados en un formato
distinto al asignado por SPSS.
2.9. Cmo Imprimir el Archivo de Resultados
Probablemente ya ha comprobado al ver el listado de resultados, intentar leer un
archivo de este tipo en pantalla puede resultar un trabajo "pesado", sobre todo si
consta de muchas pginas. La solucin ms corriente suele ser imprimirlo y leerlo
cmodamente en papel. Para ello, asegrese de que tiene la impresora correctamente
conectada al ordenador, y que sta est encendida.
Mueva el puntero del ratn a la opcin Archivo, y seleccione a continuacin la opcin
Imprimir.
Tambin puede hacer esto utilizando la barra de botones; para ello, pulse el
botn que tiene un icono con el dibujo de una impresora.

22

En ambos casos aparecer el cuadro de dilogo de la impresora:

Como puede ver en este cuadro de dilogo aparece el nombre de la impresora.


Compruebe que en su pantalla aparece el nombre de su impresora correctamente
especificado. A continuacin, se nos pregunta si se van a imprimir todos los
resultados o slo una seleccin, y el nmero de copias (por defecto, 1). Observe si en
el cuadro de dilogo que usted tiene en pantalla aparecen seleccionados todos los
resultados visibles; en caso de que tuviese marcada la opcin Seleccin, significara
que ha marcado sin querer un trozo de listado y que ste, por tanto, aparecer
incompleto. Si es as, marque la opcin Todos los resultados visibles.
A continuacin pulse el botn Aceptar. Espere unos instantes y obtendr una copia del
listado en su impresora. Puede utilizar este listado para comprobar que no ha
cometido errores al introducir los datos. Compruebe que no ha omitido datos en
ninguna variable (esto es, que el nmero total de sujetos en todos los anlisis es de
20), y que no existen valores fuera de rango (por ejemplo, en var00001, que no hay
valores distintos de 1, 2 y 3).
Tambin puede imprimir el archivo de datos si lo desea. De este modo podr
comprobar sobre los propios datos si ha cometido algn error. Para ello slo tiene que
cambiar a la ventana del editor de datos y, una vez en ella, repetir el procedimiento
que utiliz para imprimir el archivo de resultados.
El botn Ir a datos le permite pasar directamente desde el visor de resultados a
la ventana del editor de datos.
El botn Presentacin preliminar le permite ver cmo saldr impreso su archivo
de resultados antes de enviarlo a la impresora.

23

Una vez que hemos realizado el anlisis de los datos en que estbamos interesados
(obtener una distribucin de frecuencias para cada variable) y hemos obtenido una
copia impresa de los mismos podemos dar por finalizada la sesin. Seleccione la
opcin Archivo y, dentro del men, seleccione la opcin Salir. Se cerrarn ambas
ventanas: la del editor de datos y la del visor de resultados. En la prxima sesin
veremos cmo preparar los datos y darles formato para facilitar tanto la introduccin
de los mismos como la lectura de listados.

24

SEGUNDA PARTE: FORMATO DE LOS DATOS Y


TRANSFORMACIONES

25

Ahora que ya sabe introducir la matriz de datos y obtener los resultados de un anlisis,
vamos a ver cmo puede mejorar el modo de presentacin de los datos y cmo
efectuar transformaciones adicionales sobre los datos originales.

3. Formato de los Datos de Entrada


En esta nueva sesin vamos a continuar utilizando el archivo de datos encuest.sav.
Abra el archivo de datos encuest.sav y observe los nmeros que aparecen en la
pantalla. Todos ellos tienen dos decimales. Sin embargo, usted slo introdujo nmeros
enteros Por qu aparecen ahora con dos decimales? La razn es que, por defecto,
SPSS adjudica a los datos un formato numrico, de 8 dgitos con 2 decimales. SPSS
procede as, por defecto, porque este es el formato ms frecuente para los datos de una
investigacin. En la mayora de los casos nos ocurrir que nuestros datos se ajusten a
este formato general y no tengamos que cambiar nada. Sin embargo, puede darse el
caso de que no queramos introducir valores, sino otro tipo de datos (nombres, fechas,
valores dinerarios, etc.). O tambin puede ocurrir que queramos introducir nmeros de
ms de 8 dgitos, o nmeros de ms de 2 decimales, sin redondear. O simplemente,
puede que queramos introducir los nmeros en un formato determinado por nosotros.
En cualquiera de estos casos, es necesario cambiar el formato de los datos de entrada.
Seleccione la solapa Vista de variables en la parte inferior del editor de datos. La
ventana tendr ahora este aspecto:

26

Ahora cada una de las variables ocupa una fila del editor de datos. La informacin
sobre las variables aparece organizada en columnas. Veamos lo que indica cada una
de ellas:
Nombre.- En esta casilla podremos indicar un nombre para la variable. Usted ya
sabe que SPSS adjudica un nombre por defecto a las variables que se van creando
en el archivo de datos. Este nombre empieza siempre por la palabra var seguida de
un nmero correlativo. Sin embargo, esta es slo la opcin por defecto; tambin es
posible asignar un nombre diferente a una variable. La nica condicin es que el
nuevo nombre no tenga ms de 8 caracteres y incluya espacios en blanco o
caracteres especiales ($, &, %, /, etc.).
Tipo.- Por defecto, todas las variables introducidas son de tipo numrico.
Anchura.- Nmero de dgitos que pueden contener los valores de la variable.
Decimales.- Nmero de decimales de precisin para la variable. Los valores por
defecto para anchura y decimales (8 y 2, respectivamente) significa que los datos
de la varaible tienen, como mximo 8 dgitos, incluyendo la coma decimal y 2
decimales (es decir, que el nmero mayor representable es 99.999.999, y el mayor
nmero decimal representable es 99.999,99).
Etiqueta.- Permite asignar una etiqueta a la variable. Ms adelante veremos la
utilidad de las etiquetas.
Valores.- Permite asignar etiquetas a los valores de una variable. Tambin veremos
ms adelante la utilidad de estas etiquetas
Perdidos.- Permite definir lo que SPSS denomina valores perdidos. Un valor
perdido es aquel del que no disponemos por alguna razn; por ejemplo, porque el
sujeto no contest a esa pregunta. Esto es lo que se conoce como un valor perdido
por el sistema. En este caso, sin embargo, se trata de que el propio usuario defina
un valor determinado como perdido. En el caso de nuestro cuestionario esto podra
ocurrir si en las preguntas formuladas a los sujetos hubiese una opcin de respuesta
del tipo: No Sabe/No Contesta. Si usted no quisiera que los sujetos que
seleccionaron esta opcin sean incluidos en los anlisis, podra definir el valor
correspondiente como perdido. En este caso estaramos hablando de un valor
perdido por el usuario.
Columnas.- Permite especificar el ancho ocupado por la columna correspondiente a
la variable en el editor de datos. Por defecto es igual al valor especificado en
Anchura.
Alineacin.- Alineacin de los datos. Pueden aparecer justificados a la izquierda,
centrados en la celdilla o justificados a la derecha. Esta ltima es la opcin por
defecto, y es la ms cmoda cuando se trabaja con nmeros.
Medida.- Escala de medida de los datos. Se refiere al grado de calidad de la
medida obtenida en la variable. Si nicamente establecemos distintas categoras
excluyentes entre s (como en la var00017: sexo), la medida ser nominal; si
podemos ordenar estas categoras (como en la var00019: estudios), la medida
ser ordinal; en cualquier otro caso la medida ser de intervalo o razn (que SPSS
denomina escala). sta ltima es tambin la medida por defecto.
Vamos a modificar las opciones que aparecen para var00001, de modo que al final
hayamos dado formato a la misma. Concretamente, asignaremos un nombre a la

27

variable, cambiaremos el tipo de datos, e introduciremos una etiqueta para la variable


y para sus valores.
En el caso de nuestro archivo de datos, encuest.sav, cada variable corresponde a un
tem de un cuestionario. As, por ejemplo, var00001 es el tem 1 del cuestionario, de
modo que podra llamarse item01. Veamos cmo podemos hacer este cambio. Para
cambiar el nombre de la variable bastar con que nos situemos en la casilla
correspondiente de la columna Nombre, y reemplacemos var00001 por item01.
En la columna Tipo podemos ver que SPSS asume que los datos en item01 son de
tipo numrico. Esto es as de hecho, de modo que no es necesario que cambiemos el
tipo de la variable. Revisemos, no obstante, las opciones disponibles:
Numrico.- Los datos almacenados en la variable son valores numricos, enteros o
de cualquier otro tipo.
Coma.- Datos numricos que utilizan una coma como separador de miles y un
punto como separador de decimales (en uso en pases anglosajones y en muchos
programas informticos).
Punto.- Datos numricos que utilizan un punto como separador de miles y una
coma como separador de decimales (en uso predominantemente en Europa).
Notacin cientfica.- Datos numricos en formato cientfico: Cada valor consta de
nmero, mantisa y exponente en base decimal.
Fecha.- Datos en forma de fecha. En espaa se escribe en formato: DD/MM/AA o
DD-MM-AA. En pases anglosajones, el formato es: MM/DD/AA o MM-DD-AA.
Dlar.- Datos numricos en forma de valores dinerarios en dlares. SPSS aade un
signo dlar ($) a cada valor introducido.
Moneda personalizada.- Datos numricos en forma de valores dinerarios locales
(por ejemplo, euros). Para poder hacer uso de esta opcin, debe especificarse una
moneda en el apartado Opciones, situado dentro del men de la opcin Edicin.
Cadena.- Datos no numricos. Pueden ser letras, nmeros, o una combinacin de
ambos (p. ej.: nombre, apellidos, DNI y NIF, etc.). Este tipo de datos es de uso muy
restringido en SPSS, y, salvo casos particulares, no suelen ser tiles para la
mayora de los procedimientos estadsticos. Las maysculas y minsculas se
consideran caracteres diferentes (p. ej.: ANA y ana se consideran dos datos
diferentes).
Queremos modificar item01 de forma que slo admita nmeros de un dgito y sin
decimales. Recuerde que en item01 se utilizaban valores de un solo dgito y sin
decimales, puesto que las opciones de respuesta a la pregunta Entiendo el gallego
hablado eran tres valores enteros de un dgito (1=Nada; 2=Regular; 3=Bien). Para
llevar a cabo estas modificaciones, seleccione la casilla correspondiente a esta
variable en la columna Decimales y reemplace el valor 2 por un cero; puede hacer el
cambio tecleando directamente un cero, o seleccionndolo de una lista de valores. A
continuacin, en la casilla correspondiente de la columna Anchura, reemplace el valor
8 por un 1.
Si quisisemos cambiar el tipo de una variable slo tendramos que pulsar en la
casilla correspondiente a esa variable en la columna Tipo y pulsar el botn con

28

tres puntos suspensivos que nos permite modificar el tipo, as como tambin el
nmero de dgitos y de decimales.
Veamos ahora una opcin ms avanzada para dar formato a sus datos: el etiquetado.
Una etiqueta no es ms que un trozo de texto que va asociado a una variable o a un
valor. Este trozo de texto sustituye luego a la variable o valor originales en los
listados, de modo que sean ms legibles. La mejor forma para ver la utilidad de las
etiquetas es un ejemplo prctico. Lo que vamos a hacer es etiquetar tanto la variable
item01 como los tres valores de respuesta posibles (1, 2 y 3).
Sitese sobre la casilla correspondiente a item01 en la columna Etiqueta y escriba el
texto entiendo el gallego hablado (no incluya las comillas). Ya ha etiquetado la
variable. A continuacin, sitese sobre la casilla situada inmediatamente a la derecha,
correspondiente a la columna Valores y pulse el botn con tres puntos suspensivos
que aparecer en la misma. Se encontrar el siguiente cuadro de dilogo:

Este cuadro de dilogo le permite asociar una etiqueta a cada valor de item01. En el
recuadro con la leyenda Valor debe indicar uno de los posibles valores de la variable,
y en el recuadro situado debajo, que lleva la leyenda Etiqueta de valor, debe escribir la
etiqueta correspondiente al valor. Para asociar el valor con su etiqueta debe pulsar el
botn Aadir. Ahora introduzca como valor el 1, y como etiqueta la palabra nada
(no incluya las comillas). Pulse Aadir. Aparecer la equivalencia:
1= nada

A continuacin, repita el proceso para la siguiente respuesta. En el recuadro


etiquetado Valor escriba un 2, y en el recuadro etiquetado Etiqueta de valor escriba la
palabra regular. A continuacin, pulse de nuevo Aadir. Aparecer escrita la
equivalencia:
2= regular

Repita de nuevo el procedimiento con la tercera etiqueta. Cuando termine, el cuadro


de dilogo tendr este aspecto:

29

Pulse ahora el botn Aceptar. Las etiquetas pasarn a incorporarse a la variable.


Ahora que hemos dado formato a una variable, es es el momento de aprender la
funcin de dos de los botones de la barra que est situada debajo del men.
El primer botn, que tiene un icono representando una variable acompaada de
una interrogacin, sirve para obtener rpidamente una descripcin de la variable
seleccionada. Al pulsar el botn aparecer el siguiente cuadro de dilogo:

A la izquierda aparece un recuadro con todas las variables incluidas en el archivo de


datos. Si selecciona una de ellas, en el recuadro de la derecha aparecer la descripcin
completa de la variable.
El segundo botn, que tiene un icono en forma de etiqueta, sirve para ver las
etiquetas de los valores, en lugar de los propios valores, cuando se encuentra en
el modo Vista de datos. Si selecciona la pestaa Vista de datos y pulsa este botn, en
lugar de unos, doses y treses, en la variable item01 ver las etiquetas
correspondientes: nada, regular, bien. En las otras variables continuar viendo
nmeros, puesto que no tienen etiquetas de valores asignadas. Vuelva a pulsar el
botn; la ventana de datos volver a contener slo cifras. El uso de este botn no
afecta para nada al contenido de los datos, que continan siendo nmeros, aunque
veamos etiquetas.

30

A modo de ejercicio, lo que le propongo ahora es que ponga etiquetas a todas las
variables del archivo de datos. Aunque esto pueda parecer una tarea tediosa, es de
gran ayuda para interpretar luego los listados proporcionados por el programa. Existe,
adems, una forma de aligerar el trabajo. Fjese que muchas variables usan el mismo
nmero de dgitos y decimales, e incluso las mismas etiquetas de valores. Es posible
copiar estas especificaciones de una variable a otra sin tener que escribirlas de nuevo.
Veamos cmo con un ejemplo.
Las variables var00002, var00003 y var00004 comparten muchas caractersticas con
item01. Todas ellas necesitan un solo dgito, sin decimales, y las opciones de
respuesta son las mismas que las de item01. Podemos, por consiguiente, copiar estas
especificaciones de item01 a estas variables.
Empezaremos con la informacin sobre el nmero de decimales. Para copiar esta
informacin de la variable item01, sitese con el ratn sobre la casilla correspondiente
en la columna Decimales y pulse el botn derecho de su ratn. Aparecer un pequeo
men:

Seleccione la opcin Copiar. A continuacin, sitese sobre la casilla correspondiente


de var00002 y vuelva a pulsar el botn derecho de su ratn. Seleccione ahora la
opcin Pegar. Ahora var00002 tambin tiene cero decimales. Repita esta ltima
operacin con var00003 y var00004.
A continuacin copie la informacin sobre el nmero de dgitos de item01 en la
casilla correspondiente de la columna Anchura usando el botn derecho de su ratn y
pguela en las casillas correspondientes a var00002, var00003 y var00004 en esa
misma columna.
Finalmente, copie las etiquetas de valores de item01 en la casilla correspondiente de
la columna Valores y pguelas en las casillas correrspondientes a var00002,
var00003 y var00004 en esa misma columna.
Ahora nicamente deber cambiar los nombres de las variables var00002, var00003 y
var00004 por los de item02, item03 e item04, e introducir sus etiquetas en la
columna Etiqueta. Estas caractersticas, especialmente el nombre, son especficas de
cada variable, por lo que deben introducirse individualmente.
Una vez hecho el cambio, ya est usted en condiciones de dar formato a todas las
variables de encuest.sav de forma rpida y cmoda. Un ltimo aviso: no se olvide de
que la variable var00018, que contiene los datos sobre edad de los sujetos, constituye
un caso especial. En efecto, al igual que las dems variables, es de tipo numrico sin
decimales, pero no de un dgito, sino de dos (o incluso de tres, en el caso de que
tuvisemos sujetos centenarios). Adems, esta variable no es susceptible de recibir

31

etiquetas de valores; no tendra sentido adjudicar una etiqueta a cada una de las
posibles edades.
Si ha llevado a cabo todos los cambios y todava se siente con fuerzas, puede
comprobar ahora la utilidad de todo este trabajo. Vuelva a realizar el mismo anlisis
de frecuencias que efectu en el apartado 2.9 y observe, por ejemplo, el aspecto de la
tabla de frecuencias para la variable item19 (antes var00019) que ahora se le ofrece
en el visor de resultados. Es ligeramente diferente, verdad? Ahora tiene este aspecto:
estudios

Vlidos

primarios
medios
superiores
Total

Frecuencia
4
9
7
20

Porcentaje
20.0
45.0
35.0
100.0

Porcentaje
vlido
20.0
45.0
35.0
100.0

Porcentaje
acumulado
20.0
65.0
100.0

Fjese que en la nueva tabla, en lugar del nombre de la variable (ahora item01)
aparece la etiqueta correspondiente: estudios. Del mismo modo, al lado de los tres
posibles valores de respuesta (1, 2, y 3) aparecen sus etiquetas (primarios, medios,
y superiores). Esto hace que la tabla sea mucho ms inteligible, de modo que no sea
necesario consultar un ejemplar del cuestionario para saber de qu variable se trata y
qu significa cada valor de respuesta.
El uso de etiquetas mejora la presentacin, y es muy recomendable cuando hagamos
presentaciones de nuestros datos tales como tablas, distribuciones de frecuencias o
grficos. En otro tipo de anlisis estadsticos, su utilidad es mucho ms limitada.
Antes de dar por terminada esta larga sesin, le recomiendo que guarde los resultados
en un archivo. Utilice los mens o el icono con el botn que representa un diskette. En
el cuadro de dilogo, que es semejante al que ya vio en el apartado 2.9, dele al nuevo
archivo el nombre encuest. Aparecer un mensaje de SPSS advirtindole de que el
archivo ya existe y si quiere sobreescribirlo. Esto se debe a que le ha dado el mismo
nombre que al archivo de resultados que guardamos en aquella sesin. Recuerde que
el archivo encuest.spo antiguo contiene los mismos resultados que el actual. Sin
embargo, el nuevo listado contiene las etiquetas y es, por tanto, ms completo que el
anterior. Acepte sobreescribir el archivo.
Ahora ya puede dar por finalizada esta sesin y salir de SPSS.

4. Transformacin de las Variables

En esta nueva sesin usted aprender a realizar transformaciones, a modificar sus


datos, o a crear datos a partir de otros preexistentes. Daremos inicio a la sesin, como
siempre, abriendo el archivo de datos encuest.sav.
32

4.1. Cmo recodificar las variables


A veces puede ocurrir que, habiendo creado un archivo de datos, nos interese cambiar
la codificacin de alguna de las variables. Para verlo claramente basta con un ejemplo.
Considere la variable item18 (antes var00018), que contiene los datos sobre la edad
de los sujetos. Si estuvisemos interesados en estudiar las diferencias entre jvenes y
adultos, o entre adultos de distintas edades, sera complicado hacerlo con los datos
originales. Lo que tendramos que hacer es crear distintos grupos en funcin de la
edad. Una posible agrupacin podra ser la siguiente:
1.
2.
3.
4.

Grupo 1: 25 aos o menos.


Grupo 2: 26 a 35 aos.
Grupo 3: 36 a 50 aos.
Grupo 4: 51 aos o ms.

Para ello tendramos que recodificar item18 de forma que asignaramos a todos los
sujetos comprendidos entre
16 y 25 aos, el nmero 1,
26 y 35 aos, el nmero 2,
36 y 50 aos, el nmero 3,
51 y 65 aos, el nmero 4.
Llevar a cabo esta recodificacin es realmente sencillo en SPSS. Incluso hay dos
formas distintas de hacerla. En la primera forma, la variable original se conserva y se
crea una nueva con los valores recodificados. En la segunda forma, la variable original
misma es recodificada. Mi consejo es que haga las recodificaciones siempre de la
primera forma; de este modo, no perder nunca datos originales. De todos modos,
veremos ambos procedimientos.
4.1.1. Recodificacin en distinta variable

Para recodificar la variable item18, seleccione la opcin Transformar y, en el men


que se despliega, la opcin Recodificar. A la derecha, aparecen dos opciones:

Seleccione ahora la segunda opcin. Aparecer el siguiente cuadro de dilogo:

33

Al igual que en otros cuadros de dilogo de SPSS, a la izquierda se le ofrece una lista
de las variables existentes en el archivo de datos. Seleccione item18 (Edad) y luego
pulse el botn con forma de flecha que se encuentra a la derecha de la lista. De este
modo, item18 figurar en el recuadro siguiente como variable de entrada. A la derecha
tiene usted dos recuadros para introducir la variable de resultado, esto es, la variable
donde se almacenarn los datos sobre edad de los sujetos una vez recodificados. En el
primer recuadro debe escribir el nombre de la nueva variable (p. ej.: edad2) y en el
segundo puede asignarle una etiqueta (p. ej.: nueva edad). A continuacin, pulse el
botn Cambiar; de este modo, edad2 pasar a ser la variable de salida.
Una vez especificadas la variable origen y destino (item18 y edad2, respectivamente),
es necesario indicar cmo se va a llevar a cabo la recodificacin. Observe los dos
botones que se encuentran en la parte central del cuadro de dilogo, etiquetados Si y
Valores antiguos y nuevos. El primero de ellos puede utilizarse para indicar una
recodificacin condicional (p. ej.: aplicar slo si el sujeto es hombre). Nosotros no
queremos especificar ninguna condicin, sino recodificar la variable item18 para
todos los sujetos; por tanto, no utilizaremos en esta sesin el botn Si. En cuanto al
botn etiquetado Valores antiguos y nuevos, se utiliza para indicar qu valores en la
variable antigua (item18), van a ser reemplazados por qu valores en la variable nueva
(edad2). Pulse este ltimo botn. Aparecer el siguiente cuadro de dilogo:

34

A la izquierda del recuadro aparecen las opciones a aplicar a los valores antiguos. A la
derecha, se encuentran las opciones a aplicar al nuevo valor. Para cada recodificacin
que se haga hay que especificar ambas opciones.Veamos primero las opciones para
valores antiguos:
Valor: Convierte un valor antiguo determinado en un valor nuevo.
Perdido por el sistema: Convierte un dato perdido por el sistema en la variable
antigua en un valor nuevo.
Perdido por el sistema o usuario: Convierte un dato perdido por el sistema o por el
usuario, en la variable antigua, en un valor nuevo.
Rango: Convierte un rango de valores en la variable antigua en un slo valor en la
variable nueva. Hay tres formas de rangos: los que van de un valor determinado a
otro, los que van del menor valor a otro, y los que van de un valor determinado
hasta el mayor.
Todos los dems valores: Convierte todos aquellos valores de la variable antigua
que no fueron definidos previamente, en un mismo valor en la variable nueva.
En el recuadro de la derecha especificaremos el valor nuevo correspondiente para cada
uno de los antiguos seleccionados. Tenemos tres opciones: podemos especificar un
valor determinado, o bien convertirlo en un valor perdido por el sistema o, finalmente,
copiar el valor antiguo tal como estaba.
Por ltimo, y en la parte inferior derecha del cuadro de dilogo, aparecen dos opciones
a utilizar cuando recodificamos una variable cuyos datos son cadenas de caracteres en
una variable numrica, o viceversa. Este tipo de situaciones no se da habitualmente en
las recodificaciones y no se da, de hecho, con nuestros datos, por lo que no
comentaremos estas opciones.
Veamos cmo llevaramos a cabo la recodificacin de item18 en edad2. Siguiendo la
filosofa de SPSS, podramos resumir nuestras intenciones con el siguiente esquema:

35

Valores antiguos (variable item18)

se convierten en...

Valores nuevos (variable edad2)

hasta 25 aos
desde 26 hasta 35 aos
desde 36 hasta 50 aos
desde 51 aos en adelante

1
2
3
4

Procederemos a crear estos cuatro grupos de edad en edad2 siguiendo este mismo
orden. Para crear el primer grupo, debemos seleccionar, en el recuadro destinado al
valor antiguo un rango de edades que vaya desde el sujeto ms joven hasta los sujetos
de 25 aos. Seleccione, por tanto, el rango que lleva escrito debajo la leyenda Del
menor hasta. Aparecer marcado con un punto negro. Ahora haga clic sobre el
recuadro situado a la derecha de la leyenda y teclee el nmero que marca el lmite
superior del rango (25). Acto seguido, en el recuadro destinado al valor nuevo teclee
el valor correspondiente (1) en la variable edad2. Luego pulse el botn que lleva la
etiqueta Aadir. En el recuadro situado a la derecha del botn, y en el que figura la
leyenda Antiguo Nuevo aparecer la siguiente expresin:
Lowest thru 25 1

Lo que significa esta expresin es que los valores de item18 que vayan desde el ms
pequeo hasta 25 (lowest thru 25) se convertirn todos ellos en el valor 1 en edad2.
Pasemos al segundo grupo, que incluye a los sujetos de edades comprendidas entre 26
y 35 aos. En el recuadro destinado al valor antiguo, seleccione el rango de edades
que contiene dos recuadros separados por la leyenda hasta. En el primer recuadro
escriba el lmite inferior del rango (26), y en el segundo recuadro, el lmite superior
(35). A continuacin, en el recuadro destinado al valor nuevo, teclee el valor
correspondiente (2) en edad2. Pulse ahora el botn etiquetado Aadir. Aparece una
nueva expresin:
26 thru 35 2

Esta expresin nos viene a indicar que los valores de item18 que vayan desde 26 hasta
35 se convertirn todos ellos en el valor 2 en edad2.
El tercer grupo incluye a los sujetos entre 36 y 50 aos. Seleccione este rango en el
recuadro destinado al valor antiguo del mismo modo que lo hizo para el segundo
grupo. En el recuadro correspondiente al valor nuevo, escriba un 3. Pulse otra vez el
botn Aadir. Ya tiene la tercera expresin:
36 thru 50 3

Y vamos a finalizar con el cuarto grupo. ste incluye a los sujetos de 51 aos o ms.
Por tanto, en el recuadro destinado al valor antiguo seleccione el rango que lleva
escrita la leyenda hasta el mayor. En el recuadro situado a la izquierda de la leyenda
teclee el lmite inferior del rango (51). En el recuadro correspondiente al valor nuevo,
escriba un 4. Pulse una vez ms el botn Aadir. Y esta es la cuarta expresin:
51 thru highest 4

36

Una vez creados los cuatro grupos de edad, el cuadro de dilogo debe tener este
aspecto:

Pulse ahora el botn Continuar. Volver al cuadro de dilogo inicial del


procedimiento de recodificacin. Pulse el botn Aceptar. SPSS crear la variable
edad2 al final del archivo de datos. Puede comprobarlo desplazndose hacia la
derecha; ver que edad2 se encuentra a continuacin de item20, la variable
correspondiente al ltimo tem del cuestionario. Como ejercicio prctico, puede dar
formato a edad2 aadindole las etiquetas correspondientes a los valores 1, 2, 3, y 4,
que son las siguientes:
1.
2.
3.
4.

hasta 25 aos.
de 26 a 35 aos.
de 36 a 50 aos.
ms de 50 aos.

4.1.2. Recodificacin en la misma variable

Veamos ahora cmo haramos esta misma recodificacin sin utilizar una variable
nueva. Recuerde que la recodificacin en la misma variable elimina totalmente la
informacin contenida originalmente en la misma. Por tanto, si alguna vez efecta una
recodificacin en sus datos, le aconsejamos que lo haga siempre en otra variable
distinta de la original.
Vuelva a selecicionar la opcin Transformar y, en el men que se despliega, la opcin
Recodificar. A la derecha, aparecen las dos opciones que ya conoce:

Seleccione ahora la primera opcin. Aparecer el siguiente cuadro de dilogo:

37

Este cuadro de dilogo es ms sencillo que el que vimos en el apartado 4.1.1. Usted
simplemente tiene que especificar la variable o variables a recodificar (en este caso
item18). Una vez hecho esto, puede usar los botones Si y Valores antiguos y nuevos
que ya conoce. El cuadro de dilogo que aparece es muy similar al que ya vio en el
apartado 4.1.1:

El procedimiento a seguir con la recodificacin es el mismo que ya vio en el apartado


anterior, as que no lo comentaremos. Puede hacer la recodificacin si as lo desea,
pero recuerde: perder la variable item18 tal y como era originalmente (datos brutos
sobre edad), y deber asignar etiquetas de valores a item18 una vez la haya
recodificado, puesto que ahora s ser susceptible de recibir dichas etiquetas.
4.2. Cmo crear nuevas variables
Una vez que hemos creado un archivo de datos, nos puede interesar realizar
transformaciones para algunas variables. Por ejemplo, en algunos anlisis estadsticos se
transforman las variables en logaritmos para garantizar el cumplimiento de ciertos
supuestos. En otros casos, nos puede interesar sumar dos (o ms) variables, as como

38

tambin muchas otras transformaciones. SPSS para Windows permite gran variedad de
transformaciones. La principal distincin entre los distintos tipos de transformaciones
posibles es la que se hace entre transformaciones incondicionales y transformaciones
condicionales. En el caso de las transformaciones incondicionales, se crea una nueva
variable a partir de otra u otras variables. En las transformaciones condicionales, cada
transformacin tiene lugar slo si se cumplen determinadas condiciones. A
continuacin, vamos a ver ejemplos de ambos tipos de transformaciones.
4.2.1. Transformaciones incondicionales

Veamos primero un ejemplo de transformacin incondicional. Lo que se pretende es


transformar la variable item01 de la encuesta sociolingstica, cuyos datos estaban
almacenados en encuest.sav, en logaritmos neperianos. Recuerde que los logaritmos
neperianos tienen como base el nmero e (2.718281), y es el tipo de logaritmo ms
utilizado en estadstica. Recuerde tambin que el logaritmo (neperiano) para un nmero
dado es el valor del exponente al que hay que elevar 2.718281 para obtener dicho
nmero. Considrese, a modo de ejemplo, que estuvisemos interesados en conocer el
exponente en la siguiente expresin:
exp

2.718281

= 3.

El exponente (desconocido) es precisamente el logaritmo (neperiano) de 3. Si usted coge


ahora una calculadora manual, pulsa el nmero 3 y, a continuacin, la funcin del
logaritmo neperiano (probablemente representado por ln) obtendr el valor 1.0986123,
que es precisamente el valor del exponente en la expresin anterior.
A continuacin se ofrece el logaritmo neperiano para algunos valores numricos:
Valores numricos
0.1
0.5
1
2
3
50
100
1000

Concepto
exp
2.718281 =0.1
exp
2.718281 =0.5
exp
2.718281 =1
exp
2.718281 =2
exp
2.718281 =3
exp
2.718281 =50
exp
2.718281 =100
exp
2.718281 =1000

Exp (ln)
-2.302585
0.693147
0.000000
0.693147
1.098612
3.912023
4.6051702
6.9077553

Para realizar esta transformacin en item01, seleccione la opcin Transformar y, en el


men que se despliega a continuacin, la opcin Calcular. Aparecer el siguiente cuadro
de dilogo:

39

El cuadro de dilogo contiene todas las opciones para realizar gran cantidad de
transformaciones sobre una o ms variables y almacenar el resultado en otra variable.
Esa nueva variable, o variable destino, debe especificarse en el recuadro etiquetado
Variable de destino. Puesto que nuestra variable ser el logaritmo neperiano de item01,
escribiremos en el recuadro lnitem01. Una vez puesto el nombre a la variable destino,
puede pulsar el botn etiquetado Tipo y etiqueta para especificar el tipo y la etiqueta de
esta nueva variable. El tipo que viene asignado por defecto es numrico, por tanto, no es
necesario modificarlo. Como etiqueta de la variable, puede escribir logaritmo
neperiano de item01.
A la derecha de la variable destino se encuentra un signo igual (=) y el recuadro donde
especificaremos la transformacin a realizar, etiquetado como Expresin numrica. Para
completar esta expresin numrica de la transformacin, tenemos otros tres recuadros
con distintos elementos:
1. En la zona izquierda, un recuadro que contiene, en orden alfabtico, la lista de
variables existente en el archivo de datos. Esta lista nos sirve para incluir
transformaciones realizadas a partir de cualquiera de estas variables.
2. En el centro, una consola para clculo, con un conjunto de botones que permiten
representar nmeros y realizar operaciones aritmticas como sumas (+), restas (-),
divisiones (/), o exponenciaciones (**). Tambin pueden especificarse operaciones
lgicas como igual que (=), menor que (<), menor o igual que (), distinto a
(~=), y los operadores lgicos AND (&), OR (), y NOT (~) con los elementos
involucrados en la transformacin.
3. A la derecha, un recuadro con una larga lista, ordenada alfabticamente, de
funciones disponibles en SPSS. El logaritmo neperiano es slo una funcin ms que
incorpora SPSS. De entre las muchas otras funciones que usted puede utilizar para
hacer transformaciones, le sealo las siguientes:

40

Funciones
SQRT
LN
LG10
RND
ABS
SIN
COS

Significado
Raz cuadrada
Logaritmo neperiano (base
2.718281)
Logaritmo decimal (base 10)
Redondear
Valor absoluto
Seno
Coseno

En el cuadro de dilogo tambin disponemos de un botn Si, destinado a la


especificacin de condiciones. Pero no vamos a ver por ahora su funcionamiento, puesto
que estamos trabajando en transformaciones incondicionales. Veamos, pues, los pasos a
dar para obtener una variable que contenga los logaritmos neperianos de los valores
originales de item01.
Seleccione la funcin de transformacin que va a utilizar, que ser la etiquetada en el
cuadro de funciones, como LN(expr_num). La palabra expr_num encerrada entre
parntesis significa que debe indicar una variable o expresin numrica a la que se
aplicar el logaritmo neperiano. Para incluir esta funcin , pulse el botn que representa
una flecha apuntando hacia arriba, y que se encuentra justo sobre el recuadro que
contiene las funciones. En el recuadro etiquetado Expresin numrica aparecer la
siguiente expresin:
LN(?)

Con el signo de interrogacin (?) en vdeo inverso. Este signo nos indica que falta por
indicar a quin se le aplicar el logaritmo neperiano que va a almacenarse en lnitem01.
Ahora seleccione, en el recuadro de la izquierda, que contiene la lista de variables, la
variable item01. A continuacin pulse el botn que representa una flecha apuntando
hacia el lado derecho y que se halla a la derecha de este recuadro. La expresin quedar
as:
LN(item01)

Pulse ahora el botn Aceptar. SPSS crear la variable lnitem01. Observe que usted ya
puede saber cules van a ser los valores de lnitem01, despus de la transformacin.
Dado que los valores de item01 eran el 1 (que significaba nada) el 2 (que significaba
regular) y el 3 (que significaba bien), lnitem01 aparecern, en lugar de 1, 2 y 3, sus
logaritmos neperianos que son, respectivamente:
1
2
3

0.0000000,
0.6931471,
1.0986123.

Puede comprobar esto llevando a cabo un anlisis de frecuencias de lnitem01. Si no


recuerda el procedimiento, puede revisarlo en el apartado 2.8. Obtendr la siguiente
tabla de frecuencias:

41

logaritmo neperiano de item01

Vlidos

.00
.69
1.10
Total

Frecuencia
1
4
15
20

Porcentaje
5.0
20.0
75.0
100.0

Porcentaje
vlido
5.0
20.0
75.0
100.0

Porcentaje
acumulado
5.0
25.0
100.0

Observe la primera columna de la tabla. En lugar del valor 1, est su logaritmo


neperiano ,00; en lugar del valor 2 est su logaritmo neperiano ,69 (los dos primeros
decimales de 0,6931471); y en lugar del valor 3, est su logaritmo neperiano 1,10 (1,10
se consigue redondeando 1,0986123 a dos decimales). Recuerde que los valores de las
variables creadas tienen, por defecto, dos decimales. Si desea ver ms decimales, debe
cambiar el tipo de la variable del mismo modo que vio ya en el apartado 3.1. Veamos
ahora otro tipo de transformaciones incondicionales que podemos llevar a cabo con
nuestros datos.
Con frecuencia ocurre que se desean hacer transformaciones de las variables existentes
en el archivo de datos que no se corresponden con ninguna de las funciones
incorporadas en el sistema. Por ejemplo, nos podra interesar crear una nueva variable
(item21) que fuera la suma de las variables item01 e item02; es decir,
item21=item01+item02
Para hacer esta transformacin tambin podemos utilizar el procedimiento anterior.
Vuelva a seleccionar la opcin Transformar y, en el men que se despliega, la opcin
Calcular. Aparecer de nuevo el cuadro de dilogo que vio anteriormente. Quiz se
sorprenda al encontrar todava escritas las especificaciones que dio para la
transformacin anterior. Esto se debe a que SPSS guarda las especificaciones dadas por
ltima vez para cada procedimiento. De este modo, resulta ms fcil hacer
modificaciones sobre un procedimiento dado. En nuestro caso, vamos a iniciar un
procedimiento de transformacin diferente al anterior; por lo tanto, borre el contenido de
los recuadros etiquetados como Variable de destino y Expresin numrica. Una vez
haya dejado ambos recuadros en blanco, podemos continuar con la nueva
transformacin.
En el recuadro correspondiente a Variable de destino escriba el nombre de la nueva
variable, item21. Acto seguido, en el recuadro situado inmediatamente debajo, el que
contiene la lista de variables del archivo de datos, seleccione item01; a continuacin,
pulse el botn que representa una flecha apuntando hacia la derecha. La variable item01
aparecer en el recuadro Expresin numrica. En el recuadro central, que contiene los
botones destinados a operaciones aritmticas y lgicas, seleccione el botn que
representa el signo de suma (+). Finalmente, en el recuadro de la izquierda, seleccione
ahora la variable item02 y vuelva a pulsar el botn que apunta hacia la derecha. Una vez
hecho esto, el cuadro de dilogo tendr el siguiente aspecto:

42

Pulse ahora el botn Aceptar. Se crear una nueva variable, item21, al final del archivo
de datos. Los valores de esta nueva variable oscilarn entre un valor mnimo de 2 (en el
caso de que tanto item01 como item02 valgan 1) a un mximo de 6 (en el caso de que
tanto item01 como item02 valgan 3). Esta nueva variable indicara, por tanto, en una
escala de 2 a 6, el grado de conocimiento de los sujetos, tanto del gallego hablado como
del gallego escrito, que son los tems correspondientes a item01 e item02.
Tal como se podr imaginar, habr situaciones en que a usted como usuario le interese
realizar transformaciones donde tenga que utilizar varios operadores. Por ejemplo, si
deseramos crear una nueva variable (p. ej.: item22) que fuera la media aritmtica de
item01 e item02, tendramos que utilizar dos operadores en la transformacin, el
operador de la suma (+) y el operador de la divisin (/). Adems, los operadores pueden
combinarse con las funciones incorporadas. Por ello, es necesario tener en cuenta cul es
la preferencia que el sistema tiene incorporada para estas operaciones. A continuacin se
ofrecen estas preferencias:
Preferencia
1
2
3
3
4
4

Operador
Funciones
Exponenciacin
Divisin
Multiplicacin
Resta
Suma

Smbolo
Ver tabla anterior
**
/
*
+

Se observa en esta tabla que las funciones tienen preferencia 1; por tanto, sern las
primeras que se realicen. A continuacin vendra la exponenciacin (preferencia 2). En
tercer lugar est la divisin y la multiplicacin (preferencia 3). Cuando tengamos una
transformacin con una divisin y una multiplicacin, el sistema realizar en primer
lugar la operacin situada a la izquierda y, luego, la situada a la derecha. Algo similar
ocurre con la preferencia de la resta y la suma. Si se desea "romper" este orden de
preferencias deben usarse parntesis. Por ejemplo, si desesemos realizar antes una
suma que una multiplicacin, debemos escribir la operacin de sumar entre parntesis y
sta se realizar antes que la multiplicacin.

43

Para comprender esto ltimo, considrese la transformacin consistente en crear una


variable (p. ej.: item22) tal que sea la media (aritmtica) de item01 e item02. Para hallar
la media aritmtica debemos sumar item01 e item02 y dividir, luego, entre 2. Si sta
transformacin la expresamos as:
item22=item01+item02/2
lo que hara el programa es
1. Dividir item02 entre 2,
2. Sumarle al resultado anterior item01.
Obviamente el resultado no sera la media aritmtica. Lo que deseamos nosotros es
sumar primero item01 e item02 y, luego, dividir la suma entre 2. Para conseguir esto
deberamos escribir:
item22=(item01+item02)/2
Procediendo as "rompemos" el orden de preferencias establecido en el sistema y
realizamos primero la suma y luego la divisin.
4.2.2. Transformaciones condicionales

Vamos ahora a ver el uso que podemos hacer del botn Si, que nos permite realizar
transformaciones condicionales. A efectos prcticos, la utilidad de este botn est en que
permite realizar transformaciones para subgrupos de sujetos. Recuerde que hasta ahora
hemos utilizado la opcin Calcular de forma incondicional. Una vez que se define la
transformacin se realiza para todos los sujetos. Para comprender mejor la funcin de Si
suponga que estamos interesados en crear una nueva variable (item23) en la que
desesemos incluir los cuatro subgrupos de sujetos siguientes:
1.
2.
3.
4.

Hombres jvenes,
Hombres adultos,
Mujeres jvenes,
Mujeres adultas.

Supongamos que la edad que establece el lmite entre lo que sera un sujeto joven y un
sujeto adulto son 25 aos. De este modo, los cuatro subgrupos de sujetos que deseamos
crear deberan tener estas caractersticas:
Grupo 1: Valor 1 en item17 y valor igual o menor a 25 en item18.
Grupo 2: Valor 1 en item17 y valor mayor de 25 en item18.
Grupo 3: Valor 2 en item17 y valor igual o menor a 25 en item18.
Grupo 4: Valor 2 en item17 y valor mayor de 25 en item18.
Veamos cmo crearamos item23 de modo que obtuvisemos esta clasificacin de los
sujetos. En primer lugar, seleccione la opcin Transformar y, en el men que se
despliega a continuacin, elija la opcin Calcular. Aparecer el cuadro de dilogo que
44

ya conoce bien. Borre las especificaciones correspondientes tanto a Variable de destino


como a Expresin numrica, puesto que vamos a hacer algo distinto. La variable destino
ser ahora item23. Escriba este nombre en Variable de destino. Si lo desea, puede dar
una etiqueta a la variable pulsando el botn etiquetado Tipo y etiqueta. Como etiqueta
podra incluir el texto: subgrupos por edad y sexo. Ahora, en el recuadro Expresin
numrica escriba un 1, el primer valor que adoptar item23. Pulse ahora el botn Si.
Aparecer el siguiente cuadro de dilogo:

Observe que este nuevo cuadro de dilogo tiene mucho en comn con el cuadro de
dilogo correspondiente a Calcular. Aparecen: a la izquierda una lista ordenada de las
variables en nuestro archivo de datos; en el centro, la misma consola de clculo; a la
derecha, la misma lista de funciones. En la parte superior aparecen dos alternativas:
Incluir todos los casos
Incluir si el caso satisface la condicin:
Bajo la primera alternativa no es posible especificar condiciones, as que seleccione la
segunda. Tanto la lista de variables como la consola de clculo y la lista de funciones se
harn operativas. Recuerde ahora las condiciones que deban cumplir simultneamente
los sujetos para obtener el valor 1 en item23. stas eran:
1. Valor 1 en item17.
2. Valor menor o igual a 25 en item18.
Vamos con la primera de las condiciones. Seleccione item17 en la lista de variable y
pulse el botn que representa una flecha apuntando hacia la derecha. A continuacin, en
la consola de clculo, pulse, en este orden, los botones que representan el signo igual (=)
y el nmero uno (1). El recuadro Expresin numrica mostrar la siguiente expresin:
item17 = 1

Pasemos ahora a la segunda de las condiciones. Seleccione, en la consola de clculo, el


botn que representa el operador lgico AND (&). A continuacin, seleccione item18
45

en la lista de variable y vuelva a pulsar el botn con la flecha apuntando hacia la


derecha. Finalmente, en la consola de clculo, pulse en este orden, los botones que
representan el signo menor o igual (<=) y los nmeros dos y cinco (25). En este
momento el cuadro de dilogo tendr este aspecto:

Detngase ahora. Fjese que la expresin contiene el operador lgico AND (&), que no
haba utilizado hasta ahora. Veamos la funcin de los tres operadores lgicos de que
disponemos en SPSS:
Operador AND (&). Significa y. Sirve para enlazar condiciones que deben
cumplirse simultneamente (p. ej.: ser hombre y menor de 26 aos).
Operador OR (). Significa o. Sirve para enlazar condiciones, de las cuales al
menos una debe cumplirse (p. ej.: tener estudios medios o superiores).
Operador NOT (~). Significa no. Sirve para negar condiciones. Es cierto cuando no
se cumple la condicin (p. ej.: no ser funcionario).
Continuemos ahora con la creacin de item23. Para que la primera condicin surta
efecto, pulse el botn Continuar. El cuadro de dilogo de Calcular tendr ahora este
aspecto:

46

Ahora ya tenemos la expresin completa. Podemos leerla de la siguiente forma: item23


(Variable de destino) vale 1 (Expresin numrica) siempre que (Si) item17 valga 1 y
adems item18 sea menor o igual a 25. Pulse ahora el botn Aceptar. SPSS crear la
variable item23. Si observa la variable en la ventana de datos, descubrir que no
contiene ningn dato. Esto se debe a que no existe ningn hombre joven en nuestra
muestra. No importa; pasemos a la segunda condicin.
Seleccione de nuevo la opcin Transformar y, a continuacin, la opcin Calcular. El
cuadro de dilogo aparecer exactamente como lo dej. En el recuadro Expresin
numrica borre el 1 y reemplcelo por un 2. Luego pulse el botn Si. Se encontrar con
que este cuadro de dilogo tambin est exactamente como lo dej por ltima vez. La
condicin contina siendo
item17 = 1 & item18 <= 25

La condicin asociada con el valor 2 en item23 era que el sujeto fuese hombre y la edad
fuese mayor de 25 aos. Por tanto, lo nico que usted tiene que cambiar en la condicin
es el signo menor o igual (<=) y reemplazarlo por el signo mayor que (>). Pulse
luego el botn Continuar. El cuadro de dilogo de Calcular deber tener este aspecto:

47

Del mismo modo que hicimos con la expresin anterior, podemos leer la
correspondiente al valor 2 de la siguiente forma: item23 (Variable de destino) vale 2
(Expresin numrica) siempre que (Si) item17 valga 1 y adems item18 sea mayor que
25. Pulse ahora el botn Aceptar. Aparece un aviso del programa:

Este aviso nos indica que va a modificarse item23. Si pulsa el botn Aceptar, la
condicin especificada se llevar a efecto; si pulsa el botn Cancelar, no se har
efectiva. La razn de este aviso es que sea usted consciente de que va a modificar de
alguna forma item23, y es un aviso especialmente oportuno en el caso de que est
especificando condiciones que se solapen unas con otras. Por ejemplo, si la primera
condicin fue que item23 vale 1 si los sujetos son hombres y de 25 aos o menos, los
sujetos que cumplan ambas condiciones recibirn un 1. Pero si la segunda condicin
fuese que item23 vale 2 si los sujetos son hombres y mayores de 23 aos, habr un
grupo de hombres menores de 25 aos (aquellos que tengan ms de 23 aos) que vern
cambiado el 1 que les fue asignado inicialmente en item23 por un 2, que les viene
asignado por la nueva condicin. Por esto es muy importante, a la hora de especificar
condiciones, el que stas sean mutuamente excluyentes (es decir, que un mismo sujeto
no se pueda ver afectado por dos o ms de ellas) y que sean exhaustivas (es decir, que no
haya ningn sujeto al que no le afecte ninguna condicin). En este caso, las condiciones
especificadas son mutuamente excluyentes y tambin exhaustivas, por lo que puede
pulsar el botn Aceptar. Fjese que ahora aparece una puntuacin con el valor 2 en
item23. Corresponde al nico hombre de la muestra, que tiene 38 aos.

48

Ahora ya puede especificar usted sin ayuda las condiciones correspondientes a los
valores 3 y 4 en item23. No obstante, por si tuviese alguna dificultad, le recuerdo la
forma que deben tener las dos condiciones restantes:
Valor 3: item17=2 & item18 <= 25
Valor 4: item17=2 & item18 > 25
4.3. Cmo seleccionar sujetos
Existen situaciones en que al usuario le interesara realizar clculos solamente para
ciertos subgrupos de sujetos. Por ejemplo, en el estudio sociolingstico podramos estar
interesados en realizar la distribucin de frecuencias slo para el subgrupo de mujeres
estudiantes. La forma en que SPSS para Windows realiza la seleccin de los sujetos es
mediante un marcado selectivo, de modo que slo los sujetos seleccionados entren a
formar parte de los anlisis. Veamos cmo podemos seleccionar al subgrupo de mujeres
estudiantes para un anlisis en SPSS.
Seleccione la opcin Datos y, en el men que se despliega a continuacin, seleccione la
opcin Seleccionar casos.
Tambin puede utilizar el botn Seleccionar casos.
Efectuando cualquiera de las dos operaciones anteriores aparecer el cuadro de dilogo
para la seleccin de casos (el equivalente a sujetos en SPSS):

Fjese en que la opcin por defecto es que todos los sujetos estn seleccionados. No
obstante, hay una serie de alternativas presentes. Vemoslas una por una:

49

Todos los casos. Se tiene en cuenta a la muestra completa de sujetos.


Si se satisface la condicin. Se seleccionarn aquellos sujetos que cumplan una
determinada condicin. Para especificar la condicin, se utiliza el botn Si.
Muestra aleatoria de casos. Se selecciona una muestra aleatoria de casos extraida a
partir de la muestra de datos original. Esta muestra puede ser un porcentaje de la
muestra total (p. ej.: el 20%) o un nmero fijo determinado por el usuario (p. ej.: 4
sujetos).
Basndose en el rango del tiempo o de los casos. El usuario especifica un rango
determinado de sujetos indicando donde empieza y dnde termina (p. ej.: del sujeto
n 10 al sujeto n 13).
Usar variable de filtro. Se utilizar una variable binaria (con unos o ceros como
nicos valores) para indicar qu sujetos sern seleccionados (los que tengan unos) y
qu sujetos no sern seleccionados (los que tengan ceros). La variable debe
introducirse en el recuadro situado debajo de la leyenda.
Por ltimo, en la parte inferior, existen dos alternativas aplicables a los sujetos que no
han sido seleccionados. stos pueden ser simplemente filtrados, lo que significa que
pueden volver a ser utilizados deshaciendo la seleccin efectuada; de forma alternativa,
los sujetos no seleccionados pueden ser eliminados permanentemente del archivo de
datos.
En el caso que nos ocupa deseamos seleccionar a aquellos sujetos que cumplen una
determinada condicin (ser mujeres y estudiantes); por tanto, debemos seleccionar la
alternativa que selecciona slo a aquellos sujetos que satisfacen una condicin. A
continuacin, pulse el botn Si.
Dado que los sujetos son seleccionados en funcin de que cumplan o no una condicin,
el cuadro de dilogo para seleccin de casos es muy parecido al que vimos para las
transformaciones condicionales: disponemos igualmente de una lista de variables, de
una consola de clculo, y de una lista de funciones aplicables. Vamos ahora a especificar
la condicin, que podra resumirse del siguiente modo:
item17 = 2 & item20 = 1
Usted ya sabe lo que significa la expresin anterior: los sujetos deben ser mujeres
(item17=2) y adems (&) deben ser estudiantes (item20=1). Introduzca esta expresin
del modo que ya conoce. El cuadro de dilogo debe quedar de este modo:

50

Pulse ahora el botn Continuar. A continuacin, pulse el botn Aceptar en el cuadro de


dilogo de seleccin de casos. Ocurrirn varias cosas interesnates en su ventanta de
datos: Desplcese hacia la derecha en la lista de variables y se encontrar algo parecido a
esto:

Observe, en primer lugar, que, salvo para los sujetos 4, 9 y 11, el botn que contiene el
nmero de orden de los sujetos aparece tachado. Cuando el botn correspondiente a un
sujeto aparece tachado, esto significa que ese sujeto no ha sido seleccionado Qu
ocurre, pues, con los sujetos 4, 9 y 11? Estos sujetos son mujeres estudiantes (vea las
columnas correspondientes: item17 e item20) y, por tanto, s estn seleccionados. Si

51

solicita ahora un anlisis de frecuencias, observar que la muestra que aparece en los
listados consta ahora de slo 3 sujetos, los sujetos 9 y 11, en lugar de los 20 sujetos que
existen realmente en el archivo de datos. Fjese ahora en la ltima variable, que tiene el
extrao nombre de filter_$. Usted no ha creado esta variable; la ha creado SPSS
despues de que usted efectu una seleccin dentro de la muestra de sujetos. La funcin
de la variable filter_$ es la de contener la informacin sobre qu sujetos estn
seleccionados y qu sujetos no lo estn. A los primeros se les asigna un 1 en filter_$ y a
los segundos, se les asigna un 0. Todos los sujetos, menos el n 4, el n 9 y el n 11,
tienen un 0 en la casilla correspondiente de filter_$. Los sujetos 4, 9 y 11, por su parte,
tienen un 1 en su casilla.
Qu ocurre si ahora quiere volver a utilizar la muestra completa de 20 sujetos? No hay
ningn problema. Simplemente vuelva a seleccionar la opcin Datos y, a continuacin,
la opcin Seleccionar casos. Ahora seleccione la opcin Todos los casos que aparece en
primer lugar en el cuadro de dilogo. La variable filter_$, aunque contina presente,
dejar de estar en efecto, y todos los sujetos volvern a ser seleccionados. Si ms
adelante vuelve a efectuar alguna seleccin, el resultado volver a almacenarse en
filter_$.
Pruebe ahora usted solo a hacer alguna seleccin de sujetos basado en un criterio
distinto al condicional como, por ejemplo, un porcentaje de sujetos extraidos
aleatoriamente de la muesra de 20 original, o seleccionar un rango de casos
determinado. Observe los cambios que se operan en la ventana de datos. Finalmente,
vuelva a dejar el archivo de datos de modo que puedan volverse a utilizar todos los
sujetos.
Un procedimiento alternativo al de la seleccin de sujetos consiste en segmentar el
archivo en varios grupos distintos (p. ej.: hombres y mujeres). De este modo es posible
comparar los resultados de los anlisis efectuados para cada grupo, o llevar a cabo
simplemente los anlisis de forma separada para cada grupo.
El botn Segmentar archivo le permite segmentar el archivo en varios grupos, en
base a una variable de agrupacin
4.4. Cmo clasificar a los sujetos por orden en una o ms variables
El lugar que ocupan los sujetos en el archivo de datos viene determinado, por defecto,
por el orden en que fueron introducidos en el mismo. No obstante, en ocasiones es
posible que usted desee ordenar a los sujetos en base a algn otro criterio (edad, sexo,
etc.). En SPSS es posible ordenar los sujetos, en orden ascendente o descendente, en
base a los valores obtenidos en una o ms variables. Si utilizamos una sola variable, los
sujetos sern ordenados en funcin de los valores numricos o alfanumricos obtenidos
en la misma. si utilizamos dos o ms variables, aquellos sujetos que obtengan la misma
puntuacin en la primera variable de ordenacin sern ordenados, a su vez, en funcin
de los valores obtenidos en la segunda variable de ordenacin. Si persistiesen los
empates, stos seran ordenados en funcin de una tercera variable de ordenacin, y as
sucesivamente.

52

Imagine que est usted interesado en ordenar a nuestros 20 sujetos en funcin de su


respuesta a item01, su capacidad para entender el gallego hablado. Seleccione la opcin
Datos y, a continuacin, la opcin Ordenar casos. SPSS le mostrar el siguiente cuadro
de dilogo:

A la izquierda se muestra una lista de las variables que puede usted utilizar para realizar
la ordenacin. Si eligiese varias, la primera de las elegidas sera utilizada por el
programa como primera variable de ordenacin, la segunda como segunda variable de
ordenacin, etctera. Seleccione item01. Ms abajo aparece un recuadro donde puede
usted seleccionar el tipo de ordenacin: ascendente (de 0 a 9 y de A a Z) o descendente
(de Z a A y de 9 a 0). El modo ascendente es el que est seleccionado por defecto. Pulse
ahora el botn Aceptar y eche una ojeada al archivo de datos. Ahora los sujetos con
puntuacin de 1 (nada) en item01 aparecen en primer lugar, seguidos de los sujetos
con puntuacin 2 (regular) y puntuacin 3 (bien).

53

TERCERA PARTE: ANLISIS ESTADSTICO CON SPSS PARA


WINDOWS

54

5. Descripcin de Variables (Frecuencias y Descriptivos)


Uno de los objetivos ms bsicos del anlisis estadstico es la descripcin de variables.
En la mayora de las ocasiones la descripcin de las variables es una primera fase en el
anlisis estadstico de los datos; pero pueden existir situaciones en que la descripcin de
variables sea el nico objetivo del anlisis estadstico. Para la descripcin de variables
suele utilizarse alguno de los siguientes recursos estadsticos:
1. Distribucin de frecuencias;
2. Representacin grfica;
3. Definicin de ndices de valor central, variabilidad, asimetra y curtosis.
5.1. Distribucin de frecuencias
Si usted ha pasado por las secciones anteriores de este libro ya conoce el procedimiento
bsico para obtener una distribucin de frecuencias (ver Apartado 2.8). No obstante,
SPSS dispone de muchas opciones dentro de este procedimiento. Comience la sesin
abriendo el archivo encuest.sav. A continuacin, seleccione la opcin Analizar. En el
men que se despliega debajo, seleccione la opcin Estadsticos descriptivos y,
finalmente, en el men que se despliega a la derecha, seleccione la opcin Frecuencias.
Para el anlisis, seleccione la variable item01. El cuadro de dilogo tendr ahora este
aspecto:

Observe que la opcin para mostrar tablas de frecuencias est seleccionada.


Inmediatamente debajo aparecen tres botones etiquetados Estadsticos, Grficos, y
Formato. Durante el curso de esta sesin aprender qu partido puede sacar de estos
botones en funcin de la informacin que desee obtener.

55

5.1.1. Representacin grfica

Para el anlisis de frecuencias, SPSS posee dos tipos de grficos: los grficos de barras y
los histogramas. Estos grficos proporcionan informacin similar a la distribucin de
frecuencias, pero de forma ms intuitiva. En el caso del grfico de barras, que se aplica a
variables de tipo categrico, se utilizan dos ejes ortogonales. En el eje de abscisas
(horizontal) se representan los valores de la variable X, y en el eje de ordenadas
(vertical) se representan las frecuencias. La mayora de las variables del archivo
encuest.sav son de tipo categrico; su representacin grfica debera hacerse, por tanto,
mediante un grfico de barras.
El caso del histograma es muy semejante al del grfico de barras, pero se aplica cuando
la variable representada en el eje X es contnua, es decir, tiene un gran nmero de valores
diferentes. En lugar de representar todos estos valores en el eje de abscisas, se crean
intervalos de valores, donde todos los intervalos tienen el mismo tamao (abarcan un
rango de valores igual de grande). En el eje de ordenadas se representa el nmero de
casos que caen dentro de cada intervalo. El uso del histograma sera necesario, por
ejemplo, para representar grficamente la variable item18, dado que el nmero de
edades diferentes puede ser muy grande. Al crear un histograma, SPSS calcula
automticamente tanto el nmero como la amplitud de los intervalos que debe
representar en el grfico.
Ahora pruebe usted a obtener un grfico para la variable item01. Pulse el botn
etiquetado Grficos. Aparecer este cuadro de dilogo:

En el recuadro correspondiente al tipo de grfico aparece seleccionada la opcin por


defecto: ninguno. Podemos pedir tanto un grfico de barras como un histograma. Para el
caso de los histogramas, existe adems la posibilidad de superponer la curva normal a la
distribucin obtenida, con la finalidad de efectuar comparaciones. Dado que item01 es
una variable categrica (slo tres valores diferentes), seleccione la opcin Grficos de
barras. En la parte inferior del cuadro de dilogo se nos permite elegir entre mostrar
frecuencias (opcin por defecto) o porcentajes en el eje de abscisas del grfico. Deje
estar la opcin por defecto. Pulse ahora el botn Continuar y, a continuacin, pulse el
botn Aceptar. Aparecer la ventana del visor de resultados de SPSS, que le ofrecer,

56

adems de la tabla de distribucin de frecuencias que ya conoce, el siguiente grfico de


barras:

entiendo el gallego hablado


16
14
12
10
8

Frecuencia

6
4
2
0
nada

regular

bien

entiendo el gallego hablado

Como puede ver, en el grfico incluye tanto la etiqueta de la variable (Entiendo el


gallego hablado) como las etiquetas de los valores (nada, regular y bien). Hay
modificaciones adicionales que puede hacer usted sobre el grfico, pero dejaremos ese
tema para la parte cuarta de este libro. Si quiere guardar los resultados obtenidos,
incluyendo el grfico, siga los mismos pasos que en el apartado 2.8. Tenga en cuenta
que ahora debe especificar un nombre diferente para el archivo de resultados (p. ej.:
encuest2.spo); de lo contrario borrara los resultados guardados en la sesin anterior.
Para los siguientes ejercicios no va a necesitar ningn tipo de grfico. Vuelva al cuadro
de dilogo de Frecuencias y, en el mismo, vuelva a pulsar el botn Grficos. En el
recuadro Tipo de grfico seleccione la opcin Ninguno. Pulse ahora el botn Continuar.
Esto evitar que aparezcan grficos en los anlisis de frecuencias que haga a
continuacin. Ahora que est en el cuadro de dilogo de Frecuencias, pulse el botn
Estadsticos. Aparecer el siguiente cuadro de dilogo:

57

Como las opciones para estadsticos son bastante amplias, las iremos viendo una por
una: Tendencia central, Dispersin, Distribucin, y Valores percentiles.
5.1.2. ndices de Tendencia central

La bsqueda de algn valor central de la distribucin es uno de los recursos estadsticos


ms utilizados cuando se pretende describir una variable. El valor central por excelencia
es la media aritmtica. No obstante, pueden definirse otros valores centrales tales como
la moda, la mediana, la media geomtrica, la media armnica o la media ponderada. De
todos ellos, slo nos referiremos aqu a la media, mediana y moda. Seleccione todos los
estadsticos de tendencia central en el cuadro de dilogo y pulse Continuar. A
continuacin, en el cuadro de dilogo de Frecuencias, pulse el botn Aceptar. Ver que
en el visor de resultados aparece una nueva tabla junto a la tabla de frecuencias. La tabla
tiene este aspecto:
Estadsticos
entiendo el gallego hablado
N
Vlidos
Perdidos
Media
Mediana
Moda
Suma

20
0
2.70
3.00
3
54

La moda es el valor de la variable que tiene la frecuencia ms alta. Para saber cul es la
moda basta con observar en la distribucin de frecuencias cul es el valor ms frecuente.
En el caso de item01, observbamos que el valor 1 tena 1 frecuencia, el valor 2 tena 4
frecuencias, y el valor 3 tena 15 frecuencias. Por tanto, la moda ser 3. ste es el valor
que aparece en su listado.

58

La mediana es un valor de la variable (observado o no) tal que deja la mitad de las
observaciones (datos) por encima y la otra mitad por debajo. Para el clculo de la
mediana hay que considerar dos casos:
a) cuando el nmero total de observaciones N es impar;
b) cuando el nmero total de observaciones N es par.
Cuando N es impar se ordenan las observaciones de menor a mayor y se toma como
mediana la observacin que deje la mitad de los observaciones (restantes) por debajo y
la otra mitad por encima. Por ejemplo, considrense las 5 observaciones siguientes (N =
5):
8, 3, 5, 6, 3.
En un primer paso, ordenamos las observaciones:
3, 3, 5, 6, 8.
Se observa que el valor 5 deja la mitad de las observaciones (3,3) por debajo y la otra
mitad (6,8) por arriba. Por tanto la mediana es 5.
Una manera ms precisa de definir la mediana consiste en describirla como la
observacin que ocupe el nmero de orden (N+1)/2. En este caso, (N+1)/2 = (5+1)/2 =
3. La observacin que ocupa el tercer lugar es el 5. Por tanto, la mediana es 5.
Cuando el nmero de observaciones N es par, la mediana es el punto medio entre la
observacin que ocupa el nmero de orden N/2 y la observacin que ocupa el nmero de
orden (N/2) + 1. Por ejemplo, considrense las seis observaciones siguientes (N = 6):
8, 3, 5, 6, 3, 2.
Primero, se ordenan las observaciones:
2, 4, 4, 5, 6, 8.
La observacin que ocupa el nmero de orden 6/2 (es decir, el tercer lugar) es el 4. La
observacin que ocupa el nmero de orden (6/2) + 1 (es decir, el cuarto lugar) es el 5. El
punto medio entre 4 y 5 es 4.5. Por tanto la mediana es 4.5.
En el caso de nuestro listado, observar que la mediana para item01 es 3. Para ver cmo
se obtiene este resultado, recuerde que item01 tena 3 posibles valores (1, 2, 3), y que las
frecuencias de estos valores eran 1, 4 y 15, respectivamente. He aqu las 20
observaciones ordenadas:
1 2 2 2 2 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3.

59

N aqu es par (20). La observacin que ocupa el lugar N/2 (es decir, el dcimo lugar) es
un 3, y la observacin que ocupa el lugar (N/2)+1 (es decir, el undcimo lugar) tambin
es un 3. El punto medio entre 3 y 3 es 3. De ah que la mediana sea 3.
La media aritmtica es el valor central con propiedades estadsticas ms deseables. La
media aritmtica se define como la suma de todas las observaciones obtenidas para una
variable, dividida por el nmero total de observaciones (N). Formalmente, la media
arimtica ( X ) se puede definir as:
N

X
X =

i=1

N
donde Xi es una observacin (dato o medida). En adelante, por simplicidad, una
observacin la representamos simplemente por X, prescindiendo del subndice i. En
consecuencia, tampoco ofreceremos los lmites de la suma () que siempre son 1, en el
lmite inferior, y N en el lmite superior.
Para comprender por qu la media aritmtica es el valor central por excelencia,
considrense las 4 observaciones siguientes:
1, 2, 4, 5.
La media aritmtica es
X =

1+ 2 + 4 + 5
= 3
4

La desviacin (distancia o diferencia) existente entre cada una de las observaciones (1,
2, 4, 5) con respecto a 3 es, en conjunto, la menor posible. No existira otro valor
numrico que hiciera ms pequeas estas desviaciones. Si medimos una a una estas
desviaciones obtenemos:
1 - 3 = -2
2 - 3 = -1
4-3= 1
5-3= 2
Se puede hacer la observacin principal de que la suma de las desviaciones negativas (3), correspondientes a valores que estn por debajo de la media aritmtica, es igual a la
suma de la desviaciones positivas (3), correspondientes a valores situados por encima de
la media aritmtica. Esta propiedad produce que la suma de todas las desviaciones sea
cero. En consecuencia, se dice que la media aritmtica minimiza las desviaciones.
A modo de contraste, imagine que tomramos como valor representativo del conjunto de
observaciones el 4. En este caso tendramos:

60

1 - 4 = -3
2 - 4 = -2
4-4= 0
5-4= 1
Se observa que la suma de las desviaciones negativas (-5) es mayor que la suma de las
desviaciones positivas (1), lo que produce que 4 no minimice las desviaciones.
Volviendo a nuestro listado, podr observar que la media aritmtica para item01 es 2.7.
5.1.3. ndices de Dispersin

Supongamos que 3 sujetos (N=3) obtienen las tres puntuaciones siguientes en una
prueba:
7, 8, 9.
Denominemos a este conjunto de observaciones A. La media aritmtica de A es 8.
Asumamos ahora que otros 3 sujetos (N=3) obtienen estas puntuaciones en la misma
prueba:
1, 8, 15.
Denominemos a este segundo conjunto B. La media aritmtica de B tambin es 8.
Se observa fcilmente que, aunque los conjuntos de observaciones A y B tienen la
misma media aritmtica, son sustancialmente distintos. Qu es lo que los hace
distintos? La respuesta es: la variabilidad.
La manera ms elemental de medir la variabilidad para un conjunto de observaciones
consiste en describir cul es el valor observado ms bajo, o mnimo, cul es el valor
observado ms alto, o mximo, y cul es la diferencia entre ambos. A esta diferencia se
le denomina Amplitud total o tambin Rango.
A continuacin se ofrecen estos ndices para los conjuntos A y B:
Mnimo
Mximo
Rango

conjunto A
7
9
2

conjunto B
1
15
14

Todos estos ndices reflejan el hecho emprico de que B es ms variable que A. Pero, a
pesar de que estos ndices son tiles para medir la variabilidad de las observaciones
correspondientes a una variable, existen otros ndices de variabilidad con propiedades
estadsticas ms deseables. Estos ndices son la varianza y la desviacin tpica.

61

Desde el punto de vista de estos ndices, la variabilidad se mide utilizando como punto
de referencia la media aritmtica. Cuanto ms se desven las observaciones de la media
aritmtica mayor ser la variabilidad, y cuanto menos se desven menor. La manera ms
simple de operativizar esta definicin parece que podra obtenerse en los dos pasos
siguientes:
1. Hallar la desviacin (distancia o diferencia) entre cada observacin y la media
aritmtica.
Esto en A sera:
7-8 = -1
8-8 = 0
9-8 = 1
Esto mismo en B sera:
1-8 = -7
8-8 = 0
15-8 = 7
2. Hallar la media de las desviaciones obtenidas en el paso 1.
La media de las desviaciones en A sera:
-1+ 0 + 1
= 0
3

La media de las desviaciones en B sera:


-7 + 0 +7
= 0
3

La media arimtica de las desviaciones es en A y en B igual (cero en ambos casos). Esta


propiedad nos sugiere que el procedimiento no es adecuado. Se busca un ndice (de
variabilidad) cuya magnitud refleje la intensidad de la variabilidad existente en las
observaciones. En este ejemplo, el ndice ha de ser menor en A que en B, porque la
variabilidad en A es menor que en B.
Una manera de evitar el problema de los signos hubiera sido elevar las desviaciones al
cuadrado, y hallar luego la media de tales desviaciones elevadas al cuadrado. Este ndice
es, precisamente, la varianza (Sx2).
La varianza para el conjunto A sera:
2
x

S =

(-1 )2+(0 )2+(1 )2


= 0.67
3

62

La varianza para el conjunto B sera:

2
Sx =

(-7 )2+(0 )2+(7 )2


= 32.67
3

Este s es un indicador apropiado de la variabilidad. Sabamos que la variabilidad en A


era pequea en comparacin con la variabilidad en B. Los resultados obtenidos (0.67
versus 32.67) reflejan este hecho.
Formalmente, la definicin de la varianza se expresa as:
2
x

S =

(X - X )2
N

Al elevar las desviaciones al cuadrado se evita el problema de los signos, lo cual es muy
til para el objetivo que se busca aqu. No obstante, la elevacin al cuadrado produce
una "distorsin" notable de las desviaciones que provoca, a su vez, problemas de
interpretacin. A modo de ejemplo, en el conjunto de observaciones B, la observacin
ms baja era el 1, y la ms alta era el 15. La varianza, no obstante, era 32.67, que se sale
fuera del rango de las observaciones obtenidas. Un procedimiento muy prctico, que
permite recuperar la escala original de las observaciones, consiste en hallar la raz
cuadrada de la varianza. A este ndice se le denomina desviacin tpica, y se representa
por Sx. Formalmente,

Sx =

S 2x

La desviacin tpica en el conjunto A sera:


Sx =

0.67 1 = 0.82.

La desviacin tpica en el conjunto B sera:


Sx =

32.67 2 = 5.72.

La desviacin tpica se denomina as porque representa la desviacin (distancia o


diferencia) tpica entre una observacin y la media aritmtica. Esta desviacin tpica es
0.82 en el conjunto A y 5.72 en el conjunto B.
A pesar de que la definicin que hemos ofrecido de varianza (y, en consecuencia, de
desviacin tpica) es correcta, en SPSS se ofrece una definicin ligeramente distinta. La
innovacin est en que, en lugar de dividir la suma de los cuadrados de las desviaciones
entre N, SPSS la divide entre N-1. Esto es, se modifica la definicin de varianza para
expresarla como sigue:
2
Sx =

(X - X )2
N -1

63

Ntese que procediendo as lo que se hace es "exagerar" un poco el valor de la varianza.


En efecto, en el conjunto A la varianza, as definida, sera:
2
x

S =

(-1 )2+(0 )2+(1 )2


= 1
3 -1

Procediendo de igual forma, la varianza para el conjunto B sera:


2
x

S =

(-7 )2+(0 )2+(7 )2


= 49
3-1

Para entender por qu SPSS ofrece esta definicin modificada de la varianza, permtame
proponerle un ejemplo. Imagine que una empresa con 10.000 empleados le encarga a
usted un sondeo de opinin sobre el nivel de satisfaccin laboral de sus empleados. Por
razones econmicas y de tiempo, le piden que el estudio no lo haga con los 10.000
empleados sino con una muestra aleatoria de tan slo 800 empleados. Su objetivo es
conocer la satisfaccin laboral de los 800 empleados y extrapolar, luego, este
conocimiento a los 10.000 empleados de la empresa. Entre los indicadores de la
satisfaccin laboral usted elige la media aritmtica y la varianza. Pues bien, se sabe que
la mejor estimacin de la media aritmtica de los 10.000 empleados sera la media
aritmtica de los 800 empleados; sin embargo, esto no es verdad para la varianza. La
mejor estimacin de la varianza de los 10.000 empleados no sera la varianza de los 800,
sino la varianza de los 800 empleados ligeramente aumentada. Precisamente, para
producir este aumento se divide la suma de cuadrados del numerador de la definicin de
varianza entre N-1. SPSS supone, por tanto, que el inters del usuario es la inferencia, la
extrapolacin de las conclusiones obtenidas en una muestra a una poblacin de donde es
extrada dicha muestra. A veces, para distinguir la varianza con N en el denominador de
la varianza con N-1 en el denominador se le denomina, a la primera, varianza y, a la
segunda, cuasi-varianza. No obstante, esta distincin no se hace en SPSS, y la nica
varianza que se ofrece es la cuasi-varianza.
Todos los ndices de variabilidad a los que nos hemos referido hasta ahora (mnimo,
mximo, rango, varianza, desviacin tpica) pueden obtenerse en SPSS. En el caso de
item01, por ejemplo, para obtener estos ndices se puede proceder de la siguiente
manera:
Vuelva a solicitar un anlisis de frecuencias. Puede hacer esto utilizando de nuevo el
men o utilizando la barra de botones.
El botn Rellamada de cuadro de dilogo le permite volver a llamar a un
procedimiento de anlisis estadstico previamente utilizado.
En el cuadro de dilogo correspondiente al procedimiento Frecuencias, vuelva a pulsar
el botn Estadsticos. Elimine la seleccin anterior sobre la media, mediana, moda y
suma. Vaya ahora el recuadro etiquetado Dispersin. Los ndices de variabilidad o
dispersin que SPSS nos ofrece son: desviacin tpica, varianza, amplitud o rango,
mnimo y mximo, y error tpico de la media. Seleccione los cinco primeros, deje el

64

ltimo. Pulse Continuar y, en el cuadro de dilogo de Frecuencias, pulse Aceptar.


Obtendr esta tabla con los estadsticos de dispersin:
Estadsticos
entiendo el gallego hablado
N
Vlidos
Perdidos
Desv. tp.
Varianza
Rango
Mnimo
Mximo

20
0
.57
.33
2
1
3

SPSS tambin permite obtener un ndice de variabilidad denominado error tpico de la


media, que tambin es el valor de una desviacin tpica, pero en este caso se trata de la
desviacin tpica de la media, y no de la desviacin tpica de las puntuaciones originales.
Puede interpretarse como el grado de variabilidad que puede encontrarse al hallar la
media tomando distintas muestras de sujetos. Si selecciona este ndice en el recuadro
Dispersin, para item01, encontrar que es de 0.13. Esto quiere decir que las diferencias
que encontraramos entre los valores de la media tomados de distintas muestras de
sujetos sera pequea.
Adems de los ndices que hemos visto, en los libros de estadstica se suele hacer
referencia a otros ndices de variabilidad, tales como el coeficiente de variacin y la
amplitud semi-intercuartil.
El coeficiente de variacin es til cuando queremos comparar la variabilidad
correspondiente a dos variables que tienen distinta unidad de medida. Mediante el
coeficiente de variacin se transforma la variabilidad en porcentajes, lo que permite la
comparacin.
El coeficiente de variacin (C.V.) se define as:
C.V. = (Desviacin Tpica/Media aritmtica) x 100
SPSS no produce el coeficiente de variacin. No obstante, se puede calcular fcilmente
dado que el sistema s ofrece la desviacin tpica y la media aritmtica. As, para la
variable 1 del estudio sociolingstico, se obtendra:
C.V. =

0.571
x 100 = 21.15
2.7

Otro ndice de variabilidad que se recoge en los libros de estadstica es la amplitud semiintercuartil. Con este ndice se mide la variabilidad sin utilizar la media aritmtica. La
amplitud semi-intercuartril (Q) se define as:

65

Q =

Q3 - Q1
2

donde Q3 es el cuartil 3 (o percentil 75) y Q1 es el cuartil 1 (o percentil 25). SPSS


tampoco ofrece la amplitud semi-intercuartil directamente, aunque s los cuartiles
necesarios para calcularla (Q1 y Q3). Los cuartiles y percentiles se comentarn con
detalle en el apartado 5.2.1
5.1.4. ndices de Distribucin

En la mayora de las ocasiones, para describir la distribucin de una variable, es


suficiente con indicar cul es su valor ms bajo, cul es su valor ms alto, cul es su
media aritmtica, y cul es su desviacin tpica. Por ejemplo, la distribucin de la
variable 1 (item01) del estudio sociolingstico quedara correctamente descrita si
indicramos que su valor observado ms bajo es el 1, su valor observado ms alto el 3,
la media aritmtica 2.7, y la desviacin tpica 0.571. No obstante, es posible definir,
adems, algunas caractersticas relativas a la forma de la distribucin de la variable.
Estas caractersticas son dos: (1) la asimetra, y (2) la curtosis. En este epgrafe nos
referiremos a la asimetra, y en el siguiente a la curtosis. En ocasiones, la definicin de la
asimetra y la curtosis de una variable puede ser muy valiosa para la toma de decisiones
en cuanto al anlisis estadstico de los datos.
5.1.4.1. Asimetra

Imagine que realiza una prueba a 15 sujetos y obtiene los siguientes resultados:
Sujeto
1
2
3
4
5
6
7
8

X
3
5
2
5
4
4
4
3

Sujeto
9
10
11
12
13
14
15

X
1
3
3
2
2
1
3

Si realizramos una representacin grfica de estos datos, obtendramos el siguiente


diagrama:
6

66
0
1.0

2.0

3.0

4.0

5.0

Se observa que la distribucin es simtrica. Se puede identificar un valor valor central


(el 3) que es el que tiene la frecuencia ms alta. Luego, tambin se observa que la
distribucin de los valores que quedan por debajo de este valor central es igual a la
distribucin de los valores que quedan por encima.
Obviamente, las 15 observaciones ofrecidas aqu se han arreglado para que la
distribucin fuese simtrica. No obstante, la probabilidad de obtener distribuciones
totalmente simtricas, cuando el nmero de observaciones es pequeo como aqu, es
muy baja. Lo ms probable es que la distribucin se desve de la simetra perfecta.
Cuando una distribucin se desva de la simetra se le denomina asimtrica. SPSS
dispone de un ndice, que aqu representaremos por g1, que mide esta propiedad de la
distribucin. Este ndice se define as en SPSS:

g1 =

N (X - X )3
(N - 1)(N - 2) S 3x

Cuando la distribucin es simtrica, como la del ejemplo anterior, el resultado de este


ndice siempre es cero.
Para verificarlo, basta con calcular el numerador de g1. N es 15 y la media aritmtica es
3. Lo nico que tendremos que calcular ser la suma de los cubos de las desviaciones
con respecto a la media:
Sujeto

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

3
5
2
5
4
4
4
3
1
3
3
2
2
1
3

_
3
(X-X )
0
8
-1
8
1
1
1
0
-8
0
0
-1
-1
-8
0
0

Como el resultado de esta suma es cero, el numerador ser cero. En consecuencia, sea
cual sea el denominador, g1 ser cero.
Ntese en el grfico anterior como la simetra puede "romperse" de dos maneras
distintas. Una sera "mover" los datos de forma que haya ms observaciones en la parte
alta (hacia la derecha en el grfico) que en la parte baja. A modo de ejemplo, hagamos
que los resultados de los 15 sujetos en la prueba fueran los siguientes:

67

Sujeto
1
2
3
4
5
6
7
8

X
3
5
2
5
4
4
4
3

Sujeto
9
10
11
12
13
14
15

X
1
3
3
5
2
4
3

La representacin grfica de estos datos sera como sigue:


6

0
1.0

2.0

3.0

4.0

5.0

Se observa que la distribucin es asimtrica. Existen ms observaciones altas (parte


derecha del grfico) que bajas (parte izquierda). A esta asimetra se le denomina
negativa. Cuando esto ocurre, el valor de g1 es negativo.
Para los datos del ejemplo, la media es ahora 3.40 y la desviacin tpica (con el
denominador N-1) es 1.183. Si calculamos la suma de los cubos de las desviaciones,
obtenemos:
Sujeto

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

3
5
2
5
4
4
4
3
1
3
3
5
2
4
3

68

_
3
(X-X )
-0.064
4.096
-2.744
4.096
0.216
0.216
0.216
-0.064
-13.824
-0.064
-0.064
4.096
-2.744
0.216
0.064
-6.480

Por tanto, sustituyendo en la definicin de g1, obtenemos:


g1 =

(15) (-6.480)
-97.2
=
= -0.32
(14)(13)(1.65) 300.3

La otra manera de "romper" la simetra consiste en "mover" las observaciones de forma


que haya ms observaciones bajas (izquierda en el grfico) que altas (derecha). Si esto
ocurriera, g1 sera positivo. Para verificarlo, hagamos que las 15 observaciones sean las
siguientes:
Sujeto
1
2
3
4
5
6
7
8

X
3
5
2
1
4
2
4
3

Sujeto
9
10
11
12
13
14
15

X
1
3
3
2
2
1
3

En este caso, la representacin grfica sera como sigue:


6

0
1.0

2.0

3.0

4.0

5.0

Al igual que en el caso anterior, se observa que la distribucin es asimtrica. Pero, en


este caso, existen ms observaciones bajas (izquierda en el grfico) que altas (derecha).
A este tipo de asimetra se le denomina positiva. La media es ahora 2.60 y la desviacin
tpica 1.183. Para calcular g1 slo nos falta calcular la suma de los cubos de las
desviaciones:

69

g1 =

Sujeto

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

3
5
2
1
4
2
4
3
1
3
3
2
2
1
3

_
3
(X-X )
-0.064
13.824
-0.216
-4.096
2.744
-0.216
2.744
0.064
-4.096
0.064
0.064
-0.216
-0.216
-4.096
0.064
6.416

(15) (6.416)
96.24
=
= 0.32
(14)(13)(1.65) 300.3

5.1.4.2. Curtosis

El concepto de curtosis hace referencia al apuntamiento de la distribucin de una


variable. El punto de referencia para medir esta caracterstica de una distribucin
emprica es el apuntamiento de una distribucin terica: la distribucin normal tipificada
(con media 0 y varianza 1). El apuntamiento de esta distribucin se considera intermedio
y, en consecuencia, se denomina a la distribucin "mesocrtica". A una distribucin ms
apuntada se le denomina "leptocrtica", mientras a una distribucin menos apuntada (o,
lo que es lo mismo, ms aplastada) se le denomina "platicrtica".
Tomemos otra vez las 15 observaciones que hemos utilizado en el ejemplo de la
distribucin simtrica, esto es, cuando el ndice de asimetra era justamente cero:
Sujeto
1
2
3
4
5
6
7
8

X
3
5
2
5
4
4
4
3

Sujeto
9
10
11
12
13
14
15

X
1
3
3
2
2
1
3

Ya sabemos que la distribucin es simtrica. Ahora deseamos saber, adems, si el grado


de apuntamiento de la distribucin es igual, mayor o menor que el apuntamiento de la
curva normal. Para describir esta propiedad de la distribucin, SPSS dispone de un
ndice, que aqu representaremos como g2, que se define de la siguiente manera:

70

[(N)(N + 1) (X - X )4 ] - [(3) (X - X )2 (X - X )2 (N - 1)]


g2 =
(N - 1)(N - 2)(N - 3) S 4x
Este ndice est ideado de tal manera que si el resultado es cero, el apuntamiento de la
distribicin es intermedio (distribucin mesocrtica), si el resultado es mayor que cero el
apuntamiento es superior (distribucin leptocrtica), y si el resultado es menor que cero
el apuntamiento es inferior (distribucin platicrtica).
En el ejemplo, con media aritmtica igual a 3, se obtiene:

g2 =

Sujeto

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

3
5
2
5
4
4
4
3
1
3
3
2
2
1
3

_
2
(X-X )

_
4
(X-X )

0
4
1
4
1
1
1
0
4
0
0
1
1
4
0
22

0
16
1
16
1
1
1
0
16
0
0
1
1
16
0
70

[(15)(16)(70)] - [(3)(22)(22)(14)]
= -0.654
(14)(13)(12)(2.4694)

Lo que indica g2 es que la distribucin es platicrtica, esto es, ms aplastada que la


distribucin normal.
Si calcula el valor de la asimetra y la curtosis para item01, en el mismo cuadro de
dilogo que utiliz para seleccionar los ndices de tendencia central y dispersin,
obtendr que el ndice de asimetra vale -1.845. La primera interpretacin que se puede
hacer de este ndice es que la asimetra es negativa, puesto que el ndice es negativo.
Recuerde que una asimetra negativa quiere decir que hay ms observaciones altas (a la
derecha en el grfico) que bajas (izquierda). Adems, dado que el ndice se aleja
bastante de cero, tambin se puede concluir que la asimetra (negativa) es mucha. Dado
que el tem 1 del cuestionario sociolingstico preguntaba a los sujetos por el grado de
conocimiento que tenan del gallego hablado (donde 1 significaba que no entendan
nada, 2 que su grado de entendimiento era regular, y 3 que era bueno) se podra concluir,
de manera ms concreta, que la mayora de los sujetos encuestados entiende bien el
gallego hablado, siendo tan slo unos pocos los que no entienden nada este idioma. En
el caso de la curtosis obtendr un valor para item01 de 2.861. Como el resultado es
positivo y, adems, se aparta bastante de cero podemos concluir que la distribucin es
leptocrtica (apuntamiento superior al de la curva normal) y, adems, el grado de
apuntamiento es muy fuerte.

71

5.1.5. Seleccin de ndices descriptivos y escala de medida

En el cuadro de dilogo que hemos utilizado ltimamente SPSS ofrece un total de 14


ndices descriptivos. Es evidente que para describir la distribucin de una variable
adecuadamente no es necesario definir los 14 ndices. En realidad, el sistema ofrece un
amplio repertorio para que el usuario elija un subconjunto determinado. Un criterio
importante para la eleccin de este subconjunto es la escala de medida utilizada. Si la
escala es de intervalos o razn, nuestro consejo es que se elijan los siguientes 4 ndices:
1.
2.
3.
4.

Observacin ms baja,
Observacin ms alta,
Media aritmtica,
Desviacin tpica.

Por ejemplo, si nuestro objetivo fuese describir la distribucin de la variable item01 del
estudio sociolingtico, y asumimos que est medida a nivel de intervalos, quedara
adecuadamente descrita si sealamos que el valor observado ms bajo era el 1, el ms
alto el 3, la media aritmtica 2.7, y la desviacin tpica 0.57.
En ocasiones, dependiendo de los anlisis estadsticos que se vayan a realizar
posteriormente, suele ser til definir, adems de los 4 ndices sealados, la forma de la
distribucin de la variable; es decir, su asimetra y su curtosis.
Si la escala es ordinal, nuestro consejo es que se describa igualmente el valor observado
ms bajo y el ms alto; pero que, en lugar de la media aritmtica se defina la mediana, y
en lugar de la desviacin tpica, la amplitud semi-intercuartil.
Finalmente, si la escala es nominal, nuestro consejo es que se ofrezca la distribucin de
frecuencias (con excepcin de la columna de porcentajes acumulados), haciendo
especial nfasis en sealar cul es el valor observado ms bajo, el ms alto, y aquel que
ms veces se repite (moda).
5.1.6. Procedimiento alternativo para el clculo de estadsticos descriptivos

El anlisis descriptivo le permite obtener, de entre todos los estadsticos referidos al


anlisis de una variable, aquellos basados en la media. De este modo, puede obtener la
media como medida de tendencia central, la varianza y desviacin tpica como medidas
de dispersin, y la asimetra y la curtosis como medidas de distribucin. En este sentido,
repite muchas de las opciones ya disponibles en un anlisis de frecuencias. No obstante,
presenta varias opciones que son de uso exclusivo dentro de este procedimiento. La ms
interesante de estas es la posibilidad de transformar las puntuaciones originales en
puntuaciones tpicas, aspecto que se tratar en el siguiente apartado.
Para efectuar un anlisis descriptivo, seleccione la opcin Analizar. A continuacin,
seleccione la opcin Estadsticos descriptivos. Finalmente, en el men que se despliega

72

a la derecha, seleccione la opcin Descriptivos. Aparecer el siguiente cuadro de


dilogo:

Seleccione item01 como variable para el anlisis en el cuadro de dilogo. A


continuacin, pulse el botn etiquetado Opciones. Aparecer otro cuadro de dilogo, en
el que puede seleccionar los estadsticos que desea obtener para la(s) variable(s) de
inters. Por defecto, el procedimiento muestra slo la media, desviacin tpica, y valores
mximo y mnimo de la variable. Sin embargo, tambin pueden pedrsele otros ndices,
como suma de puntuaciones, varianza, rango, error tpico de la media, asimetra y
curtosis. Como puede comprobar, estos estadsticos tambin podan obtenerse mediante
un anlisis de frecuencias. En la figura siguiente aparece el cuadro de dilogo con las
opciones proporcionadas por defecto por el programa, junto con los estadsticos de
asimetra y curtosis, que tambin aparecen seleccionados.

5.2. Interpretacin de la posicin de un sujeto en un grupo


Existen situaciones en que el inters no es describir la distribucin de una variable sino
describir, localizar la posicin de una observacin determinada dentro de la distribucin.

73

Por ejemplo, imagine que se ha presentado a una prueba para acceder a un determinado
puesto de trabajo. Cuando termina la prueba le indican que usted ha obtenido una
puntuacin global de 35. En principio, usted no dispone de criterios para juzgar si dicha
puntuacin es buena, mala o regular. Lo que la hace buena, mala o regular es la
ejecucin de los dems solicitantes.
5.2.1. Valores percentiles

Una manera de interpretar el significado de su ejecucin en la prueba consiste en


transformar la puntuacin 35 en percentil. Para hacer esta transformacin se necesita
conocer la ejecucin de los dems solicitantes en la prueba; es decir, se necesita conocer
la distribucin de la variable (rendimiento en la prueba). El percentil, en este caso, nos
indicara el porcentaje de solicitantes que han obtenido una puntuacin igual o inferior a
35 en la prueba. De modo que, si le informan que usted ha obtenido el percentil 99
tendr motivos para estar satisfecho, su ejecucin fue igual o superior a la del 99% de
los solicitantes. Por contra, si le informan que el percentil obtenido ha sido el 10, tendr
motivos para estar decepcionado, su ejecucin slo ha sido igual o superior a la del 10%
de los solicitantes.
La definicin general de percentil es la siguiente:
percentil =

frecuencia acumulada
x 100
numero de observaciones

En realidad, el percentil para una observacin dada es el porcentaje acumulado para


dicha observacin. Si con unos datos determinados, usted desease obtener el percentil
para cada una de las observaciones de que dispone podra conseguirlo, en SPSS, con un
simple anlisis de frecuencias. Por ejemplo, cuando llev a cabo el anlisis de
frecuencias para item01, tambin obtuvo los percentiles correspondientes a cada uno de
los tres valores de esta variable. En efecto, observe que, en realidad, la ltima columna
de la tabla de distribucin de frecuencias, etiquetada Porcentaje acumulado, es el
percentil para cada uno de los valores de la variable 1 (1, 2, 3). Observe que si un sujeto
ha obtenido un 1 ocupa el percentil 5, si ha obtenido un 2, el percentil 25, y si ha
obtenido un 3, el percentil 100. El recuadro Valores percentiles, que se encuentra en el
cuadro de dilogo Estadsticos dentro del procedimiento Frecuencias, le permite
obtener los percentiles de tres formas:
1. En primer lugar, le permite obtener los cuartiles de la distribucin. Los cuartiles
dividen la distribucin en cuatro grupos iguales. Corresponden, por tanto, a los
percentiles 25, 50, 75 y 100.
2. En segundo lugar, le permite obtener los puntos de corte para generar un nmero
determinado de grupos iguales (por defecto, el nmero de grupos es de 10). En el
caso de 10 grupos iguales, esto equivaldra a obtener los percentiles 10, 20, 30, 40,...,
100.
3. En tercer lugar, le permite obtener determinados percentiles que le resulten de
inters. Si utiliza esta opcin, puede solicitar varios percentiles a la vez (p. ej.: 15,
17, 20, 80, 83, 85).

74

5.2.2. Puntuaciones tpicas

En el apartado correspondiente a los percentiles observamos la utilidad de stos para


ayudar a posicionar a un sujeto con respecto a su grupo. Otra manera de interpretar la
posicin de una observacin en una distribucin consiste en transformar dicha
observacin en puntuacin tpica (Z). Dado que las puntuaciones tpicas se representan
por la letra Z, con frecuencia, a las puntuaciones tpicas se les denomina simplemente
puntuaciones Z.
Si a una observacin le denominamos X, la transformacin para convertirla en Z es la
siguiente:

Z =

X-X
Sx

Observe que realizando esta transformacin se interpreta la observacin X en relacin a


la media aritmtica. Cuando la observacin X es mayor que la media, la Z
correspondiente es positiva. Cuando X es menor que la media, la Z es negativa. Cuando
X coincide con la media, la Z es 0. Por tanto, si a usted le informaran que en la prueba a
la que hemos hecho referencia anteriormente, ha obtenido una puntuacin tpica igual a
0, esto no significa que su ejecucin ha sido desastrosa. Lo que indica el 0 es que usted
est justo en el centro, su ejecucin coincide con la ejecucin media de todos los
solicitantes.
La interpretacin de una puntuacin tpica igual a 0 es muy cmoda. Sin embargo, para
poder interpretar otros valores de Z necesitamos cierta informacin adicional. En la
transformacin Z, definida anteriormente, se observa que en el denominador est la
desviacin tpica Sx. Esta desviacin tpica tiene un papel muy importante, a efectos de
interpretacin, porque hace las veces de unidad de medida. Lo que esto significa es que
puede interpretarse la puntuacin tpica Z como el nmero de desviaciones tpicas Sx que
la observacin X se aparta de la media. Por ejemplo, si en la mencionada prueba usted
obtiene una puntuacin tpica igual a -2, esto significara que usted est 2 desviaciones
tpicas Sx por debajo de la media. De forma similar, si usted obtiene una puntuacin
tpica igual a 3, esto significa que usted est 3 desviaciones tpicas Sx por encima de la
media.
Ahora bien, imagine que a usted le indican que est 3 desviaciones tpicas por encima de
la media (Z=3), usted querr saber si esto es mucho o poco. Para ello es necesario
conocer la distribucin de Z. La distribucin (terica o probabilstica) de Z es conocida.
Tiene media 0 y varianza 1. A continuacin se ofrecen los porcentajes acumulados para
algunos valores de Z:

75

Valor de Z
-3
-2
-1
0
1
2
3

Porcentaje acumulado
0.14%
2.28%
15.87%
50.00%
84.13%
97.72%
99.86%

Para informacin relativa a otros valores de Z puede consultar la Tabla de Z en cualquier


manual de estadstica.
Si se deseasen transformar las puntuaciones de todos los sujetos en puntuaciones tpicas,
para una variable dada, podra hacerse mediante un anlisis descriptivo. Veamos cmo
hacerlo en el caso de item01. En primer lugar, seleccione el men Analizar. A
continuacin, seleccione la opcin Estadsticos descriptivos. Dentro de esta ltima,
finalmente, seleccione la opcin Descriptivos. Aparecer el cuadro de dilogo que ya vio
en el apartado 5.1.6. Seleccione item01 como variable para el anlisis si es que no
aparece ya como tal. Por ltimo, seleccione la opcin Guardar valores tipificados como
variables. Esta opcin crear una nueva variable en el archivo de datos, llamada
zitem01. El cuadro de dilogo quedar as:

Pulse el botn Aceptar. En el visor de resultados aparecer una tabla con los estadsticos
descriptivos por defecto para item01 (n de sujetos, mnimo, mximo, media y
desviacin tpica). Vaya ahora al editor de datos y sitese en la ltima variable del
archivo de datos; ver que aparece una nueva variable llamada zitem01. Los valores de
esta variable son las puntuaciones Z correspondientes a los valores 1, 2 y 3 de la variable
original. De este modo, el 1 se convierte en la puntuacin Z: -2.97598; el 2 se convierte
en la puntuacin Z: -1.22540; finalmente, el 3 se convierte en la puntuacin Z: 0.52517.
Observe que las puntuaciones Z correspondientes a los valores 1 y 2 son negativas, ya
que 1 y 2 se encuentran por debajo de la media de item01 (2.70), mientras que la
puntuacin Z correspondiente al valor 3, que se encuentra por encima de la media, es
positiva.

6. Relaciones entre Variables (Correlacin y Regresin)

76

Hasta ahora hemos visto dos procedimientos, el anlisis de frecuencias y el anlisis


desciptivo, orientados a la descripcin de variables tomadas aisladamente, una a una. No
hay duda de que la descripcin de las variables, una a una, puede tener inters en la
investigacin; sin embargo, se suele estar ms interesado en conocer la relacin
existente entre distintas variables. Tngase en cuenta que uno de los objetivos
prioritarios de la investigacin cientfica es la prediccin, el pronstico o anticipacin de
los fenmenos. Para que la prediccin sea posible es necesario el estudio previo de la
relacin existente entre distintas variables.
SPSS ofrece dos procedimientos para el anlisis estadstico de las relaciones entre
variables: el anlisis de correlaciones y el anlisis de regresin.
El anlisis de correlaciones est orientado al anlisis estadstico de la relacin entre
pares de variables. El anlisis de regresin, por su parte, puede analizar la relacin
existente entre dos o ms variables.

6.1. La covarianza
La covarianza es un ndice para la medida de la relacin entre dos variables, que ofrece
informacin sobre los dos siguientes aspectos:
1. Si existe o no relacin entre dos variables X e Y;
2. Cul es la direccin de la relacin (positiva o negativa).
Formalmente la covarianza puede representarse como cov (X,Y) y se define de la
siguiente manera:
cov (X,Y) =

xy
N

donde xy se denomina suma de productos cruzados y N es el nmero total de


observaciones.
Por las mismas razones que hemos indicado cuando hemos definido la varianza, en
SPSS la covarianza se define de manera ligeramente distinta. El numerador es el mismo,
pero el denominador es N-1, en lugar de N. Esto es,
cov (X,Y) =

xy
N -1

Observe que en la suma de productos cruzados (numerador) hemos representado las


variables X e Y con letras minsculas. Lo hemos hecho as porque los valores de X e Y
no son aqu los valores originales de X e Y sino diferencias con respecto a la media
aritmtica. Esto es,

x= XX
y = Y Y

77

A estos valores as transformados se les suele denominar puntuaciones diferenciales.


Observe cmo las puntuaciones diferenciales, en realidad, son el numerador de la
transformacin para las puntuaciones tpicas (o puntuaciones Z).
Para que pueda observar, de forma ms concreta, cmo se define la covarianza,
permtame ofrecerle un ejemplo emprico. Suponga que 5 sujetos (N=5) han realizado
dos pruebas. A una le denominamos X y a la otra Y. Estamos interesados en saber si
existe relacin entre la ejecucin de los sujetos en la primera prueba (X) y la segunda
(Y). Para ello, decidimos calcular la covarianza. A continuacin,se ofrecen los datos y
algunos clculos necesarios para obtener este ndice:
X
60
10
80
50
30
230

Y
4
2
9
7
3
25

x
14
-36
34
4
-16

y
-1
-3
4
2
-2

xy
-14 _
108 X = 46
136 _
8 Y= 5
32
270

En la primera fila de la Tabla anterior tenemos la puntuacin obtenida por el sujeto 1 en


la prueba X (60), la puntuacin obtenida por este mismo sujeto en la prueba Y (4), la
puntuacin diferencial en X (x = 60-46 = 14), la puntuacin diferencial en Y (y = 4-5= 1), y el producto cruzado de x por y [xy = (14)(-1) = -14]. La fila 2 ofrece esta misma
informacin para el sujeto 2, y as sucesivamente.
Para el clculo de la covarianza nos interesa conocer la suma de la ltima columna de la
Tabla; esto es, xy = 270. Conocida esta suma, la covarianza se calcula como sigue:

cov (X,Y) =

xy
270
=
= 67.5
N -1
4

La covarianza se interpreta de la siguiente manera:


a) cov (X,Y) = 0 significa que no existe relacin (lineal) entre las variables X e Y;
b) cov (X,Y) > 0 significa que existe una relacin positiva (o directa) entre X e Y;
c) cov (X,Y) < 0 significa que existe una relacin negativa (o inversa) entre X e Y.
En el ejemplo la covarianza es 67.5. Esto significa que existe una relacin (lineal)
positiva entre las variables X e Y.
La covarianza tiene un gran inters estadstico. Sin embargo, a nivel interpretativo tiene
una limitacin importante. La covarianza no indica la intensidad de la relacin (o
asociacin) existente entre las variables X e Y. En el ejemplo anterior la covarianza era
67.5. Concluamos que la relacin era positiva. Pero no podamos decir nada sobre la
intensidad de la relacin; es decir, si era mucha, regular o poca. Esto se explica porque la
covarianza es funcin de cmo se haya medido X y de cmo se haya medido Y. Suponga
que X se ha medido en una escala de 0 a 100. Pues bien, si en vez de medirla en una
escala de 0 a 100 la hubiramos medido en una escala de 0 a 10, el valor de la
covarianza hubiera cambiado mucho. Sin embargo, la relacin entre X e Y, si existe,

78

debe seguir siendo la misma. Para hacer esta idea ms comprensible, suponga que X son
las notas en la Universidad e Y son las horas de estudio. Suponga que se sabe que existe
una relacin positiva, a ms horas de estudio mejores notas. Si esto es verdad, la relacin
debe ser la misma si el rendimiento se mide en una escala e 0 a 10 que si se mide en una
escala de 0 a 100. Pues bien, la covarianza sera positiva en ambos casos, pero su valor
sera distinto.

6.2. El coeficiente de correlacin de Pearson


Lo ideal sera disponer de un ndice cuyo valor fuera independiente de cmo se midi X
y de cmo se midi Y; es decir, que permaneciera invariable ante cualquier
transformacin de la unidad de medida de X o de la unidad de medida de Y (o de la
unidad de medida de ambas). Este ndice lo ide Pearson y se le conoce actualmente por
su nombre: coeficiente de correlacin de Pearson. A veces se le denomina tambin
coeficiente de correlacin producto-momento de Pearson.
La idea de Pearson consisti en transformar tanto los valores de X como los valores de Y
en puntuaciones tpicas, es decir, reducir ambas variables a la misma escala, la escala de
puntuaciones tpicas. Luego, se procede de la misma manera, es decir, se halla la media
de la suma de productos cruzados. Formalmente, el coeficiente de correlacin de
Pearson, al que denominaremos rxy, se define de la siguiente manera:

r xy =

Zx Zy
N

En SPSS se define el coeficiente poniendo N-1, en lugar de N en el denominador. Esto


es,

r xy =

Zx Zy
N -1

A continuacin se ofrece el clculo del coeficiente de correlacin de Pearson para el


mismo ejemplo que hemos utilizado en el caso de la covarianza:
X
60
10
80
50
30

Y
4
2
9
7
3

ZX
0.5182
-1.3324
1.2584
0.1480
-0.5922

r xy =

ZY
-0.3430
-1.0290
1.3720
0.6860
-0.6860

ZxZy
-0.1777 _
1.3710 X = 46,
1.7265 _
0.1015 Y = 5,
0.4063
3.4276

Sx = 27.0185
Sy = 2.9155

Zx Z y
3.4276
=
= 0.8569
N -1
4

Otra definicin equivalente a la anterior es la siguiente:

79

r xy =

cov(X,Y)
Sx S y

donde Sx es la desviacin tpica de la variable X y Sy es la desviacin tpica de la variable


Y.
Con los datos anteriores, se obtendra

r xy =

cov(X,Y)
Sx S y

67.5
= 0.8569
(27.0185)(2.9155)

Para la interpretacin de este resultado (0.8569) debemos tener en cuenta que rxy oscila
entre los valores -1 y 1, donde 1 indica la existencia de una relacin (lineal) positiva
perfecta entre X e Y, y -1 indica la existencia de una relacin (lineal) negativa perfecta
entre X e Y. Otro criterio que ayuda a interpretar rxy es el significado del valor 0. Al igual
que ocurra con la covarianza, un valor de rxy igual a 0 indica que no existe relacin
(lineal) entre X e Y. Por tanto, para interpretar rxy debemos observar, primero, si ste es
positivo, negativo o igual a cero. Un valor positivo indica relacin (lineal) positiva, un
valor negativo indica relacin (lineal) negativa y un valor igual a 0 indica que no existe
relacin (lineal) entre X e Y.
En el ejemplo, rxy = 0.8569 indica dos cosas:
1. que la relacin entre X e Y es positiva, puesto que 0.8569 es positivo;
2. que la relacin es intensa, puesto 0.8569 est mucho ms cerca de 1 que de 0.
Una apreciacin interesante que cabe hacer aqu es que el signo de rxy no es un indicador
de la intensidad de la relacin. Por tanto, si tuviramos un valor de rxy igual a 0.50 y otro
valor de rxy igual a -0.90 no podramos concluir que la primera relacin (0.50) es ms
intensa que la segunda (-0.90). Al contrario la segunda relacin (-0.90) es mucho ms
intensa que la primera (0.50) porque -0.90 est mucho ms prximo a -1 (relacin
perfecta) que 0.50 a 1 (relacin perfecta). Recuerde que el signo slo sirve para
representar la direccin de la relacin (positiva o negativa). En efecto, en un caso la
relacin es positiva (0.50) y en otro negativa (-0.90).
A pesar de tener unos lmites (-1 y 1) y un punto central (el cero), con un significado
inequvoco, la interpretacin del coeficiente de correlacin de Pearson puede portar
cierta subjetividad. La manera ms objetiva de interpretar rxy se consigue elevndolo al
cuadrado. El cuadrado del coeficiente de correlacin de Pearson tiene, incluso, un
nombre propio: coeficiente de determinacin. El coeficiente de determinacin ofrece la
ventaja de que indica la cantidad de varianza comn a X y a Y, expresada dicha cantidad
en tantos por uno. Si elevramos el coeficiente de correlacin que obtuvimos en el
ejemplo (rxy = 0.8569) al cuadrado obtendramos un valor de 0.7343, que es la
proporcin de varianza comn o compartida por X e Y. A veces se establece una
direccin en la relacin y se le denomina proporcin de varianza de Y determinada por X
(de ah el nombre de coeficiente de determinacin).

80

Ahora se puede ver ms fcilmente por qu la intensidad de la relacin es independiente


del signo. El en caso de rxy = 0.50 la proporcin de varianza de Y determinada por X es
0.25, mientras en el caso de rxy = -0.90 esta proporcin es 0.81. Obviamente es mucho
mayor el grado de asociacin, de comunalidad o solapamiento entre las variables X e Y
en este segundo caso que en el primero.
Veamos, a modo de ejemplo, cmo podramos obtener el valor de la correlacin y la
covarianza entre item01 e item02 utilizando SPSS en nuestro estudio sociolingstico.
En primer lugar, seleccione la opcin Analizar y, dentro de ella, la opcin
Correlaciones. Aparecern tres opciones: Bivariadas, Parciales, y Distancias.
Seleccione la opcin Bivariadas. Aparecer el siguiente cuadro de dilogo:

Seleccione las variables item01 e item02 de la lista de variables de la izquierda. En el


recuadro Coeficientes de correlacin puede seleccionar el tipo de coeficiente de
correlacin que desea obtener. El coeficiente de correlacin tau-b de Kendall y el
coeficiente de correlacin de rangos de Spearman se aplican a variables medidas en
escalas ordinales. El coeficiente de correlacin de Pearson, el que nos interesa, es el que
est sealado por defecto. En cuanto a las pruebas de significacin, veremos su utilidad
ms adelante, por lo que no nos detendremos aqu en explicarlas. Para obtener tambin
el valor de la covarianza, pulse ahora el botn Opciones. Aparecer un nuevo cuadro de
dilogo:

81

En el recuadro Estadsticos se nos muestran como estadsticos opcionales las medias y


desviaciones tpicas de item01 e item02, y tambin los productos cruzados de las
puntuaciones diferenciales (o de desviacin) y las covarianzas. Seleccione esta ltima
opcin y pulse el botn Continuar. A continuacin, en el cuadro de dilogo de
Correlaciones bivariadas, pulse el botn Aceptar. Obtendr una tabla como esta:
Correlaciones

entiendo el
gallego hablado

entiendo el
gallego escrito

Correlacin de Pearson
Sig. (bilateral)
Suma de cuadrados y
productos cruzados
Covarianza
N
Correlacin de Pearson
Sig. (bilateral)
Suma de cuadrados y
productos cruzados
Covarianza
N

entiendo
el gallego
hablado
1.000
.
6.200
.326
20
.926**
.000

entiendo
el gallego
escrito
.926**
.000
5.900
.311
20
1.000
.

5.900

6.550

.311
20

.345
20

**. La correlacin es significativa al nivel 0,01 (bilateral).

En las filas de la tabla correspondientes se ofrece la suma de los productos cruzados


(5.9) y el valor de la covarianza (0.311). Estos valores nos indican que la relacin
existente entre item01 e item02 es una relacin positiva, pero no resulta claro cul es la
magnitud de esa relacin. En la fila correspondiente a la correlacin aparece el valor
0.926, que s nos informa sobre la magnitud de la relacin entre ambas variables. Dado
que el valor se halla muy prximo a 1 (correlacin positiva perfecta), podremos decir
que la relacin entre item01 e item02 es positiva y muy alta.
Probablemente se habr fijado en que el valor la suma de productos cruzados, de la
covarianza y del coeficiente de correlacin se ofrecen por duplicado. Esto se debe a que
los resultados se muestran en forma de matriz. Una matriz puede definirse como un
conjunto de coeficientes de elementos ordenados en filas y columnas. Aqu, adems, las
filas representan variables. Por eso, la matriz tiene slo dos filas. La primera fila

82

representa la primera variable (item01) y la segunda fila la segunda variable (item02).


De igual forma, las columnas tambin son variables. La columna 1 es la variable 1
(item01) y la columna 2 es la variable 2 (item02). En el caso del coeficiente de
correlacin, esta es la forma de la matriz que usted ha visto en la tabla ofrecida por el
visor de resultados:

item01 item02
item01
r11 r12
r

item02
21 r22
Formalmente, un elemento se representa por una letra minscula (aqu la r de rxy) y dos
subndices. El primer subndice se refiere a la fila. Observe como en los dos elementos
de la fila 1 el primer subndice es un 1. De forma similar, observe como el primer
subndice de los elementos de la segunda fila es un 2. El segundo subndice se refiere a
la columna. Observe como el segundo subndice de la columna 1 es un 1 y el segundo
subndice de la columna 2 es un 2.
La matriz que usted ha obtenido tiene cuatro elementos. El elemento r11 es la correlacin
de Pearson entre item01 e item01, es decir, la correlacin de item01 consigo misma.
Evidentemente, esta correlacin tiene que ser perfecta positiva. Por eso, el valor
numrico que se observa en dicha posicin en el listado de SPSS es un 1. El elemento
r12 es la correlacin entre la item01 e item02 (.926). El elemento r21 es la correlacin de
Pearson entre item02 e item01. Obviamente, esta correlacin tiene que ser idntica a la
correlacin entre item01 e item02. Por eso el coeficiente de correlacin es tambin .926.
Finalmente, el elemento r22 es la correlacin entre item02 e item02. Por eso, el resultado
es 1.
Cuando slo se analizan dos variables no se observa la ventaja de ordenar los
coeficientes de correlacin en una matriz. Esta observacin se hace ms fcilmente
cuanto mayor sea el nmero de variables. Pruebe a hacer el mismo anlisis con item01,
item02, e item03. Si realiza este ejercicio, obtendr una matriz de correlaciones con el
siguiente formato:

item01 item02 item03


r11 r12 r13
item01

item02
r21 r22 r23
r31 r32 r33
item03
Dado que las filas son variables y las columnas son esas mismas variables, la matriz de
correlaciones siempre ser cuadrada (nmero de filas = nmero de columnas). Una
matriz cuadrada se puede descomponer en tres partes: (a) la diagonal principal; (b) el
tringulo superior; y (c) el tringulo inferior.
La diagonal principal est formada por aquellos elementos en que el primer subndice y
el segundo son iguales. Los elementos de la diagonal principal de la matriz anterior son
r11, r22 y r33. Ya habamos sealado que una caracterstica distintiva de la matriz de

83

correlaciones es que los elementos de la diagonal principal son siempre iguales a 1.


Usted podr observar en su tabla que, en efecto, estos tres elementos son iguales a 1.
El tringulo superior est formado por todos los elementos situados por encima de la
diagonal principal. En la matriz anterior el tringulo superior est formado por los
elementos r12 (.926), r13 (.536) y r23 (.541).
El tringulo inferior est formado por todos los elementos situados por debajo de la
diagonal principal. En la matriz anterior el tringulo inferior est formado por los
elementos r21 (.926), r31 (.536) y r32 (.541).
Otra propiedad distintiva de la matriz de correlaciones es que es simtrica. Esto quiere
decir que, en este caso, se cumple que
r12 = r21 (aqu .926),
r13 = r31 (aqu .536),
r23 = r32 (aqu .541).
Es comprensible que sea as porque el nmero que le hemos concedido a las variables es
arbitrario.

6.3. Regresin lineal con una variable independiente


Con anterioridad sealamos que el anlisis de relaciones entre variables es un objetivo
prioritario en la investigacin cientfica. El conocimiento de la relacin entre dos
variables X e Y nos puede permitir predecir Y a partir de valores conocidos en X.
Imagine que, en el ejemplo que hemos resuelto manualmente en el apartado anterior, X
fuera inteligencia e Y fuera rendimiento acadmico. Imagine, adems, que nos dan la
puntuacin de un nuevo sujeto en inteligencia (X) y nos piden que hagamos una
prediccin de su rendimiento acadmico futuro (Y). El coeficiente de correlacin de
Pearson es una medida global de la relacin entre dos variables X e Y. Como en el
ejemplo este coeficiente era 0.8569, podremos afirmar que si la puntuacin del sujeto en
inteligencia (X) es alta, el rendimiento acadmico tender a ser alto, mientras que si su
puntuacin en inteligencia es baja su rendimiento acadmico tender a ser bajo. Habr
observado que esta prediccin no es muy precisa. Lo ideal sera pronosticar la
puntuacin que el sujeto obtendr en rendimiento acadmico (Y). Para este propsito se
ide el anlisis de regresin. A diferencia del coeficiente de correlacin de Pearson, el
anlisis de regresin especifica la forma de la relacin entre X e Y, lo que permite la
prediccin de valores puntuales en Y a partir de valores conocidos en X.
Dentro del anlisis de regresin se pueden distinguir dos tipos: (1) regresin lineal; (2)
regresin no-lineal. Aqu slo ser considerado el primero de estos anlisis.
El anlisis de regresin lineal, como su propio nombre sugiere, asume que Y es funcin
lineal de X. La funcin lineal tiene la siguiente forma:
Y = a + bX

84

donde a y b son dos constantes.


Dado que la relacin entre X e Y es, con frecuencia, no-exacta, en el anlisis de regresin
se aade a la ecuacin lineal un trmino de error. Formalmente, pues, la ecuacin de
regresin se puede definir as:
Y = a + bX + e
donde e es el error que se cometera si utilizramos esta ecuacin para predecir valores
en Y a partir de valores conocidos en X.
Una manera ms operativa de expresar la ecuacin de regresin es la siguiente:
Y = a + bX
donde Y es la prediccin que se hace en Y, que no tiene porque coincidir con el
verdadero valor de Y (desconocido). Precisamente, la diferencia entre Y e Y es el error.
Esto es,
Error = Y - Y
En una situacin emprica el problema de la regresin lineal consiste en estimar los
valores de a y b, a partir de valores conocidos en X e Y. Los valores de a y b se
determinan de forma que la magnitud de los errores sea lo ms pequea posible. A este
criterio matemtico se le denomina criterio de mnimos cuadrados. Si se aplica este
criterio se obtiene la siguiente definicin de b:
b =

xy
x2

donde x e y son puntuaciones diferenciales.


De formar similar, aplicando este criterio para a se obtiene que
a = Y bX
A continuacin, se ofrece el mismo ejemplo emprico que hemos utilizado para la
covarianza y el coeficiente de correlacin de Pearson:
X
60
10
80
50
30
230

Y
4
2
9
7
3
25

x
14
-36
34
4
-16

b =

y
-1
-3
4
2
-2

xy
-14
108
136
8
32
270

x y 270
=
= 0.09247
x 2 2920

85

x
196
1296
1156
16
256
2920

_
X = 46
_
Y=5

a = Y bX = 5 (0.09247)(46) = 0.74638
La ecuacin de regresin lineal sera, por tanto, la siguiente:
Y = 0.74638 + 0.09247 X.
A nivel interpretativo, la constante a indica el valor que le corresponde a Y cuando X es
igual a 0. A la constante a se le denomina interceptal. La constante b indica el cambio
medio que se producira en Y ante el cambio de una unidad en X. A esta constante se le
denomina pendiente y es la ms interesante desde un punto de vista sustantivo. Lo
primero que debemos observar en b es su signo. Una constante b con signo positivo
indica que ante un incremento de X tambin se producira un incremento de Y. Una
constante b negativa indica que ante un incremento de X se producira una disminucin
del valor de Y. En este caso, un valor de b igual a 0.09247 indica que ante el incremento
de una unidad en X, se produce un incremento medio de 0.09247 unidades en Y.
Para ilustrar la utilidad de la ecuacin de regresin estimada anteriormente, imagine que
nos indican que un sujeto, distinto de los 5 anteriores, ha obtenido una puntuacin en
inteligencia igual a 70. Este sujeto, adems, no ha realizado la prueba Y y nos requieren
que hagamos un pronstico de su rendimiento en tal prueba. Como tenemos construida
la ecuacin de regresin de Y sobre X, resolvemos en ella para X = 70 y ya obtenemos la
prediccin en Y. Esto es,
Y = 0.74638 + (0.09247) (70) = 7.22.
La ecuacin de regresin nos permiti realizar una prediccin de 7.22 para este nuevo
sujeto. As se podra utilizar la misma ecuacin de regresin para realizar predicciones
para otros muchos sujetos.
Ahora bien, una vez hecha esta prediccin nos podran preguntar por el grado de
"fiabilidad" de la misma. Para contestar a esta pregunta deberamos disponer de ndices
que reflejaran la precisin de la ecuacin de regresin.
Existen dos maneras de enfrentarse al problema de la "fiabilidad" de la ecuacin de
regresin. Una consiste en medir el error tpico que se comete utilizando la ecuacin de
regresin. La otra consiste en medir la cantidad de variabilidad de Y que explica la
ecuacin de regresin.
Para comprender cmo se obtiene una medida global del error, recuerde que el error se
defina as:
Error = Y - Y
donde Y es el verdadero valor de Y, e Y es la prediccin que se realiza en Y mediante la
ecuacin de regresin.
En principio podra pensarse que una medida global del error se obtendra hallando la
media de los errores. Esto es,
86

(Y - Y )
N
Esto sera correcto de no ser porque se sabe que la suma de los errores (el numerador)
siempre es igual a 0. Para comprobarlo numricamente se ofrecen, a continuacin, estos
valores para el mismo ejemplo numrico tratado anteriormente:
Y
4
2
9
7
3

Y
6.29
1.67
8.14
5.37
3.53

Y-Y
-2.29
0.33
0.86
1.63
-0.53
0.00

Observe como la suma de los errores cometidos con la ecuacin de regresin, (Y-Y),
es igual a 0. Este hecho no slo sera cierto para estos datos, sino para cualquier par de
valores (X,Y).
Para evitar este problema de la no aditividad de los errores, lo que se hace es elevarlos al
cuadrado y hallar, luego, la media de dichos cuadrados. Formalmente,
(Y - Y )2
N
Observe que este ndice es una medida global de la magnitud del error que se comete
utilizando una ecuacin de regresin dada. Cuanto mayor sea este ndice, mayor es el
error. Observe tambin que este ndice es un tipo de varianza. Precisamente, por esta
razn, se le denomina varianza de los errores o tambin varianza residual. El trmino
"residuo" se utiliza en este contexto en el sentido de "error".
Dado que para el clculo de la varianza residual se han elevado los errores al cuadrado,
su interpretacin es difcil. Por esta razn, es muy til hallar la raz cuadrada de la
varianza residual. Este ndice es una desviacin tpica que, en este contexto, se
denomina error tpico. Formalmente, el error tpico se define as:
(Y - Y )2
N

El error tpico es de interpretacin fcil. Sus lmites son los siguientes:


0 Error tpico Sy
Para una correcta interpretacin del error tpico debemos conocer, por tanto, la
desviacin tpica de la variable dependiente Y. En nuestro caso, Sy = 2.9155. A
continuacin se ofrecen los clculos necesarios para la obtencin del error tpico en el
ejemplo:

87

Y
4
2
9
7
3

Y
6.29
1.67
8.14
5.37
3.53

Error tpico =

Y-Y
-2.29
0.33
0.86
1.63
-0.53

9.0304
=
5

(Y-Y)
5.2441
0.1089
0.7396
2.6569
0.2809
9.0304

1.81 = 1.34

Ntese que un error tpico de 1.34 indica que el error que se comete pronosticando una
puntuacin de 7.22, para un hipottico sujeto que hubiese obtenido una puntuacin en X
igual a 70, no es alto. Si el error fuese alto este ndice debera estar prximo a 2.9155.
En este caso, 1.34 se aleja bastante de 2.9155.
Otra manera de aproximarse al problema de la "fiabilidad" de las predicciones realizadas
con la ecuacin de regresin consiste en medir la cantidad de variabilidad de Y que es
capaz de explicar la ecuacin de regresin. Esta aproximacin suele realizarse de dos
maneras. Una de ellas consiste en hallar el coeficiente de correlacin de Pearson entre
los verdaderos valores de Y y los valores predichos por la ecuacin de regresin (Y).
Formalmente, este coeficiente, que aqu denominaremos ryy, puede definirse as:
r yy =

cov(Y,Y )
SySy

Es importante sealar que, a diferencia de rxy, ryy no asume valores negativos, oscila
entre 0 y 1. Un valor de ryy negativo significara que cuando Y es un valor alto, la
prediccin Y es un valor bajo, y viceversa. Obviamente, esto no tendra sentido en este
contexto.
En el ejemplo anterior, utilizando la definicin de covarianza y de desviacin tpica
incorporada en SPSS, obtendramos un valor de ryy igual a 0.8569. A continuacin se
ofrece el procedimiento seguido para obtener este resultado:
Y
4
2
9
7
3

Y
6.29
1.67
8.14
5.37
3.53

y
-1
-3
4
2
-2

y
1.29
-3.33
3.14
0.37
-1.47

cov(Y,Y ) =

yy
-1.29 _
9.99 Y = 5,
12.56 _
0.74 Y = 5,
2.94
24.94

Sy = 2.9155
Sy = 2.4955

24.94
= 6.235
4

Por tanto,

88

r yy =

6.235
= 0.8569
(2.9155)(2.4955)

Si procedemos de la misma manera que hicimos con rxy y elevamos ryy al cuadrado
obtenemos la proporcin de variabilidad de Y que es explicada por sus predicciones (Y)
o, lo que es lo mismo, la proporcin de variabilidad de Y que es explicada por la
ecuacin de regresin. Para el ejemplo, tenemos
r2yy = (0.8569)2 = 0.7343.
Observe que una proporcin de variabilidad explicada igual a 0.7343 indica la existencia
de una alta fiabilidad en las predicciones que se realicen con la ecuacin de regresin. El
valor mximo de esta proporcin sera 1, y el mnimo 0. Una proporcin de 0.7343 est
bastante cerca de 1.
Otra manera de conocer la cantidad de variabilidad de Y explicada por la ecuacin de
regresin se fundamenta en una propiedad sumamente interesante que posee la
variabilidad de Y. Se sabe que la variabilidad de Y puede descomponerse en dos partes
aditivas: (1) la variabilidad de Y que puede explicar la ecuacin de regresin
(abreviadamente, Variabilidad Regresin); y (2) la variabilidad de Y que no puede
explicar la ecuacin de regresin (abreviadamente, Variabilidad Residual). Esto es,
Variabilidad de Y = Variabilidad Regresin + Variabilidad Residual,
donde
Variabilidad de Y =

(Y Y )

Variabilidad Regresin =
Variabilidad Residual =

(Y 'Y )

(Y Y ')

Observe como la definicin que se ha ofrecido de la Variabilidad de Y es el numerador


de la definicin de varianza. De forma similar, observe tambin como la definicin que
se ha ofrecido de Variabilidad Residual es el numerador de la varianza residual.
Para comprobar la verdad de esta igualdad se ofrece nuevamente el ejemplo numrico
con el que hemos estado trabajando anteriormente. En las predicciones (Y) se utilizan 5
decimales en lugar de 2, para conseguir una mayor precisin en el clculo:
Y
4
2
9
7
3

Y
6.29478
1.67128
8.14418
5.37008
3.52068

_
2
(Y-Y)
1
9
16
4
4
34

_
2
(Y-Y)
1.68
11.08
9.88
0.14
2.19
24.97

89

(Y-Y)
5.27
0.11
0.73
2.65
0.27
9.03

_
Y=5
_
Y = 5

Tal como habamos sealado, se puede observar que la Variabilidad de Y (aqu 34) es
igual a la suma de la Variabilidad explicada por la ecuacin de regresin (Variabilidad
Regresin, aqu 24.97) y la Variabilidad no explicada por la ecuacin de regresin
(Variabilidad Residual, aqu 9.03).
Una coincidencia importante se obtiene si dividimos ahora lo que hemos denominado
Variabilidad Regresin entre lo que hemos denominado Variabilidad de Y. El cociente
es la proporcin de Variabilidad de Y explicada por la ecuacin de regresin, y esta es la
definicin del cuadrado de ryy. En efecto, si dividimos en el ejemplo 24.97 entre 34
obtenemos un cociente de 0.7343 que es justamente el cuadrado de 0.8569, que era el
valor de ryy.
Veamos cmo llevaramos a cabo un anlisis de regresin de item03 (variable
dependiente) sobre item01 (variable independiente) del estudio sociolingstico. En
primer lugar, seleccione la opcin Analizar. En el men que se despliega a continuacin,
seleccione la opcin Regresin. A la derecha aparecer un nuevo men con distintos
tipos de regresin, tanto lineal como no lineal. Nosotros vamos a efectuar un anlisis de
regresin lineal; por tanto, seleccione esta opcin. Aparecer un cuadro de dilogo como
el siguiente:

En primer lugar debe especificar cul es la variable dependiente y cul(es) la(s)


independiente(s). Como variable dependiente, seleccione item03, y como variable
independiente, item01. Puede efectuar el anlisis de regresin para una misma variable
dependiente en distintos bloques; es decir, puede hacer varios anlisis de regresin con
distintos grupos de variables independientes para una misma variable dependiente. Para
moverse de un bloque de anlisis a otro, puede uitlizar los botones Anterior y
Siguiente. Existe tambin un recuadro, etiquetado Mtodo, para especificar el mtodo

90

de introduccin de las variables independientes en la ecuacin de regresin. El mtodo


por defecto es el denominado Introducir, que introduce directamente item01 como
variable independiente. El recuadro etiquetado Variable de seleccin nos permite utilizar
una variable para seleccionar un subconjunto de sujetos de la muestra total (p. ej.: los
hombres, las amas de casa, etc.). El botn Regla nos permite seleccionar el valor de la
variable de seleccin que define al subconjunto en cuestin. El recuadro etiquetado
Etiquetas de caso nos permite utilizar una variable que contenga etiquetas para cada
sujeto, y puede ser de inters a la hora de llevar a cabo anlisis ms finos de la relacin
entre las variables, pero no nos interesa ahora. Por ltimo, en la base del cuadro de
dilogo aparecen distintos botones que nos permiten obtener ms informacin del
anlisis; Sin embargo, tampoco vamos a utilizarlos ahora. Pulse directamente el botn
Aceptar. El visor de resultados le mostrar una serie de tablas. La primera de ellas tiene
este aspecto:
Variables introducidas/eliminadasb
Modelo
1

Variables
introducidas
entiendo el
gallego a
hablado

Variables
eliminadas

Mtodo
.

Introducir

a. Todas las variables solicitadas introducidas


b. Variable dependiente: soy capaz de hablar en gallego

Recuerde que estamos intentando resolver un problema de regresin lineal con dos
variables X e Y. Una de estas variables (Y) se asume que es funcin lineal de la otra (X).
A la variable Y se le denomina dependiente y a X independiente. En este ejemplo la
variable dependiente es item03 y la variable independiente es item01. La siguiente tabla,
de mayor inters para nosotros, contiene el resumen del modelo:
Resumen del modelo
Modelo
1

R
.536a

R cuadrado
.287

R cuadrado
corregida
.247

Error tp. de la
estimacin
.58

a. Variables predictoras: (Constante), entiendo el gallego


hablado

En esta tabla, R es ryy (.536), y R cuadrado es el cuadrado de ryy. En este caso R


cuadrado = .287 indica que la proporcin de Variabilidad de item03 explicada por la
ecuacin de Regresin es .287.
R cuadrado corregida se define de la manera siguiente:
R cuadrado corregida = R cuadrado -

p(1 - R cuadrado)
N - p -1

donde p es el nmero de variables independientes en la ecuacin de regresin.

91

R cuadrado corregida es, en realidad, una infraestimacin de R cuadrado. Su valor, es


por tanto, ligeramente inferior al de R cuadrado. En este caso,
R cuadrado corregida = .287 -

1(1 - .287 )
= .247
20 - 1 - 1

En la siguiente columna aparece el error tpico de estimacin. En SPSS, el error tpico


de estimacin se define de manera ligeramente distinta a la definicin que hemos
ofrecido nosotros anteriormente. No obstante, puede interpretarse de la misma manera.
La definicin que se ofrece en SPSS es la siguiente:
Error tpico = S y

1 - R cuadrado corregida

Segn esta definicin, para el clculo del error tpico necesitamos conocer la desviacin
tpica de la variable dependiente (aqu la desviacin tpica de item03). La desviacin
tpica de item03 puede obtenerse utilizando el botn Estadsticos, situado en la parte
inferior del cuadro de dilogo del anlisis de regresin. Al pulsar ese botn aparece este
nuevo cuadro de dilogo:

Si selecciona la opcin Descriptivos en este cuadro de dilogo, obtendr un listado


anlogo al anterior, con los estadsticos descriptivos para item01 e item03 aadidos al
mismo. No obstante, en la siguiente tabla del visor de resultados se dispone de
informacin suficiente para conocer la desviacin tpica de item03:

92

ANOVAb
Modelo
1

Regresin
Residual
Total

Suma de
cuadrados
2.453
6.097
8.550

gl
1
18
19

Media
cuadrtica
2.453
.339

F
7.243

Sig.
.015a

a. Variables predictoras: (Constante), entiendo el gallego hablado


b. Variable dependiente: soy capaz de hablar en gallego

Observe las dos primeras filas de esta Tabla. En ellas estn representadas las dos partes
en que descomponamos la Variabilidad de la variable dependiente (aqu item03). Estas
partes eran la Variabilidad explicada por la ecuacin de regresin (Regresin) y la
Variabilidad no explicada por la ecuacin de regresin (Residual). Recuerde que la
Variabilidad se defina como una Suma de Cuadrados. Por eso, en la columna 2 se
ofrecen las Sumas de Cuadrados para el componente explicado por la ecuacin de
regresin (2.453) y para el componente no explicado por la ecuacin de regresin
(6.097). Conocidos estos dos componentes, tenemos informacin para obtener la Suma
de Cuadrados de item03. Esto es,
Suma de Cuadrados de item03 = 2.453 + 6.097 = 8.55.
Como la Suma de Cuadrados de item03 es el numerador de su varianza, tenemos que
Varianza de item03 =

Suma de cuadrados de item03 8.55


=
= 0.45
N 1
19

Conocida la varianza de item03, la desviacin tpica ser

0.45 = 0.67.
Ahora ya disponemos de toda la informacin necesaria para calcular el error tpico:
Error tpico = 0.67 1 - 0.247 = .58
Anteriormente se ha indicado que R cuadrado es el cuadrado de ryy. Esta medida indica
la proporcin de Variabilidad de item03 explicada por la ecuacin de regresin. En este
caso, R cuadrado es .287. Otra manera de obtener esta proporcin sera dividiendo la
Suma de Cuadrados explicada por la ecuacin de regresin entre la Suma de Cuadrados
de item03. Esto es,
Suma de Cuadrados regresin 2.453
=
= .287
Suma de Cuadrados de item 03 8.55

Para juzgar la importancia de esta proporcin SPSS compara la Variabilidad explicada


por la ecuacin de regresin con la Variabilidad no explicada por la ecuacin de
regresin. Pero antes de realizar esta comparacin se corrigen las dos Sumas de
Cuadrados (Regresin y Residual) dividindolas por sus respectivos grados de libertad.

93

Los grados de libertad estn indicados en la primera columna de la Tabla de Anlisis de


varianza mediante las letras gl. Se observa que la Suma de Cuadrados explicada por la
ecuacin de regresin solamente tiene 1 grado de libertad. Los grados de libertad para
esta fuente de Variabilidad son iguales al nmero de variables independientes existentes
en la ecuacin de regresin. Aqu slo tenamos una variable independiente (item01). En
cuanto a la Suma de Cuadrados no explicada por la ecuacin de regresin, se observa
que los grados de libertad son 18. Estos grados de libertad se obtienen as:
gl = Nmero de sujetos - Nmero de variables independientes - 1

En este caso,
gl = 20 - 1 - 1 = 18.

Al cociente entre la Suma de Cuadrados y sus grados de libertad se le denomina Media


Cuadrtica. La Media Cuadrtica para la Variabilidad explicada por la ecuacin de
regresin es la siguiente:
Media Cuadratica =

Suma de Cuadrados regresion 2.453


=
= 2.453
grados de libertad
1

De forma similar, la Media Cuadrtica para la Variabilidad no explicada por la ecuacin


de regresin se obtiene as:
Media Cuadratica =

Suma de Cuadrados residual 6.097


=
=.339
18
grados de libertad

Una vez corregidas ambas fuentes de Variabilidad se procede a su comparacin. Al


cociente se le denomina F. Esto es,
F =

MC Regresin 2.453
=
= 7.24
MC Residual
.339

La distribucin probabilstica del cociente F es conocida. El valor que aparece al lado de


F, con la especificacin Sig. (.015), es la probabilidad de obtener por azar un valor de F
superior a 7.24. Observe que esta probabilidad es muy baja. En tantos por cien,
solamente se obtendr por azar un valor de F superior a 7.24, 1.5 veces de cada cien. Lo
que esto indica es que el valor obtenido de F es altamente fiable o tambin
"estadsticamente significativo". En general, se acepta la significatividad estadstica
siempre que la probabilidad asociada (tambin denominada nivel de significacin) sea
igual o menor que .05.
Veamos ahora la ltima tabla que nos ofrece el anlisis de regresin efectuado, que
contiene los coeficientes de la ecuacin de regresin. La tabla tiene este aspecto:

94

Coeficientesa

Modelo
1

(Constante)
entiendo el
gallego hablado

Coeficientes no
estandarizados
B
Error tp.
.452
.644
.629

Coeficient
es
estandari
zados
Beta

.234

.536

t
.701

Sig.
.492

2.691

.015

a. Variable dependiente: soy capaz de hablar en gallego

Esta tabla tiene 2 filas. En la fila 1 se ofrece informacin relativa a la constante a de la


ecuacin de regresin, y en la fila 2 informacin relativa a la constante b. En la zona
izquierda (etiquetada B) de la columna de la tabla que contiene los coeficientes no
estandarizados, se dispone de informacin suficiente para construir la ecuacin de
regresin. El valor .452 es la constante a, mientras el valor .629 es la constante b. Por
tanto, la ecuacin de regresin es la siguiente:

item03 = .452 + .629 item01.


A nivel interpretativo, recuerde que la constante a tena escasa importancia. Lo que
indica a es el valor que tomara item03 ante un hipottico valor igual a 0 en item01. En
este caso, item03 sera .452. En adelante no se ofrecern ms comentarios relativos a la
constante a. La constante autnticamente relevante es b. Una constante b igual a .629
indica que cuando item01 aumenta 1 unidad, item03 aumenta .629 unidades. En la zona
derecha (etiquetada Error tp.) de la columna que contiene los coeficientes no
estandarizados se ofrece una medida de la fiabilidad de la constante b: el error tpico de
la constante b. El error tpico de b es igual a .234. Para interpretar este error tpico debe
considerarse que cuanto ms se aproxime a 0 mayor es la fiabilidad de la constante b y
cuanto ms se aproxime a b menor es su fiabilidad. Si el valor del error tpico de b
excediera el valor de b sera una indicacin muy clara de que b es muy poco fiable. Para
una interpretacin ms precisa del error tpico de b se podra crear un intervalo de
confianza para b. Si entre los lmites de dicho intervalo est el valor cero, se concluira
que b no es fiable. En caso contrario, se concluira que b es fiable o estadsticamente
significativo.
Para poder crear este intervalo es necesario conocer la distribucin probabilstica de b.
Afortunadamente, esta distribucin es conocida. Se sabe que es una distribucin t de
Student, con N-2 grados de libertad. Para estos datos N es 20 y, en consecuencia, los
grados de libertad son 18. Si consultamos la distribucin t en un libro de estadstica, para
18 grados de libertad, y un nivel de significacin de .05, para un contraste con dos
direcciones, obtenemos un valor t igual a 2.101. Para crear el intervalo de confianza se
multiplica este valor crtico de t por el error tpico de b. En este caso, multiplicamos
2.101 por .234. El resultado es .49. Si ahora restamos .49 a b, obtenemos el lmite
inferior del intervalo, y si sumamos .49 a b, obtenemos el lmite superior del intervalo.
En este caso, tenemos:

95

lmite inferior = .629 - .49 = .14;


lmite superior = .629 + .49 = 1.12.

Dado que el cero no se encuentra entre los lmites del intervalo, concluimos que el valor
de b (.629) es fiable o estadsticamente significativo.
El valor Beta igual a .536 ofrecido en la siguiente columna de la tabla es el valor de b si
se estandarizaran tanto la variable independiente como la variable dependiente. Es decir,
es el valor de b si tanto item01 como item03 se transformaran en puntuaciones tpicas
(Z). Recurdese que si se realizara esta transformacin las dos variables tendran la
misma media (0 en ambos casos) y la misma varianza (1 en ambos casos). La
transformacin de b en BETA se obtiene de la siguiente manera:
BETA = b

Desviacin tipica variable independiente


Desviacin tipica variable dependiente

Con estos datos,


BETA = 0.629 x

0.57
= .535
0.67

Cuando el nmero de variables independientes en la ecuacin de regresin es 1, BETA


coincide con el valor del coeficiente de correlacin de Pearson entre la variable
independiente y la variable dependiente. Con estos datos, el coeficiente de correlacin
de Pearson entre item01 e item03 tambin sera .535.
Solamente nos quedan por comentar las dos ltimas columnas de la tabla anterior. El
procedimiento que se ofrece en estas columnas es, en realidad, una forma alternativa de
evaluar la fiabilidad de la constante b. En este caso, se compara b con su error tpico. El
valor t se obtiene as:
t =

constante b
0.629
=
= 2.69
0.234
error tpico de b

La probabilidad que se ofrece en la ltima columna, para t = 2.691, bajo la


denominacin de Sig., es la probabilidad de obtener por azar un valor de t superior a
2.691 o igual o inferior a -2.691 (recuerde que el contraste es bilateral). Se observa que
esta probabilidad es .015. Esta probabilidad es muy baja, lo que indica que la constante b
es fiable o estadsticamente significativa. Ntese que esta es la misma conclusin a la
que hemos llegado anteriormente creando un intervalo de confianza para b.

6.4. Regresin mltiple


Recuerde que en la regresin lineal existan dos variables. A una de ellas se le
denominaba dependiente y a la otra independiente. Se asuma que la variable
dependiente era funcin lineal de la variable independiente. En la regresin mltiple se
dispone igualmente de una variable dependiente, pero se asume que sta es funcin
96

lineal de dos o ms variables independientes. La forma de la ecuacin de regresin para


el caso de dos variables independientes es la siguiente:
Y = a + b1X1 + b2X2.

Ntese que los valores de Y, X1 y X2 son conocidos para un problema dado, y los valores
de a, b1 y b2 desconocidos. Las constantes a, b1 y b2 se pueden calcular por el mismo
procedimiento de mnimos cuadrados utilizado en la regresin con una variable
independiente. Recuerde que este procedimiento garantiza la bsqueda de valores para
las constantes que producen los errores ms pequeos posibles.
A la constante a se le sigue denominando interceptal e indica el valor de Y cuando X1 y
X2 son ambas iguales a 0. La constante b1 indica el cambio medio en Y ante el cambio de
una unidad en X1, bajo el supuesto de que X2 permanece constante. Por esta razn se le
denomina coeficiente de regresin parcial de la variable X1. De forma similar, la
constante b2 indica el cambio medio en Y ante el cambio de una unidad en X2, bajo el
supuesto de que X1 permanece constante. A la constante b2 se le denomina coeficiente de
regresin parcial de la variable X2.
En trminos generales, la ecuacin de regresin mltiple tiene la siguiente forma:
Y = a + b1X1 + b2X2 + ... + bpXp

donde p es el nmero total de variables independientes en la ecuacin de regresin.


En SPSS, la regresin mltiple se realiza con el mismo procedimiento que se utiliza en
la regresin con una sola variable independiente. Para SPSS la regresin con una
variable independiente es, en realidad, un caso particular de la regresin mltiple.
Vamos a llevar a cabo un anlisis de regresin mltiple utilizando las variables item01,
item03 e item11. El procedimiento es el mismo que en el anlisis anterior, pero en este
caso item11 ir en la casilla etiquetada Dependiente, mientras que item01 e item03 irn
en la casilla etiquetada Independientes. Esto es, item11 es ahora la variable dependiente,
e item01 e item03 son las variables independientes. Como mtodo de construccin de la
ecuacin, mantendremos el mtodo Introducir, aunque existe un procedimiento ms
adecuado para el caso de la regresin mltiple. Este procedimiento, que veremos ms
adelante, solamente incluye en la ecuacin de regresin aquellas variables
independientes que tienen una relacin estadsticamente significativa con la variable
dependiente. Si realiza este problema, el visor de resultados le mostrar estas dos tablas:
Resumen del modelo
Modelo
1

R
.627a

R cuadrado
.393

R cuadrado
corregida
.322

Error tp. de la
estimacin
.77

a. Variables predictoras: (Constante), soy capaz de hablar en


gallego, entiendo el gallego hablado

97

ANOVAb
Modelo
1

Regresin
Residual
Total

Suma de
cuadrados
6.512
10.038
16.550

gl
2
17
19

Media
cuadrtica
3.256
.590

F
5.514

Sig.
.014a

a. Variables predictoras: (Constante), soy capaz de hablar en gallego, entiendo el


gallego hablado
b. Variable dependiente: el gallego es til en el mundo de hoy

Los ndices importantes de la primera tabla son R cuadrado y Error tpico de la


estimacin. El ndice importante en la segunda tabla es el valor de F. Un valor de R
cuadrado igual a .393 indica que la variabilidad de item11 (variable dependiente)
explicada por la ecuacin de regresin es 0.393. Para la interpretacin del error tpico de
la estimacin (.77) es necesario conocer la desviacin tpica de la variable dependiente
(item11). Recuerde que la desviacin tpica representa el valor mximo que puede
asumir este ndice. En este caso, la desviacin tpica es 0.91, por lo que el error parece
bastante grande. Finalmente, se observa que el valor de F (5.514) es estadsticamente
significativo (el nivel de significacin es .014, sensiblemente inferior a .05).
La ltima tabla, etiquetada Coeficientes, nos da otra informacin, la que se refiere a la
ecuacin de regresin:
Coeficientesa

Modelo
1

(Constante)
entiendo el
gallego hablado
soy capaz de
hablar en gallego

Coeficientes no
estandarizados
B
Error tp.
1.093
.862

Coeficient
es
estandari
zados
Beta

t
1.267

Sig.
.222

-6.75E-02

.365

-.041

-.185

.856

.902

.311

.648

2.899

.010

a. Variable dependiente: el gallego es til en el mundo de hoy

La ecuacin de regresin es la siguiente:

item11 = 1.093 + .902 item03 - .067 item01.


Se observa que el coeficiente de regresin parcial asociado con la variable item03 es
estadsticamente significativo (T = 2.899, Sig = .010). Sin embargo, el coeficiente de
regresin parcial asociado con item01 es no significativo (T = -.185, Sig T = .856).
Si se tipifican las tres variables, la ecuacin de regresin quedara as:

item11 = .648 item03 - .041 item01.

98

La ventaja que tiene la tipificacin es que permite la comparacin entre los coeficientes
de regresin parcial.
Dado que el coeficiente de regresin parcial asociado con item01 es no significativo se
podra reducir la ecuacin de regresin con dos variables independientes a una sla,
formada con item03. Esto es,

item11 = b item03.
Para facilitar este tipo de simplificaciones, SPSS dispone de un mtodo alternativo al
mtodo Introducir, denominado Pasos sucesivos. El mtodo por pasos sucesivos
selecciona las variables independientes, de forma tal que primero entra en la ecuacin la
que tiene la relacin significativa ms alta con la variable dependiente, luego la que tiene
la segunda relacin significativa ms alta y as sucesivamente. Si realiza el problema
anterior comprobar como slo entra en la ecuacin item03. La variable item01 no llega
a entrar porque la relacin con la variable dependiente (item11) es no significativa. Para
ejecutar el anlisis de regresin mltiple siguiendo este procedimiento, no tiene ms que
seleccionar, en el recuadro etiquetado Mtodo, la opcin Pasos suc..
Veamos ahora, aunque sea someramente, la utilidad de los botones incluidos en el
cuadro de dilogo del procedimiento Regression. El primero de ellos, etiquetado MCP,
nos permite llevar a cabo un anlisis por el mtodo de Mnimos Cuadrados Ponderados.
Esta opcin abre un espacio aadido dentro del cuadro de dilogo, en el que podemos
incluir una variable que contenga los pesos o ponderaciones asignadas a cada sujeto. La
aplicacin de estas ponderaciones se da en casos en los que no todos los sujetos hayan
sido medidos con el mismo grado de precisin; es, por tanto, de aplicabilidad limitada a
casos muy especiales.
El segundo de los botones, el botn etiquetado Estadsticos, ya lo conoce. El siguiente
botn, etiquetado Grficos, nos permite representar grficamente los valores de los
residuos (es decir, los datos no explicados por la ecuacin de regresin) frente a los
valores originales de la variable dependiente, o frente a los valores de sta estimados por
la ecuacin de regresin, as como tambin examinar la distribucin de estos residuos.
Al igual que en el caso del cuadro de dilogo del anlisis de regresin, aqu tambin
existe la posibilidad de pedir bloques de grficos, que nos permiten examinar los
residuos desde distintos enfoques. La utilidad de estas representaciones es la de obtener
un conocimiento ms completo de la relacin existente entre las variables objeto de
anlisis. El cuadro de dilogo correspondiente tiene este aspecto:

99

El siguiente botn, etiquetado Guardar, muestra este cuadro de dilogo:

Esta opcin resulta til principalmente para salvar los valores de la variable dependiente
predichos por la ecuacin de regresin (Valores pronosticados) como una nueva
variable en el archivo de datos. Estos valores pueden salvarse tanto en la misma escala
de medida que la variable dependiente (No tipificados) como en puntuaciones tpicas
(Tipificados). Las variables as generadas sern etiquetadas por SPSS con los caracteres
pre_ (predicha), seguidos del nmero de orden de creacin de la variable (pre_1, pre_2,
etc.) en el caso de valores no estandarizados., mientras que si estn en forma de

100

puntuaciones tpicas, las etiquetas de las variables empezarn por los caracteres zpr_, (z
predicha), seguidos del nmero de orden (zpr_1, zpr_2, etc.)
El ltimo botn, etiquetado Opciones, nos permite modificar los valores de F, o las
probabilidades asociadas, para que una variable independiente determinada pueda ser
incluida (Entrada) o excluida (Salida) del anlisis. La utilidad de esta opcin reside en
que podemos emplear criterios ms restrictivos para introducir una nueva variable
dependiente en la ecuacin de regresin, o criterios ms laxos para eliminarla, de los
utilizados por SPSS. Otra opcin presente en este cuadro de dilogo consiste en forzar
una recta de regresin que pase por el origen de coordenadas o, lo que es lo mismo,
forzar una ecuacin de regresin en la que no haya constante a. La opcin por defecto es
que se incluye el valor de a en la ecuacin de regresin (Incluir constante en la
ecuacin).

7. Comparaciones entre Medias(t de Student)


En la investigacin emprica, es muy comn comparar el comportamiento de dos
grupos. Por ejemplo, en el estudio sociolingstico podran compararse las respuestas de
los hombres con las respuestas de las mujeres, las respuestas de los ms jvenes con las
respuestas de los ms viejos, las respuestas de los que tienen estudios universitarios con
las de los que tienen estudios inferiores, etc.
Segn el procedimiento estadstico ms habitual esta comparacin se realiza a travs de
las medias de los dos grupos. Esto es, se compara la media del grupo 1 con la media del
grupo 2.
Para comprender la lgica de esta comparacin, debemos comenzar sealando algunas
ideas subyacentes al proceso estadstico. En primer lugar, se asume que las
observaciones de que disponemos en cada grupo son una muestra de una poblacin
mayor de observaciones posibles. Ntese como anteriormente decamos que se deseaba
comparar las respuestas de los hombres con las de las mujeres, las de los jvenes con las

101

de los adultos, las de los universitarios con las de los que tienen estudios inferiores. Es
evidente que, en nuestro archivo, disponemos de una pequea muestra de hombres y de
una pequea muestra de mujeres, de una pequea muestra de jvenes y una pequea
muestra de adultos, de una pequea muestra con estudios universitarios y una pequea
muestra con estudios inferiores. Sin embargo, la comparacin estadstica se realiza para
hipotticas poblaciones mayores de observaciones posibles, y no para las muestras.
Para hacer posible esta comparacin, se establece una hiptesis estadstica a nivel de
poblacin. En el caso ms habitual, esta hiptesis establece que ambas muestras
proceden de una misma poblacin, de modo que la diferencia observada entre ambas
medias se debe al azar y, en consecuencia, no es fiable. A esta hiptesis estadstica se le
denomina hiptesis nula. El objetivo se convierte en comprobar esta hiptesis. Para ello,
se utiliza la informacin observada en las muestras, fundamentalmente sus medias y sus
varianzas. Toda la cuestin radica en decidir si la diferencia observada entre las medias
de las dos muestras es lo suficientemente grande como para poder descartar el azar como
explicacin. Como siempre, la valoracin de la diferencia entre las medias se har en
trminos probabilsticos. Afortunadamente, la distribucin de la diferencia de medias de
muestras es conocida. Si se satisfacen ciertos supuestos, se trata de una distribucin t de
Student con n1 + n2 - 2 grados de libertad, donde n1 y n2 son los tamaos de la muestra 1
y 2, respectivamente. Por tanto, lo que se hace es calcular la probabilidad de obtener una
diferencia de medias mayor (en trminos absolutos) que la obtenida. Si esa probabilidad
es igual o menor que 0.05 (es decir, pequea) se rechaza la hiptesis nula. En caso
contrario, no se rechaza. Rechazar la hiptesis equivale a afirmar que la diferencia
observada entre las medias de las dos muestras es "grande" y, en consecuencia,
significativa (fiable). Otra manera de expresar esto mismo consiste en afirmar que las
dos muestras proceden de dos poblaciones con medias distintas. No rechazar la hiptesis
nula equivale a afirmar que la diferencia entre las medias de las dos muestras es
"pequea" y, en consecuencia, no significativa (no fiable). Tambin se puede afirmar
que ambas muestras proceden de una misma poblacin.

7.1. Dos muestras independientes


Veamos a continuacin cmo utilizaramos la prueba t de Student para comprobar si
existen diferencias entre los sujetos con estudios superiores y el resto de los sujetos en
cuanto a sus respuestas a item01. La informacin sobre el nivel de estudios se encuentra
en item19. Esta variable tena cuatro valores, donde 1 significaba ningn estudio, 2
estudios primarios, 3 estudios medios y 4 estudios superiores. Como queremos
reducir los 20 sujetos a dos muestras, debemos recodificar los valores de la variable, de
modo que todos los sujetos con valores 1, 2 o 3, en la variable 19, sean recodificados
como 1, es decir, asignados a la muestra 1. Y todos los sujetos con valores 4 son
recodificados como 2, es decir, asignados a la muestra 2.
Para llevar a cabo este primer paso, utilizaremos el procedimiento Recodificar, que
usted ya conoce; si no recuerda su uso, vuelva al apartado 4.1.1. En el men principal,
seleccione la opcin Transformar y, en el men que se despliega, la opcin Recodificar.
De las dos opciones de recodificacin, seleccione ahora En distintas variables.
Aparecer el cuadro de dilogo de Recodificar. Como variable de entrada, seleccione
item19. Como variable de salida, cree una nueva variable, a la que llamaremos estudios.
102

Como etiqueta de la nueva variable puede utilizar la siguiente: no


superiores/superiores. A continuacin, pulse el botn Valores antiguos y nuevos. Para
los valores 1,2 y 3 de item19, seleccione el valor 1 en la variable estudios. Para el valor
4 de item19, seleccione el valor 2 en la variable estudios. El cuadro de dilogo tendr
este aspecto cuando termine:

Pulse el botn Continuar y, a continuacin, el botn Aceptar. Ya ha creado la variable


estudios. Si lo desea, puede ahora colocar las etiquetas de valores a las puntuaciones 1 y
2. Para la puntuacin 1, la etiqueta correspondiente ser no superiores y, para la
puntuacin 2, la etiqueta ser superiores. Ahora ya tenemos la variable de
agrupamiento para llevar a cabo la prueba t de Student.
Para realizar la comparacin entre la media de la muestra 1 (estudios no superiores) y la
media de la muestra 2 (estudios superiores), seleccione ahora en la opcin Analizar, la
opcin Comparar medias. A la derecha aparecern distintas pruebas de comparacin de
medias. Seale la que nos interesa ahora: Prueba T para muestras independientes. En el
cuadro de dilogo que aparece a continuacin, debe usted especificar, en primer lugar,
la(s) variable(s) objeto de contraste en el recuadro titulado Contrastar variables.
Introduzca aqu la variable item01. En segundo lugar, debe especificar, en el recuadro
titulado Variable de agrupacin, cul es la variable de agrupamiento. Esta es la variable
en funcin de la cual se han creado los dos grupos: estudios no superiores y estudios
superiores. Seleccione aqu la variable estudios. Una vez hecho esto, el cuadro de
dilogo tendr este aspecto:

103

Observe los dos interrogantes que aparecen a la derecha de la variable estudios. Nos
indican que SPSS no conoce los dos valores que esta variable puede tomar. Para
definirlos, pulse el botn Definir grupos. Aparecer un pequeo cuadro de dilogo
donde debe introducir ambos valores: 1 para los sujetos con estudios no superiores, y 2
para los sujetos con estudios superiores. Introduzca ahora ambos valores. El cuadro de
dilogo debe quedar as:

Pulse ahora el botn Continuar y, en el cuadro de dilogo principal, el botn Aceptar. El


visor de resultados le ofrecer dos tablas. Esta es la primera de ellas:
Estadsticos de grupo

entiendo el
gallego hablado

Estudios recodificada
no superiores
superiores

N
13
7

Media
2.69
2.71

Desviacin
tp.
.63
.49

Error tp. de
la media
.17
.18

En la primera tabla aparece la variable de agrupamiento, estudios, con su etiqueta. En


las casillas de la tabla se ofrecen ciertos estadsticos bsicos para item01, pero no en
conjunto sino partida en dos. Primero se ofrece el nmero de casos (o sujetos) en cada
muestra. En el grupo de sujetos con nivel de estudios no superiores hay 13 casos,
mientras en el grupo de sujetos con nivel de estudios superiores hay 7. La media del
primer grupo es 2.69, mientras la media del segundo grupo es 2.71. La desviacin tpica
es .63 para los sujetos con estudios no superiores, y .49 para los sujetos con estudios
superiores. El error tpico de la media de la siguiente columna es la desviacin tpica de
la distribucin terica (probabilstica) de la media. Se obtiene de la siguiente manera:

104

Error Tipico =

Desviacion Tipica
Raiz cuadrada tamao muestra

Por tanto,
(a) en el grupo 1,
Error tpico =

0.630
= .17.
13

Error tpico =

0.488
= .18
7

(b) en el grupo 2,

En principio, se observa que la media de los sujetos con estudios superiores (2.71) es
superior a la media de los sujetos sin estudios superiores (2.69). Por tanto, a nivel
muestral, ambas medias son distintas. Esto es innegable. Pero, la cuestin no es si ambas
medias son distintas a nivel muestral, sino si son distintas a nivel poblacional. Dicho
ms concretamente, la cuestin es si la diferencia que hay entre 2.71 y 2.69 es "pequea"
y se puede explicar por simple azar o la diferencia es "grande" y se debe a factores
sistemticos o no-aleatorios. La respuesta a esta cuestin nos la da el estadstico t que se
muestra en la siguiente tabla:
Prueba de muestras independientes
Prueba de Levene
para la igualdad de
varianzas

F
entiendo el
gallego hablado

Se han asumido
varianzas iguales
No se han asumido
varianzas iguales

.164

Sig.
.690

Prueba T para la igualdad de medias

gl

Sig. (bilateral)

Diferencia
de medias

Error tp. de
la diferencia

95% Intervalo de
confianza para la
diferencia
Inferior
Superior

-.080

18

.937

-2.20E-02

.28

-.60

.56

-.086

15.409

.932

-2.20E-02

.25

-.56

.52

Antes de examinar el valor del estadstico t, es necesario saber si las varianzas de las
poblaciones son o no iguales. Dependiendo de que se de una u otra circunstancia, vara
el modo en que debe calcularse el valor de t. Para solucionar este problema, SPSS
somete a comprobacin la hiptesis nula de igualdad de varianzas. Esta comprobacin
se realiza mediante la prueba de Levene, que calcula un estadstico F a partir de una
transformacin de los datos originales en item01. En concreto, para cada sujeto se
calcula el valor absoluto de la diferencia entre la puntuacin obtenida en item01 y la
media en item01 para el grupo al que pertenece ese sujeto (en nuestro caso, sin estudios
superiores o con estudios superiores). Por ejemplo, un sujeto que hubiese obtenido una
puntuacin de 2 en item01 y perteneciese al grupo sin estudios superiores, obtendra esta
puntuacin transformada: |2 - 2.69| = 0.69. Por su parte, un sujeto que hubiese obtenido
una puntuacin de 1 en item01 y perteneciese al grupo con estudios superiores,
obtendra la siguiente puntuacin transformada: |1 - 2.71| = 1.71.

105

Una vez transformados los datos, se efecta un anlisis de varianza de de un factor (ver
apartado 8.1) a partir de esos datos transformados. El anlisis de varianza ser el que es
el que nos proporcione el valor final de F. Se observa en el listado que el valor de F es
.164 y su probabilidad asociada (nivel de significacin) es .690. Como el nivel de
significacin es mayor que .05 no se rechaza la hiptesis nula y se afirma que las
varianzas de ambas poblaciones son iguales.
Ahora debemos saber qu valor de t es el correcto para nuestros datos. Observe las
columnas encabezadas con el rtulo Prueba T para la igualdad de medias. La primera
columna nos indica el valor de t calculado: para el caso de que se asuman varianzas
iguales o para el caso de que se asuman varianzas distintas. En nuestro caso, y dado el
resultado de la prueba de Levene, el valor de t correcto es el que corresponde al primer
caso, el de varianzas iguales. No obstante, veamos cmo se obtiene t en ambos casos.
7.1.1. Caso de varianzas desiguales

Cuando las varianzas son desiguales, se calcula un estadstico t cuya definicin es la


siguiente:

t =

X1 - X 2
2

S1 + S 2
n1
n2

donde el subndice 1 representa la muestra, y el subndice 2 a la muestra 2.


Este valor es el que se ofrece en la tabla en la lnea correspondiente a varianzas
desiguales. En la segunda columna de esta lnea apreciamos que el valor de t es de -.086.
En efecto,

t =

2.6923-2.7143
(0.630 2 / 13)+ (0.488 2 / 7)

= - 0.86

En la columna siguiente aparecen los grados de libertad (gl), que son de 15.409. stos se
obtienen de la siguiente manera:

grados de libertad =
donde

106

1
Z1 + Z 2

s1 / n1
=
Z1
2

2
s1 / n1 + s2 / n2

/ ( n1 - 1)

s2 / n 2
Z2 = 2

2
s1 / n1 + s2 / n2

/ ( n2 - 1)

En este caso,
2

0.630 / 13
=
Z1
(

2
2
0.630 / 13) + ( 0.488 / 7)

0.488 / 7
Z2 =

2
2
( 0.630 / 13) + ( 0.488 / 7)

/ (13 - 1) = 0.0186

/ (7 - 1) = 0.0463

Por tanto,

grados de libertad =

1
= 15.409
0.0186 + 0.0463

El valor de significacin estadstica que se ofrece en la siguiente columna (Sig.


bilateral) es la probabilidad de obtener un valor t igual o menor que -.09 (o mayor que
.09). Dado que esta probabilidad es muy alta (.932) no se rechaza la hiptesis nula y,
en consecuencia, se afirma que las diferencias entre ambas medias son no
significativas (o no fiables). Tambin se puede afirmar que ambas muestras proceden
de una misma poblacin. La probabilidad mencionada (.932) tambin puede
interpretarse como la probabilidad de equivocarnos si rechazramos la hiptesis nula.
Es evidente que en este caso, dicha probabilidad es demasiado alta como para poder
asumir ese riesgo. En los libros de estadstica es frecuente la utilizacin del trmino
"nivel de significacin" para referirse a esta probabilidad.
7.1.2. Caso de varianzas iguales

Cuando las varianzas son iguales, SPSS calcula otro estadstico t que tambin permite la
comprobacin de la misma hiptesis nula acerca de las diferencias entre las medias de
los dos grupos en item01. Este estadstico, a diferencia del anterior, supone que ambas
muestras proceden de poblaciones que tienen idntica varianza. La definicin es la
siguiente:

t =

X1 - X2
2
2
S p / n1 + S p / n2

donde

107

2
S p=

( n1 - 1) S 21 + ( n2 - 1) S 22
n1 + n2 - 2

En este caso,
2

S p=

(12)(0.6302 )+ (6)(0. 4882 )


= 0.344
13+7 - 2

t =

2.6923 - 2.7143
= -.08
0.344
0.344
+
13
7

Los grados de libertad son n1 + n2 - 2, es decir, 13 + 7 - 2 = 18. La probabilidad asociada


(o nivel de significacin) es .937. Como se requiere que el valor de esta probabilidad sea
igual o menor que .05, se rechaza la hiptesis nula y se concluye, igual que antes, que no
existen diferencias significativas entre las medias de las dos muestras.
En este ejemplo hubiramos llegado a la misma conclusin eligiendo una t u otra. Sin
embargo, puede haber situaciones en que no sea as. Recuerde, por tanto, que si la
prueba de Levene ofrece una F que es significativa, debe elegir el valor y la probabilidad
asociada de la t que se encuentra en la lnea correspondiente a varianzas distintas, y que
si la F proporcionada por la prueba de Levene es no significativa debe elegir la t que se
encuentra en la lnea correspondiente a varianzas iguales.
La comparacin que hicimos era entre dos grupos de naturaleza emprica (universitarios
vs. no universitarios). No obstante, es frecuente en la investigacin disear o crear
grupos experimentalmente. En el caso ms elemental, se asigna aleatoriamente la mitad
de los sujetos disponibles a una condicin experimental y la otra mitad a una condicin
control. Luego, se comparan las medias de ambos grupos en alguna variable de estudio.
A este diseo se le denomina de dos grupos aleatorios. El procedimiento que se seguira
con SPSS para analizar los datos procedentes de este diseo es el mismo que el utilizado
en el ejemplo anterior. En SPSS se identifican ambos datos como procedentes de
muestras independientes. La diferencia entre uno y otro caso es que en nuestro ejemplo
no existe diseo experimental, mientras en el segundo si existe. El anlisis de datos
disponible es, no obstante, el mismo.

7.2. Dos muestras relacionadas


Existen ocasiones en que el diseo de dos grupos se hace creando, primero, pares de
sujetos que sean muy iguales en la variable de estudio (variable dependiente). Luego, se
asigna un miembro de cada par al grupo experimental y el otro miembro del par al grupo
control. A este diseo se le denomina diseo de dos grupos apareados. En los
experimentos clsicos de dos grupos apareados se suelen utilizar gemelos. Sin embargo,
los pares pueden hacerse utilizando otras variables de apareamiento. Una variacin de
108

este diseo muy utilizada en las ciencias del comportamiento consiste en someter a los
mismos sujetos a ambas condiciones (experimental y control). En este caso, el sujeto
hace de par de s mismo. Este diseo que resulta tremendamente atractivo slo es
aconsejable en aquellos casos en que no exista posibilidad de transferencia alguna de
una condicin a otra.
Con los datos procedentes del estudio sociolingstico no es posible ilustrar cmo se
realiza el anlisis de datos para este diseo con SPSS. Por ello, desarrollamos un
ejemplo especfico.
Suponga que estamos interesados en investigar la eficacia de un mtodo de enseanza.
Para ello, seleccionamos 2 sujetos con calificaciones iguales, otros 2 sujetos con
calificaciones iguales, y as hasta 7 pares. Luego, asignamos un miembro de cada par a
un grupo que trabajar con el nuevo mtodo (condicin experimental) y al otro miembro
de cada par al grupo que seguir trabajando con el mtodo tradicional (grupo control).
Imagine que las calificaciones obtenidas por los 7 pares de estudiantes fueron las
siguientes:
Condicin experimental
7
4
9
2
6
8
7

Condicin control
5
2
7
3
5
6
4

Nosotros queremos probar la hiptesis nula de igualdad de medias. Para ello utilizamos
el estadstico t. Como el diseo es de grupos apareados los datos se analizan por pares y,
en consecuencia, el estadstico t tiene una nueva definicin:

- X2
t = X1
SD / N
donde SD es la desviacin tpica de las diferencias entre los pares de datos, y N es el
nmero de pares.
La distribucin del estadstico t, bajo el supuesto de distribucin normal de las
diferencias, es t con N-1 grados de libertad.
A continuacin se ofrecen los clculos necesarios para el clculo del estadstico t as
definido (muestras relacionadas):

109

Condicin experimental

Condicin control

7
4
9
2
6
8
7

5
2
7
3
5
6
4

D
2
2
2
-1
1
2
3

43

32

11

_
2
(D-D)
0.1837
0.1837
0.1837
6.6121
0.3265
0.1837
2.0409

_
X1 = 43/7 = 6.1429
_
X2 = 32/7 = 4.5714
_
D = 11/7 = 1.5714

9.7143 S =
D

9.7143 / 6 = 1.272

En la Tabla anterior, X1 es la condicin experimental, X2 es la condicin control, y D es


la diferencia entre las calificaciones de cada par. En consecuencia, el valor de t se
obtiene as:

t =

6.1429 - 4.5714
= 3.27
1.272 / 7

Vamos a resolver este problema utilizando SPSS. En primer lugar, con los datos
anteriores creamos un archivo de datos, como el siguiente, al que hemos denominado
apar.sav:

La variable var00001 contiene los datos correspondientes a los 7 sujetos del grupo
experimental, mientras que la variable var00002 contiene los datos de los 7 sujetos del
grupo control. Ahora veamos cmo llevaramos a cabo el anlisis utilizando la prueba t

110

para dos muestras relacionadas. Como en todos los anlisis anteriores, seleccione la
opcin Analizar en el men principal. A continuacin, seleccione la opcin Comparar
medias, ya utilizada en el apartado anterior. Ahora, en el men que se despliega a la
derecha, seleccione la opcin Prueba T para muestras relacionadas. Aparecer el
cuadro de dilogo de la prueba t para muestras relacionadas. Ahora debe seleccionar las
dos variables que contienen los datos de ambas muestras, var00001 y var00002 e
introducirlas para el anlisis. El cuadro de dilogo tendr este aspecto:

Pulse ahora el botn Aceptar. El visor de resultados le ofrecer tres tablas. stas son las
dos primeras:
Estadsticos de muestras relacionadas

Par 1

VAR00001
VAR00002

Media
6.1429
4.5714

Desviacin
tp.
2.4103
1.7182

N
7
7

Error tp. de
la media
.9110
.6494

Correlaciones de muestras relacionadas


N
Par 1

VAR00001 y VAR00002

Correlacin
.862

Sig.
.013

Como ya hemos dicho, var00001 corresponde a la condicin experimental, y var00002


corresponde a la condicin de control. En la primera tabla puede ver que la media
aritmtica de la condicin experimental es 6.1429, y la media aritmtica de la condicin
control es 4.5714. El grupo experimental ha obtenido mejores resultados, en promedio,
que el grupo control. La segunda tabla nos muestra simplemente la correlacin entre los
resultados obtenidos por el grupo experimental y el grupo control (.862). Los resultados
de la prueba t aparecen en la tercera tabla:

111

Prueba de muestras relacionadas


Diferencias relacionadas

Par 1

VAR00001 - VAR00002

Media
1.5714

Desviacin
tp.
1.2724

Error tp. de
la media
.4809

95% Intervalo de
confianza para la
diferencia
Inferior
Superior
.3946
2.7482

t
3.267

gl
6

Sig. (bilateral)
.017

Adems de las medias de var00001 y var00002, para el clculo de t se necesita conocer


la desviacin tpica de las diferencias, SD. Este ndice, as como la media de las
diferencias, se ofrece en la columna etiquetada Diferencias relacionadas, y su valor es
de 1.2724. A la derecha, en esta misma tabla, se ofrece el valor de t, los grados de
libertad y el nivel de significacin. El valor de t (3.267) se obtiene de la manera que
hemos indicado anteriormente. El nmero de grados de libertad es N-1. Aqu N es 7; de
ah que los grados de libertad sean 6. El nivel de significacin es .017. En consecuencia,
se rechaza la hiptesis nula y se afirma que existen diferencias significativas (fiables)
entre las medias de ambas muestras.

8. Introduccin al Anlisis de Varianza


Una limitacin importante del estadstico t es que slo permite la comparacin entre dos
grupos. Si tuviramos tres grupos, por ejemplo, tendramos que realizar las
comparaciones por pares; esto es, comparar el grupo 1 con el 2, el 1 con el 3 y el 2 con
el 3. Este procedimiento, adems de ser largo, tiene serios inconvenientes estadsticos.
Lo ideal sera disponer de un procedimiento estadstico que permitiese la comparacin
simultnea de los tres grupos. Este procedimiento es el anlisis de varianza. En realidad,
el anlisis de varianza es un procedimiento general que permite la comparacin entre
dos, tres o, incluso, ms de tres grupos.
A pesar del nombre, que parece indicar otra cosa, el anlisis de varianza, al igual que el
estadstico t, compara medias, y no varianzas. Lo que ocurre es que para realizar dicha
comparacin precisa calcular ciertas "varianzas" (de ah el nombre del procedimiento).
El estadstico t podra considerarse un caso particular del anlisis de varianza en que
slo se comparan dos medias.
Un nombre abreviado que se utiliza para referirse al anlisis de varianza es el de
ANOVA (de ANalisis Of VAriance).

8.1. Anlisis de varianza con un factor


En el caso ms simple de anlisis de varianza se dispone de dos variables. Los nombres
de estas variables son los mismos que los sealados en el anlisis de regresin. A una
variable se le denomina dependiente, y a la otra independiente. La diferencia esencial
entre el anlisis de regresin y el anlisis de varianza est en la naturaleza de ambas
variables. La variable dependiente es cuantitativa en ambos anlisis. Sin embargo, la
variable independiente, que es cuantitativa en el anlisis de regresin, es considerada
como cualitativa en el anlisis de varianza.

112

Otro nombre que se utiliza para referirse a la variable independiente es el de factor. Son
muchos los manuales de estadstica que denominan anlisis de varianza con un factor al
anlisis de varianza con una sola variable independiente, anlisis de varianza con dos
factores al anlisis de varianza con dos variables independientes, y as sucesivamente.
Otro trmino que puede utilizarse para referirse a la variable independiente es el de va.
As, el anlisis de varianza con un variable independiente podra denominarse anlisis de
varianza de una-va (one-way). De forma similar, el anlisis de varianza con dos
variables independientes podra denominarse de dos-vas (two-ways), etc.
Los datos del estudio sociolingstico no resultan muy apropiados para ilustrar el
funcionamiento del anlisis de varianza. Por ello, vamos a crear nosotros una situacin
experimental hipottica donde podra utilizarse el anlisis de varianza como
procedimiento estadstico.
Imaginemos que deseamos conocer la eficacia de tres mtodos de enseanza (1, 2, y 3)
sobre el rendimiento escolar de los estudiantes de E.G.B. Para comprobarlo, tomamos
12 estudiantes de un curso de E.G.B. y asignamos aleatoriamente 4 estudiantes al
mtodo de enseanza 1, 4 estudiantes al mtodo 2, y 4 al mtodo 3. Al finalizar el curso,
registramos la calificacin obtenida por cada uno de los 12 estudiantes.
Ntese que la variable independiente (factor, o va) es el mtodo de enseanza. Se trata
de una variable cualitativa. Entre el mtodo 1 y el 2, por ejemplo, no tenemos valores
intermedios. La variable dependiente es la calificacin escolar de los estudiantes. Es una
variable cuantitativa. Entre dos valores enteros (p.e. el 5 y el 6) son posibles infinitos
valores intermedios.
A continuacin se ofrecen los datos completos para los 12 sujetos:
Mtodo
1
1
1
1
2
2
2
2
3
3
3
3

Calificacin
8
7
5
9
7
5
3
6
5
2
2
5

A nivel estadstico se desea comprobar la hiptesis nula de que las medias de las tres
poblaciones (mtodo 1, mtodo 2, mtodo 3) en rendimiento escolar son iguales. Para
ello, utilizamos la informacin contenida en las tres muestras correspondientes. Ntese
que las medias de las muestras son las siguientes:
(a) Muestra 1

X =

8 +7 + 5 + 9
= 7.25
4

113

(b) Muestra 2

X =

7 + 5 + 3+ 6
= 5.25
4

X =

5+ 2+ 2+ 5
= 3.5
4

(c) Muestra 3

Se observa que la media de la muestra 1 es mayor que la media de la muestra 2, y sta


mayor que la media de la muestra 3. Esto nos permite concluir que, a nivel de muestras,
el mtodo 1 ha producido mejores calificaciones acadmicas que el mtodo 2, y ste
mejores calificaciones que el mtodo 3. Pero esta no es la hiptesis que nosotros
queremos comprobar. Nuestra hiptesis tiene un carcter ms general. Lo que queremos
es comprobar si los tres mtodos producen (o no) iguales calificaciones acadmicas. Es
decir, no queremos limitar nuestra conclusin a las muestras de observaciones realizadas
sino a unas poblaciones hipotticas de calificaciones acadmicas de donde podran estar
extradas dichas muestras. Precisamente, quien nos permite comprobar esta hiptesis de
carcter general es el anlisis de varianza. Recurdese tambin que la comprobacin de
hiptesis es probabilstica. Es decir, se acepta una conclusin con una determinada
probabilidad de error. Se impone la restriccin de que esta probabilidad no ha de ser
mayor que .05. A esta probabilidad de error tambin se le denomina nivel de
significacin.
Para llevar a cabo el anlisis de varianza con estos datos, crearemos primero el archivo
de datos, al que vamos a denominar var.sav:

114

En la variable var00001 se encuentra la informacin sobre el mtodo de enseanza


seguido por cada uno de los doce estudiantes (mtodos 1, 2 y 3). En la variable
var00002 se encuentran las calificaciones obtenidas por los doce alumnos. A
continuacin, veamos cmo llevar a cabo el anlisis de varianza. En la opcin Analizar,
seleccione la opcin Comparar medias y, en el men que se despliega a la derecha,
seleccione la opcin ANOVA de un factor. En el cuadro de dilogo del procedimiento
deber especificar como variable dependiente (Dependientes) a la variable var00002, y
como factor (Factor), a la variable var00001. Una vez hecho esto, el cuadro de dilogo
tendr este aspecto:

Para llevar a cabo el anlisis, simplemente pulse el botn Aceptar. El visor de resultados
le mostrar la siguiente tabla:
ANOVA
VAR00002

Inter-grupos
Intra-grupos
Total

Suma de
cuadrados
28.167
26.500
54.667

gl
2
9
11

Media
cuadrtica
14.083
2.944

F
4.783

Sig.
.038

En la cabecera del anlisis aparece el nombre del procedimiento, ANOVA (en este caso,
de una va). La informacin autnticamente relevante en orden a aceptar o rechazar la
hiptesis estadstica planteada est en las dos ltimas columnas de esta tabla. En la
penltima columna est indicado el valor del estadstico F (4.783), el estadstico que se
calcula en el anlisis de varianza, y en la ltima columna su probabilidad asociada o
nivel de significacin (.038). Como esta probabilidad es menor que .05 se rechaza la
hiptesis nula y se afirma que las diferencias entre las medias son significativas (fiables).
Una manera ms operativa de interpretar este resultado consiste en afirmar que los
distintos mtodos de enseanza producen calificaciones acadmicas distintas.
Habr observado que esta salida se parece mucho a la ofrecida por el anlisis de
regresin. Esto es as porque en el anlisis de varianza, al igual que en el anlisis de

115

regresin, la variabilidad de la variable dependiente (aqu var00002) se descompone en


dos partes aditivas:
1. aquella parte que explica la variable independiente (denominada en el listado Intergrupos);
2. aquella parte que no puede explicar la variable independiente (denominada en el
listado Intra-grupos).
La variabilidad de la variable dependiente se expresa como una Suma de Cuadrados. Se
observa en la columna correspondiente que esta Suma de Cuadrados es 54.667. De esta
Suma de Cuadrados total, la variable independiente (var00001) explica 28.167, y no
puede explicar 26.500.
Lo que hace el anlisis de varianza es comparar estas dos fuentes de variabilidad. Pero
antes de compararlas las "corrige" dividindo cada una de ellas por sus grados de
libertad (gl). Al resultado se le denomina Media Cuadrtica. En efecto, se observa que
14.083 es el cociente entre 28.167 y 2; mientras 2.944 es el cociente entre 26.500 y 9.
Los grados de libertad, en la primera Media Cuadrtica, se obtienen restando 1 al
nmero de muestras (aqu 3). Los grados de libertad, en el segunda Media Cuadrtica, se
obtienen restando el nmero de muestras (aqu 3) al nmero total de sujetos (aqu 12).
Finalmente, el estadstico F (4.783) es la razn entre la Media Cuadrtica que explica la
variable independiente (14.083) y la Media Cuadrtica que no explica la variable
independiente (2.944).
8.1.1. Comparaciones a posteriori

Si usted realizara en verdad una investigacin como esta y llegara a la conclusin


sealada anteriormente es probable que estuviera satisfecho, pero no totalmente. Habr
observado que el estadstico F produce una conclusin global para los tres mtodos de
enseanza, sin especificar algunos detalles especialmente importantes para la
investigacin. Sin duda, a usted le gustara poder ordenar los mtodos de enseanza,
desde el ms efectivo al menos efectivo. Esta ordenacin no es tan elemental como
pueda parecer. En realidad, es necesario realizar bastante trabajo estadstico adicional.
La obtencin de dicha ordenacin requiere la comparacin de los mtodos de enseanza
de dos en dos. Para ello, podra pensarse nuevamente en el estadstico t, pero ste no es
aconsejable en este tipo de situaciones. En su lugar, es ms conveniente utilizar
estadsticos especialmente diseados para estos casos. En los manuales de estadstica,
esta cuestin suele tratarse bajo el rtulo de comparaciones a posteriori.
SPSS ofrece 7 estadsticos distintos para la realizacin de comparaciones a posteriori, a
los que se puede acceder mediante el botn etiquetado Post Hoc del cuadro de dilogo
del procedimiento ANOVA de un factor. De entre estos estadsticos, probablemente los
ms usuales sean los de Tukey y Scheff. Vamos a realizar a continuacin una
comparacin a posteriori con los datos del ejemplo anterior utilizando la prueba de
Scheff. Para ello, vuelva al cuadro de dilogo del procedimiento al igual que lo hizo en
el apartado anterior. Pulse ahora el botn etiquetado Post hoc y seleccione el el cuadro
de dilogo que aparece la opcin Scheff. El cuadro de dilogo quedar as:

116

Pulse ahora el botn Continuar y luego el botn Aceptar. Obtendr una tabla de anlisis
de varianza idntica a la obtenida anteriormente, pero con esta informacin adicional:
Comparaciones mltiples
Variable dependiente: VAR00002
Scheff

(I) VAR00001
1.00
2.00
3.00

(J) VAR00001
2.00
3.00
1.00
3.00
1.00
2.00

Diferencia de
Error tpico
medias (I-J)
2.0000
1.2134
3.7500*
1.2134
-2.0000
1.2134
1.7500
1.2134
-3.7500*
1.2134
-1.7500
1.2134

Sig.
.305
.039
.305
.392
.039
.392

Intervalo de confianza al
95%
Lmite
Lmite inferior
superior
-1.5402
5.5402
.2098
7.2902
-5.5402
1.5402
-1.7902
5.2902
-7.2902
-.2098
-5.2902
1.7902

*. La diferencia entre las medias es significativa al nivel .05.

Las primeras columnas indican los grupos i y j a comparar-. La diferencia entre las
medias de dos grupos i y j es significativa si:

J I 1213
. RANGO

1
1
+
N (I ) N ( J)

Donde el valor del error tpico (1.213) se obtiene hallando la raz cuadrada del resultado
de dividir la media cuadrtica de los errores entre 2. Esto es,

1213
.
=

MC error
=
2

2.944
2

Por su parte, el valor de RANGO se obtiene hallando el valor de F correspondiente a un


nivel de significacin de .05, y con grados de libertad (k-1, N-k), donde k es el nmero
de grupos, y N es el nmero de sujetos. As, el valor de F.05(k-1,N-k) = F.05(2,9) = 4.13.

117

Dado que el tamao de los tres grupos es el mismo (4 sujetos), podemos calcular el valor
que se toma como referencia para ver la significacin de las medias:

1213
.
* 4.13 *

2
= 354
.
4

Observamos ahora las diferencias entre las medias de los mtodos dos a dos. La
diferencia entre las medias de los mtodos 1 y 2 es 7.25-5.25 = 2, que es menor que
3.54. La diferencia entre las medias de los mtodos 2 y 3 es 5.25-3.5 = 1.75, tambin
menor que 3.54. Sin embargo, la diferencia entre las medias de los mtodos 1 y 3 es
7.25-3.5 = 3.75, que es mayor que 3.54. Por tanto, esta diferencia de medias s es
significativa. Este es el resultado que se nos ofrece marcado con un asterisco en en la
columna etiquetada Diferencia de medias (I-J). El valor de la significacin (.039)se
ofrece en la columna etiquetada Sig. En la ltima columna de la tabla se muestran los
intervalos confidenciales entre los que se encontrarn, a un nivel de confianza del 95%,
los valores de las diferencias entre las puntuaciones de los grupos i y j en la poblacin.
Vemos que las diferencias entre los grupos 1 y 3 siempre sern del mismo signo
(positivas cuando restamos 1-3, y negativas cuando restamos 3-1). Esto nos permite
concluir que el mtodo de enseanza 1 produce una rendimiento acadmico
significativamente superior al mtodo de enseanza 3. Sin embargo, el mtodo de
enseanza 1 no produce una ejecucin significativamente superior al 2, ni el mtodo de
enseanza 2 produce una ejecucin significativamente superior al 3; en todos estos casos
las diferencias pueden ser tanto positivas como negativas. La ltima tabla del listado nos
muestra los resultados desde otro punto de vista. En este caso se trata de los dos
subconjuntos homogneos encontrados, formados por los grupos 1 y 2, en un caso, y por
los grupos 2 y 3, en el otro. Dentro de cada uno de estos subconjuntos no existen
diferencias significativas entre grupos:
VAR00002
a

Scheff

VAR00001
3.00
2.00
1.00
Sig.

N
4
4
4

Subconjunto para alfa


= .05
1
2
3.5000
5.2500
5.2500
7.2500
.392
.305

Se muestran las medias para los grupos en los subconjuntos


homogneos.
a. Usa el tamao muestral de la media armnica = 4.000.

8.1.2. Supuestos del anlisis de varianza

Para la correcta aplicacin del anlisis de varianza deben satisfacerse tres supuestos:
1. independencia de las observaciones;
118

2. distribucin normal;
3. homogeneidad de las varianzas.
Desafortunadamente, dentro del procedimiento de anlisis de varianza slo nos es
posible comprobar el tercer supuesto (homogeneidad de las varianzas), pero no los
supuestos 1 y 2 (independencia de las observaciones y distribucin normal). Para la
comprobacin del supuesto de distribucin normal, vase la prueba de KolmogorovSmirnov, en el captulo 10 (apartado 10.1).
Vamos a comprobar el supuesto de homogeneidad de varianzas para el anlisis anterior.
Para ello, repita los mismos pasos que en el primer ejercicio y, una vez situado en el
cuadro de dilogo de ANOVA de un factor, pulse el botn Opciones. Aparecer un
cuadro de dilogo en el que puede seleccionar la prueba de homogeneidad de varianzas.
Una vez seleccionada, el cuadro de dilogo tendr este aspecto:

Pulse ahora el botn Continuar y, a continuacin, el botn Aceptar. Obtendr un nuevo


listado con la tabla del anlisis de varianza que ya conoce, pero con esta nueva tabla:
Prueba de homogeneidad de varianzas
VAR00002
Estadstico
de Levene
.150

gl1

gl2
2

Sig.
.863

El estadstico utilizado para comprobar la hiptesis de igualdad de varianzas es la prueba


de Levene, que ya tuvo ocasin de ver en el apartado 7.1.1. La interpretacin de la
prueba es la misma que entonces; si el nivel de significacin es superior a .05,
aceptamos la hiptesis nula que establece la igualdad de varianzas; si es inferior a .05,
las varianzas de los tres grupos no son homogneas. Dado que, en nuestro caso, el valor
encontrado (.863) es claramente superior a .05, no se rechaza la hiptesis nula y se
afirma que las varianzas son homogneas en las tres poblaciones.
Otra opcin que puede resultar interesante en el anlisis de varianza de un factor, y que
no se comenta aqu, es la posibilidad de realizar comparaciones a priori, pulsando el
botn Contrastes. Tambin en este botn se encuentra la opcin Polinmico, para el
anlisis de tendencias.

119

8.2. Anlisis de varianza con dos o ms factores


En el anlisis de varianza visto hasta ahora se dispone de una variable dependiente
cuantitativa y una variable independiente cualitativa. Sin embargo, existen situaciones
de investigacin en que desearamos conocer el efecto de dos variables independientes
(cualitativas) sobre una misma variable dependiente. Para ello, se podran realizar dos
anlisis de varianza con el procedimiento ONEWAY, uno para la primera variable
independiente y otro para la segunda. Esto que, en principio, es correcto tendra el
inconveniente de que si existe un efecto conjunto, combinado, de ambas variables
independientes sobre la variable dependiente nunca lo detectaramos.
SPSS tambin permite el anlisis de varianza para el caso de dos o, incluso, ms
variables independientes. En el caso ms simple en que se dispusiese de dos variables
independientes, el procedimiento ofrece:
1. el estadstico F para la primera variable independiente, con su probabilidad asociada
(o nivel de significacin);
2. el estadstico F para la segunda variable independiente, con su probabilidad
asociada;
3. el estadstico F para la interaccin de la primera variable independiente y la segunda,
con su probabilidad asociada.
El aspecto realmente novedoso de este tipo de anlisis de varianza es el anlisis de la
interaccin de las dos variables independientes. Recuerde que si la probabilidad asociada
es igual o menor que .05, la interaccin es significativa.
Para ilustrar cmo se puede utilizar el anlisis de varianza con dos o ms factores,
vamos a suponer una situacin de investigacin muy sencilla. Supongamos que estamos
interesados en averiguar el efecto de dos variables independientes (cualitativas) sobre
una variable dependiente (cuantitativa). Nos interesa conocer el efecto de cada una de
estas variables separadamente y, adems, su efecto conjunto, el efecto de la interaccin
de ambas. Supongamos, adems, que la primera variable independiente tiene 3 valores, y
la segunda 4. Una palabra ms apropiada aqu para referirse a los valores de una variable
independiente es niveles. La primera variable independiente tiene, pues, 3 niveles y la
segunda 4. Si combinamos todos los niveles de la primera y la segunda variable
obtendremos las 12 combinaciones siguientes:

120

1 Variable Independiente
1
1
1
1
2
2
2
2
3
3
3
3

2 Variable Independiente
1
2
3
4
1
2
3
4
1
2
3
4

En el caso ms habitual lo que se hace es asignar aleatoriamente un nmero de sujetos


igual a cada una de estas combinaciones de las variables independientes, aplicar los
efectos de la combinacin de las dos variables independientes y registrar, luego, la
variable dependiente.
Para hacer el ejemplo ms comprensible, imagine que la primera variable independiente
es el mtodo de enseanza (mtodo 1, mtodo 2, y mtodo 3) y la segunda variable
independiente el nmero de estudiantes por clase (15, 20, 25, y 30). Suponga, adems,
que hemos elegido aleatoriamente 4 estudiantes para cada combinacin de ambas
variables independientes. Disponemos, pues, de 48 estudiantes. Al finalizar el curso,
registramos la calificacin acadmica de cada uno de ellos. A continuacin se ofrece un
posible archivo de datos:
Sujeto

Mtodo

01
02
03
04
05
06
07
08
09
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24

1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
2
2
2
2
2
2
2
2

N
estudiantes
1
1
1
1
2
2
2
2
3
3
3
3
4
4
4
4
1
1
1
1
2
2
2
2

Calificacin
8
7
9
8
7
8
9
7
5
6
4
5
9
9
8
8
6
7
7
8
5
6
4
5

Sujeto

Mtodo

25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48

2
2
2
2
2
2
2
2
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3

N
estudiantes
3
3
3
3
4
4
4
4
1
1
1
1
2
2
2
2
3
3
3
3
4
4
4
4

Calificacin
3
2
4
3
6
5
6
7
5
5
6
4
2
3
2
1
2
2
3
1
5
4
6
5

En este archivo de datos, la primera columna es el nmero del sujeto (desde 01 hasta
48), la segunda columna es la primera variable independiente (mtodo de enseanza,

121

con tres niveles), la tercera columna es la segunda variable independiente (nmero de


estudiantes por clase, con cuatro niveles), y la cuarta columna es la variable dependiente
(calificacin acadmica de cada estudiante). Observe como cada combinacin se repite
cuatro veces. Esto es as porque tenemos cuatro sujetos en cada una de ellas.
Cree ahora el archivo de datos correspondiente en SPSS, con el nombre var2.sav. La
disposicin de los datos tendr este aspecto:

La variable var00001 contiene la informacin referente al mtodo de enseanza


(mtodo 1, 2 y 3); la variable var00002 contiene la informacin sobre el nmero de
estudiantes por clase (1=15, 2=20, 3=25, 4=30). Finalmente, la variable var00003
contiene las calificaciones acadmicas de los 48 estudiantes de la muestra. Veamos
ahora cmo ejecutaramos el anlisis de varianza.
En primer lugar, seleccione en el men principal la opcin Analizar. A continuacin,
seleccione la opcin Modelo lineal general. En el men que se despliega a la derecha,
seleccione ahora la opcin Univariante. En el cuadro de dilogo del procedimiento
introduzca como Dependiente la variable var00003 y como Factores fijos las variables
independientes var00001 y var00002. Una vez hecho esto, el cuadro de dilogo debe
tener un aspecto igual a ste:

122

Pulse ahora el botn Aceptar. El visor de resultados le mostrar la siguiente tabla:


Pruebas de los efectos inter-sujetos
Variable dependiente: VAR00003

Fuente
Modelo corregido
Interseccin
VAR00001
VAR00002
VAR00001 * VAR00002
Error
Total
Total corregida

Suma de
cuadrados
tipo III
217.229a
1376.021
116.542
87.729
12.958
23.750
1617.000
240.979

gl
11
1
2
3
6
36
48
47

Media
cuadrtica
19.748
1376.021
58.271
29.243
2.160
.660

F
29.934
2085.758
88.326
44.326
3.274

Significacin
.000
.000
.000
.000
.011

a. R cuadrado = .901 (R cuadrado corregida = .871)

Como indica el encabezado de la tabla, var00003 es aqu la variable dependiente.


Al igual que vimos en el anlisis de regresin, la Variabilidad Total (aqu Total
corregida) de la variable dependiente (var00003) se puede descomponer en dos partes
aditivas:
1. aquella parte que explican las variables independientes (Modelo corrregido);
2. aquella parte que no pueden explicar las variables independientes (Error).
En efecto, se observa en la ltima fila de la Tabla anterior que la Suma de Cuadrados
Total de la variable dependiente es 240.979. De esta Suma de Cuadrados Total, las

123

variables independientes explican 217.229, y no explican 23.750. Recuerde que antes de


proceder a la comparacin de estas dos Sumas de Cuadrados (Explicada y Residual) se
divide cada una de ellas por sus respectivos grados de libertad (gl). El resultado es la
Media Cuadrtica. En el caso de la Media Cuadrtica Explicada, 19.748 es el cociente
entre 217.229 y 11. Mientras la Media Cuadrtica Residual es el cociente entre 23.750 y
36. Recuerde tambin que F es el cociente entre la Media Cuadrtica Explicada y la
Media Cuadrtica Residual. Esto es,

F =

19.748
29.934
.660

En la ltima columna, se observa que el nivel de significacin para F (Sig) es menor que
.001. Por tanto, se rechaza la hiptesis nula y se concluye que el efecto de las variables
independientes es estadsticamente significativo.
La Variabilidad Explicada, cuya Suma de Cuadrados es 217.229, puede, a su vez,
descomponerse en otros dos componentes:
1. aquella parte que se debe a los Efectos Principales;
2. aquella parte que se debe a los efectos de la Interaccin.
Los Efectos Principales son aquella parte de la Variabilidad Explicada que se debe a
cada variable independiente, considerada separadamente. La Suma de Cuadrados
Explicada por var00001 es 116.542 y la Suma de Cuadrados Explicada por var00002 es
87.729. Entre las dos variables independientes Explican 204.271. Cada una de estas
Sumas de Cuadrados se divide entre sus respectivos grados de libertad, y se obtiene una
Media Cuadrtica. Luego, esta Media Cuadrtica se divide siempre entre la Media
Cuadrtica Residual (.660). La F resultante es significativa en todos los casos. Esto es,
existe un efecto significativo de var00001 sobre var00003 (F2,36 = 88.326, p< .01), y un
efecto significativo de var00002 sobre var00003 (F3,36 = 44.326, p< .001). Los
subndices que acompaan a la razn F son los grados de libertad. El primer subndice
representa los grados de libertad de la Media Cuadrtica del numerador, y el segundo
subndice los grados de libertad de la Media Cuadrtica del denominador. Observe que
la Media Cuadrtica del denominador siempre es la Residual. Por eso, los grados de
libertad son siempre 36. La p que acompaa a cada F es el nivel de significacin.
Cuando el nivel de significacin es .000 en el listado, no debe interpretarse como que el
nivel de significacin es cero, sino como que el nivel de significacin es menor que
.001. Ntese que el valor del nivel de significacin tiene un mximo de tres decimales.
Si SPSS ofreciera ms decimales, se observara como el nivel de significacin no puede
ser cero.
Habamos sealado que de la Suma de Cuadrados Explicada (217.229), 204.271 se debe
a los Efectos Principales (116.542 a var00001 y 87.729 a var00002) y el resto (12.958)
a los Efectos de la Interaccin de ambas variables independientes (var00001 y
var00002). Se observa en el listado como la informacin relativa a esta interaccin se
denomina VAR00001 * VAR00002. Si en vez de dos variables independientes, hubiera
tres, apareceran cuatro interacciones. Es decir, se ofrecera la interaccin de la primera
variable independiente con la segunda, la interaccin de la primera con la tercera, la
interaccin de la segunda con la tercera, y la interaccin de las tres. SPSS ofrecera 5
124

filas, una para cada una de estas combinaciones y otra para la suma de todas ellas. Como
en el caso de dos variables independientes slo existe una combinacin, la suma
(primera fila) coincide con la nica combinacin (segunda fila). Se observa que el efecto
de la Interaccin es significativo (F6,36 = 3.274, p = .011).

9. Tablas de Contingencia
Imagine que est estudiando el hbito de fumar en una muestra de 30 sujetos. Imagine
tambin que inicialmente registra para cada sujeto la variable sexo, asignando un 1 a las
mujeres y un 0 a los hombres, y la variable fumar, asignando un 1 a los fumadores y un
0 a los no fumadores. Con estos primeros registros decide crear un archivo de datos en
SPSS. El nombre que le asigna al archivo es conting.sav. Estos son los datos:
N Sujeto
01
02
03
04
05
06
07
08
09
10
11
12
13
14
15

sexo
0
0
0
0
0
1
1
1
1
1
1
1
1
1
0

no fuma/fuma
1
1
1
1
1
0
0
0
0
0
0
0
0
0
1

N Sujeto
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30

sexo
0
0
0
0
0
0
0
0
0
1
1
1
1
1
1

no fuma/fuma
1
1
1
1
0
0
0
0
0
1
1
1
1
1
1

En este archivo la primera columna es el nmero del sujeto, la segunda columna es la


variable sexo y la tercera columna es la variable fumar. A modo de ejemplo, el sujeto 1
es hombre y fumador, y el sujeto 25 es mujer y fumadora.
Imagine que queremos saber cuntos de los 30 sujetos son hombres y cuntos mujeres.
Es decir, imagine que deseamos obtener una distribucin de frecuencias para la variable
sexo. Si realizamos este anlisis con SPSS obtendremos un listado que nos indica que el
nmero de mujeres es 15 y el de hombres tambin 15. De forma similar, podemos
obtener una distribucin de frecuencias para la variable fumar. Si realiza este problema
encontrar que el nmero de fumadores es 16 y el de no fumadores 14.
Es probable que si usted estuviese en esta situacin como investigador y hubiera
obtenido la distribucin de frecuencias para cada variable separadamente pronto le
entrase la curiosidad por saber cuntas de las 15 mujeres son fumadoras y cuntas no, y
cuntos de los 15 hombres son fumadores y cuntos no. Es decir, es probable que usted
desease obtener una distribucin de frecuencias conjunta para las variables sexo y fumar.
A esta distribucin de frecuencias conjunta, a veces, se le denomina tambin Tabla de
contingencia.

125

Para ver cmo puede obtenerse una tabla de contingencia a partir de los datos anteriores,
cree el archivo conting.sav, que contiene la informacin sobre sexo y hbitos de fumar
de nuestros 30 sujetos. Una vez introducidos los datos, el archivo tendr este aspecto:

La primera de las variables, var00001, contiene la informacin referente al sexo del


sujeto (0=hombre, 1=mujer). La segunda variable, var00002, contiene informacin
sobre los hbitos de fumar de cada sujeto (0=no fumador, 1=fumador). Para facilitar la
lectura de la tabla, sera conveniente introducir ahora etiquetas para ambas variables. La
etiqueta para var00001 sera sexo, y la etiqueta para var00002 sera fumar.
Asimismo, tambin sera conveniente introducir etiquetas para los valores de ambas
variables, de modo que, en var00001, las etiquetas hombre y mujer apareciesen
asociadas, respectivamente, a los valores 0 y 1. Del mismo modo, en var00002, las
etiquetas no fuma y fuma iran asociadas, respectivamente, a los valores 0 y 1. Si no
recuerda cmo etiquetar variables, consulte el apartado 3.3.
Una vez introducidos los datos y etiquetadas las variables, podemos proceder al anlisis.
Para ello, seleccione en el men principal la opcin Analizar y, en el men que se
despliega, la opcin Estadsticos descriptivos. A continuacin, en el men que se
despliega a la derecha, seleccione la opcin Tablas de contingencia. En el cuadro de
dilogo correspondiente al procedimiento, seleccione una variable para las Filas; por
ejemplo, var00001. Seleccione otra variable para las Columnas; por ejemplo, var00002.
El cuadro de dilogo quedar as:

126

Si ahora pulsa el botn Aceptar, obtendr el siguiente listado:


Tabla de contingencia sexo * fumar
Recuento

sexo
Total

hombre
mujer

fumar
no fumador
fumador
5
10
9
6
14
16

Total
15
15
30

La primera variable (var00001) se sita en las filas y la segunda (var00002) en las


columnas.. Se observa que la variable de las filas es la variable Sexo, y la variable de las
columnas es la variable Fumar. Tambin se observa que 0 en var00001 es hombre y 1
es mujer. De forma similar, se observa que 0 en var00002 es no fumador y 1 es
fumador.
Si observamos los totales para las filas tenemos la misma informacin que nos ha
proporcionado la distribucin de frecuencias para la variable de las filas (Sexo). Esto es,
se observa que hay 15 hombres y 15 mujeres. De forma similar, si observamos los
totales para las columnas tenemos la misma informacin que nos ha proporcionado la
distribucin de frecuencias para la variable de las columnas (Fumar); esto es, se observa
que hay 14 no fumadores y 16 fumadores. Pero ahora, adems, sabemos cuntos de los
15 hombres son no fumadores (5) cuntos son fumadores (10), y cuntas de las 15
mujeres son no fumadoras (9) y cuntas son fumadoras (6). Hay, por tanto, en la muestra
observada ms hombres fumadores (10) que mujeres (6).

127

Llegado a este punto, podramos admitir que esta muestra estuviese extrada
aleatoriamente de una poblacin mayor de observaciones posibles. En dicho caso,
podramos plantear una hiptesis a nivel de poblacin (hiptesis nula) y utilizar, luego,
la informacin contenida en la muestra para comprobar dicha hiptesis. Tpicamente, la
hiptesis nula que se establece en estas situaciones es la de la inexistencia de relacin
alguna entre las variables que forman la Tabla de contingencia. Otra manera de expresar
esto mismo consiste en afirmar que ambas variables son independientes. Si la hiptesis
de independencia fuera cierta la Tabla de contingencia debera tener unas frecuencias
determinadas; stas seran las frecuencias que se esperaran si no existiera relacin
alguna entre sexo y fumar. Estas frecuencias esperadas se obtienen, para cada casilla,
multiplicando el total de la fila por el total de la columna, y dividiendo, luego el
resultado entre el nmero total de sujetos. En el caso de nuestra tabla, las frecuencias
esperadas seran las siguientes::
1.
2.
3.
4.

HOMBRE-NO FUMADOR: (15) (14)/30 = 7,


HOMBRE-FUMADOR: (15) (16)/30 = 8,
MUJER-NO FUMADORA: (15) (14)/30 = 7,
MUJER-FUMADORA: (15) (16)/30 = 8.

Podemos pedir a SPSS que nos proporcione en la tabla de contingencia los valores de
las frecuencias esperadas junto con los de las frecuencias observadas empricamente.
Para obtener estos valores, siga los mismos pasos que en el apartado anterior y, una vez
situado en el cuadro de dilogo del procedimiento Tablas de contingencia, pulse el
botn etiquetado Casillas. Aparecer un nuevo cuadro de dilogo donde puede solicitar
tanto las frecuencias empricas u Observadas, que se proporcionan por defecto, como las
frecuencias tericas o Esperadas. El cuadro de dilogo tambin ofrece opciones para ver
porcentajes por filas y columnas, que pueden resultar de inters para comprender mejor
el reparto de las frecuencias, pero no los vamos a tener en cuenta ahora. Si selecciona la
opcin de mostrar las frecuencias esperadas, el cuadro de dilogo tendr este aspecto:

Pulse ahora el botn Continuar, y luego el botn Aceptar. Obtendr ahora esta nueva
tabla:

128

Tabla de contingencia sexo * fumar

sexo

hombre

fumar
no fumador
fumador
5
10
7.0
8.0
9
6
7.0
8.0
14
16
14.0
16.0

Recuento
Frecuencia esperada
Recuento
Frecuencia esperada
Recuento
Frecuencia esperada

mujer
Total

Total
15
15.0
15
15.0
30
30.0

Observe que en la tabla aparece, en cada celdilla, tanto la frecuencia observada (arriba)
como la frecuencia esperada (abajo). A partir de estas dos frecuencias se lleva a cabo la
comprobacin de la hiptesis nula de independencia entre var00001 y var00002. La
lgica que se sigue para comprobar la hiptesis nula es muy sencilla. Si la distancia que
hay entre las frecuencias observadas (O) y las esperadas (E) es pequea se acepta la
hiptesis nula, mientras que si esta distancia es grande se rechaza. Ntese que aceptar la
hiptesis nula implica aceptar la independencia, y rechazarla implica aceptar la
existencia de una relacin fiable entre ambas variables. La distancia o discrepancia que
hay entre una frecuencia observada (O) y una frecuencia esperada (E) se mide de la
siguiente manera:
(O E ) 2
E

Esta distancia se mide en cada casilla de la Tabla de contingencia. Luego, se suman


todas las distancias y al resultado se le denomina ji-cuadrado. La distribucin terica (o
probabilstica) de ji-cuadrado es conocida para un nmero dado de grados de libertad.
Los grados de libertad aqu son (nmero de filas - 1) x (nmero de columnas - 1). Si el
valor de ji-cuadrado obtenido es mayor o igual que el valor probabilstico de jicuadrado, para un nivel de significacin de .05, se rechaza la hiptesis nula. En caso
contrario, se acepta.
Con nuestros datos, se obtiene el siguiente valor de ji-cuadrado:

ji cuadrado =

(5 7 )
7

(10 8)
8

(9 7)
7

(6 8)
8

4 4 4 4
+ + + = 2.14286
7 8 7 8

Para poder valorar la magnitud de esta distancia (2.14286) tenemos que compararla con
el valor probabilstico de ji-cuadrado para el mismo nmero de grados de libertad que en
el ejemplo. Aqu el nmero de grados de libertad es
(filas - 1) x (columnas - 1) = (2-1) (2-1) = 1.
Si consultamos una Tabla de ji-cuadrado en una manual de estadstica, para 1 grado de
libertad y un nivel de significacin de .05, se podr observar un valor de 3.84. Lo que
indica la Tabla es que la probabilidad de obtener un valor de ji-cuadrado mayor que 3.84
es .05. Como el valor obtenido de ji-cuadrado (2.14286) es menor que el de la Tabla

129

(3.84), la probabilidad de obtener un valor de ji-cuadrado mayor que 2.14286 ser


todava mayor que .05. Con esta informacin no debemos rechazar la hiptesis nula. La
distancia entre las frecuencias observadas (O) y las frecuencias esperadas (E) es
demasiado pequea. Para ser considerada "grande" tendra que superar el valor 3.84.
Ntese que el recurso de la Tablas estadsticas nos ha permitido someter a comprobacin
la hiptesis nula de una manera esttica, para un nivel de significacin dado. Una
manera ms precisa de resolver el problema de decisin anterior sera indicando cul es
la probabilidad de obtener un valor de ji-cuadrado mayor que 2.14286. Si resolviramos
este problema con SPSS nos indicara justamente el valor de ji-cuadrado y su
probabilidad asociada.
Habr observado que en la anterior ejecucin de SPSS, para la obtencin de la Tabla de
contingencia, no se obtena ni el valor de ji-cuadrado ni el de su probabilidad asociada.
Si quisiramos obtener este valor , deberamos utilizar el botn Estadsticos, que
aparece en el cuadro de dilogo del procedimiento Tablas de contingencia. Si repite el
procedimiento anterior y pulsa luego este botn, encontrar gran cantidad de estadsticos
opcionales para tablas de contingencia. De entre stos, seleccione Chi-cuadrado. El
cuadro de dilogo tendr este aspecto:

Pulse el botn Continuar y, a continuacin, el botn Aceptar. Obtendr una Tabla de


contingencia como la que fue ofrecida anteriormente y, adems, obtendr el valor de jicuadrado en la forma siguiente:

130

Pruebas de chi-cuadrado

Chi-cuadrado de Pearson
Correccin por continuidada
Razn de verosimilitud
Estadstico exacto de Fisher
Asociacin lineal por lineal
N de casos vlidos

Valor
2.143b
1.205
2.170

1
1
1

Sig. asinttica
(bilateral)
.143
.272
.141

.150

gl

2.071
30

Sig. exacta
(bilateral)

Sig. exacta
(unilateral)

.272

.136

a. Calculado slo para una tabla de 2x2.


b. 0 casillas (.0%) tienen una frecuencia esperada inferior a 5. La frecuencia mnima esperada es
7.00.

La primera lnea de la tabla muestra el valor de ji-cuadrado que hemos obtenido nosotros
anteriormente; esto es, 2.143. El nmero de grados de libertad (gl) es 1, tal como
habamos sealado, y la probabilidad (Significance) de obtener un valor mayor que
2.143 es .143. Como esta probabilidad sobrepasa el lmite de error establecido en
estadstica (.05), no se rechaza la hiptesis nula y se concluye que la variable Sexo y la
variable Fumar son independientes. Recuerde que cuando hacamos uso de las Tablas
estadsticas, ofrecidas en los manuales de estadstica, la conclusin a la que llegbamos
era la misma (no rechazo de la hiptesis nula). All conocamos el valor mnimo de jicuadrado necesario para rechazar la hiptesis nula (3.84). Como no se alcanzaba este
valor, no se rechazaba. SPSS no proporciona el valor de ji-cuadrado necesario para
rechazar la hiptesis nula, sino la probabilidad exacta de equivocarnos rechazando la
hiptesis nula (.143). Como esta probabilidad sobrepasa el mximo error admisible
estadsticamente (.05), se llega a la misma conclusin: no se rechaza la hiptesis nula.
En la segunda lnea de la tabla anterior, aparece un nuevo valor de ji-cuadrado
(1.20536), precedido de la leyenda Correccin por continuidad. Este valor de jicuadrado es el que se obtiene una vez realizada la Correccin de Yates. Esta correccin
se aplica en los siguientes casos:
1. Cuando alguna de las frecuencias observadas (O) es menor que 5. En este ejemplo,
ninguna de las frecuencias observadas (O) es menor que 5. Por tanto, por esta razn
no se aplica la Correccin de Yates.
2. Cuando la Tabla de contingencia es 2 x 2, es decir, tiene 2 filas y 2 columnas. La
distancia ji-cuadrado se puede calcular para un nmero de filas (o columnas) mayor
que 2. El caso de 2 filas y 2 columnas es, por tanto, el ms elemental posible. Pues
bien, en este caso, es cuando se puede corregir la distancia calculada mediante el
procedimiento sugerido por Yates, que consiste en restarle 0.5 a la diferencia entre O
y E, cuando esta diferencia sea positiva, y sumarle 0.5 cuando esta diferencia sea
negativa.
Si aplicamos la Correccin de Yates, en este ejemplo, obtendremos el siguiente valor de
ji-cuadrado.

131

ji cuadrado =
=

(5 7 + 0.5) 2
7

2
( 15
.)

2
(15
.)

(10 8 0.5) 2
8

2
(15
.)

( 9 7 0.50) 2

2
( 15
.)

( 6 8 + 0.5) 2
8

= 1205
.

Justamente este es el valor de ji-cuadrado que proporciona SPSS en esta segunda lnea.
Los grados de libertad se obtienen de la misma forma, por lo que su valor es igual a 1.
Como el valor obtenido de ji-cuadrado es ahora menor que antes, la probabilidad
asociada es mayor (.272). Si la probabilidad anterior era mayor que .05, esta lo es an
ms, por lo que la conclusin es la misma: aceptacin de la hiptesis nula. Esto implica
la aceptacin de la independencia entre ambas variables.
El listado proporciona tambin otros tres estadsticos basados en ji-cuadrado: la razn de
verosimilitud, el estadstico exacto de Fisher y el estadstico de asociacin lineal de
Mantel-Haenszel. El primero de ellos est relacionado con la teora de la mxima
verosimilitud y no ser comentado aqu. El estadstico exacto de Fisher es de
aplicacin recomendable en el caso de tablas de 2x2 con un tamao de muestra
inferior a 20. En cuanto a la prueba Mantel-Haenszel, se utiliza en el caso de datos
ordinales y, por tanto, no es aplicable a la tabla de contingencia de nuestro ejemplo.

10. Introduccin al Anlisis Estadstico No-Paramtrico


La estadstica no paramtrica es una rama moderna de la estadstica que se ha
desarrollado para satisfacer alguno de los dos fines que se sealan a continuacin:
1. Comprobar si la forma de la distribucin de los datos se ajusta a una distribucin de
probabilidad dada (p.e. distribucin normal). Cuando se utiliza con este propsito un
procedimiento estadstico no paramtrico, se le suele denominar prueba de bondad
de ajuste.
2. Comparar dos o ms grupos, sin necesidad de establecer supuestos tan fuertes como
los asumidos con el anlisis de varianza (p.e. homogeneidad de varianzas) o con el
estadstico t (p.e. distribucin normal). Estos supuestos son especialmente difciles
de sostener en aquellos casos en que la variable dependiente est medida a nivel
ordinal, en la escala de Stevens.
SPSS ofrece mltiples procedimientos estadsticos no paramtricos. Aqu haremos
referencia nicamente a 5 de estos procedimientos. El primero de ellos (prueba de
Kolmogorov-Smirnov) puede utilizarse como prueba de bondad de ajuste. El segundo
(prueba U de Mann-Whitney) puede utilizarse para comparar la ejecucin en dos
muestras independientes, al igual que el estadstico t, pero asumiendo supuestos mucho
ms dbiles. El tercero (prueba de T Wilcoxon) puede utilizarse con dos muestras
relacionadas, al igual que el estadstico t para muestras relacionadas, pero sin asumir el
supuesto de distribucin normal de las diferencias. El cuarto (prueba de Kruskal-Wallis)
puede utilizarse en lugar del anlisis de varianza de un factor, evitando sus supuestos. Y
el quinto (prueba de Friedman) es un procedimiento no paramtrico para dos o ms
muestras relacionadas.

132

10.1. Prueba de bondad de ajuste de Kolmogorov-Smirnov


Tal como est implementada en SPSS, la prueba de bondad de ajuste de KolmogorovSmirnov se puede utilizar para comprobar si una distribucin de frecuencias se ajusta a
alguna de las tres siguientes distribuciones de probabilidad:
1. distribucin normal;
2. distribucin de Poisson;
3. distribucin uniforme.
Por supuesto que de estas tres distribuciones, la que tiene mayor inters en anlisis
estadstico es la normal. A continuacin veremos cmo utilizar la prueba de
Kolmogorov-Smirnov para comprobar si la distribucin de frecuencias de la variable
item12 del estudio sociolingstico se ajusta a una distribucin normal. Como en todos
los procedimientos estadsticos, seleccione primero la opcin Analizar en el men
principal. A continuacin, seleccione la opcin Pruebas no paramtricas. Finalmente,
en el men que se despliega a la derecha, seleccione la opcin K-S de 1 muestra.
Aparecer el siguiente cuadro de dilogo:

Lo nico que debe seleccionar en este cuadro de dilogo es la variable a la que se va a


aplicar la prueba de Kolmogorov-Smirnov; seleccione item12. Fjese en que la
distribucin normal es, por defecto, la distribucin terica de comparacin utilizada por
la prueba, por lo que no ser necesario hacer ninguna modificacin. En cuanto al botn
Opciones, nos permite solicitar, adicionalmente a la prueba de contraste, estadsticos
descriptivos y/o cuartiles de la(s) variable(s) seleccionada(s) que, aunque tiles, no
seleccionaremos aqu. Para efectuar el anlisis, simplemente pulse el botn Aceptar.
Obtendr un listado como el siguiente:

133

Prueba de Kolmogorov-Smirnov para una muestra

N
Parmetros normales a,b

Diferencias ms
extremas

Media
Desviacin tpica
Absoluta
Positiva
Negativa

Z de Kolmogorov-Smirnov
Sig. asintt. (bilateral)

el gallego
debe ser
la lengua
habitual de
Galicia
20
3.25
.91
.295
.205
-.295
1.319
.062

a. La distribucin de contraste es la Normal.


b. Se han calculado a partir de los datos.

En la columna de la derecha de la tabla vemos el valor de la media y la desviacin tpica


de item12, y el nmero de casos o sujetos (N). La informacin ms til se ofrece en las
dos ltimas lneas de esta columna. All se observa un valor denominado Z de
Kolmogorov-Smirnov (1.319), y su probabilidad asociada (.062). Esta es la informacin
a valorar para la toma de decisin con respecto a la hiptesis nula. La hiptesis nula aqu
afirma que la distribucin es normal. Como la probabilidad asociada sobrepasa el nivel
de significacin mximo admisible (.05) no se rechaza la hiptesis nula y se afirma que
la distribucin de item12 es normal.
El procedimiento de Kolmogorov-Smirnov compara la distribucin de frecuencias
acumuladas de item12 con la distribucin de probabilidades acumuladas (mejor
denominada funcin de distribucin) de una variable aleatoria con funcin de densidad
normal N(3.25, .912). La distancia mayor que encuentra (en trminos absolutos) es .295.
Si se multiplica esta distancia por la raz cuadrada del nmero de casos (20), se obtiene
el valor de K-S Z (1.319). Esto es,
Z de Kolmogorov-Smirnov = 1.319 = 0.295 x

20 4 .

En realidad, existen Tablas estadsticas que nos indican que para poder rechazar la
hiptesis nula, la distancia mxima obtenida tendra que ser igual o mayor que
1.36/ 20 5 = 0.304. Como 0.295 es menor que 0.304 no rechazamos la hiptesis nula y
afirmamos que la distribucin emprica de item12 se ajusta a una distribucin normal
con media igual a 3.25 y varianza igual a 0.912.

10.2. Prueba U de Mann-Whitney para dos muestras independientes


La prueba U de Mann-Whitney se puede utilizar, al igual que la prueba t de Student en
su formulacin ms conocida, cuando se dispone de dos muestras independientes. En
contextos no experimentales, dos muestras se suelen considerar independientes por el

134

simple hecho de que los sujetos de una y otra muestra se diferencien en alguna
propiedad. Por ejemplo, si una muestra est compuesta por hombres y otra por mujeres
ambas muestras se consideran independientes. De forma similar, seran independientes
una muestra formada por jvenes y otra formada por adultos. En contextos
experimentales, la independencia de las muestras se garantiza asignando aleatoriamente
los sujetos a las distintas condiciones experimentales. Por ejemplo, si disponemos de 40
sujetos y queremos crear dos muestras (o grupos) experimentales independientes A y B
lo mejor que podemos hacer es asignar aleatoriamente 20 sujetos al grupo experimental
A y 20 sujetos al grupo experimental B.
La prueba U de Mann-Whitney, como alternativa a la prueba t de Student, puede ser
muy til en los siguientes casos:
1. cuando se violen los supuestos de distribucin normal o de homogeneidad de
varianzas o de ambos;
2. cuando el nivel en que fue medida la variable dependiente es ordinal, en lugar de
intervalos o razn.
Imagine que queremos comparar la calidad acadmica de dos colegios A y B, registrando
el lugar que han ocupado sus estudiantes en el examen de selectividad para acceso a la
Universidad. Para ello, tomamos una muestra aleatoria de 10 estudiantes en cada colegio
y registramos el orden en que han quedado situados en el examen de selectividad. Con
fines de codificacin, vamos a asignar un 1 a los alumnos del colegio A, y un 2 a los
alumnos del colegio B. Con los datos sobre colegio y orden en la selectividad para cada
uno de los 20 estudiantes, obtendramos una tabla como la siguiente:
Colegio
1
1
1
1
1
1
1
1
1
1

Orden
30
72
109
145
158
176
224
230
490
656

Colegio
2
2
2
2
2
2
2
2
2
2

Orden
161
204
403
559
670
720
747
912
950
991

La hiptesis nula que se somete a comprobacin afirma que la distribucin de la


poblacin de donde fue extrada la muestra de observaciones A es idntica a la
distribucin de donde fue extrada la muestra de observaciones B. Es decir, que ambas
muestras fueron extradas de la misma poblacin. Para satisfacer este objetivo, se podra
utilizar la prueba U de Mann-Whitney. Para ello, y en primer lugar, deberamos crear el
archivo de datos, al que llamaremos nopar.sav. El archivo de datos tendra este aspecto:

135

La variable var00001 contiene la informacin acerca del colegio al que pertenece cada
alumno (1=Colegio A; 2=Colegio B). Por su parte, la variable var00002 se refiere al
orden obtenido en la prueba de selectividad por cada estudiante. Para aplicar la prueba U
a estos datos, seleccione la opcin Analizar del men principal; a continuacin, la
opcin Pruebas no paramtricas; finalmente, en el men que se despliega a la derecha,
seleccione la opcin 2 muestras independientes. Aparecer el cuadro de dilogo para
pruebas con dos muestras independientes. Observe que la prueba seleccionada por
defecto es la U de Mann-Whitney, por lo que no es necesario modificar esta seleccin.
nicamente es preciso indicar cul es la variable dependiente (Contrastar) y cul es la
variable independiente o Variable de agrupacin. Seleccione var00002 como variable
dependiente, y var00001 como variable independiente. El cuadro de dilogo quedar
as:

Antes de efectuar el anlisis, es necesario especificar, al igual que ocurra con la prueba t
para muestras independientes, cules son los dos valores que identifican a los dos grupos
representados en var00001. Para especificar estos valores, pulse el botn Definir
grupos, e indique ambos valores (1 y 2). A continuacin pulse el botn Aceptar. El visor
de resultados le proporcionar dos tablas. sta es la primera de ellas:
Rangos

VAR00002

VAR00001
1.00
2.00
Total

N
10
10
20

Rango
promedio
6.70
14.30

Suma de
rangos
67.00
143.00

La primera tabla ofrece el rango promedio y la suma de rangos para cada uno de los
grupos. Se observa que cuando var00001=1, es decir, cuando se trata del Colegio A, el
rango medio es 6.70, y el nmero de casos (N) es 10. De igual forma, se observa que
cuando var00001=2, es decir, cuando se trata del Colegio B, el rango medio es 14.30, y
el nmero de casos tambin es 10. Para obtener estos rangos medios, primero, se han

136

mezclado los 20 sujetos y, luego, se ha asignado el rango 1 al sujeto mejor situado, el 2


al segundo mejor situado y as hasta el sujeto peor situado, al que se ha asignado el
rango 20. Para comprender este proceso, se ofrecen a continuacin los lugares ocupados
por cada uno de los 20 sujetos en el examen de selectividad, el rango que les
corresponde, y el colegio al que pertenecen (A B):
Lugar selectividad
30
72
109
145
158
161
176
204
224
230
403
490
559
656
670
720
747
912
950
991

Rango
Colegio A Colegio B
01
02
03
04
05
06
07
08
09
10
11
12
13
14
15
16
17
18
19
20
67
143

Ahora se observa fcilmente como la media de los rangos del Colegio A es 67/10 = 6.70,
y la media de los rangos del Colegio B es 143/10 = 14.30.
Veamos ahora la segunda tabla que nos muestra el visor de resultados para la prueba U
de Mann-Whitney:
Estadsticos de contrasteb
U de Mann-Whitney
W de Wilcoxon
Z
Sig. asintt. (bilateral)
Sig. exacta [2*(Sig.
unilateral)]

VAR00002
12.000
67.000
-2.873
.004
a

.003

a. No corregidos para los empates.


b. Variable de agrupacin: VAR00001

U es el nmero de veces que los estudiantes del colegio B preceden a los estudiantes del
colegio A. Observe en el listado que U es 12. Para comprender de dnde se obtiene este
valor, fjese en los siguientes aspectos:

137

1. El estudiante que ocupa el rango 07 es del Colegio A. A este estudiante solamente le


precede 1 estudiante del Colegio B. Anotemos un 1.
2. El estudiante que ocupa el rango 09 es del Colegio A. A este estudiante le preceden 2
estudiantes del Colegio B. Anotemos un 2.
3. El estudiante que ocupa el rango 10 es del Colegio A. A este estudiante le preceden 2
estudiantes del Colegio B. Anotemos un 2.
4. El estudiante que ocupa el rango 12 es del Colegio A. A este estudiante le preceden 3
estudiantes del Colegio B. Anotemos un 3.
5. El estudiante que ocupa el rango 14 es del Colegio A. A este estudiante le preceden 4
estudiantes del Colegio B. Anotemos un 4.
Si ahora sumamos todos los nmeros anotados, tenemos:
1 + 2 + 2 + 3 + 4 = 12 (es decir, U).
W es la suma de los rangos de los estudiantes del Colegio A.
Finalmente,

Z =

U - n1 n2
2
( n1 )( n2 )( n1 + n2 + 1)
12

donde n1 y n2 son los tamaos del grupo A y B, respectivamente.


Por tanto,
10 x 10
2
=
(10)(10)(10 + 10 + 1)
12
12 -

Z =

- 38
= - 2.873
175

La probabilidad asociada (o nivel de significacin) para Z = -2.873 es .003. Esta


probabilidad aparece etiquetada en la tabla como Significacin exacta. Como esta
probabilidad es menor que .05, rechazamos la hiptesis nula que estableca la igualdad
de las dos distribuciones y afirmamos su desigualdad.
En la penltima fila de la Tabla se ofrece la significacin asinttica (.004), que se utiliza
en caso de que haya empates en los rangos. En este ejemplo, no procede la consulta de
esta probabilidad porque no hay empates en los rangos.

10.3. Prueba T de Wilcoxon para dos muestras relacionadas


Recuerde que existe una versin de la prueba t de Student para comparar dos muestras
independientes y otra versin para comparar dos muestras relacionadas (ver Apartado
7.2).

138

En el epgrafe anterior se ofreci la prueba U de Mann-Whitney que podra utilizarse


como alternativa a la prueba t de Student para dos muestras independientes. Ahora se
ofrece aqu la prueba T de Wilcoxon que puede utilizarse como alternativa a la prueba t
de Student para dos muestras relacionadas.
La definicin de muestras independientes se ofreci en el Apartado 7.1 y, nuevamente,
en el epgrafe anterior. Falta, ahora, recordar lo que se entiende por muestras
relacionadas. Dos muestras se consideran relacionadas si ambas estn compuestas por
sujetos que comparten ciertas propiedades de inters cientfico. En el caso ms
conocido, las muestras relacionadas se forman con gemelos, siguiendo el siguiente
procedimiento. Primero se seleccionan cuidadosamente diversos pares de gemelos
(pongamos 10 pares). Luego, se asigna un miembro de cada par de gemelos a un grupo
(A) y el otro miembro a otro grupo (B). A continuacin, se aplica un tratamiento a un
grupo (por ejemplo: A) mientras se mantiene constante el otro (B). Finalizado el
tratamiento, se mide alguna propiedad (variable dependiente) en ambos grupos. Esta
propiedad, que era igual en ambos grupos antes del tratamiento, puede ser ahora
desigual. Si efectivamente lo es, se concluye que la desigualdad es debida al efecto del
tratamiento.
En algunas investigaciones de carcter social se han utilizado matrimonios para formar
grupos relacionados, en lugar de gemelos. Es evidente que el objetivo importante aqu es
conseguir dos grupos socialmente, en lugar de biolgicamente, homogneos.
Una estrategia tambin comn para formar grupos relacionados consiste en medir alguna
propiedad (variable dependiente o variable estrechamente relacionada) en una muestra
amplia de sujetos. Luego, se forman pares de sujetos con puntuaciones iguales (o casi
iguales) en la propiedad medida. Los sujetos que no se consigan igualar se excluyen.
Llegado a este punto, se forman dos grupos siguiendo el mismo procedimiento sealado
para los gemelos o para los matrimonios.
Finalmente, en algunas disciplinas, especialmente en Psicologa, se forman dos grupos
relacionados utilizando cada sujeto como par de s mismo. Para entender este
procedimiento, imagine que disponemos de un grupo de 10 sujetos. Medimos en cada
sujeto alguna propiedad (variable dependiente). Luego, aplicamos un tratamiento y, a
continuacin, volvemos a registrar la misma variable en los mismos 10 sujetos. En el
anlisis estadstico cada sujeto acta como par de s mismo. A este procedimiento
tambin se le conoce con el nombre de "medidas repetidas", precisamente porque la
segunda medida es una repeticin de la primera, desde el punto de vista del sujeto.
La prueba T de Wilcoxon podra utilizarse en cualquiera de estas situaciones para
comprobar la hiptesis nula de que las dos poblaciones, de donde son extradas ambas
muestras, son idnticas. Para comprender el procedimiento propuesto por Wilcoxon,
imagine que es usted un preparador fsico y que tiene a su cargo 7 atletas. Cuando usted
se hace cargo del trabajo, la clasificacin nacional de estos 7 atletas es la siguiente:

139

Atleta
1
2
3
4
5
6
7

Clasificacin
8
16
20
24
25
30
32

Aceptemos ahora que despus de una ao de trabajo la clasificacin de los 7 atletas es la


siguiente:
Atleta
1
2
3
4
5
6
7

Clasificacin
4
20
7
12
14
9
34

Nuestro inters ahora es comparar la clasificacin de los atletas antes de hacerse usted
cargo del trabajo con la clasificacin de los atletas despus de un ao de trabajo.
Observe que los sujetos son los mismos. Tenemos dos medidas (repetidas) para cada
sujeto. Por tanto, las muestras (clasificacin antes, clasificacin despus) son
relacionadas. Observe tambin que la medida es ordinal (clasificaciones). La prueba t de
Student, para muestras relacionadas, sera apropiada para realizar la comparacin entre
las dos muestras, de no ser por el nivel de medida tan bajo, en la escala de Stevens. Este
hecho nos lleva a utilizar una prueba no paramtrica. Por las caractersticas sealadas, la
prueba no paramtrica especfica es la T de Wilcoxon.
La lgica seguida por Wilcoxon para realizar la comparacin es muy sencilla. Primero
se comparan las clasificaciones de cada atleta antes y despus, hallando la diferencia
entre ambas. Si la clasificacin, para un atleta, es la misma antes que despus, la
diferencia ser cero. Si la clasificacin es mejor despus que antes, la diferencia ser
negativa, mientras que si es peor ser positiva. Cuando se tienen calculadas estas
diferencias, se ordenan asignndole el nmero 1 a la diferencia ms pequea, el 2 a la
siguiente ms pequea y as sucesivamente. Para hacer esta asignacin se imponen dos
restricciones:
1. las diferencias iguales a cero se excluyen, y
2. las diferencias distintas de cero (positivas o negativas) se consideran todas como
positivas.
Tpicamente, a los rdenes que se han asignado a estas diferencias se les denomina
rangos. Llegados a este punto, se clasifican los rangos en dos categoras: (1) los rangos
correspondientes a aquellas diferencias que, en principio, eran positivas, y (2) los rangos
correspondientes a aquellas diferencias que, en principio, eran negativas. Luego, se
suman los rangos en cada una de estas categoras y se elige aquella suma que sea menor.
Esta suma menor es el estadstico T de Wilcoxon.

140

Si es cierta la hiptesis nula, que establece la igualdad entre las poblaciones, la suma de
los rangos en ambas categoras debera ser igual. Formalmente, podramos escribir
T1 = T2 = T
donde T1 es la suma de los rangos correspondientes a aquellas diferencias que, en
principio, eran positivas, y T2 es la suma de los rangos correspondientes a aquellas
diferencias que, en principio, eran negativas.
Una manera operativa de definir el valor de T, bajo hiptesis nula, en un problema
determinado es la siguiente:
T =

N(N + 1)
4

donde N es el nmero de pares de observaciones.


Para no confundir este valor terico de T, que se producira bajo la hiptesis nula de
igualdad de poblaciones, con el valor obtenido de T, se suele representar el valor de T
bajo hiptesis nula por T . Por tanto, podemos re-escribir
T =

N(N + 1)
4

Observe que si la distancia entre el valor obtenido de T y el valor T , bajo hiptesis nula,
es pequea la evidencia en favor de la existencia de diferencias entre ambas poblaciones
es tambin pequea, mientras que si la distancia es grande la evidencia en favor de la
existencia de diferencias ser mayor.
A continuacin se ofrecen los clculos necesarios para la toma de decisiones en cuanto a
si existen diferencias en las clasificaciones obtenidas por los 7 atletas antes y despus de
su trabajo como preparador fsico:
Clasificacin
antes
8
16
20
24
25
30
32

Clasificacin
despus
4
20
7
12
14
9
34

Diferencia
despus-antes
-4
4
-13
-12
-11
-21
2

Rangos (-)
2.5
6
5
4
7
24.5

Rangos (+)
2.5

1
3.5

Se observa que el valor de T obtenido es 3.5. Recuerde que T es la suma de rangos


menor (categora con diferencias que, en principio, eran positivas).
Bajo hiptesis nula T 6 sera igual a:

141

T =

N(N + 1) 7(7 + 1)
=
= 14
4
4

Dado que no hay ninguna diferencia entre rangos nula (igual a cero), tambin se cumple
que:
T =

Suma de rangos positivos + Suma de rangos negativos 24.5+3.5


=
= 14
2
2

Ahora slo falta valorar si lo que se aparta 3.5 de 14 (esto es, 10.5 unidades) es lo
suficientemente importante como para poder rechazar la hiptesis nula de igualdad de
poblaciones. Ntese que la distancia que hay entre 3.5 y 14 es, en trminos absolutos, la
misma que la que hay entre 24.5 y 14 (tambin 10.5). Es decir, que si en vez de coger la
suma de rangos menor (3.5), hubiramos tomado la mayor (24.5), las conclusiones
debieran ser las mismas. Como siempre, para poder resolver esta cuestin se necesita
conocer la distribucin de probabilidad del estadstico T, aspecto que fue investigado por
Wilcoxon. Conocida esta distribucin, es posible calcular la probabilidad de obtener una
diferencia mayor que la obtenida. Si esta probabilidad (nivel de significacin) es igual o
menor que .05 se rechaza la hiptesis nula. A continuacin vamos a obtener la T de
Wilcoxon para los datos de los 7 atletas utilizando SPSS. En primer lugar, creamos el
archivo de datos, al que llamaremos nopar2.sav:

Para utilizar la prueba de Wilcoxon con estos datos, siga los mismos pasos que en los
procedimientos no-paramtricos anteriores: Seleccione la opcin Analizar en el men
principal; a continuacin, seleccione la opcin Pruebas no paramtricas. En el men

142

que se despliega a la derecha, seleccione ahora la opcin especfica para este tipo de
datos: 2 muestras relacionadas. Aparecer un cuadro de dilogo donde tiene que indicar
el/los par(es) de variables, a semejanza de lo que ocurra en el caso de la prueba t para
muestras relacionadas; en nuestro caso, seleccione el par de variables formado por
var00001 y var00002. La prueba de Wilcoxon es la que est seleccionada por defecto,
as que no es necesario hacer ms modificaciones.. El cuadro de dilogo tendr, pues,
este aspecto:

Pulse ahora el botn Aceptar. El visor de resultados le proporcionar dos tablas. sta es
la primera de ellas:
Rangos
N
VAR00002 - VAR00001

Rangos negativos
Rangos positivos
Empates
Total

5a
2b
0c
7

Rango
promedio
4.90
1.75

Suma de
rangos
24.50
3.50

a. VAR00002 < VAR00001


b. VAR00002 > VAR00001
c. VAR00001 = VAR00002

Esta primera tabla se refiere a los resultados de las comparaciones entre las dos variables
de inters, var00001 y var00002. Recuerde que var00001 es la clasificacin de los
atletas antes y var00002 la clasificacin despus; es decir, recuerde que tenemos dos
medidas (repetidas) de la misma variable. En las filas siguientes se ofrece el rango
medio de aquellos casos con rangos negativos (-). Los rangos negativos se producen
cuando var00002 (clasificacin despus) es menor que (<) var00001 (clasificacin
antes). Tal como habamos obtenido cuando realizamos el problema manualmente, en
esta situacin se encuentran 5 atletas. El rango medio de estos atletas es 4.9. Este
nmero se obtiene realizando el siguiente clculo:

143

Suma de rangos negativos


24.5
=
= 4.9
Numero de rangos negativos
5
De forma similar, en el listado SPSS indica que el nmero de rangos positivos es 2. Los
rangos son positivos cuando var00002 es mayor que (>) var00001. La media de estos
dos rangos es 1.75. Este resultado se obtiene realizando el siguiente clculo:
Suma de rangos positivos
3.5
=
= 1.75
Nmero de rangos positivos
2
La segunda de las tablas que nos ofrece el visor de resultados tiene este aspecto:
Estadsticos de contrasteb
VAR00002 VAR00001
-1.778a
.075

Z
Sig. asintt. (bilateral)

a. Basado en los rangos positivos.


b. Prueba de los rangos con signo de Wilcoxon

En esta tabla se ofrece el valor de un estadstico Z (-1.778) y su nivel de significacin


(Sig. asinttica (bilateral) P = .075). Como el nivel de significacin es superior a .05 no
se rechaza la hiptesis nula y se afirma que no existen diferencias significativas (fiables)
entre la clasificacin de los atletas antes y despus. Recuerde que lo que indica el nivel
de significacin es que la probabilidad de obtener una diferencia mayor (en trminos
absolutos) a la obtenida es .075. Esta probabilidad se considera demasiado grande.
El valor de Z se obtiene de la siguiente manera:
Z =

T -T
S

donde
S =

(2N + 1) T
6

Con estos datos,


Z =

T -T
(2N + 1) T
6

3.5 - 14
= - 1.77
(2 x 7 + 1) (14)
6

144

10.4. Prueba de Kruskal-Wallis para k muestras independientes


La prueba de Kruskal-Wallis para k muestras independientes constituye una alternativa
estadstica al anlisis de varianza de un factor. Su uso es aconsejable cuando se viole
alguno de los supuestos del anlisis de varianza (p.e. homogeneidad de varianzas,
distribucin normal) o cuando la escala de medida de la variable dependiente sea
ordinal, en la escala de Stevens.
La definicin de muestras independientes fue ofrecida en el Apartado 10.2 de este
mismo captulo, dedicado a la prueba U de Mann-Whitney, y anteriormente en el
Apartado 7.1, dedicado a la prueba t de Student para muestras independientes.
La lgica de la prueba de Kruskal-Wallis es similar a la utilizada en la prueba U de
Mann-Whitney. La diferencia sustancial est en que la prueba de Kruskal-Wallis permite
la existencia de ms de dos muestras independientes (p.e. 3, 4, etc.), mientras que la
prueba U de Mann-Whitney se limita al caso de dos muestras independientes. Si est
usted en un nivel inicial en estadstica, nuestra recomendacin es que antes de leer el
resto de este epgrafe lea el epgrafe 10.2 dedicado a la prueba U de Mann-Whitney.
Para resaltar la semejanza existente entre la prueba U de Mann-Whitney y la prueba de
Kruskal-Wallis vamos a utilizar el mismo ejemplo que hemos utilizado en la prueba U
de Mann-Whitney, con la simple aadidura de una muestra ms. Recuerde que en aquel
ejemplo se deseaba comparar la calidad acadmica de dos colegios (A y B), registrando
el lugar que haban ocupado sus estudiantes en el examen de selectividad para acceso a
la Universidad. Para ello, se haba tomado una muestra aleatoria de 10 sujetos en cada
colegio. Supongamos ahora que exista un tercer colegio (C) y que tambin aqu se ha
tomado una muestra aleatoria de 10 sujetos y registrado el orden en que han quedado
situados en el mismo examen de selectividad. Para facilitar la codificacin, asignaremos
un 1 a los estudiantes del colegio A, un 2 a los estudiantes del colegio B, y un 3 a los
estudiantes del colegio C. A continuacin se ofrecen los rdenes hipotticos de los
estudiantes en los tres colegios:

145

Colegio
1
1
1
1
1
1
1
1
1
1

Orden
30
72
109
145
158
176
224
230
490
656

Colegio
2
2
2
2
2
2
2
2
2
2

Orden
161
204
403
559
670
720
747
912
950
991

Colegio
3
3
3
3
3
3
3
3
3
3

Orden
610
840
995
759
908
745
1266
850
1115
875

Para realizar la comparacin entre los rdenes obtenidos por los estudiantes de los tres
colegios, vamos a crear un nuevo archivo de datos, al que llamaremos nopar3.sav. El
archivo de datos, con el nuevo grupo de estudiantes aadido al final, tendra este
aspecto:

La variable var00001 contiene informacin acerca del colegio al que pertenece cada
sujeto (1=Colegio A; 2=Colegio B; 3=Colegio C). La variable var00002 contiene los
rdenes obtenidos por cada estudiante en la prueba de selectividad. Recuerde que, como
las muestras son independientes, cada grupo ocupa una fila distinta.
Veamos ahora cmo utilizaramos la prueba de Kruskal-Wallis con los datos del archivo
nopar3.sav. Seleccione, en el men principal, la opcin Analizar. A continuacin,
seleccione la opcin Pruebas no paramtricas. Finalmente, en el men que se despliega
a la derecha, seleccione la opcin K muestras independientes. Aparecer el cuadro de
dilogo correspondiente, donde tiene que indicar la(s) variable(s) dependiente(s)

146

(Contrastar variables) y la Variable de agrupacin. Seleccione var00002 como variable


dependiente, y var00001 como variable independiente. Como prueba de contraste para k
muestras independientes ya est seleccionada la prueba de Kruskal-Wallis, por lo que no
es necesario hacer ningn cambio aqu. El cuadro de dilogo tendr este aspecto:

Antes de efectuar el anlisis, nicamente es necesario especificar el rango de


puntuaciones para var00001. Recuerde que este rango est entre 1 y 3. Pulse el botn
Definir rango e introduzca ambos valores en el cuadro de dilogo correspondiente. A
continuacin, pulse el botn Continuar y luego el botn Aceptar. Al igual que en
anlisis anteriores, el visor de resultados le ofrecer dos tablas. sta es la primera de
ellas:
Rangos

VAR00002

VAR00001
1.00
2.00
3.00
Total

N
10
10
10
30

Rango
promedio
6.80
16.80
22.90

La tabla le muestra los rangos promedio obtenidos por los sujetos de cada uno de los 3
grupos. Para comprender el modo de clculo de estos rangos promedio, se ofrece a
continuacin el procedimiento que sigue SPSS.
En primer lugar, se consideran los sujetos de las tres muestras (aqu colegios) en
conjunto, y se ordenan asignndole al que obtuvo el registro numrico ms pequeo el
nmero 1, al que obtuvo el siguiente ms pequeo el nmero 2, y as sucesivamente. En
el ejemplo, el sujeto que obtuvo el registro ms bajo fue el estudiante 1 del Colegio A.
En consecuencia, se le asigna el nmero 1. El siguiente sujeto es el estudiante nmero 2
de este mismo colegio. Se le asigna el nmero 2. Se contina as hasta completar todos
los sujetos. A este nmero as asignado a cada sujeto se le denomina especficamente
"rango". A continuacin se ofrece la asignacin completa de rangos y el colegio al que
pertenece cada estudiante.

147

Lugar selectividad
30
72
109
145
158
161
176
204
224
230
403
490
559
610
656
670
720
745
747
759
840
850
875
908
912
950
991
995
1115
1266

Colegio A
01
02
03
04
05

Rango
Colegio B

06

07

08

09
10

11

12

13

15

16
17
19

25
26
27

68

Colegio C

168

14

18
20
21
22
23
24

28
29
30
229

Si se suman los rangos correspondientes a los estudiantes del Colegio A, se obtiene que
esta suma es 68. Si dividimos 68 entre 10 estudiantes que hay en el Colegio A, el rango
medio es 6.80. Este mismo clculo realizado para el Colegio B producira un rango
medio de 16.80, y para el Colegio C de 22.90. Precisamente esta es la informacin que
se ofrece en la columna etiquetada Rango promedio. Tambin se especifica el nmero
de sujetos (N) correspondiente a cada nivel de la variable independiente var00001 (1, 2,
y 3). Ya es sabido que estos valores se corresponden con los colegios A, B y C. Veamos
ahora la segunda tabla de resultados:
Estadsticos de contrastea,b
Chi-cuadrado
gl
Sig. asintt.

VAR00002
17.050
2
.000

a. Prueba de Kruskal-Wallis
b. Variable de agrupacin: VAR00001

148

La hiptesis nula establece que las distribuciones de las tres poblaciones, de donde son
extradas las tres muestras, son idnticas. Kruskal y Wallis utilizan la informacin
contenida en las tres muestras para comprobar (es decir, rechazar o no) dicha hiptesis.
El proceso que siguen incluye el clculo de un estadstico denominado H, que se define
como sigue:

H =

k Ri 2
12
- 3(N + 1)

N(N + 1) i=1 ni

donde N es el nmero total de sujetos, considerando todas las muestras conjuntamente


(aqu 30), ni es el nmero de sujetos en una muestra i (i = 1,2, ..., k) y Ri es la suma de
rangos en una muestra i.
Si sustituimos para H con los datos del ejemplo, se obtiene:
2
2
2
12 (68 ) (168 ) (229 )
H=
+
+

- 3(31) = 17.050
30(31) 10
10
10

Se sabe que cuando el tamao de las muestras ni es igual o mayor que 5, el estadstico H
se puede interpretar como un estadstico ji-cuadrado, con k-1 grados de libertad. Esta es
la razn de que al estadstico H se le denomina Chi-cuadrado en la tabla. Al lado de este
valor se ofrece el nivel de significacin, que es menor que .001. Como esta probabilidad
es menor que .05 se rechaza la hiptesis nula y se afirma que las distribuciones de las
tres poblaciones son distintas. A efectos interpretativos, esto es lo mismo que decir que
hay diferencias significativas (fiables) entre los rangos obtenidos por los estudiantes de
los 3 colegios.

10.5. Prueba de Friedman para k muestras relacionadas


El concepto de muestras relacionadas se ofreci en los Apartados 7.2 y 10.3, por lo que
no ser repetido aqu. En el epgrafe 10.3 tambin se ofreci la prueba T de Wilcoxon
para comparar dos muestras relacionadas. Recuerde que esta prueba permite comprobar
la hiptesis nula de que dos muestras relacionadas proceden de una misma poblacin (o
de dos poblaciones con igual distribucin) sin necesidad de utilizar supuestos tan fuertes
como la prueba t de Student para dos muestras relacionadas (p.e. distribucin normal de
las diferencias).
En este epgrafe se pretende ofrecer una prueba no paramtrica (i.e. que utiliza supuestos
relativamente dbiles) ideada por Friedman, la cual puede utilizarse en el caso de ms de
dos muestras relacionadas.
Para comprender la lgica de esta prueba imagine que le pide a 7 sujetos que le indiquen
su preferencia por tres coches A, B y C, en una escala de 1 a 50, donde 1 significa
mxima preferencia y 50 mnima preferencia. Las respuestas emitidas por los 7 sujetos
son las siguientes:

149

Sujeto
1
2
3
4
5
6
7

Coche A
8
16
20
24
25
30
32

Coche B
4
20
7
12
14
9
34

Coche C
3
8
10
4
15
12
26

Para resolver este problema estadstico decidimos crear, en primer lugar, un archivo de
datos, al que llamaremos nopar4.sav. El archivo de datos tendr este aspecto:

La variable var00001 contiene las puntuaciones de preferencia de los 7 sujetos para el


coche A; la variable var00002 contiene las puntuaciones de preferencia para el coche B;
finalmente, la variable var00003 contiene las mismas puntuaciones de preferencia para
el coche C. Una vez creado el archivo de datos, podemos llevar a cabo el anlisis de los
mismos. Para ello, seleccione la opcin Analizar del men principal; a continuacin,
seleccione la opcin Pruebas no paramtricas y, en el men que se despliega a la
derecha, seleccione la opcin K muestras relacionadas. Entrar en el cuadro de dilogo
correspondiente, donde slo tiene que especificar cules son las variables que contienen
los datos relacionados. Seleccione las variables var00001, var00002, y var00003. El
procedimiento de Friedman es el que est seleccionado por defecto, as que no es
necesario hacer especificaciones adicionales. El cuadro de dilogo quedar as:

150

El botn Estadsticos que aparece en el cuadro de dilogo contiene las mismas opciones
que el botn Opciones que aparece en todos los dems procedimientos estadsticos; es
decir, sirve nicamente para proporcionar estadsticos descriptivos y/o cuartiles de la(s)
variable(s) dependiente(s) implicada(s). Pulse ahora el botn Aceptar. Como en
procedimientos anteriores, el visor de resultados le mostrar dos tablas. La primera de
ellas contiene la siguiente informacin:
Rangos

VAR00001
VAR00002
VAR00003

Rango
promedio
2.71
1.86
1.43

La tabla muestra para cada variable (en realidad, para cada muestra) el valor del rango
promedio. El rango medio en la muestra 1 es 2.71, en la muestra 2 es 1.86, y en la
muestra 3 es 1.43. Este rango medio se obtuvo de la siguiente manera. Primero, para
cada sujeto, se asigna el rango 1 al coche ms preferido, el rango 2, al segundo ms
preferido, y el rango 3 al menos preferido. A continuacin se ofrecen entre parntesis
estos rangos para todos los sujetos:
Sujeto
1
2
3
4
5
6
7

Coche A
8
16
20
24
25
30
32

Rango A
(3)
(2)
(3)
(3)
(3)
(3)
(2)
(19)

Coche B
4
20
7
12
14
9
34

Rango B
(2)
(3)
(1)
(2)
(1)
(1)
(3)
(13)

Coche C
3
8
10
4
15
12
26

Rango C
(1)
(1)
(2)
(1)
(2)
(2)
(1)
(10)

El valor que se ofrece en la ltima fila, entre parntesis, es la suma de los rangos para
cada muestra (coche). Si hallamos ahora la media de estos rangos obtenemos para la
muestra 1 (Coche A) un rango medio de 2.71, para la muestra 2 (Coche B) un rango
medio de 1.86, y para la muestra 3 (Coche C) un rango medio de 1.43.

151

La segunda tabla, que muestra el valor del estadstico de contraste, tiene este aspecto:
Estadsticos de contrastea
N
Chi-cuadrado
gl
Sig. asintt.

7
6.000
2
.0498

a. Prueba de Friedman

El valor de ji-cuadrado se obtiene de la siguiente manera:


ji cuadrado =

12
Nk ( k + 1)

[ R ] 3N (k + 1)
k

i =1

2
i

donde N es el nmero de filas en el archivo de datos, k es el nmero de muestras, y Ri es


la suma de los rangos en la muestra i.
En este caso,
ji cuadrado =

12
(19) 2 + (13) 2 + (10) 2 ] (3)(7)(3 + 1) = 90 84 = 6
[
(7)(3)(3 + 1)

El nmero de grados de libertad (gl) es k-1. Aqu k es 3; por tanto, los grados de libertad
son 2. Finalmente, la probabilidad asociada a este valor de ji-cuadrado es de .0498.
Como esta probabilidad es menor que .05 rechazamos la hiptesis nula y afirmamos que
las distribuciones de las tres poblaciones son distintas. Una manera ms operativa de
decir esto consiste en afirmar que las preferencias por los tres coches son distintas.
Para entender por qu se denomina a la prueba de Friedman anlisis de varianza de dos
factores, vamos a considerar el siguiente ejemplo. Imagine que desea investigar los
efectos de 4 mtodos de enseanza M1, M2, M3 y M4 sobre el rendimiento acadmico
de los estudiantes. Debido a las caractersticas de los mtodos usted sospecha que,
adems de los mtodos, tambin la edad de los estudiantes puede crear diferencias en el
rendimiento acadmico. Para evitar la confusin del efecto de la edad con el efecto del
mtodo selecciona 4 sujetos de la misma edad y asigna aleatoriamente un sujeto a cada
mtodo. Adems usted cree que algo similar puede pasar con la inteligencia de los
estudiantes. Para evitar la confusin del efecto de la inteligencia con el efecto del
mtodo decide elegir otros 4 sujetos que tengan el mismo nivel de inteligencia y, luego,
asigna aleatoriamente un sujeto a cada mtodo. Por ltimo, usted tambin sospecha que
lo mismo que puede ocurrir con la edad y la inteligencia puede ocurrir con la motivacin
escolar de los estudiantes. De formar similar a lo realizado anteriormente, comienza
eligiendo 4 sujetos con el mismo nivel de motivacin escolar y asigna aleatoriamente un
sujeto a cada condicin.
A los 4 sujetos seleccionados segn el criterio de la edad podramos denominarle grupo
G1. De forma similar, podramos denominar grupo G2 a los 4 sujetos seleccionados

152

segn el criterio de la inteligencia. Finalmente, podramos denominar grupo G3 a los


sujetos seleccionados segn el criterio de motivacin escolar.
Siguiendo el procedimiento anterior, se puede observar que los 4 + 4 + 4 = 12 sujetos
pueden clasificarse utilizando dos criterios distintos:
1. el grupo al que pertenecen (G1, G2, G3), y
2. el mtodo al que han sido asignados (M1, M2, M3, M4).
En la Tabla siguiente se ofrecen las calificaciones obtenidas por los 12 sujetos
clasificados segn estos dos criterios (grupo y mtodo):

Grupo

G1
G2
G3

M1
8
9
9

M2
5
4
7

M3
6
7
5

M4
3
2
5

La hiptesis nula de que las 4 muestras (correspondientes a los 4 mtodos de enseanza)


son extradas de una misma poblacin puede someterse a prueba utilizando el
procedimiento no paramtrico de Friedman. Ntese que, a pesar de la existencia de dos
factores (uno el de las filas, y otro el de las columnas) slo se somete a comprobacin el
factor de las columnas. Se asume que los 3 niveles del factor de la filas (G1, G2 y G3)
son extrados de la misma poblacin y que, por tanto, no existen diferencias entre ellos.
Para utilizar el procedimiento de Friedman con estos datos, es necesario crear primero
un archivo de datos, al que vamos a llamar nopar5.sav. Los datos deben disponerse del
mismo modo que aparecen en la tabla. Cada uno de los tres grupos ocupar una fila,
mientras que cada uno de los cuatro mtodos ocupar una variable. El archivo de datos
tendra este aspecto:

153

La variable var00001 contiene los resultados sobre rendimiento acadmico de los 3


estudiantes, pertenecientes a los grupos 1, 2 y 3 (G1, G2, y G3), que siguieron el mtodo
de enseanza 1 (M1). Del mismo modo, var00002 contiene los resultados de los tres
estudiantes, pertenecientes a los grupos 1, 2 y 3, que siguieron el mtodo de enseanza 2
(M2). Lo mismo se aplica a las variables var00003 y var00004.
Ahora puede efectuar el anlisis de estos datos utilizando la prueba de Friedman. Para
ello, siga los mismos pasos que en el anlisis anterior, seleccionando como variables
para el anlisis, en este caso, a var00001, var00002, var00003, y var00004. El visor de
resultados le mostrar dos tablas. En la primera, como antes, aparecern los rangos
promedio:
Rangos

VAR00001
VAR00002
VAR00003
VAR00004

Rango
promedio
4.00
2.33
2.50
1.17

La segunda tabla nos ofrece el valor del estadstico de contraste:

154

Estadsticos de contrastea
N
Chi-cuadrado
gl
Sig. asintt.

3
7.552
3
.056

a. Prueba de Friedman

Como el nivel de significacin, para un valor de ji-cuadrado igual a 7.552, con 3 grados
de libertad, es .056 no rechazamos la hiptesis nula y afirmamos que no existen
diferencias significativas (fiables) en el rendimiento acadmico producido por los cuatro
mtodos de enseanza.

155

CUARTA PARTE: GENERACIN DE GRFICOS CON SPSS


PARA WINDOWS

156

El programa SPSS para Windows no slo permite analizar los datos, sino que tambin
dispone de opciones para la representacin grfica, tanto de los datos en s como de los
resultados obtenidos en determinados anlisis. La generacin de grficos es sencilla.
Asimismo, las posibilidades de edicin de los mismos para efectuar modificaciones son
muy amplias.
Puede accederse a la utilidad de grficos desde el men principal y seleccionar el tipo de
grfico deseado y las variables a incluir en el mismo. Los grficos as creados son
almacenados en el visor de resultados. Una vez almacenado el grfico en el visor de
resultados, es posible modificar su apariencia utilizando una ventana especfica para
edicin de grficos. Los grficos pueden almacenarse en disco como archivos
independientes o como parte del archivo de resultados. En el primer caso, SPSS permite
guardar el grfico en diversos formatos, tanto de tipo vectorial (WMF, CGM, EPS,
PICT) como de mapa de bits (JPEG, BMP, TIFF). Los primeros resultan ms adecuados
para la impresin, pues preservan la informacin contenida en el grfico original. Los
segundos pueden resultar tiles para representar resultados en pginas web.

El proceso a seguir para todos los tipos de grficos es siempre el mismo: una vez que se
tienen datos en la ventana "Datos nuevos", se selecciona el men Grficos. Dentro de
este men aparecen todos los distintos tipos de grficos disponibles, de los cuales
nosotros seleccionaremos uno. Una vez seleccionado el tipo de grfico correspondiente,
aparecern uno o varios cuadros de dilogo en los que deberemos especificar la variable
o variables implicadas y qu informacin numrica se mostrar (medias, porcentajes de
sujetos, sumas, etc.). El visor de resultados nos presentar el grfico que hemos
solicitado. A continuacin, podemos editarlo y hacer las modificaciones que creamos
convenientes (tamao de los distintos elementos, aadir texto o diagramas, rotar, etc.).
Finalmente, una vez que el grfico est a nuestro gusto, podemos almacenarlo en disco,
imprimirlo, etc. Tambin es posible crear el grfico paso a paso, de forma interactiva.
Los distintos tipos de grficos que se hallan disponibles son:
Barras: Muestran la distribucin de los valores en una serie de categoras dadas (por
ejemplo, el nmero medio de respuestas acertadas en un test por parte de nios de
diferentes colegios).
Lneas: Su principal finalidad es la de mostrar la evolucin de los valores a lo largo
de un contnuo determinado (por ejemplo, la tasa de respuestas emitida por un
organismo a lo largo de diferentes ensayos).
reas: Aunque existen distintos tipos de grficos de reas disponibles, por lo general
se trata simplemente de un grfico de lneas en el que la zona que se encuentra bajo la
lnea se halla coloreada. Permite hacerse una idea ms cabal acerca de la magnitud de
los cambios.
Sectores: Son los conocidos grficos de tarta. En ellos se representa el reparto de un
determinado atributo entre distintas categoras (por ejemplo, la proporcin de
hombres y mujeres contenidos en una muestra).
Mximos y mnimos: Sirven para representar en un mismo grfico los valores
obtenidos en un determinado atributo para varias entidades distintas a lo largo de un
contnuo determinado (por ejemplo, el nmero medio de verbalizaciones nuevas
emitido por tres grupos de nios sometidos a tres distintos programas de desarrollo
157

del vocabulario a lo largo de doce meses). La particularidad de este tipo de grficos


es que para cada uno de los valores del contnuo slo se representan los valores
mnimo y mximo de todas las entidades (en el caso del ejemplo, slo se
representaran, para un mes determinado, dos de los tres grupos de tratamiento con
programas de desarrollo del lenguaje: aquel cuyo nmero medio de verbalizaciones
nuevas fuese ms pequeo, y aquel con mayor nmero medio de verbalizaciones
nuevas).
Pareto: Consiste en un grfico de barras en el que las categoras han sido ordenadas
de mayor a menor, y que opcionalmente lleva incluida una lnea que representa las
frecuencias acumuladas. Su finalidad es la de ver cual es la contribucin relativa de
cada uno de los factores que pueden influir en un atributo determinado (por ejemplo,
porcentaje de respuestas acertadas por un sujeto en un test de capacidad que se
corresponde con cada uno de los distintos subtests de que se compone la prueba).
Control: Los grficos de control sirven para estudiar las fluctuaciones existentes en
una serie de valores, y ver si se deben al azar o a otro tipo de causas. Los resultados
se muestran en forma de grfico de lneas, en el que se representan las fluctuaciones
de la variable, la media de todas los valores, y dos lmites, superior e inferior, entre
los que deben encontrarse las fluctuaciones.
Diagramas de caja: Se utilizan, al igual que los grficos de barras de error, en el
anlisis exploratorio de los datos. Los diagramas de caja muestran la distribucin de
los valores de una variable en forma de una caja, que se halla dividida en dos por una
lnea horizontal. Los bordes superior e inferior de la caja representan los percentiles
75 y 25, respectivamente, mientras que la lnea horizontal que divide a la caja en dos
representa la mediana. Por la parte superior e inferior de la caja asoman dos
segmentos, que representan los valores mximos y mnimos que se encuentran dentro
de la distribucin. Por encima y por debajo de estos segmentos se representan con
crculos los valores que se encuentran fuera de la distribucin (outliers), y con
asteriscos aquellos que se encuentran muy alejados de la misma (valores extremos).
Los grficos de caja son especialmente tiles para estudiar la distribucin de los
valores de una variable en diferentes grupos.
Barras de error: Nos permiten estudiar la dispersin de los valores de una variable en
la muestra de donde se extrajeron. Para representar la dispersin podemos utilizar un
intervalo confidencial determinado (por ejemplo, del 95%), o bien un intervalo de n
desviaciones tpicas a ambos lados de la media, o bien un intervalo de n errores
tpicos a ambos lados de la media.
Dispersin: Sirven para mostrar la relacin entre los valores de dos o ms variables
cuando todas ellas estn medidas, al menos, a nivel de intervalos. El cruce entre los
valores de ambas variables se muestra como una nube de puntos que refleja la forma
de la relacin (por ejemplo, la relacin entre el peso y la edad de los sujetos muestra
una forma curvilnea).
Histograma: Nos permite observar, en forma de grfico de barras, la distribucin de
los valores de una variable numrica agrupados en una serie de intervalos.
Opcionalmente se puede superponer al histograma una curva normal con la misma
media y la misma varianza, lo que nos permitir hacer comparaciones entre nuestra
distribucin y la normal. Un tipo de histograma muy conocido es el que representa la
proporcin de sujetos de una poblacin dada que obtienen una determinada
puntuacin de C.I.

158

P-P y Q-Q: Ambos tipos de grficos sirven para evaluar la normalidad de la


distribucin de los valores de una variable determinada. En ambos casos se
contrastan, en forma de grfico de dispersin, los valores observados (de la variable)
con los valores que seran de esperar si la distribucin se ajustase a la curva normal.
Cuando se cumple el supuesto de normalidad, los valores del grfico de dispersin
deberan agruparse en forma de lnea recta. La diferencia entre Q-Q y P-P reside en
que en el primer caso se toman las distribuciones simples de probabilidad, mientras
que en el segundo se toman las distribuciones acumuladas de probabilidad.
Secuencia: Los grficos de secuencia se corresponden con el uso de datos ordenados
en series temporales y permiten ver el cambio en los valores de una variable
determinada a lo largo del tiempo.
Curva COR: Las curvas COR permiten representar grficamente el grado de acierto
obtenido al clasificar sujetos en una o ms variables numricas tomando como
criterio una variable nominal con dos categoras.
Serie Temporal: Dentro de este apartado se encuentran distintas opciones para
analizar datos que se ajustan a series temporales. Entre las opciones disponibles
dentro de este men se halla: (1) Autocorrelaciones, o correlaciones entre los valores
de una misma variable cuando stos se han obtenido en diferentes momentos
temporales. (2) Correlaciones cruzadas, o correlaciones existentes entre los valores
de dos series temporales distintas. (3) anlisis espectral, o anlisis de la variacin de
toda la serie temporal en componentes peridicos de distinta frecuencia.
Dentro de cada uno de los distintos tipos de grficos existen tambin diferentes
opciones: grficos conjuntos, grficos mixtos, matrices de dispersin, distintos tipos de
grficos de control, etc. Pero nuestra intencin no es elaborar un ndice exhaustivo de
los mismos, sino que el lector conozca las posibilidades que ofrece el programa a nivel
de representacin grfica de los resultados. Baste decir que el nmero de opciones de
que dispone SPSS es lo suficientemente amplio como para que sea posible llevar a cabo
las representaciones grficas de datos ms usuales.

11. Ejemplos de uso del Men de Grficos de SPSS

11.1. Generacin de un grfico de sectores


Veamos el uso de la utilidad de grficos de SPSS para Windows a travs de un ejemplo.
Tomemos los datos del cuestionario sobre el uso del gallego. Tenemos una muestra de
20 sujetos y queremos saber cules fueron sus respuestas a la pregunta "Entiendo el
gallego hablado", incluidas en la variable item01. Recuerde que haba 3 respuestas
posibles a la pregunta: nada, regular y bien. Imagine que queremos saber qu
porcentaje de sujetos utilizaron cada respuesta. Una forma habitual de representar esta
informacin es representar en un grfico de sectores las respuestas a esa pregunta. En la
tarta, cada sector representa una de las posibles respuestas, y el rea de tarta ocupada por
ese sector representa la proporcin de sujetos que utilizaron esa respuesta.

159

Para generar el grfico, es necesario cargar primero el archivo de datos encuest.sav, que
contiene los datos de ese cuestionario. A continuacin, seleccione la opcin Grficos.
De entre todas las opciones que aparecen, seleccione la opcin Sectores. Aparecer el
siguiente cuadro de dilogo:

En este cuadro de dilogo se nos pregunta qu tipo de datos van a aparecer en el grfico:
Resmenes para grupos de casos: Se refiere a si cada uno de los sectores de la tarta
representa los datos de un grupo de sujetos.
Resmenes para distintas variables: En este caso, cada uno de los sectores representa
los resultados para una variable determinada como, por ejemplo, las sumas totales
para diferentes variables; en este caso, cada sector representar una variable.
Valores individuales de los casos: Cada uno de los sectores representa a un sujeto de
la muestra.
En el ejemplo que estamos considerando, queremos saber cules han sido las respuestas
de los 10 sujetos a la pregunta de si entienden el gallego hablado. Dado que esta es la
opcin que viene determinada por defecto por el programa (sealada por un punto
negro), slo tenemos que pulsar el botn Definir. Una vez hecho esto, aparecer un
segundo cuadro de dilogo:

160

En la zona izquierda del cuadro aparecen las variables del archivo de datos, que son las
20 preguntas del cuestionario. En la zona superior se nos pregunta qu representa cada
sector de la tarta: El nmero de sujetos que dan una respuesta determinada, el porcentaje
de sujetos que dan esa respuesta, el nmero acumulado de sujetos , el porcentaje
acumulado de sujetos , o bien otra funcin de resumen, tal como la media o la
desviacin tpica. En este ltimo caso necesitamos una segunda variable de la que
extraer dicha funcin. De todas estas alternativas, nosotros queremos saber el porcentaje
de sujetos que dan una respuesta determinada, por lo que elegiremos la opcin % de
casos.
Justo debajo del cuadro anterior aparece la leyenda Definir sectores por, con una casilla
debajo, en la que debemos introducir la variable de inters. En nuestro caso, nos
interesan las respuestas de los sujetos a la pregunta "Entiendo el gallego hablado", que
se corresponde con la variable item01. Seleccione, pues, item01 en el recuadro de la
izquierda e introdzcala en esta casilla. En la parte inferior del cuadro de dilogo se
encuentra otro recuadro con la leyenda Plantilla. Aqu podemos indicar un archivo de
plantilla grfica cuyas especificaciones queremos que se apliquen al nuestro. Esta opcin
resulta de utilidad cuando generamos varios grficos del mismo tipo y no queremos
perder el tiempo dndoles formato uno a uno. De este modo, podemos usar las
especificaciones de uno de ellos como plantilla para todos los dems. Los archivos de
plantillas grficas pueden generarse en el editor de grficos, que veremos un poco ms
adelante. Por ltimo, en la zona inferior derecha del cuadro de dilogo aparecen dos
botones, Ttulos y Opciones. El primero nos permite colocar ttulos, subttulos y pies de
pgina al grfico. El segundo sirve para seleccionar distintas opciones, que se refieren
fundamentalmente a los valores perdidos. Pulse ahora el botn etiquetado Ttulos.
Aparecer un cuadro de dilogo donde puede indicar el ttulo del grfico. Escriba en la
primera lnea el texto de la pregunta 1: "Entiendo el gallego hablado". Pulse luego el
botn Continuar y, a continuacin, el botn Aceptar. El visor de resultados le mostrar
el siguiente grfico:
Entiendo el gallego hablado
nada

regular

bien

Pulse ahora dos veces sobre el grfico de sectores. Se abrir una nueva ventana, la del
editor de grficos. En esta ventana usted puede modificar diversos atributos del grfico.
Esta nueva ventana posee sus propias opciones de men y su propia barra de botones

161

para edicin de grficos. La funcin de cada uno de estos nuevos botones, de izquierda a
derecha, es la siguiente:
Identificacin de punto. En grficos de dispersin y de cajas, este botn permite
identificar y etiquetar a los sujetos representados por un punto en el grfico.
Trama. Sirve para cambiar la trama de relleno de una parte del grfico. Por
ejemplo, los distintos sectores de un grfico de sectores pueden resaltarse
utilizando distintas tramas para cada uno.
Color. Cambia el color del elemento seleccionado, ya sea grfico o texto.
Marcadores. En grficos de lnea, dispersin, etc., donde se usan marcadores (p.
ej.: crculos o tringulos) para sealar los valores de los sujetos, este botn permite
cambiar el aspecto del marcador para un sujeto o una serie de sujetos dada..
Estilo de lnea. En grficos de lneas, este botn permite cambiar el estilo en que
se muestran las mismas (lnea contnua, punteada, con guiones, etc.).
Estilo de barras. En grficos de barras, este botn permite modificar la apariencia
de las mismas (plana, con sombra, con volumen, etc.).
Etiquetas de barras. En grficos de barras, este botn permite mostrar, dentro de
cada barra, los valores correspondientes.
Estilo de interpolacin. En grficos de dispersin y lneas, permite especificar el
modo de interpolacin, o unin entre puntos sucesivos (directa, en escalera, en
saltos, por curvas). Por defecto, en los grficos de dispersin no hay interpolacin,
mientras que en los de lneas sta es directa (los puntos se unen con una lnea recta).
Tipo de letra. Permite cambiar los atributos del texto seleccionado (tipo de letra,
tamao y formato).
Rotacin 3-D. En grficos en tres dimensiones, permite rotar el grfico para
facilitar la visualizacin de los datos.
Intercambiar ejes. En grficos de lneas, reas y barras, permite intercambiar el
eje de categoras (horizontal) y el de valores (vertical).
Separar sector. En grficos de sectores, separa el sector seleccionado del resto,
con la finalidad de resaltarlo.
Lnea quebrada para valores perdidos. En grficos de lneas, permite especificar
si la lnea se quiebra cuando no se dispone de datos, o si se une al siguiente dato.
Opciones de grfico. Dependiendo del tipo de grfico que estemos editando, nos
mostrar una serie de opciones que nos permiten modificarlo.
Modo espn para grficos de dispersin 3-D. Nos permite acceder a un men que

162

sirve para rotar el grfico a nuestro gusto. Es un modo de rotacin alternativo al


representado por el botn Rotacin 3-D.
El men de la ventana de grficos tambin puede ser de utilidad para modificar otras
caractersticas del grfico. La opcin Galera nos permite seleccionar un tipo de grfico
compatible con el ya seleccionado, de modo que los datos se representarn en este nuevo
tipo de grfico. La opcin Diseo nos permite modificar otras caractersticas, como ejes,
notas al pie, leyendas, etc. La opcin Serie nos permite modificar el modo en que va a
presentarse cada serie de datos, en caso de que haya ms de una. Finalmente, la opcin
Formato sirve para realizar las mismas acciones que la barra de botones.
Veamos ahora cmo podemos aplicar las posibilidades del editor de grficas a nuestro
grfico de sectores. En primer lugar, queremos conocer el porcentaje de sujetos que han
dado las respuestas "nada", "regular" y "bien". Como el grfico por defecto no nos
muestra los porcentajes, vamos a pedir ahora que esa informacin sea incluida en el
grfico. Para ello, utilizaremos la opcin Diseo del men principal. En el men que se
despliega a continuacin aparecen varias alternativas, una de las cuales se denomina
Opciones. Si la seleccionamos, nos aparecer el siguiente cuadro de dilogo:

En el cuadro de dilogo se muestran las diferentes opciones relacionadas, en nuestro


caso, con los grficos de sectores. La primera opcin establece desde qu posicin
comenzarn a colocarse los sectores, que por defecto se encuentra en las 12 en punto. En
segundo lugar, se ofrece la posibilidad de agrupar juntos aquellos sectores que no
superen un porcentaje determinado sobre el total (por defecto se sita en el 5%).
Finalmente, dentro de un recuadro se ofrecen las posibilidades existentes para etiquetas.
Por defecto, el grfico muestra slo el texto correspondiente a cada etiqueta. Sin
embargo, tambin puede mostrar el nmero de sujetos que dan cada respuesta (Valores)
y/o el porcentaje correspondiente a esos sujetos (Porcentajes). Seleccione la opcin
Porcentajes y pulse a continuacin el botn Aceptar. El grfico nos mostrar ahora,
junto a cada una de las posibles respuestas ("nada", "regular" y "bastante") el porcentaje
que representa cada una de estas respuestas sobre el total de los sujetos:
Entiendo el gallego hablado
nada
5.0%
regular
20.0%

bien
75.0%

163

A continuacin, vamos a modificar el ttulo del grfico y las tres etiquetas de valores que
aparecen para cada uno de los sectores, y que se corresponden con las respuestas "nada",
"regular" y "bien". En primer lugar, seleccionamos una de estas etiquetas con el ratn; el
texto de las tres etiquetas quedar enmarcado con unos pequeos cuadros, lo que indica
que las modificaciones que hagamos se aplicarn nicamente a esa zona del grfico. A
continuacin, seleccionamos con el ratn el botn representado con la letra "T"
mayscula, que nos permite cambiar el tipo y tamao de letra. El uso de este botn
equivale a seleccionar la opcin Texto del men Formato. La ventana del editor de
grficos tendr ahora este aspecto:

En la cuadro de dilogo vemos que la tipografa seleccionada para las tres etiquetas es la
"Arial", con un tamao de 8 puntos. Debajo del tipo y tamao seleccionado aparecen
dos recuadros donde se muestran, respectivamente, otros tipos y tamaos de letra
disponibles. Vamos a modificar slo el tamao de la letra, eligiendo una ligeramente
mayor, de 12 puntos. Una vez hecho esto, pulse el botn Aplicar. A continuacin
modificaremos el ttulo del grfico, "Entiendo el gallego hablado". En primer lugar,
seleccione el ttulo del grfico utilizando el botn izquierdo del ratn; ahora debe
aparecer enmarcado con una lnea continua. En este caso cambiaremos tanto el tipo
como el tamao. Seleccione el tipo de letra Times New Roman, y el tamao de 18
puntos, y pulse a continuacin el botn Aplicar; una vez hecho esto, pulse el botn
Cerrar, que cerrar el cuadro de dilogo para estilo de texto. Una vez modificadas las
etiquetas, podra interesarnos modificar ahora el tramado para cada uno de los sectores.
El tramado es una buena alternativa al color cuando uno desea imprimir un grfico y
slo dispone de una impresora en blanco y negro. Para modificar el tramado de los
164

distintos sectores, marcamos con el ratn uno ellos y pulsamos el botn que representa
un rectngulo sombreado, equivalente a la opcin Trama de relleno del men Formato.
Aparecer un cuadro de dilogo con ocho tramas de relleno. Seleccione ahora el sector
correspondiente a la respuesta "nada" y elija la opcin sin tramado (representada por un
cuadrado en blanco); a continuacin, pulse el botn Aplicar. Seleccione a continuacin
el sector correspondiente a la respuesta "regular" y elija uno de los dos tramados de
lneas oblcuas existentes y vuelva a pulsar el botn Aplicar. Finalmente, aplique un
tramado de lneas horizontales al sector correspondintes a la respuesta bien. Pulse a
continuacin el botn Cerrar.
Vamos a efectuar ahora el ltimo cambio en el grfico. Deseamos resaltar el sector
correspondiente a la respuesta "nada", y que representa a aquellos sujetos que no
entienden el gallego hablado. Para ello, seleccionaremos dicho sector con el ratn y
luego pulsaremos el botn que representa un sector con una flecha apuntando hacia
afuera; esto es lo mismo que utilizar la opcin Desgajar sector del men Formato, y que
sirve para separar a uno de los sectores del resto. El grfico definitivo quedar as:

Entiendo el gallego hablado


nada
5.0%

regular
20.0%

bien
75.0%

Una vez modificado de esta forma el grfico, puede guardarlo de dos formas:
1. Exportndolo como grfico individual en un formato grfico determinado
(vectorial o de mapa de bits).
2. Guardndolo como parte del archivo de resultados (.SPO).
Para exportar el grfico, seleccione la opcin Archivo del men del editor de grficos.
A continuacin, seleccione la opcin Exportar grfico. SPSS le pedir un nombre de
archivo. Los distintos formatos de archivo grfico se muestran en el recuadro
etiquetado Guardar como tipo. Cada formato es idneo para unas aplicaciones
determinadas, por lo que debe seleccionar el que mejor se ajuste a sus fines (integrar
el grfico en un informe, realizar una fotocomposicin, crear diapositivas, etc.).
Si desea guardar el grfico como parte del archivo de resultados, seleccione la opcin
Archivo del men del editor de grficos y, a continuacin, seleccione la opcin
Cerrar. Se cerrar la ventana del editor de grficos, pero el grfico de sectores que ha

165

modificado permanece en el visor de resultados. Si ahora guarda el archivo de


resultados, el grfico se almacenar como parte del mismo.

11.2. Generacin de un grfico de dispersin


Para el siguiente ejemplo utilizaremos los mismos datos que se emplearon para explicar
la covarianza, la correlacin y la regresin (ver Apartado 6). Recuerde que estos datos
corresponden a los resultados obtenidos en dos pruebas, llamadas X e Y, por una muestra
de 5 sujetos:
Sujeto
1
2
3
4
5

X Y
60 4
10 2
80 9
50 7
30 3

Cuando analizamos la correlacin entre las variables (ver Apartado 6.2), nos
encontramos con un valor de rxy de, aproximadamente, 0.86. Lo que nos indica este
valor es que existe una relacin lineal positiva e intensa entre X e Y, dado que 0.86 es
positivo y est prximo a 1. Pues bien, utilizando un grfico de dispersin podremos
comprobar visualmente la intensidad de esa relacin lineal.
Para ello, cree en primer lugar el archivo de datos, al que llamaremos regre.sav. Los
resultados en la prueba X se almacenarn en la variable var00001, y los resultados en la
prueba Y, en la variable var00002. A continuacin, seleccione la opcin Grficos en el
men principal y, en el men que se despliega, la opcin Dispersin. Aparecer el
siguiente cuadro de dilogo:

Como puede observar, existen cuatro tipos distintos de grficos de dispersin:


1. Simple. Es el grfico de dispersin donde se representan los valores de una variable
(X) frente a los de otra variable (Y).
2. Superpuesto. En este caso se representan los valores de una variable (X) frente a los
de dos o ms variables (Y, Z,...)
3. Matricial. Se representan todos los posibles cruces de valores para un grupo de dos o
ms variables. Los grficos se disponen formando una matriz o mosaico de grficos
de dispersin, donde cada elemento de la matriz es el cruce de dos variables
determinadas.
4. 3-D. Se representa el cruce de valores de tres variables (X, Y, Z) simultneamente.

166

En el caso de nuestros datos, el tipo adecuado es el simple, que es el que est


selecciondo por defecto. Pulse ahora el botn Definir. Aparecer el cuadro de dilogo
correspondiente al grfico de dispersin simple. Debe especificar, en primer lugar, cul
es la variable cuyos valores se representarn en el eje X, y cul la correspondiente al eje
Y. Seleccione, respectivamente, var00001 y var00002. El cuadro de dilogo presentar
este aspecto:

Adems de las dos variables, X e Y, necesarias para el grfico de dispersin, con la


opcin Establecer marcas por, podemos utilizar una variable que nos permita identificar
distintos grupos dentro de los datos (p. ej.: hombres y mujeres). Finalmente, la opcin
Etiquetar los casos mediante, nos permite etiquetar a los sujetos utilizando una variable
que contenga dichas etiquetas. El uso del recuadro Plantilla es el mismo que el que
comentamos para el ejemplo anterior. En la parte inferior del cuadro de dilogo
aparecen dos botones etiquetados Ttulos y Opciones. El botn Opciones contiene
simplemente algunas opciones referentes a valores perdidos y al etiquetado de los
sujetos, por lo que no comentaremos su uso. Pulse el botn Ttulos e introduzca como
ttulo del grfico, Regresin de X sobre Y. A continuacin pulse el botn Continuar, y
luego el botn Aceptar. El grfico de dispersin aparecer en la ventana del visor de
resultados:
Regresin de X sobre Y
10

VAR00002

0
0

VAR00001

20

40

167

60

80

100

Podemos apreciar en el grfico que la disposicin de los puntos se aproxima con


bastante exactitud a la de una recta. Cuando efectuamos el anlisis de regresin de X
sobre Y (ver Apartado 6.3), encontramos que la funcin lineal que ms se ajustaba a la
relacin existente entre ambas variables tena la forma: Y = 0.7465 + 0.09247 X. Vamos
a modificar el grfico para que, entre otras cosas, nos muestre la recta de regresin de X
sobre Y. Para ello, es necesario editar el grfico. Pulse dos veces sobre el grfico; esto le
llevar a la ventana del editor de grficos. Seleccione ahora la opcin Diseo y, en el
men que se despliega, seleccione Opciones. Aparecer el siguiente cuadro de dilogo:

Una de las opciones que aparecen en este nuevo cuadro de dilogo es la de Mostrar los
subgrupos; esta opcin slo se encuentra disponible si previamente hemos seleccionado
una variable con esta finalidad en la opcin Establecer marcas por, en el cuadro de
dilogo anterior. Otra opcin es la que nos permite etiquetar a los sujetos (Etiquetas de
caso), bien por su nmero de orden, bien por una variable identificadora, que debe ser
seleccionada en la opcin Etiquetar los casos mediante, del cuadro de dilogo anterior.
Una tercera opcin es la que nos permite Mostrar girasoles para el caso de puntuaciones
coincidentes; el girasol tendr tantos ptalos como sujetos coincidan en una misma
puntuacin. Por ltimo, se muestran dos opciones para lneas en el grfico. La primera
nos permite mostrar la lnea que mejor se ajuste a las puntuaciones (Ajustar lnea),
mientras que la segunda nos permite mostrar una lnea horizontal de referencia (Lnea
de referencia para la media en Y), correspondiente a la media de la variable Y. Para
obtener la recta de regresin de X sobre Y, seleccione la opcin que nos permite mostrar
la lnea de ajuste para el Total de los sujetos.
Una vez hecho esto, es necesario especificar el tipo de ajuste que se utilizar para
generar la lnea correspondiente. Para especificar este aspecto disponemos de un botn
etiquetado Opciones de ajuste. Pulse este botn y aparecer un nuevo cuadro de dilogo
con varias opciones. En primer lugar, tenemos distintos mtodos de ajuste posibles para
nuestros datos. El mtodo seleccionado por defecto es el de Regresin lineal, pero
tambin es posible utilizar Regresin cuadrtica o Regresin cbica, as como un
mtodo de mnimos cuadrados ponderados (Minsce). Es posible tambin crear intervalos
confidenciales para los valores de la recta de regresin; estos intervalos se producen
debido a la existencia de error en las predicciones hechas por la recta. Como fuente de

168

los intervalos puede utilizarse la media de las predicciones (Media), o bien puede
establecerse un intervalo para cada dato (Individual). Finalmente, dos ltimas opciones
se refieren a la inclusin o no de dos valores: el de la constante a en la recta, y el del
coeficiente de determinacin en la representacin grfica. Dado que la constante a se
incluye por defecto en la ecuacin, seleccione nicamente la ltima opcin. El cuadro de
dilogo quedar as:

A continuacin, pulse el botn Continuar, y luego el botn Aceptar. Obtendr esta


nueva grfica de dispersin:
Regresin de X sobre Y
10

VAR00002

R = 0.7343
0

20

40

60

80

100

VAR00001

La nueva grfica incluye la recta de regresin, y en la zona derecha de la misma se


muestra el valor del coeficiente de determinacin (R2 = 0.7343). Veamos ahora cmo
efectuar modificaciones menores en el grfico para mejorar la presentacin. En primer
lugar, vamos a eliminar los rtulos identificadores de las variables var00001 y
var00002, y a sustituirlos por el nombre real de las mismas, X e Y. Vuelva a seleccionar
la opcin Diseo del men principal y, en el men que se despliega a continuacin, elija
la opcin Ejes. Aparecer un cuadro de seleccin de eje:

169

Seleccione el eje correspondiente a la variable X ya est seleccionado por defecto, as


que pulse directamente el botn Aceptar. Aparecer un nuevo cuadro de dilogo con
todas las opciones que puede modificar en el eje X. Entre estas opciones se encuentran
las siguientes:
1. La posibilidad de Mostrar la lnea del eje X. Esta posibilidad est activada por
defecto.
2. El ttulo y la justificacin (izquierda, derecha, centrada) del eje que, por defecto, est
etiquetado como var00001.
3. La Escala utilizada en el eje, que puede ser lineal o logartmica.
4. El Rango de puntuaciones del eje. Fjese que el rango original de puntuaciones va
desde 10 hasta 80, mientras que el rango visualilzado del eje va desde 0 hasta 100; el
rango del eje es determinado automticamente por SPSS, pero puede modificarse.
5. Divisiones mayores y Divisiones menores en el eje. Por defecto, tanto las divisiones
mayores como menores van de 20 en 20 (puntuaciones de 0, 20, 40, 60, 80 y 100).
Cada divisin puede llevar Marcas sealizadoras y/o Cuadrcula que permitan
localizar mejor las puntuaciones.
6. La posibilidad de mostrar o no las etiquetas de los valores (0, 20, 40, 60, 80 y 100), y
de modificar stas (Etiquetas).
De entre estas opciones, seleccione la correspondiente al ttulo del eje, y sustituya la
etiqueta var00001 por el nombre de la variable, X. No es necesario hacer
modificaciones en el resto de las opciones. El cuadro de dilogo quedar con este
aspecto:

170

Pulse el botn Aceptar. Vuelva a seleccionar la opcin Diseo y, dentro de sta, la


opcin Ejes. En el cuadro de dilogo seleccione ahora el eje Y. Repita la operacin
anterior, colocando esta vez como ttulo del eje la etiqueta Y. A continuacin, pulse de
nuevo Aceptar. El grfico presentar este aspecto:
Regresin de X sobre Y
10

R = 0.7343
0

20

40

60

80

100

Vamos ahora a modificar el tamao tanto de las etiquetas de los ejes como el ttulo del
grfico. Usted ya vio en el Apartado anterior el modo en que puede hacerse esto.
Aplique un tipo de letra Arial de 12 puntos a las etiquetas de los ejes, y un tipo de letra
Times New Roman de 18 puntos al ttulo del grfico. A continuacin, modificaremos
los marcadores del grfico. Dado que slo tenemos cinco puntuaciones, el grfico
resultar ms claro si utilizamos marcadores algo mayores para las puntuaciones; por
defecto, los marcadores son de tamao Muy pequeo . Para modificar los marcadores,
seleccione una puntuacin cualquiera del grfico; todas ellas aparecern seleccionadas.
Pulse ahora el botn que representa un asterisco, y aparecer el cuadro de dilogo para

171

modificar los marcadores. Elija un tipo crculo negro como marcador, y un tamao
Pequeo para el mismo. El cuadro tendr este aspecto:

Pulse, sucesivamente, los botones Aplicar y Cerrar. Ahora los marcadores son ms
visibles:

Regresin de X sobre Y
10

R = 0.7343
0

20

40

60

80

100

Ahora puede guardar el grfico, bien exportndolo en un formato determinado, bien


como parte del archivo de resultados.

172

QUINTA PARTE: ESTADSTICA AVANZADA CON SPSS PARA


WINDOWS

173

12. Anlisis de Varianza con Medidas Repetidas


M Jos Ferraces
M Soledad Rodrguez
Elena Andrade
Existen ocasiones en las que el investigador est interesado en comprobar la influencia
de una variable independiente con K niveles o valores sobre una variable dependiente,
pero en lugar de utilizar un grupo distinto de sujetos para cada uno de los K niveles de la
variable independiente, utiliza un solo grupo de sujetos a los que se va haciendo pasar
sucesivamente en el tiempo por todos y cada uno de los niveles de la variable
independiente. A este diseo se le denomina diseo Intra-grupo, o de medidas repetidas,
o tambin diseo intra-sujetos. El diseo de medidas repetidas ms simple es aquel en el
que se obtienen 2 medidas de la variable dependiente (VD) para cada sujeto, con el fin
de comprobar la influencia de una variable independiente (VI) con dos niveles o valores.
Por ejemplo, pretendemos registrar el tiempo de reaccin (VD) de un grupo de sujetos
antes (pretest) y despus (posttest) de la administracin de una inyeccin de cafena (VI).
Este es un caso particular del diseo de grupos apareados (ver apartado 7.2) en el que el
sujeto se considera par de s mismo. Para comprobar si existen diferencias significativas
entre las dos puntuaciones se utiliza el estadstico t para muestras relacionadas.

12.1.Analisis de varianza de un factor con medidas repetidas


Cuando un sujeto es medido en ms de dos ocasiones o, dicho de otro modo, cuando
recibe ms de dos niveles de la variable independiente en un orden sucesivo (por
ejemplo un pretest, al cabo de una semana un postest, y al cabo de un mes otro postest)
se est llevando a cabo un diseo de medidas repetidas.
Este tipo de diseo se caracteriza porque cada sujeto recibe todos los niveles de la
variable independiente o, lo que es lo mismo, cada sujeto es sometido a todas las
condiciones experimentales. As, la ventaja fundamental de este diseo sobre los de
medidas independientes consiste en garantizar el control de las diferencias individuales,
dado que al actuar el sujeto como su propio control queda reducida la varianza de error
y, adems, se necesitan menos sujetos para obtener la misma informacin. Dado que el
sujeto tiene ms de dos medidas, se utilizar el anlisis de varianza, en lugar de utilizar
el estadstico t, para analizar las diferencias entre dichas medidas.
Para conocer el procedimiento a seguir por este tipo de anlisis vamos a partir de un
ejemplo propuesto por Winer (1971) que se describe a continuacin:
Un investigador pretende evaluar el efecto de 4 drogas (variable independiente) sobre el
tiempo de reaccin (variable dependiente) en una tarea determinada. Participaron en el
experimento 5 sujetos (n = 5) y todos fueron entrenados en este tipo de tareas antes de
realizar el experimento. Por otro lado, los 5 sujetos fueron seleccionados aleatoriamente
de la poblacin de inters del investigador.

174

Los resultados obtenidos por el investigador fueron los siguientes:


Sujetos
1
2
3
4
5

Droga 1
30
14
24
38
26

Droga 2
28
18
20
34
28

Droga 3
16
10
18
20
14

Droga 4
34
22
30
44
30

A nivel estadstico el investigador pretende comprobar la hiptesis nula de que el tiempo


de reaccin no difiere significativamente en funcin del tipo de droga que se le
administre al sujeto.
El anlisis de varianza para la comprobacin de esta hiptesis mediante SPSS requiere,
como hemos visto en los casos anteriores, crear un archivo de datos. A este archivo de
datos le vamos a denominar repe1.sav. Una vez introducidos los datos, la ventana del
editor de datos de SPSS debe tener este aspecto:

Las cuatro variables del archivo de datos (de var00001 a var00004) contienen la medida
del tiempo de reaccin de cada uno de los sujetos bajo cada una de las drogas (variable
independiente). Por su parte, cada fila contiene las puntuaciones de un sujeto en todas
las condiciones experimentales, o lo que es lo mismo, en cada tipo de droga.
En un experimento de medidas repetidas, como en la mayora de las ocasiones, la
descripcin de las variables constituye un primer paso en el anlisis estadstico de los
datos. La media y la desviacin tpica son dos estadsticos muy apropiados para este fin.

175

Si solicita un anlisis descriptivo (ver apartado 5.1.6) para las 4 variables del archivo de
datos obtendr los siguientes resultados:
Estadsticos descriptivos
N
VAR00001
VAR00002
VAR00003
VAR00004
N vlido (segn lista)

5
5
5
5
5

Mnimo
14.00
18.00
10.00
22.00

Mximo
38.00
34.00
20.00
44.00

Media
26.4000
25.6000
15.6000
32.0000

Desv. tp.
8.7636
6.5422
3.8471
8.0000

Como puede ver, el tiempo de reaccin medio ms bajo (15,60) corresponde a la


administracin de la droga 3 (var00003) y el ms alto (32,00) para la droga 4
(var00004). As pues, existen diferencias en el tiempo de reaccin en funcin de la
droga administrada. Sin embargo, el anlisis descriptivo de los datos no nos proporciona
indicios acerca de la significacin estadstica de estas diferencias; para conocer sta
debemos efectuar un anlisis de varianza.
Para llevar a cabo un anlisis de varianza de medidas repetidas para las 4 condiciones
experimentales (4 drogas), seleccione en el men la opcin Analizar. A continuacin,
seleccione la opcin Modelo lineal general. Finalmente, seleccione la opcin Medidas
repetidas. Aparecer este cuadro de dilogo:

Por defecto, SPSS llamar factor1 al factor intra-sujetos o factor intragrupo, pero es
posible asignarle un nombre diferente. Dado que queremos ver el efecto de cuatro
drogas diferentes, llamaremos droga al factor intra-sujetos. A continuacin se nos pide
el nmero de niveles de la variable independiente. El nmero de niveles es 4, uno por
cada tipo de droga que fue administrada a los sujetos. Introduzca, pues, un 4 en la
casilla. Una vez definido el factor, pulse el botn "Aadir" y, a continuacin, pulse el
botn Definir. Aparecer el siguiente cuadro de dilogo:

176

En la zona izquierda del cuadro de dilogo aparecen las cuatro variables de nuestro
archivo de datos, que debemos corresponder con cada una de las cuatro variables o
niveles del factor intra-sujetos droga. Seleccione, pues, todas las variables, e
introdzcalas en la casilla correspondiente a Variables intra-sujetos pulsando el botn
con forma de flecha que apunta hacia esta casilla.
En la parte inferior del cuadro de dilogo aparecen una serie de botones que nos
permiten llevar a cabo especificaciones adicionales. Con las especificaciones que
efectuadas ya podramos solucionar el ejemplo planteado, asumiendo las
especificaciones que el programa asume por defecto. Sin embargo, veamos antes las
especificaciones para el modelo de anlisis de varianza de medidas repetidas. Para ello,
pulse el botn Modelo. Aparecer este cuadro de dilogo:

177

SPSS lleva a cabo por defecto un modelo Factorial completo, que ofrece los efectos
principales de los factores Intra-sujetos (en nuestro caso, el factor droga) e Inter-sujetos
(que no existe en nuestro ejemplo), as como las interacciones entre los distintos
factores en el caso del anlisis de varianza de dos o ms factores. En el caso de un
factor, como el de nuestro ejemplo, el programa ofrece dos tablas de efectos: una que
contiene el efecto del factor intrasujetos y otra para el efecto intersujetos. Adems, se
selecciona como prueba intrasujetos nicamente el valor de F, que se muestra por
defecto junto con las pruebas multivariadas, que no comentaremos aqu. Para salir de
este cuadro de dilogo sin efectuar ninguna modificacin pulse el botn Cancelar.
Pulse ahora, en el cuadro de dilogo del anlisis de medidas repetidas, el botn Aceptar.
El visor de resultados le mostrar varias tablas. De todas ellas vamos a detenernos slo
en la que nos interesa, aquella que contiene las pruebas de efectos intra-sujetos:
Pruebas de efectos intra-sujetos.
Medida: MEASURE_1

Fuente
DROGA

Error(DROGA)

Esfericidad asumida
Greenhouse-Geisser
Huynh-Feldt
Lmite-inferior
Esfericidad asumida
Greenhouse-Geisser
Huynh-Feldt
Lmite-inferior

Suma de
cuadrados
tipo III
698.200
698.200
698.200
698.200
112.800
112.800
112.800
112.800

gl
3
1.815
3.000
1.000
12
7.258
12.000
4.000

Media
cuadrtica
232.733
384.763
232.733
698.200
9.400
15.540
9.400
28.200

F
24.759
24.759
24.759
24.759

Significacin
.000
.001
.000
.008

Observemos los valores con esfericidad asumida. Se observa que el valor estadstico F
(cociente entre la Media cuadrtica DROGA (232.733) y la Media cuadrtica del error
(9.4)) tiene un valor de 24.759 con una probabilidad asociada menor que .001. Como

178

esta probabilidad es menor que .05 se puede rechazar la hiptesis nula y afirmar que
existen diferencias significativas entre los tiempos de reaccin correspondientes a las
cuatro drogas. As, se podra interpretar este resultado diciendo que el tiempo de
reaccin de los sujetos vara en funcin del tipo de droga que consuman.
En caso de que nos interesase averiguar entre qu tipos de droga existen realmente
diferencias significativas, tendramos que solicitar la comparacin de los efectos
principales para cada tipo de droga. Sin embargo, esta explicacin excede el objetivo
que nos hemos propuesto. Baste concluir que una revisin de las medias para cada tipo
de droga nos permite decir que el tiempo de reaccin de este grupo de sujetos es
sensiblemente inferior bajo los efectos de la droga 3.

12.2. Anlisis de varianza de dos factores con medidas repetidas


Como hemos visto, anteriormente, el diseo de medidas repetidas de un factor es un
caso particular del diseo en el que a un grupo de sujetos se le administran todos los
niveles de la variable independiente. Por tanto, cada sujeto participa en todas las
condiciones experimentales. Sin embargo, el investigador tiene la posibilidad de
planificar experimentos con dos o ms factores en los que intervengan los mismos
sujetos (el mismo grupo de sujetos) de modo que, al igual que en el caso anterior, todos
los sujetos son sometidos a todas las combinaciones posibles de los niveles de todos los
factores. Pues bien, en este apartado vamos a tratar dos tipos de diseos factoriales de
medidas repetidas:
a) Diseo de dos factores con medidas repetidas en ambos.
b) Diseo de dos factores con medidas repetidas en uno de ellos.
Al igual que en el caso anterior, nos vamos a servir de un ejemplo para desarrollar el
procedimiento, llevando a cabo un anlisis factorial de la varianza de medidas repetidas.
Se proceder, asimismo, tanto a interpretar los resultados como a indicar el
procedimiento de clculo manual.
El ejemplo, tomado de San Martn y Pardo (1989) plantea lo siguiente:
En un estudio sobre memoria se registr el n de errores de 6 sujetos bajo condiciones de
recuerdo (a1) y de reconocimiento (a2) y en distintos intervalos temporales: b1 (despus
de una hora), b2 (despus de un da) y b3 (despus de una semana). Los resultados se
presentan en la tabla siguiente:
a1
Sujetos

b1

1
2
3
4
5
6

4
6
1
2
5
1

a2

b2

b3

5
8
6
10
10
7

7
10
5
12
10
8

179

b1

b2

1
3
3
1
5
2

2
6
5
4
6
8

b3
4
6
4
7
5
7

Para llevar a cabo el anlisis de varianza de estos datos mediante SPSS crearemos un
archivo de datos al que llamaremos repe2.sav. La ventana del editor tendr este aspecto:

Para mayor claridad se ha puesto nombre a las seis variables del archivo de datos, de
forma que puedan ser identificadas ms fcilmente en el diseo (si no recuerda cmo
cambiar el nombre a una variable, consulte el Apartado 3.2).
Al observar este archivo se puede ver que la disposicin de los datos es la misma que en
el caso de medidas repetidas en un factor; es decir, cada fila contiene las puntuaciones
de un sujeto bajo todas las condiciones de tratamiento. En el ejemplo que nos ocupa los
6 sujetos reciben todas las combinaciones de los factores A y B (A con dos niveles y B
con tres).
La media y la desviacin tpica son dos estadsticos que pueden facilitarnos la
interpretacin de los datos. Si solicita ambos para las 6 variables del archivo de datos
obtendr los siguientes resultados:

180

Estadsticos descriptivos
N
A1B1
A1B2
A1B3
A2B1
A2B2
A2B3
N vlido (segn lista)

6
6
6
6
6
6
6

Mnimo
1.00
5.00
5.00
1.00
2.00
4.00

Mximo
6.00
10.00
12.00
5.00
8.00
7.00

Media
3.1667
7.6667
8.6667
2.5000
5.1667
5.5000

Desv. tp.
2.1370
2.0656
2.5033
1.5166
2.0412
1.3784

Los siguientes pasos para el anlisis son bsicamente los mismos que los efectuados en
el caso de un factor con medidas repetidas. Seleccionaremos la opcin Analizar, dentro
de sta la opcin Modelo lineal general y, finalmente, la opcin Medidas repetidas.
Aparecer el cuadro de dilogo inicial del procedimiento, que nos permite definir un
nombre para cada uno de los factores intra-sujetos, as como el nmero de niveles de los
mismos.En este caso definimos primero al factor A (condiciones de reconocimiento o de
recuerdo). Como nombre del factor escriba facta. Indique a continuacin el nmero de
niveles, que son 2. Una vez definido este factor pulse el botn Aadir y pasaremos a
definir el factor B (intervalo temporal : 1 hora - 1 da - 1 semana). Como nombre del
factor escriba factb e indique el nmero de niveles, que son 3. Pulse de nuevo el botn
Aadir. El cuadro de dilogo tendr este aspecto:

A continuacin, pulse el botn Definir para salir de este cuadro de dilogo. Aparecer la
ventana del anlisis de medidas repetidas propiamente dicho, que usted ya conoce.
Seleccione todas las variables del archivo de datos de la casilla situada en la zona
izquierda del cuadro de dilogo e introdzcalas en el recuadro donde deben introducirse
las Variables intra-sujetos. El cuadro de dilogo debe tener ahora este aspecto:

181

Observe que el orden de las variables coincide con la combinacin de niveles para los
factores A y B (1-1, 1-2, 1-3, 2-1, 2-2, 2-3). Esto facilita la especificacin de qu variable
contiene qu combinacin de efectos. De no encontrarse las variables ordenadas en el
archivo de datos, la operacin anterior debe efectuarse con cuidado para no cometer
errores en la asignacin de variables. Para llevar a cabo el anlisis pulse ahora Aceptar.
Obtendr de nuevo varias tablas, de las que vamos a comentar aqu nicamente la que
ms nos interesa, que es la que contiene las pruebas de efectos intra-sujetos:

182

Pruebas de efectos intra-sujetos.


Medida: MEASURE_1

Fuente
FACTA

Esfericidad asumida
Greenhouse-Geisser
Huynh-Feldt
Lmite-inferior
Error(FACTA)
Esfericidad asumida
Greenhouse-Geisser
Huynh-Feldt
Lmite-inferior
FACTB
Esfericidad asumida
Greenhouse-Geisser
Huynh-Feldt
Lmite-inferior
Error(FACTB)
Esfericidad asumida
Greenhouse-Geisser
Huynh-Feldt
Lmite-inferior
FACTA * FACTB
Esfericidad asumida
Greenhouse-Geisser
Huynh-Feldt
Lmite-inferior
Error(FACTA*FACTB) Esfericidad asumida
Greenhouse-Geisser
Huynh-Feldt
Lmite-inferior

Suma de
cuadrados
tipo III
40.111
40.111
40.111
40.111
24.556
24.556
24.556
24.556
125.389
125.389
125.389
125.389
35.278
35.278
35.278
35.278
10.056
10.056
10.056
10.056
9.278
9.278
9.278
9.278

gl
1
1.000
1.000
1.000
5
5.000
5.000
5.000
2
1.589
2.000
1.000
10
7.944
10.000
5.000
2
1.300
1.569
1.000
10
6.502
7.843
5.000

Media
cuadrtica
40.111
40.111
40.111
40.111
4.911
4.911
4.911
4.911
62.694
78.920
62.694
125.389
3.528
4.441
3.528
7.056
5.028
7.732
6.411
10.056
.928
1.427
1.183
1.856

F
8.167
8.167
8.167
8.167

Significacin
.035
.035
.035
.035

17.772
17.772
17.772
17.772

.001
.002
.001
.008

5.419
5.419
5.419
5.419

.025
.050
.039
.067

De nuevo observemos los resultados para esfericidad asumida. Dado que se estudia el
efecto de dos factores se obtienen 3 valores de F (uno para cada factor y otro para la
interaccin), significativos en todos los casos. Esto es, existe un efecto significativo del
factor A (F(1,5)=8.167; p<.035); un efecto significativo del factor B (F(2,10)=17.77,
p<.001) y, tambin result significativa la interaccin AxB (F(2,10)= 5.419, p<.025).
En lo que se refiere a la interpretacin de estos resultados para nuestros datos, el efecto
significativo del factor A indicara que el nmero de errores es significativamente mayor
bajo condiciones de recuerdo (a1) que bajo condiciones de reconocimiento (a2).
Efectivamente, si observa las medias para las 6 variables, ver que la media de a1b1 es
mayor que la de a2b1, que la media de a1b2 es mayor que la de a2b2, y que la media de
a1b3 es mayor que la de a2b3. Por su parte, el efecto significativo del factor B indicara
que el nmero de errores es significativamente mayor cuanto mayor es el intervalo
temporal transcurrido. Observe de nuevo las medias para las 6 variables. Tanto en el
caso de a1b1, a1b2 y a1b3 como en el caso de a2b1, a2b2 y a2b3, la media de errores
es mayor al cabo de una semana (b3) que al cabo de un da (b2), y es ms pequea al
cabo de una hora (b1). Finalmente, el efecto de interaccin significativo indicara que el
efecto del tiempo sobre el nmero de errores es ms importante bajo condiciones de
reconocimiento que bajo condiciones de recuerdo o, dicho de otra manera, que la
diferencia entre ambas condiciones se hace ms patente cuanto mayor es el intervalo
temporal transcurrido. Observe, en la tabla de medias para las 6 variables, que la
diferencia entre las medias de a1b1 y a2b1 es pequea (3,17 - 2,50 = 0,67), mientras que
la diferencia entre las medias de a1b3 y a2b3 es mucho mayor (8,67 - 5,50 = 3,17).

183

13. Introduccin al Anlisis de Covarianza


M Jos Ferraces
M Soledad Rodrguez
Elena Andrade
Con el anlisis de varianza de un factor se pretende investigar el efecto de una variable
independiente (cualitativa) sobre una variable dependiente (cuantitativa). Bajo la
perspectiva de este modelo de anlisis estadstico, se supone que la variable dependiente
es funcin nicamente de la variable independiente. Es decir, no se contempla la
posibilidad de que existan interferencias de otras variables que tambin puedan, de
forma simultnea, tener influencia sobre la variable dependiente.
De forma ms concreta, cuando en el apartado 8.1 de este libro se utilizaba el anlisis de
varianza de un factor para investigar el efecto de tres mtodos de enseanza (variable
independiente), se simplificaba en exceso el anlisis de relaciones, en el sentido de que
se asuma que el rendimiento acadmico dependa solamente del mtodo de enseanza.
En efecto, el mtodo de enseanza puede influir sobre el rendimiento acadmico, pero
tambin existen otras variables concomitantes que pueden asimismo producir
diferencias en el rendimiento acadmico entre unos estudiantes y otros, y que no fueron
contempladas. Ejemplos de estas variables podran ser la inteligencia de los estudiantes,
la motivacin para el estudio o la calidad del profesorado. A estas variables se las
denomina variables extraas o, todava ms especficamente, covariables.
En el presente captulo del libro se hace una introduccin al anlisis de varianza cuando
se desea investigar la influencia de una variable independiente sobre una variable
dependiente, reduciendo, anulando o eliminando el efecto de una covariable. Tal como
indica el ttulo del captulo, a este tipo particular de anlisis de la varianza se le
denomina anlisis de covarianza. A veces, abreviadamente, tambin se le denomina
ANCOVA (ANalysis of COVAriance). La covariable, al igual que la variable
dependiente, es de naturaleza cuantitativa.

13.1. Ancova con una covariable


A continuacin se ofrece un pequeo ejemplo numrico, mediante el cual se pretende
ilustrar el anlisis de covarianza en su versin ms simple; esto es, cuando se introduce
en el anlisis una sola covariable.
Supongamos que un investigador pretende estudiar la influencia de tres mtodos de
enseanza distintos sobre el rendimiento acadmico de los alumnos de primero de
B.U.P. en la asignatura de matemticas. El investigador sospecha que el rendimiento
acadmico puede verse influido no slo por el mtodo de enseanza utilizado, sino
tambin por la inteligencia de los estudiantes.
En el ejemplo, la variable independiente es el mtodo de enseanza, con tres niveles
(mtodo 1, mtodo 2 y mtodo 3), la variable dependiente es el rendimiento acadmico

184

en la asignatura de matemticas, y la covariable es la inteligencia de los alumnos. El


objetivo del investigador es estudiar la relacin entre los tres mtodos de enseanza y el
rendimiento acadmico, apartando el posible efecto que sobre esta relacin pudiese tener
la inteligencia.
Asumamos que procede de la siguiente manera para satisfacer este objetivo. Elige una
muestra de 15 sujetos. Luego asigna aleatoriamente 5 de estos sujetos a cada mtodo de
enseanza, con el que trabajan durante todo el curso. A final de curso, registra la
calificacin obtenida por los alumnos en la mencionada materia y, adems, les
administra un test de inteligencia, mediante el cual obtiene su cociente intelectual
(abreviadamente, C.I.).
A continuacin se ofrecen los resultados supuestamente obtenidos por estos 15 sujetos
en ambas pruebas (matemticas e inteligencia).
Mtodo A
07
09
09
10
08

C.I.
102
112
112
132
102

Mtodo B
05
08
07
06
07

C.I.
092
122
112
102
112

Mtodo C
05
06
08
07
09

C.I.
082
102
132
102
122

Para analizar estos datos mediante SPSS crearemos un archivo de datos, al que
llamaremos ancova.sav. Una vez introducidos los datos, la ventana del editor de SPSS
tendr este aspecto:

185

El archivo de datos contiene tres variables. La primera de ellas, metodo, identifica el


mtodo de enseanza de las matemticas (1, 2 3) al que fue asignado cada uno de los
15 alumnos. La segunda variable, rendim, contiene las calificaciones obtenidas por los
alumnos en el examen final de matemticas. Por ltimo, la variable ci contiene los
valores del cociente intelectual obtenidos por los alumnos en la prueba de inteligencia.
La hiptesis que pretende comprobar el profesor es que el rendimiento de los estudiantes
no difiere en funcin del mtodo de enseanza que sigui. Pues bien, para comprobar
esta hiptesis mediante el anlisis de covarianza en SPSS daremos los siguientes pasos:
Seleccione la opcin Analizar. A continuacin, seleccione la opcin Modelo lineal
general y, dentro de sta, la opcin Univariante. Aparecer el siguiente cuadro de
dilogo:

En la zona izquierda del cuadro de dilogo aparece las variables del archivo de datos. A
la derecha de esta lista hay una serie de casillas. Debe colocar cada variable en la casilla
correspondiente. Seleccione, en primer lugar, la variable rendim e introdzcala en la
casilla etiquetada con la palabra Dependiente. A continuacin, seleccione la variable
metodo e introdzcala en la casilla etiquetada como Factores fijos. Finalmente,
seleccione la variable ci e introdzcala en la casilla etiquetada con la palabra
Covariables. Ahora ya ha definido todas las variables del modelo.
A la hora de comparar los resultados obtenidos por los distintos mtodos, es de gran
ayuda obtener las medias estimadas para cada grupo. Para obtener esta informacin,
pulse ahora el botn Opciones. En el cuadro de dilogo que aparece seleccione la
variable metodo e introdzcala en la casilla etiquetada Mostrar las medias para. De este
modo, se mostrarn el el visor de resultados, para cada mtodo de enseanza, las medias

186

en la variable dependiente rendim. Una vez efectuado este cambio, el cuadro de dilogo
tendr este aspecto:

Pulse ahora el botn Continuar y, a continuacin, pulse el botn Aceptar. El visor de


resultados le mostrar la siguiente tabla:
Pruebas de los efectos inter-sujetos
Variable dependiente: RENDIM

Fuente
Modelo corregido
Interseccin
CI
METODO
Error
Total
Total corregida

Suma de
cuadrados
tipo III
28.224a
.414
17.024
7.545
3.376
853.000
31.600

gl
3
1
1
2
11
15
14

Media
cuadrtica
9.408
.414
17.024
3.773
.307

F
30.656
1.350
55.474
12.293

Significacin
.000
.270
.000
.002

a. R cuadrado = .893 (R cuadrado corregida = .864)

En la primera columna de la tabla se indican las fuentes de variacin. De todas ellas, son
dos las que nos interesan especialmente.
1. En primer lugar, el efecto de la covariable ci sobre la variable dependiente arroj un
valor F de 55.474, con una probabilidad asociada p<.001. Este resultado indica que

187

se realiz un control adecuado de la covariable, lo que permite separar la influencia


de la variable independiente de la influencia de la covariable.
2. En segundo lugar, el efecto de la variable independiente metodo sobre la variable
dependiente; es decir, sobre la calificacin obtenida en el examen de matemticas.
Como puede observarse en la tabla, el valor F obtenido fue estadsticamente
significativo (F= 12.29; p< .002). Este resultado nos indica que, una vez apartado el
efecto de la inteligencia, se encontr que los mtodos de enseanza producen por s
solos diferencias en el rendimiento acadmico de los alumnos. Para saber entre qu
mtodos existen diferencias significativas podra ahora aplicar una prueba de
comparaciones a posteriori como la ya vista en el apartado 8.1, dedicado al anlisis
de varianza de un factor.
Finalmente, el listado nos ofrece tambin la tabla solicitada con las medias marginales
estimadas en la nota final (variable dependiente) para cada uno de los tres mtodos de
enseanza de las matemticas (variable independiente). Estas medias estimadas han sido
tambin corregidas en cuanto al efecto de la covariable ci, con lo que se evita la
posibilidad de que nos lleven a confusin. Las notas medias obtenidas nos permiten
concluir que el mejor resultado (independientemente de su capacidad intelectual) lo
obtuvieron los alumnos del grupo que recibi el mtodo de enseanza nmero uno.
METODO
Variable dependiente: RENDIM

METODO
1.00
2.00
3.00

Media
8.386a
6.707a
7.107a

Error tp.
.249
.248
.248

Intervalo de confianza al
95%.
Lmite
Lmite inferior
superior
7.837
8.935
6.161
7.253
6.561
7.653

a. Evaluado respecto a cmo aparecen las covariables en el


modelo: CI =109.3333.

188

14. ANLISIS FACTORIAL


Gloria Seoane
M Soledad Rodrguez
El anlisis factorial es una tcnica matemtico-estadstica que se utiliza
determinar la estructura de las relaciones que se dan entre grupos de variables.

para

Esta tcnica se encuadrara dentro del Anlisis Multivariado y su objetivo consiste en


reducir un conjunto de variables originales a un conjunto menor de variables
abstractas, latentes (denominadas factores), para conseguir una mejor interpretacin
de los datos.
En otros apartados de este libro se hizo referencia al inters que tiene el estudio de la
relacin entre variables, ya que ello facilita uno de los objetivos prioritarios que tiene
la investigacin cientfica: la prediccin de fenmenos. En aquel momento se
desarroll lo concerniente a correlacin y regresin y ahora nos centraremos en el
anlisis factorial, que puede considerarse como una extensin del anlisis de
correlacin visto hasta ahora.
Nunnally (1995, pg. 509) a este respecto, seala que tanto la correlacin mltiple
como el anlisis factorial relacionan una combinacin lineal de variables con un
criterio. La diferencia es que en la regresin mltiple los predictores y el criterio son
entidades distintas, pero en el anlisis factorial los predictores (factores) estn
definidos al menos de modo parcial por los criterios (variables).
Aunque esta tcnica fue desarrollada originariamente por psiclogos, posteriormente
fue estudiada por estadsticos y matemticos, lo que contribuy a que su uso se
extendiese a otras disciplinas.
Existen diferentes enfoques o modelos de anlisis factorial, pudiendo ser utilizados
con fines puramente descriptivos (modelos exploratorios) o con fines explicativos
(modelos confirmatorios). Nosotros abordaremos, desde un punto de vista
estrictamente aplicado, el modelo exploratorio ms usual.
Gorsuch (1988) establece los siguientes criterios para la seleccin de sujetos y
variables a utilizar en un anlisis factorial:
1. Deben de usarse tamaos muestrales grandes para asegurarse de que los
agrupamientos no son efecto del error de muestreo.
2. Tambin es importante la composicin de la muestra. Si la muestra es ms o menos
homognea las magnitudes de las correlaciones se vern afectadas.
3. Cuantas ms observaciones haya en relacin con el nmero de variables mejor ser.
4. Debe tenerse en cuenta que el procedimiento factorial elegido se adecue a la
naturaleza de las variables.

189

Para explicar la tcnica, vamos un partir de un ejemplo en el que se miden 14 pases


en un total de 7 variables socioeconmicas:
1.
2.
3.
4.
5.
6.
7.

DEPO: Densidad de poblacin.


EMAG: Porcentaje de personas empleadas en agricultura.
INNA: Ingresos nacionales per cpita.
INRC: Inversin de rendimiento de capital en maquinaria.
MOIN: Tasa de mortalidad infantil.
ENER: Consumo de energa por 100 habitantes.
APTV: N de aparatos de televisin por 100 habitantes.

Como ya hemos comentado anteriormente, el objetivo del anlisis factorial ser


reducir estas 7 variables socioeconmicas a un n menor de variables abstractas, que
en lo sucesivo denominaremos factores. Idealmente, los factores debern contener la
mayor proporcin de varianza explicada por las variables observadas. Si bien es cierto
que al reducir el nmero de variables siempre disminuye la proporcin de varianza
total explicada, la finalidad es encontrar aquella solucin que explique la mayor
proporcin de sta.
Aunque la matriz central en el anlisis factorial es la matriz de correlaciones (matriz
R), pudiendo ser sta la matriz de entrada para ejecutar el anlisis, partiremos como se
hace habitualmente de la denominada matriz de datos (matriz X) en la que las filas
describen a cada uno de los sujetos y las columnas a cada una de las variables. Los
sujetos podrn ser, o bien sujetos humanos, o bien cualquier clase de objetos o
entidades sobre los que se realizan mediciones. De igual forma, las variables podrn
referirse a cualquier atributo que sea cuantificable. En nuestro ejemplo los sujetos son
los pases y las variables son caractersticas socioeconmicas de stos; por tanto, la
matriz X es una matriz de orden 14x7. Cada elemento, Xij, de esta matriz ser la
puntuacin original de cada pas (i) en las diferentes variables (j).
Para nuestro ejemplo, la matriz X que se utilizar como entrada al anlisis factorial es
la siguiente:
PASES
1.Australia
2. Francia
3. Alemania
4. Grecia
5. Islandia
6. Italia
7. Japn
8. Nueva Zelanda
9. Portugal
10. Espaa
11. Suecia
12. Turqua
13. Reino Unido
14. Estados Unidos

DEPO
2
97
247
72
2
189
311
12
107
74
18
56
229
24

EMAG
6
9
6
31
13
15
11
10
31
19
6
61
3
4

INNA
8,4
10,7
12,4
4,1
11,0
5,7
8,7
6,8
2,1
5,3
12,8
1,6
7,2
10,6

190

INRC
10,1
9,2
9,1
8,1
6,6
7,9
10,9
8,0
5,5
6,9
7,2
8,8
9,3
7,3

MOIN
12
10
15
19
11
15
8
14
39
15
7
153
13
13

ENER
5,2
3,7
4,6
1,7
5,8
2,5
3,3
3,4
1,1
2,0
6,3
0,7
3,9
8,7

APTV
36
28
33
12
25
22
24
26
9
21
37
5
39
62

14.1. Ejecucin del Anlisis Factorial


En primer lugar, debemos introducir los datos de la matriz X, mostrada en la tabla
anterior, en un archivo de datos de SPSS, al que llamaremos pais.sav. Una vez
introducidos los datos, la ventana del editor de datos deber tener este aspecto:

La primera variable, etiquetada como paises, no forma parte propiamente de la matriz


X; simplemente nos informa del pas al que pertenece cada fila de datos. Las 7
variables restantes contienen los indicadores socioeconmicos que ya hemos
comentado.
A partir de la matriz de entrada X, los pasos ms importantes a seguir de cara a
conseguir la solucin factorial son cuatro:
1.
2.
3.
4.

Obtencin de R.
Extraccin de factores.
Rotacin de factores.
Obtencin de Puntuaciones factoriales.

Estos sern, tambin, los distintos pasos que tendremos que ir seleccionando
consecutivamente para ejecutar el anlisis factorial con SPSS. Para acceder al cuadro
de dilogo del procedimiento de anlisis factorial seleccione, en el men, la opcin
Analizar; a continuacin, seleccione la opcin Reduccin de datos y, finalmente,
seleccione la opcin Anlisis factorial. En el cuadro de dilogo que aparece a
continuacin, seleccione las siete variables que contienen los indicadores

191

socioeconmicos e introdzcalas, pulsando la tecla con forma de flecha, en la casilla


etiquetada Variables. El cuadro de dilogo tendr este aspecto:

Veamos, en primer lugar, cmo debemos de proceder, a partir de este momento, para
ejecutar el anlisis y, a continuacin, haremos la interpretacin de los resultados que
hemos obtenido.
Una vez introducidos los datos y seleccionadas las variables a analizar, la solucin al
anlisis factorial se obtiene siguiendo los cuatro pasos mencionados anteriormente.
Cada uno de estos pasos aparece recogido en la parte inferior de la ventana principal
mediante los botones etiquetados como Descriptivos, Extraccin, Rotacin y
Puntuaciones.
Aunque el programa tiene muchas opciones, nosotros seleccionaremos aquellas que
son imprescindibles para poder entender el objetivo que tiene el anlisis factorial e
interpretar los resultados. Veamos la informacin que se ofrece bajo cada uno de estos
pasos, siguiendo nuestro ejemplo.
El primer paso del anlisis factorial tiene como principal finalidad obtener la matriz de
correlaciones entre variables (matriz R). Para ello, pulse el botn Descriptivos.
Aparecer el siguiente cuadro de dilogo:

192

Para obtener la matriz de correlaciones basta con seleccionar la opcin Coeficientes en


el recuadro etiquetado como Matriz de correlaciones. Si adems solicita los Niveles
de significacin obtendr la significacin estadstica de cada uno de los coeficientes
de correlacin. Seleccione tambin la opcin Descriptivos univariados en el recuadro
etiquetado como Estadsticos, con el fin de obtener la media y desviacin tpica de
cada una de las variables del anlisis. Pulse seguidamente el botn Continuar.
Como ya sealamos anteriormente, el objetivo del anlisis factorial es obtener
agrupaciones de variables en funcin, lgicamente, de la relacin que se de entre ellas
en R. De este modo, la magnitud y significacin de los coeficientes de correlacin
obtenidos determinar las agrupaciones de las variables en el siguiente paso del
anlisis: la extraccin de factores.
Otro aspecto importante a sealar en R es lo que se denomina Varianza total (VT) de
la matriz, tambin conocida como huella de la matriz. La varianza total de R refleja la
cantidad de informacin que contiene la matriz y se obtiene mediante la suma de
cuadrados de los elementos de la diagonal principal. En nuestro ejemplo, la VT de R
coincide con el nmero de variables que tenemos en el anlisis.
VT= 12 + 12 + 12 + 12 + 12 + 12 +12 = 7
El siguiente paso, la extraccin de factores, tiene como objetivo agrupar las variables
originales en otras variables abstractas denominadas factores. Estas agrupaciones de
variables se hacen, tal como indicamos, a partir de las relaciones dadas en la matriz de
correlaciones.
Para ejecutar este paso, pulse ahora el botn etiquetado Extraccin. Aparecer el
siguiente cuadro de dilogo:

193

Hay distintos mtodos de extraccin, en este caso seguiremos el denominado


componentes principales, que es el ms utilizado. Situndonos en la flecha que est a
la derecha del mtodo especificado, podremos ver otros mtodos de extraccin
disponibles (mnimos cuadrados no ponderados, mnimos cuadrados generalizados,
mxima verosimilitud, ejes principales, alfa e imagen).
El mtodo de componentes principales es un mtodo iterativo que consiste en ir
conformando los factores (agrupaciones de variables) uno a uno, de forma que el
primer factor estar explicado fundamentalmente por aquel grupo de variables que
dada su relacin, contienen mayor cantidad de la varianza total de R. Una vez extrado
este factor y partiendo de lo que se denomina primera matriz residual (matriz R que ya
no contiene toda su Varianza Total) extraemos el segundo factor, formado por la
segunda agrupacin de variables, que aportar a la nueva matriz menor cantidad de
Varianza Total que el primero.
Este proceso se repetir hasta "pasar" toda la informacin contenida en R (Varianza
Total) a la nueva matriz denominada Matriz Factorial (matriz A), que tendr tantos
factores como variables tengamos en el anlisis, en nuestro ejemplo 7. Como se
observa en la pantalla, el nmero mximo de iteraciones permitidas para alcanzar la
solucin es igual a 25, aunque este nmero puede ser ampliado.
El anlisis factorial es una tcnica de reduccin de datos. Por lo tanto, un criterio que
debe cumplir toda matriz factorial es la de parsimonia: concentrar y explicar el
mximo de informacin en el menor nmero de factores posible. De este modo la
matriz factorial tal cual se extrae tendr unos factores, los primeros, que deben
contener la mayor parte de la informacin (de la Varianza Total de R) y que se
denominan factores significativos, y otro grupo de factores que contendran el resto de
informacin, denominados factores no significativos.
Qu criterio podemos utilizar para considerar un factor como significativo?. Gorsuch
(1988) seala que no existe ningn criterio riguroso y preciso para la seleccin de
factores significativos. Tradicionalmente, el criterio ms utilizado es el de KaiserGuttman, que considera factores significativos aquellos que contengan, al menos, un
autovalor () igual o mayor que 1. Este criterio es el que, por defecto, est

194

implementado en el programa que estamos utilizando. Para salir de este cuadro de


dilogo, pulse el botn Continuar.
Concluida la extraccin de factores, el siguiente paso consiste en rotar la matriz
factorial (matriz A) obtenida en el paso anterior. Para acceder a la rotacin de factores,
pulse ahora el botn etiquetado como Rotacin. Aparecer el siguiente cuadro de
dilogo:

La rotacin de factores tiene como finalidad fundamental facilitar la interpretacin de


los factores de la matriz factorial anterior. Solamente entrarn en este procedimiento
aquellos factores que, en A, hayamos tomado como significativos. Por tanto,
rotaremos los factores significativos de la matriz factorial A para que, en la medida de
lo posible, la informacin en ella contenida nos resulte ms fcilmente interpretable.
A la matriz factorial rotada se la conoce como matriz F.
Al igual que hemos sealado que existen varios procedimientos de extraccin de
factores, tambin hay diferentes mtodos de Rotacin que genricamente se agrupan
en Ortogonales (Varimax) y Oblicuos (Oblimin directo). La diferencia fundamental
entre ambos es que los mtodos de rotacin ortogonal producen factores
independientes entre s, mientras que los mtodos oblicuos persiguen poner de
manifiesto la posible relacin existente entre factores. Otra diferencia se refiere a la
posibilidad que ofrece la rotacin oblicua para la ejecucin de un anlisis factorial de
2 orden. En este ejemplo, seguiremos el procedimiento de rotacin ortogonal de uso
ms frecuente, denominado varimax. Seleccione, pues, la opcin Varimax.
En la rotacin se pretende ajustar lo mejor posible los factores significativos de A a lo
que se denomina Principio de Estructura Simple de Thurstone. Este principio propone
lo siguiente:
1. Cada factor contendr el menor nmero posible de cargas significativas.
2. La distribucin de cargas altas y bajas en los factores ser diferente.
Esto se traduce en maximizar las cargas que son significativas en los factores y
minimizar las cargas no significativas. Por maximizar y minimizar entenderemos
aproximarlas a 1 y a 0, respectivamente.

195

Realmente, los objetivos que pretende el anlisis factorial estaran cumplidos en el


paso anterior (la rotacin), es decir, cuando obtenemos la matriz factorial rotada
(matriz F), en la que aparecen claramente las agrupaciones de variables que se han
dado (factores) partiendo de nuestros datos originales (matriz X).
Efectivamente, si uno de los objetivos del anlisis es explicar el mximo de
informacin en el menor n de factores posibles, en nuestro ejemplo, en el que
habamos partido de una matriz con 7 variables habremos llegado a una nueva matriz
en la que el orden se ha reducido a los factores significativos. Se ha cumplido, pues, la
caracterstica de parsimonia.
Sin embargo, vamos a referirnos a continuacin a otra matriz, denominada matriz de
puntuaciones factoriales que puede ayudarnos a profundizar en la interpretacin,
ofrecindonos adems la posibilidad de dar un paso ms en el anlisis. Pulse ahora el
botn Continuar para salir del cuadro de dilogo de rotacin. Seguidamente, pulse el
botn etiquetado como Puntuaciones. Aparecer el siguiente cuadro de dilogo:

En la matriz de puntuaciones factoriales, guardadas como variables nuevas en nuestro


fichero de datos, se mostrarn las puntuaciones tipificadas que cada uno de los sujetos
(en nuestro caso, pases) obtiene en cada uno de los factores significativos de la matriz
factorial anterior (matriz F). Para obtener la matriz de puntuaciones factoriales,
seleccione la opcin Guardar como variables.
Explicaremos, a continuacin , los resultados correspondientes a cada uno de estos
momentos y paralelamente haremos la interpretacin de los mismos. Pulse ahora el
botn Continuar y, a seguidamente, pulse el botn Aceptar. El visor de resultados nos
mostrar una serie de tablas que pasamos a comentar.

14.2. Resultados e interpretacin


14.2.1. Descriptivos

Lo primero que se ofrece en la ventana de resultados son los estadsticos descriptivos


media y Desviacin tpica para las 7 variables analizadas:

196

Estadsticos descriptivos
Desviacin
tpica
101.33
15.73
3.619
1.462
37.75
2.211
14.40

Media
DENSIDAD DE POBLACIN
102.86
% PERSONAS EMPLEADAS EN AGRICULTURA
16.07
INGRESOS NACIONALES PER CAPITA
7.671
INVERSIN DE RENDIMIENTO DE CAPITAL EN MAQUINARIA 8.207
TASA DE MORTALIDAD INFANTIL
24.57
CONSUMO DE ENERGA POR 100 HABITANTES
3.779
APARATOS DE TV POR 100 HABITANTES
27.07

N del
anlisis
14
14
14
14
14
14
14

A continuacin se muestra la matriz R de correlaciones y sus niveles de significacin.


Si recordamos, estos resultados corresponden al primer paso en la ejecucin del
anlisis factorial:
Matriz de correlaciones

Correlacin

Sig. (Unilateral)

DENSIDAD
DE
POBLACIN
DENSIDAD DE POBLACIN
1.000
% PERSONAS EMPLEADAS EN AGRICULTURA
-.150
INGRESOS NACIONALES PER CAPITA
.019
INVERSIN DE RENDIMIENTO DE CAPITAL EN MAQUINARIA
.490
TASA DE MORTALIDAD INFANTIL
-.131
CONSUMO DE ENERGA POR 100 HABITANTES
-.255
APARATOS DE TV POR 100 HABITANTES
-.069
DENSIDAD DE POBLACIN
% PERSONAS EMPLEADAS EN AGRICULTURA
.304
INGRESOS NACIONALES PER CAPITA
.474
INVERSIN DE RENDIMIENTO DE CAPITAL EN MAQUINARIA
.038
TASA DE MORTALIDAD INFANTIL
.327
CONSUMO DE ENERGA POR 100 HABITANTES
.190
APARATOS DE TV POR 100 HABITANTES
.407

% PERSONAS
EMPLEADAS
EN
AGRICULTURA
-.150
1.000
-.786
-.183
.890
-.715
-.783
.304
.000
.266
.000
.002
.000

INGRESOS
NACIONALES
PER CAPITA
.019
-.786
1.000
.196
-.602
.830
.722
.474
.000
.251
.011
.000
.002

INVERSIN
DE
RENDIMIENTO
DE CAPITAL
EN
MAQUINARIA
.490
-.183
.196
1.000
.002
.009
.134
.038
.266
.251
.498
.488
.324

TASA DE
MORTALIDAD
INFANTIL
-.131
.890
-.602
.002
1.000
-.494
-.526
.327
.000
.011
.498
.036
.027

CONSUMO
APARATOS
DE ENERGA DE TV POR
POR 100
100
HABITANTES HABITANTES
-.255
-.069
-.715
-.783
.830
.722
.009
.134
-.494
-.526
1.000
.915
.915
1.000
.190
.407
.002
.000
.000
.002
.488
.324
.036
.027
.000
.000

La matriz de correlaciones (matriz R) es una matriz simtrica de orden 7, cuyos


elementos son coeficientes de correlacin producto-momento de Pearson. Los
elementos de la diagonal principal son 1 (relaciones perfectas positivas) ya que
indican la relacin de cada variable consigo misma. Los elementos restantes de la
matriz son coeficientes de correlacin bivariados de cada variable con las dems
(podrn tomar valores entre 1).
La matriz que viene a continuacin muestra la probabilidad asociada a cada uno de los
coeficientes de la matriz R, es decir, el nivel de significacin correspondiente a cada
uno de ellos.
Cmo se interpretan los elementos de estas matrices?. Tomemos como ejemplo el
elemento que, en la matriz R, ocupa la fila 3, columna 2. r32= -.786 indica que la
variable INNA (ingresos nacionales per capita) tiene una relacin significativa
(p<.001) e inversa con la variable EMAG (% de personas empleadas en agricultura).
Es decir, en la medida en que un pas tiene una mayor renta per capita tiende a tener
un porcentaje menor de personas empleadas en agricultura y viceversa, aquellos pases
con menor renta per capita tendern a tener mayor porcentaje de personas empleadas
en agricultura. Podemos, adems, expresar esto mismo en trminos de varianza,
transformando cada valor en un coeficiente de determinacin. Para ello elevamos rij al
cuadrado. De modo que si r32= -.786, el coeficiente de determinacin correspondiente
es d32= -.7862= .617. Dicho coeficiente indica la proporcin de la varianza total de las
variables que es comn a ambas, o lo que es igual, la proporcin de varianza de una de

197

ellas que es explicada por la otra. De manera similar se interpretan los dems
elementos de esta matriz.
Pero, como ya hemos sealado, el objetivo del anlisis factorial es obtener
agrupaciones de variables en funcin, lgicamente, de la relacin que se d entre ellas
en R.
Veamos, pues, qu ms podemos concluir si atendemos a la matriz R en su conjunto.
Para ello nos centraremos nicamente en las correlaciones significativas.
Parecen formarse 2 agrupaciones de variables. Por un lado, EMAG, INNA, MOIN,
ENER, APTV y por otro, DEPO e INCR. Cmo llegamos a esta conclusin?
Analizando las filas y/o columnas de las matrices de correlacin y coeficientes de
significacin.
Si atendemos a la primera columna correspondiente a la variable 1, DEPO, vemos que
con la nica variable con la que tiene una relacin significativa es con la variable 4,
INRC (r14= .490, p=.038). Pero adems, la variable INRC (cuarta columna) tampoco
tiene una relacin significativa con las dems variables, si exceptuamos la variable
DEPO. Por tanto, DEPO e INRC forman un grupo. El otro grupo lo componen las 5
variables restantes (EMAG, INNA, MOIN, ENER, APTV) que muestran relaciones
significativas entre s, pero no con las variables DEPO e INRC.
Por ejemplo, en la fila 7 tenemos, en R y en la matriz de significacin, la relacin de la
variable APTV con las dems:
APTV

DEPO
-.069
(.407)

EMAG
-.783
(.000)

INNA
.722
(.002)

INRC
.134
(.324)

MOIN
-.526
(.027)

ENER
.915
(.000)

De modo similar, si observamos las relaciones de las dems variables veremos que,
efectivamente, cada una de ellas (EMAG, INNA, MOIN, ENER) se relaciona
significativamente con las dems pero ninguna lo hace con las variables que
conforman el otro grupo: DEPO e INRC.
14.2.2. Extraccin de factores

A partir de las relaciones observadas en la matriz de correlaciones, veamos ahora


cmo se agrupan las variables en factores. La siguiente tabla nos muestra los valores
de la comunalidad para cada variable:

198

Comunalidades
Inicial
DENSIDAD DE POBLACIN
1.000
% PERSONAS EMPLEADAS EN AGRICULTURA
1.000
INGRESOS NACIONALES PER CAPITA
1.000
INVERSIN DE RENDIMIENTO DE CAPITAL EN MAQUINARIA1.000
TASA DE MORTALIDAD INFANTIL
1.000
CONSUMO DE ENERGA POR 100 HABITANTES
1.000
APARATOS DE TV POR 100 HABITANTES
1.000

Extraccin
.803
.910
.805
.665
.618
.884
.816

Mtodo de extraccin: Anlisis de Componentes principales.

La comunalidad es la varianza comn de cada variable a lo largo de los factores y se


obtiene mediante la suma de cuadrados de los elementos de las filas (variables) de la
matriz factorial. La columna etiquetada como Inicial contiene las comunalidades (h2)
para cada variable obtenida sobre la matriz A completa; es decir, con los siete factores
extraidos. La suma de estas comunalidades nos dar la varianza total de la matriz, que
es 7. Por su parte, la columna etiquetada como Extraccin contiene las comunalidades
(h2), pero obtenidas, ahora, a partir de los factores de la matriz A que han resultado
significativos. La suma de estas comunalidades nos dar, por tanto, la varianza total de
la matriz A que se conserva una vez eliminados de la misma los factores no
significativos. La suma de estas comunalidades es:
.803 + .910 + .805 + .665 + . 618 + .884 + .816 = 5.501
Si dividimos esta suma entre la varianza total obtenida a partir de las comunalidades
iniciales (7), obtendremos la proporcin de varianza total explicada por los factores
significativos, que en este caso es:
5,501
= 0,786
7
Es decir, los factores significativos explican el 78,6% de la varianza total (7).
La tabla que se muestra a continuacin contiene la varianza explicada por cada factor,
tambin conocida como autovalor () de cada factor:
Varianza total explicada

Componente
1
2
3
4
5
6
7

Autovalores iniciales
% de la
%
Total varianza
acumulado
3.937
56.238
56.238
1.564
22.342
78.580
.810
11.571
90.151
.357
5.102
95.253
.270
3.861
99.114
.045
.644
99.759
.017
.241
100.000

Sumas de las saturaciones al


cuadrado de la extraccin
% de la
%
Total
varianza
acumulado
3.937
56.238
56.238
1.564
22.342
78.580

Mtodo de extraccin: Anlisis de Componentes principales.

199

Suma de las saturaciones al


cuadrado de la rotacin
% de la
%
Total varianza
acumulado
3.925
56.072
56.072
1.576
22.508
78.580

La varianza explicada, o autovalor, de cada factor, se obtiene mediante la suma de


cuadrados de los elementos de las columnas (factores) de la matriz factorial A. Como
vemos en la columna etiquetada como Autovalores iniciales, la matriz factorial inicial
tiene tantos factores, o componentes, como variables (en nuestro ejemplo, 7). Por
tanto, la matriz factorial tendr en las filas las variables originales (en nuestro
ejemplo, 7) y en las columnas los factores o componentes que, tal como hemos dicho,
son tantos como variables (7). La suma de estos autovalores, al igual que antes la
suma de las comunalidades, nos da la varianza total de la matriz A, que es 7. Por eso
el porcentaje de varianza explicado por los 7 factores es el 100%, como se aprecia en
la columna etiquetada como % acumulado.
Adems, si recordamos el criterio que habamos expuesto para la seleccin de factores
significativos, vemos que, efectivamente, slo los 2 primeros factores contienen un
autovalor superior a 1 (3.937 y 1.564), explicando el 78,580% de la varianza total de
R (7), y adems podemos comprobar, tambin, que los autovalores van en orden
decreciente, es decir, el porcentaje de varianza explicada por el primer factor (56.238)
es mayor que la explicada por el segundo (22.342), sta es, a su vez, mayor que la
explicada por el tercero (11.571), etc. La razn de esto es que, tal como sealamos
anteriormente, el criterio seguido para la extraccin de factores (componentes
principales) hace que el primer factor contenga la mayor parte posible de la Varianza
Total de R, el segundo factor contenga la mayor parte de la varianza de la primera
matriz residual de R, etc.
Vemos, pues, que solamente son dos los factores significativos (con 1) y que stos
explican el 78,6% de la varianza total. Estos sern los factores que se mantendrn para
continuar el anlisis, ya que el resto de la informacin (100-78,6=21,4%) contenida en
los cinco factores con <1, se considera no significativa.
La siguiente tabla contiene la matriz de componentes principales; es decir, la matriz
factorial una vez eliminados los cinco factores no significativos:
Matriz de componentesa
Componente
1
2
DENSIDAD DE POBLACIN
.018
.896
% PERSONAS EMPLEADAS EN AGRICULTURA
-.944
-.135
INGRESOS NACIONALES PER CAPITA
.897
.018
INVERSIN DE RENDIMIENTO DE CAPITAL EN MAQUINARIA .165
.799
TASA DE MORTALIDAD INFANTIL
-.781
-.084
CONSUMO DE ENERGA POR 100 HABITANTES
.893
-.293
APARATOS DE TV POR 100 HABITANTES
.897
-.106
Mtodo de extraccin: Anlisis de componentes principales.
a. 2 componentes extrados

Vemos que, efectivamente, la matriz de componentes principales muestra solamente,


2 factores. La razn est en que toda matriz factorial debe concentrar y explicar el
mximo de informacin en el menor n de factores posibles, en virtud del criterio de
parsimonia. Por eso la matriz factorial de la tabla anterior contiene en sus filas 7
200

variables, pero sus columnas son, solamente 2 que, como ya sabemos, son los factores
significativos.
Centrmonos en la interpretacin de esta matriz. Sus elementos indican la relacin
entre las variables y los factores. Se les denomina cargas o saturaciones factoriales e
indican, si los elevamos al cuadrado, la proporcin de varianza que cada variable
aporta a dicho factor.
Interpretemos cada uno de los factores significativos de A.
Factor 1. En este factor, cuyo autovalor es 3,937 (el 56,238% de la VT=7) se nos
muestran como cargas factoriales significativas las correspondientes a las variables:

EMAG -.944 (% de personas empleadas en agricultura).


INNA
.897 (ingresos nacionales per capita).
MOIN -.781 (tasa de mortalidad infantil).
ENER
.893 (consumo de energa).
APTV
.897 (N de aparatos de TV).

Para determinar si una variable es significativa en un factor se tiene en cuenta el valor


absoluto de su carga factorial en el factor. El signo () modula la interpretacin del
factor.
En este caso la interpretacin del factor es la siguiente. En la medida en que un pas
tenga mayores ingresos nacionales per capita, mayor consumo de energa y mayor
nmero de aparatos de TV tender a tener, menor % de personas empleadas en
agricultura y menor tasa de mortalidad infantil y viceversa, en la medida en que
INNA, ENER y APTV sean menores, tendern a aumentar EMAG y MOIN.
Por el tipo de variables que conforman este factor, podramos decir que indican el
nivel de desarrollo de un pas.
Factor 2. En este factor, cuyo autovalor es 1.564 (el 22,342% de la VT=7) son
significativas las cargas correspondientes a las variables:
DEPO
INRC

.896
.799

(Densidad de poblacin).
(Inversin de capital en maquinaria.).

Las dos variables significativas en el factor tienen cargas positivas; por tanto, a mayor
densidad de poblacin en un pas mayor es la inversin de capital en maquinaria, y
viceversa.
Esta estructura factorial que acabamos de describir para los factores significativos,
coincide con el pronstico que ya habamos hecho analizando el contenido de la
matriz de correlaciones.

201

Para qu entonces el anlisis factorial si analizando correctamente la matriz R


obtenemos la misma informacin? Esto es verdad, pero no olvidemos que, en nuestro
ejemplo, la matriz R era de un orden muy pequeo, y su interpretacin fue
relativamente fcil. Lo habitual es que nos encontremos con investigaciones en las que
existan 20, 30 o ms variables. En estos casos, sin duda, el anlisis factorial es la
tcnica idnea para estructurar los datos de forma que su interpretacin nos resulte
sensiblemente ms sencilla.
14.2.3. Rotacin de factores

Veamos ahora los resultados de la rotacin, la matriz de componentes principales


rotada, o matriz factorial rotada, o simplemente matriz F. Se muestra en la siguiente
tabla:
Matriz de componentes rotadosa
Componente
1
2
DENSIDAD DE POBLACIN
-.045
.895
% PERSONAS EMPLEADAS EN AGRICULTURA
-.933 -.201
INGRESOS NACIONALES PER CAPITA
.893
.081
INVERSIN DE RENDIMIENTO DE CAPITAL EN MAQUINARIA .108
.808
TASA DE MORTALIDAD INFANTIL
-.774 -.138
CONSUMO DE ENERGA POR 100 HABITANTES
.911 -.230
APARATOS DE TV POR 100 HABITANTES
.902
-.04
Mtodo de extraccin: Anlisis de componentes principales.
Mtodo de rotacin: Normalizacin Varimax con Kaiser.
a. La rotacin ha convergido en 3 iteraciones.

Hemos dicho que el objetivo de la rotacin es facilitar la interpretacin de los factores


significativos de A. Para ello lo que se pretende es ajustar, lo mejor posible, los
factores significativos de A a lo que se denomina Principio de Estructura Simple de
Thurstone. Es decir, si la estructura factorial de A en los factores significativos era:
DEPO
EMAG
INNA
INRC
MOIN
ENER
APTV

Factor 1
.018
-.944
.897
.165
-.781
.893
.897

Factor2
.896
-.135
.018
.799
-.084
-.293
-.106

Lo que se pretende con la rotacin es que esa estructura se acerque lo ms posible a

202

DEPO
EMAG
INNA
INRC
MOIN
ENER
APTV

Factor 1
0
1
1
0
1
1
1

Factor2
1
0
0
1
0
0
0

Es decir, maximizar las cargas que son significativas en los factores aproximndolas a
1 y minimizar las cargas no significativas aproximndolas a 0.
En la medida en que nos acerquemos a esta estructura idnea se cumplir la
ortogonalidad (independencia o no correlacin) entre factores, ya que cada uno de llos
ser explicado por diferentes grupos de variables. En el caso del Factor 1, por las
variables EMAG, INNA, MOIN, ENER, APTV, y en el caso del Factor 2 por las
variables DEPO e INRC.
Si bien en muchos de los casos la rotacin de factores consigue su finalidad, mejorar
la interpretabilidad, en otros, realmente, no existen demasiadas diferencias entre la
matriz factorial antes y despus de la rotacin. En nuestro ejemplo, vemos que
realmente el contenido de ambas es muy similar. Ello se debe a que dado el tipo de
relacin que se establece entre las variables, stas ya desde un principio (en el
momento de la extraccin) se posicionan claramente en uno de los factores y en este
caso la rotacin no aade prcticamente nada nuevo a la interpretacin de los factores.
Qu semejanzas y diferencias podemos establecer entre la matriz factorial A
(solamente con factores significativos) y la matriz factorial rotada F?.
En primer lugar, la cantidad de informacin, es decir, el porcentaje de varianza total
de R que contienen ambas es exactamente la misma, si bien se distribuye de distinta
manera en los factores. Los elementos son en ambas coeficientes de correlacin
variable-factor y se denominan de igual manera. La interpretacin del anlisis factorial
se realiza fundamentalmente sobre la matriz F ya que esta es la que tiene la
informacin mejor estructurada.
Hemos partido en nuestro ejemplo de una matriz X en la que tenamos las
puntuaciones originales de cada pas en cada una de las 7 variables. A continuacin,
dadas las relaciones que se establecen entre las variables (matriz R), se ha extrado la
matriz factorial en la que se han tomado como significativos los 2 primeros factores
(por tener autovalores > 1) y en la matriz de puntuaciones factoriales tenemos la
puntuacin (tpica) de cada pas en cada uno de los factores significativos.
14.2.4. Puntuaciones factoriales

La matriz de puntuaciones factoriales no aparece en en el visor de resultados, sino que


las variables que contienen estas puntuaciones son aadidas al archivo de datos. Para

203

verlas no tiene ms que cambiarse al editor de datos. La ventana tiene ahora este
aspecto:

Observe que aparecen dos nuevas variables, fac1_1 y fac1_2. Estas variables
contienen las puntuaciones factoriales estandarizadas (z) que solicitamos al llevar a
cabo el anlisis. Tomemos ahora un elemento de la matriz de puntuaciones factoriales,
por ejemplo la puntuacin que obtiene el pas 12 (Turqua) en el factor 1.
Z12,1 = - 2.37737
Turqua tiene una puntuacin factorial negativa y muy extrema en este factor. El factor
1 estaba explicado fundamentalmente por las variables:
-.933
.893
-.774
.911
.902

EMAG
INNA
MOIN
ENER
APTV

Si observamos la matriz de datos originales (matriz X) vemos que, efectivamente, este


pas es el que obtiene las puntuaciones ms altas en las variables EMAG y MOIN, 61
y 153 respectivamente y las puntuaciones ms bajas en las variables ENER, APTV e
INNA: .7, 5 y 1.6. Es decir, Turqua es un pas con bajo consumo de energa, con un
bajo nmero de aparatos de televisin, con bajos ingresos nacionales per capita, pero
con un alto porcentaje de personas empleadas en agricultura y una alta tasa de
mortalidad infantil (pas poco desarrollado).

204

BIBLIOGRAFA
Amn, J. (1986a). Estadstica para psiclogos. I. Estadstica descriptiva. Madrid:
Pirmide.
Amn, J. (1986b). Estadstica para psiclogos. II. Probabilidad. Estadstica inferencial.
Madrid: Pirmide.
Arnau, J. (1978). Psicologa experimental. Un enfoque metodolgico. Mxico: Trillas.
Arnau, J. (1981). Diseos experimentales en psicologa y educacin (2 Vols.). Mxico:
Trillas.
Bisquerra, R. (1987). Introduccin a la estadstica aplicada a la investigacin educativa.
Un enfoque informtico con los paquetes BMDP y SPSSX. Barcelona: PPU.
Botella, J., y Barriopedro, M.I. (1991). Problemas y ejercicios de psicoestadstica.
Madrid: Pirmide.
Botella, J., Len, O., y San Martn, R. (1993). Anlisis de datos en psicologa I. Madrid:
Pirmide.
Comrey, A.L. (1985). Manual de anlisis factorial. Madrid: Ctedra.
Cuadras, C.M. (1984). Fundamentos de estadstica. Aplicacin a las ciencias humanas.
Barcelona: PPU.
Cureton, E.E.; dAgostino, R.B. (1983). Factor Analysis: an applied approach. Hillsdale:
L.E.A.
Domnech, J.M. (1980). Bioestadstica. Mtodos estadsticos para investigadores.
Barcelona: Herder.
Domnech, J.M., Riba, M.D., Behar, J, Carasa, P., y Gotzens, C. (1982). Problemas de
estadstica aplicada a la psicologa. Barcelona: Herder.
Ferraces, M.J.; Rodrguez, M.S.; Andrade, E.M. (1995). Introduccin a los diseos de
investigacin: planificacin, anlisis estadsticos (SPSS para Windows) e
interpretacin. Santiago: Trculo.
Ferraces, M.J.; Andrade, E.M. (2000). Diseos de Investigacin I: Libro de esquemas.
Santiago: Trculo.
Ferrando Piera, P.J. (1993). Introduccin al anlisis factorial. Barcelona: PPU.
Gorsuch, R.L. (1988). Exploratory factor analysis. En Nesselroade y Cattell (Eds.),
Handbok of multivariate experimental psychology. New York: Plenum Press.
Harman, H. (1980). Anlisis factorial moderno. Madrid: Salts.
Hays, W.L. (1981). Statistics. Nueva York: Holt, Rinehart and Winston.
Kim, J.O.; Mueller, C.W. (1978). Factor analysis: statistical methods and practical
issues. Beverly Hills: Sage.
Kmenta, J. (1980). Elementos de econometra. Barcelona: Vicens-Vives.
Maci, M.A., Garriga, A.J., Lubin, P., y Moreno, E. (1990). Psicologa matemtica II.
Libro de problemas. Madrid: UNED.
Martnez, M. R., Maci, M.A., y Prez, J.A. (1989). Psicologa Matemtica II. Madrid:
UNED.
Mc Donald, R.P. (1985). Factor analysis and related methods. Hillsdale: L.E.A.
Mulaik, S.A. (1972). The foundations of factor analysis. New York: McGraw-Hill.
Norusis, M.J. (1988). SPSS/PC+. Base Manual. Chicago, IL. SPSS Inc.
Nunnally, J.C.; Bernstein, I.J. (1995). Teora psicomtrica. Mxico: McGraw-Hill.

205

Padilla, M., Merino, J.M., y Pardo, A. (1986). Psicologa matemtica I. Ejercicios


resueltos. Madrid. UNED.
Pea, D. (1986). Estadstica. Modelos y mtodos. 1. Fundamentos. Madrid: Alianza.
Riba, M.D. (1990). Modelo lineal de anlisis de la variancia. Barcelona: Herder.
Ros, S. (1967). Mtodos estadsticos. Madrid: Ediciones del Castillo.
Snchez Carrin, J.J. (1990). Anlisis de datos con SPSS-PC+. Madrid: Alianza
Universidad.
San Martn, R., Espinosa, L., y Fernndez, L. (1987a). Psicoestadstica descriptiva.
Madrid: Pirmide.
San Martn, R., Espinosa, L., y Fernndez, L. (1987b). Psicoestadstica. Estimacin y
contraste. Madrid: Pirmide.
San Martn, R., y Pardo, M. (1989). Psicoestadstica. Contrastes paramtricos y no
paramtricos. Madrid: Pirmide.
Sierra Bravo, R. (1983). Tcnicas de investigacin social. Teora y ejercicios. Madrid:
Paraninfo.
Seoane, J., Rechea, C., Diges, M., Martnez, M.R., y Maci, M.A. (1979). Psicologa
Matemtica I. Madrid: UNED.
Tejedor, F.J. (1984). Anlisis de varianza aplicado a la investigacin en pedagoga y
psicologa. Madrid: Anaya.
Winer, B.J. (1971). Statistical principles in experimental design. Nueva York: McGrawHill.

206

Anda mungkin juga menyukai