discussions, stats, and author profiles for this publication at: https://www.researchgate.net/publication/284722577
CITATIONS
READS
38
2 authors:
Constantino Arce
SEE PROFILE
SEE PROFILE
Constantino Arce
Eulogio Real
NDICE
PRESENTACIN .......................................................................................................................4
PRIMERA PARTE: COMENZANDO A TRABAJAR CON SPSS PARA WINDOWS .................6
1. Cmo entrar en SPSS para Windows ....................................................................................7
2. Creacin de un Archivo de Datos ...........................................................................................8
2.1. Cmo escribir los datos...................................................................................................8
2.2. Cmo corregir un error ..................................................................................................12
2.3. Cmo grabar los datos ..................................................................................................12
2.4. Cmo salir de SPSS para Windows..............................................................................13
2.5. Cmo entrar en un archivo de datos ya existente.........................................................14
2.6. Cmo borrar una fila o una columna (y cmo recuperarla)...........................................15
2.7. Cmo moverse con rapidez dentro del archivo de datos ..............................................16
2.8. Manejo del Archivo de Resultados ................................................................................18
2.9. Cmo Imprimir el Archivo de Resultados ......................................................................22
SEGUNDA PARTE: FORMATO DE LOS DATOS Y TRANSFORMACIONES........................25
3. Formato de los Datos de Entrada.........................................................................................26
4. Transformacin de las Variables ..........................................................................................32
4.1. Cmo recodificar las variables ......................................................................................33
4.2. Cmo crear nuevas variables ........................................................................................38
4.3. Cmo seleccionar sujetos .............................................................................................49
4.4. Cmo clasificar a los sujetos por orden en una o ms variables .................................52
TERCERA PARTE: ANLISIS ESTADSTICO CON SPSS PARA WINDOWS ......................54
5. Descripcin de Variables (Frecuencias y Descriptivos)........................................................55
5.1. Distribucin de frecuencias ...........................................................................................55
5.2. Interpretacin de la posicin de un sujeto en un grupo.................................................73
6. Relaciones entre Variables (Correlacin y Regresin) .........................................................76
6.1. La covarianza ................................................................................................................77
6.2. El coeficiente de correlacin de Pearson ......................................................................79
6.3. Regresin lineal con una variable independiente..........................................................84
6.4. Regresin mltiple.........................................................................................................96
7. Comparaciones entre Medias(t de Student) .......................................................................101
7.1. Dos muestras independientes.....................................................................................102
7.2. Dos muestras relacionadas.........................................................................................108
8. Introduccin al Anlisis de Varianza ...................................................................................112
8.1. Anlisis de varianza con un factor...............................................................................112
8.2. Anlisis de varianza con dos o ms factores ..............................................................120
9. Tablas de Contingencia ......................................................................................................125
10. Introduccin al Anlisis Estadstico No-Paramtrico ........................................................132
10.1. Prueba de bondad de ajuste de Kolmogorov-Smirnov..............................................133
10.2. Prueba U de Mann-Whitney para dos muestras independientes..............................134
10.3. Prueba T de Wilcoxon para dos muestras relacionadas ..........................................138
PRESENTACIN
Cada da son ms los profesionales que necesitan de la estadstica. Para facilitar su
trabajo se ha desarrollado un importante nmero de programas de ordenador. Dado
que la estadstica es, hoy en da, un campo de conocimiento muy amplio no basta con
un solo programa. Es necesario contar con un paquete de programas. Este libro trata
sobre uno de estos paquetes de programas, denominado Statistical Package for the
Social Science (abreviadamente, SPSS).
Debido a la amplitud del alcance del paquete de programas SPSS, existe un
importante problema de comunicacin entre los constructores del SPSS y sus
usuarios. Esta dificultad puede producir graves problemas de ansiedad en las
personas; sobre todo en aquellas que se acercan por primera vez al sistema SPSS.
El sistema SPSS podra considerarse como un bosque desonocido, que usted ha de
cruzar. Yo voy a cruzar el bosque ahora mismo y le invito a que me acompae. Para
ello elegir un camino. Lgicamente, el bosque es muy grande y existen muchos
caminos alternativos. Si me acompaa, luego, haciendo uso de su experiencia e
imaginacin es muy probable que pueda cruzar el bosque usted slo por otros muchos
caminos. Probablemente, el nmero de caminos sea, incluso, infinito.
Hace algn tiempo, escrib un libro titulado Introduccin al anlisis estadstico con
SPSS/PC+ en la Editorial PPU. El objetivo era el mismo que busco ahora. Lo nico
que cambia es la versin del SPSS que vamos a utilizar. El entorno Windows es un
sistema que permite al usuario la manipulacin de programas sin escribir apenas nada.
Lo nico que tiene que hacer el usuario es moverse de unos mens a otros donde se le
va ofreciendo una gran variedad de recursos informticos para que elija los que le
interesan.
En el presente libro asumo que usted tiene acceso a un ordenador, con el sistema
SPSS instalado para alguna de las versiones de Windows. Con respecto al entorno
Windows no asumo ningn tipo de conocimiento. En consecuencia, le indicar todos
los pasos detenidamente, sin omisiones, hasta que usted adquiera cierta experiencia.
Otra novedad importante en este libro, con respecto a la versin anterior est en que
he dado participacin en el mismo a mis compaeros de Universidad y amigos, Gloria
Seoane, Mara Jos Ferraces, Mara Soledad Rodrguez, Eulogio Real y Elena
Andrade. Su participacin ayudar, sin duda, a enriquecer la idea original del libro.
RELACIN DE AUTORES:
Constantino Arce Fernndez
Departamento de Mtodos.
de Compostela
Jos Eulogio Real Deus
Departamento de Mtodos.
de Compostela
Gloria Seoane
Departamento de Mtodos.
de Compostela
Mara Jos Ferraces Otero
Departamento de Mtodos.
de Compostela
Mara Soledad Rodrguez
Departamento de Mtodos.
de Compostela
Elena Andrade
Departamento de Mtodos.
de Compostela
Al hacer doble clic sobre el icono aparecer una ventana como la siguiente:
la opcin Archivo contiene todas las acciones que pueden llevarse a cabo en el
manejo de archivos; la opcin Transformar contiene todas las transformaciones
que el programa nos permite realizar con los datos, etc.
Inmediatamente debajo de este men aparece una barra con diferentes botones.
Cada uno de ellos sirve para realizar rpidamente algunas de las acciones ms
habituales en el uso de SPSS: Abrir un archivo, imprimir, etc. Al situar el puntero
del ratn sobre uno de estos botones aparecer un mensaje que nos indicar la
finalidad del mismo. Estas acciones tambin pueden llevarse a efecto utilizando las
opciones del men; los botones sirven simplemente para efectuarlas de forma ms
rpida.
Ocupando el espacio interno de la ventana del editor de datos de SPSS se
encuentran las celdillas de datos, que se encuentran organizadas en filas y
columnas. Las filas se hallan numeradas consecutivamente, mientras que las
columnas aparecen etiquetadas todas ellas con la palabra "var" (variable). Cada
celdilla contendr un nico dato. Cada columna de datos contendr datos de una
misma variable, mientras que cada fila de datos contendr datos de una misma
fuente.
Debajo de las celdillas de datos vemos dos solapas llamadas Vista de datos y Vista
de variables. La primera de ellas nos muestra precisamente las celdillas de datos.
Finalmente, en la parte inferior de la ventana, aparece un mensaje que nos indica
que el procesador de SPSS est preparado. En esta zona inferior es donde aparecen
los mensajes que SPSS nos puede mostrar para informarnos de los procesos que se
estn llevando a cabo durante la sesin de trabajo.
Encuesta sociolingstica
Nada
1
1
1
1
Regular
2
2
2
2
1.2.3.4.-
5.6.7.8.9.-
Gallego
Con los hijos hablo normalmente
1
Con los familiares hablo normalmente
1
Con los amigos/amigas hablo normalmente
1
En el trabajo/estudio hablo normalmente
1
Si tengo que intervenir en pblico hablo
1
10.11.12.13.-
El
El
El
La
Bien
3
3
3
3
Castellano
2
2
2
2
2
Los dos
3
3
3
3
3
Totalmente
en desacuerdo
gallego sirve para tratar cualquier tema
1
gallego es til en el mundo de hoy
1
gallego debe ser la lengua habitual de Galicia
1
situacin de la lengua gallega est mejorando
1
17.- Sexo
19.- Estudios
Hombre
1
Ninguno
1
Galicia (ciudad)
1
Mujer
2
Primarios
2
De acuerdo
2
2
2
2
3
3
3
3
Castellano
2
Si (nivel elemental)
1
Gallego
1
En desacuerdo
Galicia (villa)
2
Totalmente
de acuerdo
4
4
4
4
Las dos
3
Si (nivel perfeccionamiento)
2
Galicia (rural)
3
No
3
Fuera de Galicia
4
Medios
3
Superiores
4
20.- Profesin
1
6
Estudiante
Trabajador asalariado
2 Profesor
7 Labores de casa
3 Funcionario administracin
8 Otras
Encuesta original de Bieito Silva, profesor del ICE de la Universidad de Santiago de Compostela.
Regular
2
2
2
2
1.2.3.4.-
5.6.7.8.9.-
Gallego
Con los hijos hablo normalmente
1
Con los familiares hablo normalmente
1
Con los amigos/amigas hablo normalmente
1
En el trabajo/estudio hablo normalmente
1
Si tengo que intervenir en pblico hablo
1
10.11.12.13.-
El
El
El
La
Bien
3
3
3
3
Castellano
2
2
2
2
2
Los dos
3
3
3
3
3
Totalmente
en desacuerdo
gallego sirve para tratar cualquier tema
1
gallego es til en el mundo de hoy
1
gallego debe ser la lengua habitual de Galicia
1
situacin de la lengua gallega est mejorando
1
17.- Sexo
19.- Estudios
Hombre
1
Ninguno
1
Galicia (ciudad)
1
Mujer
2
Primarios
2
De acuerdo
2
2
2
2
3
3
3
3
Castellano
2
Si (nivel elemental)
1
Gallego
1
En desacuerdo
Galicia (villa)
2
Totalmente
de acuerdo
4
4
4
4
Las dos
3
Si (nivel perfeccionamiento)
2
Galicia (rural)
3
No
3
Fuera de Galicia
4
Medios
3
Superiores
4
20.- Profesin
1
6
Estudiante
Trabajador asalariado
2 Profesor
7 Labores de casa
3 Funcionario administracin
8 Otras
Para grabar estos datos no tenemos que movernos de la pantalla donde estbamos
situados. En efecto, nos encontramos ya en el editor de datos que es, como ya se ha
comentado, la ventana en la que se guardan los datos que van a ser analizados. Fjese
de nuevo en la rejilla que constituye la parte interna de la ventana. La rejilla que usted
est viendo es, en realidad, una pequea porcin de una hoja gigantesca, con miles de
filas y miles de columnas. Si desea comprobarlo, haga clic con el botn izquierdo del
ratn, una sola vez, sobre la flecha abajo en forma de tringulo invertido, que est
situada en la parte inferior derecha de la ventana del editor de datos. Observar que ha
avanzado una lnea hacia abajo. Si hace clic otra vez, avanzar otra lnea ms, y as
sucesivamente. Existen miles de lneas. Si desea explorar este aspecto por s mismo,
asegrese de que est situado sobre la flecha abajo, haga clic y no suelte el dedo.
Observar como van pasando filas y ms filas. Fjese en el pequeo cuadrado situado
dentro de la barra vertical que limita, en su parte inferior, la flecha abajo que usted
est pulsando. Este cuadrado es el indicador de desplazamiento, y sirve para saber
cuntas filas hemos bajado en el archivo de datos. A medida que vamos bajando filas,
el indicador de desplazamiento se va aproximando a la parte inferior de la barra
vertical.
Cuando lo estime oportuno, vuelva a las primeras lneas del editor de datos. Para
hacer esto de forma rpida, coloque el puntero sobre el indicador de desplazamiento y
haga clic con el botn izquierdo del ratn. Sin soltar el botn, arrastre el indicador
10
el nmero 3 y pulse la tecla con la flecha que mira hacia la derecha [].
Inmediatamente aparecer el nmero 3 (con dos decimales) escrito en la posicin
deseada. Observe tambin como encima de esta casilla aparece ahora la etiqueta
var00002, que puede interpretarse como variable 2. Contine introduciendo as los
datos correspondiente al sujeto 1. Proceda despacio. Espere siempre a que el nmero
que introduzca aparezca en la casilla correspondiente, antes de introducir un nuevo
nmero. Cuando llegue al tem 18 del cuestionario, fjese en que debe escribir dos
nmeros en lugar de uno solo, antes de pulsar la tecla con la flecha que mira hacia la
derecha. Cuando llegue al tem 20, asegrese, aunque sea el ltimo, de que tambin
pulsa la tecla que mira hacia la derecha. En ese momento habr acabado de introducir
la informacin relativa al sujeto 1.
2.2. Cmo corregir un error
Antes de continuar, repase todos los datos y asegrese de que no existe ningn error.
Para ello vaya a la columna 1. Para hacer esto rpidamente, de un solo "golpe", pulse
Ctrl+[] (Pulse la tecla Ctrl y, sin soltarla, pulse la tecla flecha a la izquierda []).
Repase ahora los datos. El primer nmero debe ser un 3, el segundo un 3, el tercero...
Si observa algn error, sitese en la casilla que contenga dicho error. Utilice para ello
las flechas del teclado, la que mira hacia la izquierda o la que mira hacia la derecha,
segn proceda. Una vez situado en la casilla que contiene el error, escriba el nmero
correcto y pulse la tecla con la flecha que mira hacia la derecha. Ver como aparece
ahora el nmero deseado en la casilla correspondiente.
2.3. Cmo grabar los datos
Cuando haya finalizado de escribir los datos correspondientes al sujeto 1, lo que
vamos hacer es grabarlos en un archivo. Hasta ahora, aunque usted vea los datos
escritos en la rejilla, en realidad, no estn grabados an. Para grabarlos haga lo
siguiente. Mueva el puntero del ratn a la parte superior izquierda de la pantalla,
donde est la opcin Archivo, y haga clic con el botn izquierdo del ratn. Se
despliega un men debajo con varias opciones. Baje hasta la opcin Guardar, y haga
clic.
Tambin puede utilizar, en la barra de botones, el botn con el icono que
representa un diskette.
En ambos casos se encontrar el siguiente cuadro de dilogo:
12
Preste atencin al recuadro situado a la derecha del rtulo Nombre de archivo. Dentro
del mismo hay una barra vertical que parpadea ligeramente. Esta barra es el "cursor",
que le indica que puede escribir en ese recuadro el nombre del archivo. El nombre de
un archivo consta de dos partes separadas por un punto (.). La primera parte puede ser
un nombre cualquiera, a eleccin del usuario. El nombre que vamos a elegir aqu ser
encuest. La segunda parte del nombre, a la que se denomina extensin, tiene que ser
necesariamente .sav, y no es necesario especificarla, puesto que SPSS la adjudica por
defecto (puede verlo en el recuadro inferior, donde figura la leyenda Guardar como
tipo). Por tanto, el nombre completo del archivo de datos una vez almacenado ser
encuest.sav. Escriba encuest en el recuadro donde debe especificarse el nombre de
archivo. Cuando lo haya hecho, coja nuevamente el ratn, mueva el puntero a la parte
derecha de la pantalla, colquese sobre el botn Guardar y haga clic.
Volver aparecer la pantalla con la rejilla. Sus datos, a diferencia de la vez anterior,
estn ahora grabados en un archivo denominado encuest.sav. Puede apreciarlo porque
en la cabecera de la ventana, en lugar del rtulo "Sin ttulo" aparece el nombre del
archivo: "encuest".
Este podra ser un buen momento para finalizar la primera sesin de trabajo con el
sistema SPSS para Windows.
2.4. Cmo salir de SPSS para Windows
Para salir, site el puntero del ratn sobre la opcin Archivo, y haga clic. Se abrir un
men ya conocido para usted. Elija la ltima opcin del men, denominada Salir, y
vuelva a hacer clic. Ya ha salido usted de SPSS para Windows. Existen otras formas
de salir de un programa en Windows, pero le aconsejo que no las utilice. Aunque no
suelen dar problemas, estn pensadas ms bien para cerrar sin ms una pequea
aplicacin sin mens o una ventana, que para salir de un programa complejo como
SPSS.
13
1:
2:
3:
4:
5:
6:
7:
8:
9:
10:
11:
12:
13:
14:
15:
16:
17:
18:
19:
20:
(Estos datos ya
2 2 2 2 2 2 2 3
3 3 3 3 3 1 3 3
3 3 2 2 2 2 2 3
1 1 1 1 2 2 2 2
2 2 1 1 2 2 2 2
2 2 2 2 2 2 2 2
2 2 2 2 2 2 2 2
3 3 2 2 2 2 2 2
3 3 3 3 3 3 2 3
3 3 2 2 2 2 2 2
3 3 2 2 3 3 3 2
3 3 3 3 1 1 3 3
3 2 2 2 2 3 3 2
3 3 2 2 3 3 3 3
3 3 2 1 2 2 2 2
3 3 3 2 3 3 3 3
3 3 3 1 2 2 2 2
3 3 3 2 3 3 3 3
3 3 1 2 2 2 2 2
estn
2 3 3
3 3 3
2 2 2
2 1 1
1 3 2
3 3 4
2 3 3
2 4 3
3 4 3
3 3 2
3 3 2
2 3 3
2 2 2
3 4 4
2 4 4
3 4 4
2 4 4
3 4 4
2 3 2
grabados)
3 3 3 3 1
3 3 3 3 3
2 3 2 3 4
1 2 2 3 4
4 4 3 3 1
4 1 3 3 4
3 1 3 3 4
3 4 3 2 1
4 1 1 2 1
4 2 3 2 3
3 3 3 2 3
4 4 3 1 3
2 3 3 3 2
4 4 3 1 3
4 3 3 1 2
4 4 3 2 3
4 4 3 3 1
4 3 3 3 1
2 3 2 3 4
1
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
38
19
20
40
30
37
32
20
48
22
43
44
29
55
42
44
41
30
34
3
2
4
3
2
4
4
4
4
3
3
3
3
3
3
4
3
2
4
3
7
1
7
7
2
4
1
7
1
7
8
7
7
7
7
7
7
4
Para entrar en SPSS para Windows siga los pasos indicados en el apartado 1.
Recuerde que lo que deseamos hacer ahora es entrar nuevamente en el archivo
encuest.sav que ha creado usted en la sesin anterior. Para ello, siga los siguientes
pasos:
1. Sitese sobre Archivo y haga clic.
2. Sobre el men que se despliega debajo de Archivo, elija la opcin Abrir.
Tambin puede abrir directamente el archivo de datos situndose, en la barra de
botones, sobre el botn con el icono que representa una carpeta abierta.
Observar que aparece un cuadro de dilogo muy similar al que vio en la sesin
anterior. Lo que se ofrece en este recuadro es un listado, ordenado alfabticamente, de
todos los archivos de datos de que dispone usted en el directorio de trabajo. Entre
ellos se encuentra encuest.sav. Sitese sobre l y haga clic. Se resaltar el nombre el
archivo y, adems, ver como aparece escrito el nombre de este archivo en el recuadro
situado a la izquierda del rtulo Nombre de archivo. Lo que usted le ha indicado al
programa es que desea trabajar con este archivo. A continuacin, coloque el puntero
del ratn sobre el botn Abrir y haga clic. Inmediatamente aparecern los datos
introducidos en la sesin anterior.
Para continuar grabando datos, site el puntero del ratn en la fila 2, columna
var00001, y haga clic. Observar como esta casilla aparece ahora con los bordes
sombreados.
14
Tal como habamos indicado en la primera sesin, la fila 2 est reservada para el
segundo sujeto. En la columna var00001 escribiremos la primera respuesta de este
sujeto, en la columna var00002 escribiremos la segunda respuesta, y as
sucesivamente hasta la columna var00020, donde escribiremos la respuesta dada por
este sujeto al ltimo tem del cuestionario.
Como la respuesta al primer tem es un 2, escriba un 2 y pulse, en el teclado, la flecha
que mira hacia la derecha. Observar como aparece un 2 (con dos decimales) en la
casilla deseada. Adems, podr observar como la casilla sombreada es ahora la
correspondiente a var00002. En esta casilla, y en las siguientes de la misma fila,
aparece ahora una coma (,). No se preocupe por ello. Lo nico que indica esta coma es
que faltan todava 19 datos por introducir para el segundo sujeto. Escriba otra vez el
nmero 2, dado que esta es la respuesta de este sujeto al tem 2 del cuestionario.
Contine as hasta finalizar con este sujeto.
Seguramente habr podido apreciar que el tiempo que tarda ahora el ordenador en
situar las respuestas en la casilla correspondiente es menor que el que le llevaba
cuando se trataba del primer sujeto. La razn es que ahora las variables ya estn
creadas. En el primer sujeto todas las columnas se denominaban var, y el programa
necesitaba un cierto tiempo para asignarle, por defecto, un nombre a cada columna
(variable).
En la primera sesin ya se ha indicado cmo debe proceder si se equivoca en un
nmero y decide escribir otro en su lugar. Existen dos botones que sirven de auxilio
en el caso de que necesite insertar un sujeto o una variable que se le pas por alto. Son
stos:
El botn Insertar caso le permite insertar los datos de un sujeto entre dos filas
del archivo de datos.
El botn Inservar variable le permite insertar una nueva variable entre otras dos
cualesquiera.
2.6. Cmo borrar una fila o una columna (y cmo recuperarla)
2.6.1. Cmo borrar una fila (y cmo recuperarla)
Al introducir los datos puede ocurrir que, accidentalmente, se cree una variable ms
de las deseadas. Es posible que tambin esto le haya pasado a usted, y que de ese
modo haya creado la variable var00021, que no necesita. Si ese es el caso y desea
borrarla, haga lo siguiente.
1. Site el puntero del ratn sobre el botn gris con el rtulo var00021, y haga clic.
Observar como la casilla inmediatamente inferior aparece ahora marcada, y las
que se encuentran bajo ella se muestran en vdeo inverso. Dado que slo tiene dos
filas, slo podr ver en vdeo inverso la casilla de la fila 2. Si hubiese ms filas
tambin apareceran de ese modo.
2. Site el puntero del ratn sobre la opcin Edicin y haga clic.
3. Elija la opcin Eliminar, y haga clic de nuevo. Observar como la columna
var00021 ha desaparecido.
2.7. Cmo moverse con rapidez dentro del archivo de datos
Ahora ya sabe que puede moverse arriba y abajo del archivo de datos utilizando el
indicador de desplazamiento vertical de la parte derecha de la ventana, y puede
16
Funcin
Inicio
Fin
Ctrl+[]
Ctrl+[]
Ctrl+[]
Ctrl+[]
Ctrl+Inicio
Ctrl+Fin
Recuerde que las combinaciones del tipo Ctrl+... significan que pulse la tecla Ctrl y,
sin soltarla, pulse a continuacin la otra tecla. Otras herramientas para desplazarse por
el archivo de datos son stas:
El botn Ir a caso le permitir ir directamente a un caso, o sujeto determinado.
nicamente debe especificar el nmero de fila correspondiente al sujeto.
El botn Variables le mostrar informacin sobre las variables existentes en su
archivo de datos. Tambin le permite ir directamente a una variable determinada.
El botn Buscar le ayuda a localizar un dato determinado dentro de una variable
del archivo de datos.
Continuemos ahora con la introduccin de datos. Para empezar a escribir la
informacin relativa al tercer sujeto, necesitar situarse nuevamente en la primera
columna (var00001). Para ello, utilice la tecla Inicio, o la combinacin de teclas
Ctrl+[] ya comentada. Cuando est en la primera columna, baje a la fila 3.
Comience a escribir los datos correspondientes al tercer sujeto. Cuando haya
finalizado con este sujeto, vuelva a la primera columna para comenzar a escribir los
datos del siguiente sujeto. Contine del mismo modo hasta llegar al ltimo sujeto.
Procure hacerlo despacio y no cometer errores. Una vez que haya terminado de
introducir todos los datos, sera conveniente que los revisase por si hubiese algn
error. Si todo est bien, daremos por finalizada la segunda sesin de trabajo, grabando
el archivo de datos y saliendo de SPSS para Windows.
Para grabar el archivo simplemente tenemos que proceder del mismo modo que se
describe en el apartado 2.3, con la nica diferencia de que nuestro archivo de datos
ahora ya tiene nombre, por lo que SPSS no nos pedir ninguno. Una vez grabados los
datos podemos salir de SPSS tal y como se describe en el apartado 2.4.
17
Observe el cuadro de dilogo. En la zona izquierda aparece un recuadro con todas las
variables que contiene el archivo de datos, ordenadas desde var00001 hasta
var00020. A su derecha aparece un botn con una flecha que apunta hacia la derecha,
donde se encuentra otro recuadro, que lleva el encabezado Variables. En este ltimo
recuadro es en el que debe usted colocar aquellas variables que van a entrar en el
anlisis. Puesto que queremos obtener la distribucin de frecuencias para las 20
variables, debemos seleccionar todas ellas en el recuadro de la izquierda y moverlas al
18
recuadro vaco de la derecha. Para ello, coloque el puntero del ratn sobre la primera
de las variables, var00001, que aparece en vdeo inverso. Pulse el botn izquierdo del
ratn y no lo suelte. A continuacin, vaya bajando despacio el puntero hasta el borde
inferior del recuadro. Observar que, a medida que mueve el puntero hacia abajo, van
quedando marcadas las variables de la lista. Cuando llegue a la parte inferior del
recuadro, donde se halla var00011, la lista continuar descendiendo hasta que llegue a
la ltima variable, var00020. Ahora todas las variables estn seleccionadas y aparecen
en vdeo inverso. Suelte el botn izquierdo, y no lo pulse de nuevo; deshara la
seleccin anterior. Para introducir las variables en el recuadro de la derecha,
simplemente tiene que pulsar el botn con la flecha que apunta a ese recuadro. Ahora
todas las variables han pasado al recuadro de la derecha, lo que significa que todas
ellas entrarn en el anlisis. Pulse ahora el botn Aceptar para realizar el anlisis de
frecuencias.
Una vez que comienza el anlisis, SPSS crea una nueva ventana donde se almacenan
los resultados. La ventana tiene este aspecto:
19
de datos, aparecen ahora las opciones Insertar y Formato, que son especficas del
visor de resultados.
Inmediatamente debajo del men aparece una barra con botones. Aunque algunos
de ellos son iguales a los de la ventana del editor de datos, la mayora son
diferentes y especficos de esta nueva ventana.
Ocupando el espacio interno del visor de resultados, vemos dos zonas
diferenciadas a la izquierda y la derecha. La zona de la izquierda nos permite
"navegar" por los resultados obtenidos, desde el ttulo del anlisis y los estadsticos
generales para los 20 anlisis de frecuencias hasta cada una de las 20 tablas de
frecuencias obtenidas para las variables incluidas en el anlisis. La zona de la
derecha nos muestra el resultado concreto que hayamos elegido en la zona de la
izquierda. Tambin es posible desplazarse directamente por los resultados
utilizando la barra de desplazamiento vertical de la zona de la derecha.
Finalmente, en la zona inferior de la ventana aparece de nuevo el mensaje que nos
indica que el procesador de SPSS est preparado.
El manejo del visor de resultados es muy sencillo una vez que se comprende su
funcionamiento. Para familiarizarse con el mismo, pruebe a seleccionar, en la zona
izquierda del visor, la tabla de frecuencias para la variable var00019. En la zona
derecha aparecer una tabla como la siguiente:
VAR00019
Vlidos
2.00
3.00
4.00
Total
Frecuencia
4
9
7
20
Porcentaje
20.0
45.0
35.0
100.0
Porcentaje
vlido
20.0
45.0
35.0
100.0
Porcentaje
acumulado
20.0
65.0
100.0
20
Del mismo modo que ha examinado las tablas de frecuencias para la variable
var00019 puede examinar tambin cualquier otro resultado incluido dentro del visor.
Existen una serie de botones que le facilitan el trabajo de moverse por el visor.
Veamos su funcin:
El botn Seleccionar ltimos resultados le permite ir, dentro de la ventana del
visor de resultados, a los ltimos anlisis efectuados.
El botn Designar ventana le permite, cuando tiene varias ventanas de
resultados abiertas, indicar cul de ellas recibir los resultados de los siguientes
anlisis.
Los botones Ascender y Degradar le permiten subir o bajar un nivel un
resultado o grupo de resultados en la casilla izquierda del visor.
Los botones Expandir y Contraer le permiten encoger o desplegar un
conjunto de resultados obtenidos en un slo anlisis.
Los botones Mostar y Ocultar sirven para mostrar u ocultar partes del
listado de resultados.
El botn Insertar encabezado le permite insertar un encabezado antes de un
resultado.
El botn Insertar ttulo le permite poner ttulo a un grupo de resultados.
El botn Insertar texto le permite colocar un texto informativo junto a un
resultado.
A continuacin, vamos a guardar los resultados obtenidos en un archivo. La forma en
que guardamos un archivo de resultados es casi exactamente igual a la empleada para
el archivo de datos. En primer lugar, mueva el puntero del ratn hacia la opcin
Archivo y haga clic. A continuacin, seleccione, dentro del men que se despliega, la
opcin Guardar. Tambin puede hacer esto mismo pulsando sobre el botn que
representa un diskette. En ambos casos aparecer el siguiente cuadro de dilogo:
21
Como ve, este cuadro de dilogo es casi idntico al que apareca cuando grab usted
el archivo de datos. Fjese en el recuadro situado a la derecha del rtulo Nombre de
archivo. Aparece ya escrito un nombre para el archivo: Resultados1.spo. Este es el
nombre que SPSS asignar, por defecto, al archivo de resultados, pero puede
reemplazarse por otro ms adecuado. Pulse la tecla Supr del teclado de su ordenador;
esto borrar el nombre asignado por defecto al archivo de resultados. Escriba ahora
encuest en el recuadro vaco. Ahora el archivo se guardar con el nombre encuest.spo
(recuerde que la extensin, .spo, es asignada automticamente por SPSS). Pulse ahora
el botn Guardar.
Una vez hecho esto, el rtulo "Resultados1" en la cabecera de la ventana de resultados
se ver sustituido por el nombre de nuestro archivo de resultados: "encuest.spo".
Adems de guardar el archivo de resultados en el formato asignado por SPSS, tambin
es posible exportarlos en un formato distinto (por ejemplo, como texto simple).
El botn Exportar es el que le permite exportar sus resultados en un formato
distinto al asignado por SPSS.
2.9. Cmo Imprimir el Archivo de Resultados
Probablemente ya ha comprobado al ver el listado de resultados, intentar leer un
archivo de este tipo en pantalla puede resultar un trabajo "pesado", sobre todo si
consta de muchas pginas. La solucin ms corriente suele ser imprimirlo y leerlo
cmodamente en papel. Para ello, asegrese de que tiene la impresora correctamente
conectada al ordenador, y que sta est encendida.
Mueva el puntero del ratn a la opcin Archivo, y seleccione a continuacin la opcin
Imprimir.
Tambin puede hacer esto utilizando la barra de botones; para ello, pulse el
botn que tiene un icono con el dibujo de una impresora.
22
23
Una vez que hemos realizado el anlisis de los datos en que estbamos interesados
(obtener una distribucin de frecuencias para cada variable) y hemos obtenido una
copia impresa de los mismos podemos dar por finalizada la sesin. Seleccione la
opcin Archivo y, dentro del men, seleccione la opcin Salir. Se cerrarn ambas
ventanas: la del editor de datos y la del visor de resultados. En la prxima sesin
veremos cmo preparar los datos y darles formato para facilitar tanto la introduccin
de los mismos como la lectura de listados.
24
25
Ahora que ya sabe introducir la matriz de datos y obtener los resultados de un anlisis,
vamos a ver cmo puede mejorar el modo de presentacin de los datos y cmo
efectuar transformaciones adicionales sobre los datos originales.
26
Ahora cada una de las variables ocupa una fila del editor de datos. La informacin
sobre las variables aparece organizada en columnas. Veamos lo que indica cada una
de ellas:
Nombre.- En esta casilla podremos indicar un nombre para la variable. Usted ya
sabe que SPSS adjudica un nombre por defecto a las variables que se van creando
en el archivo de datos. Este nombre empieza siempre por la palabra var seguida de
un nmero correlativo. Sin embargo, esta es slo la opcin por defecto; tambin es
posible asignar un nombre diferente a una variable. La nica condicin es que el
nuevo nombre no tenga ms de 8 caracteres y incluya espacios en blanco o
caracteres especiales ($, &, %, /, etc.).
Tipo.- Por defecto, todas las variables introducidas son de tipo numrico.
Anchura.- Nmero de dgitos que pueden contener los valores de la variable.
Decimales.- Nmero de decimales de precisin para la variable. Los valores por
defecto para anchura y decimales (8 y 2, respectivamente) significa que los datos
de la varaible tienen, como mximo 8 dgitos, incluyendo la coma decimal y 2
decimales (es decir, que el nmero mayor representable es 99.999.999, y el mayor
nmero decimal representable es 99.999,99).
Etiqueta.- Permite asignar una etiqueta a la variable. Ms adelante veremos la
utilidad de las etiquetas.
Valores.- Permite asignar etiquetas a los valores de una variable. Tambin veremos
ms adelante la utilidad de estas etiquetas
Perdidos.- Permite definir lo que SPSS denomina valores perdidos. Un valor
perdido es aquel del que no disponemos por alguna razn; por ejemplo, porque el
sujeto no contest a esa pregunta. Esto es lo que se conoce como un valor perdido
por el sistema. En este caso, sin embargo, se trata de que el propio usuario defina
un valor determinado como perdido. En el caso de nuestro cuestionario esto podra
ocurrir si en las preguntas formuladas a los sujetos hubiese una opcin de respuesta
del tipo: No Sabe/No Contesta. Si usted no quisiera que los sujetos que
seleccionaron esta opcin sean incluidos en los anlisis, podra definir el valor
correspondiente como perdido. En este caso estaramos hablando de un valor
perdido por el usuario.
Columnas.- Permite especificar el ancho ocupado por la columna correspondiente a
la variable en el editor de datos. Por defecto es igual al valor especificado en
Anchura.
Alineacin.- Alineacin de los datos. Pueden aparecer justificados a la izquierda,
centrados en la celdilla o justificados a la derecha. Esta ltima es la opcin por
defecto, y es la ms cmoda cuando se trabaja con nmeros.
Medida.- Escala de medida de los datos. Se refiere al grado de calidad de la
medida obtenida en la variable. Si nicamente establecemos distintas categoras
excluyentes entre s (como en la var00017: sexo), la medida ser nominal; si
podemos ordenar estas categoras (como en la var00019: estudios), la medida
ser ordinal; en cualquier otro caso la medida ser de intervalo o razn (que SPSS
denomina escala). sta ltima es tambin la medida por defecto.
Vamos a modificar las opciones que aparecen para var00001, de modo que al final
hayamos dado formato a la misma. Concretamente, asignaremos un nombre a la
27
28
tres puntos suspensivos que nos permite modificar el tipo, as como tambin el
nmero de dgitos y de decimales.
Veamos ahora una opcin ms avanzada para dar formato a sus datos: el etiquetado.
Una etiqueta no es ms que un trozo de texto que va asociado a una variable o a un
valor. Este trozo de texto sustituye luego a la variable o valor originales en los
listados, de modo que sean ms legibles. La mejor forma para ver la utilidad de las
etiquetas es un ejemplo prctico. Lo que vamos a hacer es etiquetar tanto la variable
item01 como los tres valores de respuesta posibles (1, 2 y 3).
Sitese sobre la casilla correspondiente a item01 en la columna Etiqueta y escriba el
texto entiendo el gallego hablado (no incluya las comillas). Ya ha etiquetado la
variable. A continuacin, sitese sobre la casilla situada inmediatamente a la derecha,
correspondiente a la columna Valores y pulse el botn con tres puntos suspensivos
que aparecer en la misma. Se encontrar el siguiente cuadro de dilogo:
Este cuadro de dilogo le permite asociar una etiqueta a cada valor de item01. En el
recuadro con la leyenda Valor debe indicar uno de los posibles valores de la variable,
y en el recuadro situado debajo, que lleva la leyenda Etiqueta de valor, debe escribir la
etiqueta correspondiente al valor. Para asociar el valor con su etiqueta debe pulsar el
botn Aadir. Ahora introduzca como valor el 1, y como etiqueta la palabra nada
(no incluya las comillas). Pulse Aadir. Aparecer la equivalencia:
1= nada
29
30
A modo de ejercicio, lo que le propongo ahora es que ponga etiquetas a todas las
variables del archivo de datos. Aunque esto pueda parecer una tarea tediosa, es de
gran ayuda para interpretar luego los listados proporcionados por el programa. Existe,
adems, una forma de aligerar el trabajo. Fjese que muchas variables usan el mismo
nmero de dgitos y decimales, e incluso las mismas etiquetas de valores. Es posible
copiar estas especificaciones de una variable a otra sin tener que escribirlas de nuevo.
Veamos cmo con un ejemplo.
Las variables var00002, var00003 y var00004 comparten muchas caractersticas con
item01. Todas ellas necesitan un solo dgito, sin decimales, y las opciones de
respuesta son las mismas que las de item01. Podemos, por consiguiente, copiar estas
especificaciones de item01 a estas variables.
Empezaremos con la informacin sobre el nmero de decimales. Para copiar esta
informacin de la variable item01, sitese con el ratn sobre la casilla correspondiente
en la columna Decimales y pulse el botn derecho de su ratn. Aparecer un pequeo
men:
31
etiquetas de valores; no tendra sentido adjudicar una etiqueta a cada una de las
posibles edades.
Si ha llevado a cabo todos los cambios y todava se siente con fuerzas, puede
comprobar ahora la utilidad de todo este trabajo. Vuelva a realizar el mismo anlisis
de frecuencias que efectu en el apartado 2.9 y observe, por ejemplo, el aspecto de la
tabla de frecuencias para la variable item19 (antes var00019) que ahora se le ofrece
en el visor de resultados. Es ligeramente diferente, verdad? Ahora tiene este aspecto:
estudios
Vlidos
primarios
medios
superiores
Total
Frecuencia
4
9
7
20
Porcentaje
20.0
45.0
35.0
100.0
Porcentaje
vlido
20.0
45.0
35.0
100.0
Porcentaje
acumulado
20.0
65.0
100.0
Fjese que en la nueva tabla, en lugar del nombre de la variable (ahora item01)
aparece la etiqueta correspondiente: estudios. Del mismo modo, al lado de los tres
posibles valores de respuesta (1, 2, y 3) aparecen sus etiquetas (primarios, medios,
y superiores). Esto hace que la tabla sea mucho ms inteligible, de modo que no sea
necesario consultar un ejemplar del cuestionario para saber de qu variable se trata y
qu significa cada valor de respuesta.
El uso de etiquetas mejora la presentacin, y es muy recomendable cuando hagamos
presentaciones de nuestros datos tales como tablas, distribuciones de frecuencias o
grficos. En otro tipo de anlisis estadsticos, su utilidad es mucho ms limitada.
Antes de dar por terminada esta larga sesin, le recomiendo que guarde los resultados
en un archivo. Utilice los mens o el icono con el botn que representa un diskette. En
el cuadro de dilogo, que es semejante al que ya vio en el apartado 2.9, dele al nuevo
archivo el nombre encuest. Aparecer un mensaje de SPSS advirtindole de que el
archivo ya existe y si quiere sobreescribirlo. Esto se debe a que le ha dado el mismo
nombre que al archivo de resultados que guardamos en aquella sesin. Recuerde que
el archivo encuest.spo antiguo contiene los mismos resultados que el actual. Sin
embargo, el nuevo listado contiene las etiquetas y es, por tanto, ms completo que el
anterior. Acepte sobreescribir el archivo.
Ahora ya puede dar por finalizada esta sesin y salir de SPSS.
Para ello tendramos que recodificar item18 de forma que asignaramos a todos los
sujetos comprendidos entre
16 y 25 aos, el nmero 1,
26 y 35 aos, el nmero 2,
36 y 50 aos, el nmero 3,
51 y 65 aos, el nmero 4.
Llevar a cabo esta recodificacin es realmente sencillo en SPSS. Incluso hay dos
formas distintas de hacerla. En la primera forma, la variable original se conserva y se
crea una nueva con los valores recodificados. En la segunda forma, la variable original
misma es recodificada. Mi consejo es que haga las recodificaciones siempre de la
primera forma; de este modo, no perder nunca datos originales. De todos modos,
veremos ambos procedimientos.
4.1.1. Recodificacin en distinta variable
33
Al igual que en otros cuadros de dilogo de SPSS, a la izquierda se le ofrece una lista
de las variables existentes en el archivo de datos. Seleccione item18 (Edad) y luego
pulse el botn con forma de flecha que se encuentra a la derecha de la lista. De este
modo, item18 figurar en el recuadro siguiente como variable de entrada. A la derecha
tiene usted dos recuadros para introducir la variable de resultado, esto es, la variable
donde se almacenarn los datos sobre edad de los sujetos una vez recodificados. En el
primer recuadro debe escribir el nombre de la nueva variable (p. ej.: edad2) y en el
segundo puede asignarle una etiqueta (p. ej.: nueva edad). A continuacin, pulse el
botn Cambiar; de este modo, edad2 pasar a ser la variable de salida.
Una vez especificadas la variable origen y destino (item18 y edad2, respectivamente),
es necesario indicar cmo se va a llevar a cabo la recodificacin. Observe los dos
botones que se encuentran en la parte central del cuadro de dilogo, etiquetados Si y
Valores antiguos y nuevos. El primero de ellos puede utilizarse para indicar una
recodificacin condicional (p. ej.: aplicar slo si el sujeto es hombre). Nosotros no
queremos especificar ninguna condicin, sino recodificar la variable item18 para
todos los sujetos; por tanto, no utilizaremos en esta sesin el botn Si. En cuanto al
botn etiquetado Valores antiguos y nuevos, se utiliza para indicar qu valores en la
variable antigua (item18), van a ser reemplazados por qu valores en la variable nueva
(edad2). Pulse este ltimo botn. Aparecer el siguiente cuadro de dilogo:
34
A la izquierda del recuadro aparecen las opciones a aplicar a los valores antiguos. A la
derecha, se encuentran las opciones a aplicar al nuevo valor. Para cada recodificacin
que se haga hay que especificar ambas opciones.Veamos primero las opciones para
valores antiguos:
Valor: Convierte un valor antiguo determinado en un valor nuevo.
Perdido por el sistema: Convierte un dato perdido por el sistema en la variable
antigua en un valor nuevo.
Perdido por el sistema o usuario: Convierte un dato perdido por el sistema o por el
usuario, en la variable antigua, en un valor nuevo.
Rango: Convierte un rango de valores en la variable antigua en un slo valor en la
variable nueva. Hay tres formas de rangos: los que van de un valor determinado a
otro, los que van del menor valor a otro, y los que van de un valor determinado
hasta el mayor.
Todos los dems valores: Convierte todos aquellos valores de la variable antigua
que no fueron definidos previamente, en un mismo valor en la variable nueva.
En el recuadro de la derecha especificaremos el valor nuevo correspondiente para cada
uno de los antiguos seleccionados. Tenemos tres opciones: podemos especificar un
valor determinado, o bien convertirlo en un valor perdido por el sistema o, finalmente,
copiar el valor antiguo tal como estaba.
Por ltimo, y en la parte inferior derecha del cuadro de dilogo, aparecen dos opciones
a utilizar cuando recodificamos una variable cuyos datos son cadenas de caracteres en
una variable numrica, o viceversa. Este tipo de situaciones no se da habitualmente en
las recodificaciones y no se da, de hecho, con nuestros datos, por lo que no
comentaremos estas opciones.
Veamos cmo llevaramos a cabo la recodificacin de item18 en edad2. Siguiendo la
filosofa de SPSS, podramos resumir nuestras intenciones con el siguiente esquema:
35
se convierten en...
hasta 25 aos
desde 26 hasta 35 aos
desde 36 hasta 50 aos
desde 51 aos en adelante
1
2
3
4
Procederemos a crear estos cuatro grupos de edad en edad2 siguiendo este mismo
orden. Para crear el primer grupo, debemos seleccionar, en el recuadro destinado al
valor antiguo un rango de edades que vaya desde el sujeto ms joven hasta los sujetos
de 25 aos. Seleccione, por tanto, el rango que lleva escrito debajo la leyenda Del
menor hasta. Aparecer marcado con un punto negro. Ahora haga clic sobre el
recuadro situado a la derecha de la leyenda y teclee el nmero que marca el lmite
superior del rango (25). Acto seguido, en el recuadro destinado al valor nuevo teclee
el valor correspondiente (1) en la variable edad2. Luego pulse el botn que lleva la
etiqueta Aadir. En el recuadro situado a la derecha del botn, y en el que figura la
leyenda Antiguo Nuevo aparecer la siguiente expresin:
Lowest thru 25 1
Lo que significa esta expresin es que los valores de item18 que vayan desde el ms
pequeo hasta 25 (lowest thru 25) se convertirn todos ellos en el valor 1 en edad2.
Pasemos al segundo grupo, que incluye a los sujetos de edades comprendidas entre 26
y 35 aos. En el recuadro destinado al valor antiguo, seleccione el rango de edades
que contiene dos recuadros separados por la leyenda hasta. En el primer recuadro
escriba el lmite inferior del rango (26), y en el segundo recuadro, el lmite superior
(35). A continuacin, en el recuadro destinado al valor nuevo, teclee el valor
correspondiente (2) en edad2. Pulse ahora el botn etiquetado Aadir. Aparece una
nueva expresin:
26 thru 35 2
Esta expresin nos viene a indicar que los valores de item18 que vayan desde 26 hasta
35 se convertirn todos ellos en el valor 2 en edad2.
El tercer grupo incluye a los sujetos entre 36 y 50 aos. Seleccione este rango en el
recuadro destinado al valor antiguo del mismo modo que lo hizo para el segundo
grupo. En el recuadro correspondiente al valor nuevo, escriba un 3. Pulse otra vez el
botn Aadir. Ya tiene la tercera expresin:
36 thru 50 3
Y vamos a finalizar con el cuarto grupo. ste incluye a los sujetos de 51 aos o ms.
Por tanto, en el recuadro destinado al valor antiguo seleccione el rango que lleva
escrita la leyenda hasta el mayor. En el recuadro situado a la izquierda de la leyenda
teclee el lmite inferior del rango (51). En el recuadro correspondiente al valor nuevo,
escriba un 4. Pulse una vez ms el botn Aadir. Y esta es la cuarta expresin:
51 thru highest 4
36
Una vez creados los cuatro grupos de edad, el cuadro de dilogo debe tener este
aspecto:
hasta 25 aos.
de 26 a 35 aos.
de 36 a 50 aos.
ms de 50 aos.
Veamos ahora cmo haramos esta misma recodificacin sin utilizar una variable
nueva. Recuerde que la recodificacin en la misma variable elimina totalmente la
informacin contenida originalmente en la misma. Por tanto, si alguna vez efecta una
recodificacin en sus datos, le aconsejamos que lo haga siempre en otra variable
distinta de la original.
Vuelva a selecicionar la opcin Transformar y, en el men que se despliega, la opcin
Recodificar. A la derecha, aparecen las dos opciones que ya conoce:
37
Este cuadro de dilogo es ms sencillo que el que vimos en el apartado 4.1.1. Usted
simplemente tiene que especificar la variable o variables a recodificar (en este caso
item18). Una vez hecho esto, puede usar los botones Si y Valores antiguos y nuevos
que ya conoce. El cuadro de dilogo que aparece es muy similar al que ya vio en el
apartado 4.1.1:
38
tambin muchas otras transformaciones. SPSS para Windows permite gran variedad de
transformaciones. La principal distincin entre los distintos tipos de transformaciones
posibles es la que se hace entre transformaciones incondicionales y transformaciones
condicionales. En el caso de las transformaciones incondicionales, se crea una nueva
variable a partir de otra u otras variables. En las transformaciones condicionales, cada
transformacin tiene lugar slo si se cumplen determinadas condiciones. A
continuacin, vamos a ver ejemplos de ambos tipos de transformaciones.
4.2.1. Transformaciones incondicionales
2.718281
= 3.
Concepto
exp
2.718281 =0.1
exp
2.718281 =0.5
exp
2.718281 =1
exp
2.718281 =2
exp
2.718281 =3
exp
2.718281 =50
exp
2.718281 =100
exp
2.718281 =1000
Exp (ln)
-2.302585
0.693147
0.000000
0.693147
1.098612
3.912023
4.6051702
6.9077553
39
El cuadro de dilogo contiene todas las opciones para realizar gran cantidad de
transformaciones sobre una o ms variables y almacenar el resultado en otra variable.
Esa nueva variable, o variable destino, debe especificarse en el recuadro etiquetado
Variable de destino. Puesto que nuestra variable ser el logaritmo neperiano de item01,
escribiremos en el recuadro lnitem01. Una vez puesto el nombre a la variable destino,
puede pulsar el botn etiquetado Tipo y etiqueta para especificar el tipo y la etiqueta de
esta nueva variable. El tipo que viene asignado por defecto es numrico, por tanto, no es
necesario modificarlo. Como etiqueta de la variable, puede escribir logaritmo
neperiano de item01.
A la derecha de la variable destino se encuentra un signo igual (=) y el recuadro donde
especificaremos la transformacin a realizar, etiquetado como Expresin numrica. Para
completar esta expresin numrica de la transformacin, tenemos otros tres recuadros
con distintos elementos:
1. En la zona izquierda, un recuadro que contiene, en orden alfabtico, la lista de
variables existente en el archivo de datos. Esta lista nos sirve para incluir
transformaciones realizadas a partir de cualquiera de estas variables.
2. En el centro, una consola para clculo, con un conjunto de botones que permiten
representar nmeros y realizar operaciones aritmticas como sumas (+), restas (-),
divisiones (/), o exponenciaciones (**). Tambin pueden especificarse operaciones
lgicas como igual que (=), menor que (<), menor o igual que (), distinto a
(~=), y los operadores lgicos AND (&), OR (), y NOT (~) con los elementos
involucrados en la transformacin.
3. A la derecha, un recuadro con una larga lista, ordenada alfabticamente, de
funciones disponibles en SPSS. El logaritmo neperiano es slo una funcin ms que
incorpora SPSS. De entre las muchas otras funciones que usted puede utilizar para
hacer transformaciones, le sealo las siguientes:
40
Funciones
SQRT
LN
LG10
RND
ABS
SIN
COS
Significado
Raz cuadrada
Logaritmo neperiano (base
2.718281)
Logaritmo decimal (base 10)
Redondear
Valor absoluto
Seno
Coseno
Con el signo de interrogacin (?) en vdeo inverso. Este signo nos indica que falta por
indicar a quin se le aplicar el logaritmo neperiano que va a almacenarse en lnitem01.
Ahora seleccione, en el recuadro de la izquierda, que contiene la lista de variables, la
variable item01. A continuacin pulse el botn que representa una flecha apuntando
hacia el lado derecho y que se halla a la derecha de este recuadro. La expresin quedar
as:
LN(item01)
Pulse ahora el botn Aceptar. SPSS crear la variable lnitem01. Observe que usted ya
puede saber cules van a ser los valores de lnitem01, despus de la transformacin.
Dado que los valores de item01 eran el 1 (que significaba nada) el 2 (que significaba
regular) y el 3 (que significaba bien), lnitem01 aparecern, en lugar de 1, 2 y 3, sus
logaritmos neperianos que son, respectivamente:
1
2
3
0.0000000,
0.6931471,
1.0986123.
41
Vlidos
.00
.69
1.10
Total
Frecuencia
1
4
15
20
Porcentaje
5.0
20.0
75.0
100.0
Porcentaje
vlido
5.0
20.0
75.0
100.0
Porcentaje
acumulado
5.0
25.0
100.0
42
Pulse ahora el botn Aceptar. Se crear una nueva variable, item21, al final del archivo
de datos. Los valores de esta nueva variable oscilarn entre un valor mnimo de 2 (en el
caso de que tanto item01 como item02 valgan 1) a un mximo de 6 (en el caso de que
tanto item01 como item02 valgan 3). Esta nueva variable indicara, por tanto, en una
escala de 2 a 6, el grado de conocimiento de los sujetos, tanto del gallego hablado como
del gallego escrito, que son los tems correspondientes a item01 e item02.
Tal como se podr imaginar, habr situaciones en que a usted como usuario le interese
realizar transformaciones donde tenga que utilizar varios operadores. Por ejemplo, si
deseramos crear una nueva variable (p. ej.: item22) que fuera la media aritmtica de
item01 e item02, tendramos que utilizar dos operadores en la transformacin, el
operador de la suma (+) y el operador de la divisin (/). Adems, los operadores pueden
combinarse con las funciones incorporadas. Por ello, es necesario tener en cuenta cul es
la preferencia que el sistema tiene incorporada para estas operaciones. A continuacin se
ofrecen estas preferencias:
Preferencia
1
2
3
3
4
4
Operador
Funciones
Exponenciacin
Divisin
Multiplicacin
Resta
Suma
Smbolo
Ver tabla anterior
**
/
*
+
Se observa en esta tabla que las funciones tienen preferencia 1; por tanto, sern las
primeras que se realicen. A continuacin vendra la exponenciacin (preferencia 2). En
tercer lugar est la divisin y la multiplicacin (preferencia 3). Cuando tengamos una
transformacin con una divisin y una multiplicacin, el sistema realizar en primer
lugar la operacin situada a la izquierda y, luego, la situada a la derecha. Algo similar
ocurre con la preferencia de la resta y la suma. Si se desea "romper" este orden de
preferencias deben usarse parntesis. Por ejemplo, si desesemos realizar antes una
suma que una multiplicacin, debemos escribir la operacin de sumar entre parntesis y
sta se realizar antes que la multiplicacin.
43
Vamos ahora a ver el uso que podemos hacer del botn Si, que nos permite realizar
transformaciones condicionales. A efectos prcticos, la utilidad de este botn est en que
permite realizar transformaciones para subgrupos de sujetos. Recuerde que hasta ahora
hemos utilizado la opcin Calcular de forma incondicional. Una vez que se define la
transformacin se realiza para todos los sujetos. Para comprender mejor la funcin de Si
suponga que estamos interesados en crear una nueva variable (item23) en la que
desesemos incluir los cuatro subgrupos de sujetos siguientes:
1.
2.
3.
4.
Hombres jvenes,
Hombres adultos,
Mujeres jvenes,
Mujeres adultas.
Supongamos que la edad que establece el lmite entre lo que sera un sujeto joven y un
sujeto adulto son 25 aos. De este modo, los cuatro subgrupos de sujetos que deseamos
crear deberan tener estas caractersticas:
Grupo 1: Valor 1 en item17 y valor igual o menor a 25 en item18.
Grupo 2: Valor 1 en item17 y valor mayor de 25 en item18.
Grupo 3: Valor 2 en item17 y valor igual o menor a 25 en item18.
Grupo 4: Valor 2 en item17 y valor mayor de 25 en item18.
Veamos cmo crearamos item23 de modo que obtuvisemos esta clasificacin de los
sujetos. En primer lugar, seleccione la opcin Transformar y, en el men que se
despliega a continuacin, elija la opcin Calcular. Aparecer el cuadro de dilogo que
44
Observe que este nuevo cuadro de dilogo tiene mucho en comn con el cuadro de
dilogo correspondiente a Calcular. Aparecen: a la izquierda una lista ordenada de las
variables en nuestro archivo de datos; en el centro, la misma consola de clculo; a la
derecha, la misma lista de funciones. En la parte superior aparecen dos alternativas:
Incluir todos los casos
Incluir si el caso satisface la condicin:
Bajo la primera alternativa no es posible especificar condiciones, as que seleccione la
segunda. Tanto la lista de variables como la consola de clculo y la lista de funciones se
harn operativas. Recuerde ahora las condiciones que deban cumplir simultneamente
los sujetos para obtener el valor 1 en item23. stas eran:
1. Valor 1 en item17.
2. Valor menor o igual a 25 en item18.
Vamos con la primera de las condiciones. Seleccione item17 en la lista de variable y
pulse el botn que representa una flecha apuntando hacia la derecha. A continuacin, en
la consola de clculo, pulse, en este orden, los botones que representan el signo igual (=)
y el nmero uno (1). El recuadro Expresin numrica mostrar la siguiente expresin:
item17 = 1
Detngase ahora. Fjese que la expresin contiene el operador lgico AND (&), que no
haba utilizado hasta ahora. Veamos la funcin de los tres operadores lgicos de que
disponemos en SPSS:
Operador AND (&). Significa y. Sirve para enlazar condiciones que deben
cumplirse simultneamente (p. ej.: ser hombre y menor de 26 aos).
Operador OR (). Significa o. Sirve para enlazar condiciones, de las cuales al
menos una debe cumplirse (p. ej.: tener estudios medios o superiores).
Operador NOT (~). Significa no. Sirve para negar condiciones. Es cierto cuando no
se cumple la condicin (p. ej.: no ser funcionario).
Continuemos ahora con la creacin de item23. Para que la primera condicin surta
efecto, pulse el botn Continuar. El cuadro de dilogo de Calcular tendr ahora este
aspecto:
46
La condicin asociada con el valor 2 en item23 era que el sujeto fuese hombre y la edad
fuese mayor de 25 aos. Por tanto, lo nico que usted tiene que cambiar en la condicin
es el signo menor o igual (<=) y reemplazarlo por el signo mayor que (>). Pulse
luego el botn Continuar. El cuadro de dilogo de Calcular deber tener este aspecto:
47
Del mismo modo que hicimos con la expresin anterior, podemos leer la
correspondiente al valor 2 de la siguiente forma: item23 (Variable de destino) vale 2
(Expresin numrica) siempre que (Si) item17 valga 1 y adems item18 sea mayor que
25. Pulse ahora el botn Aceptar. Aparece un aviso del programa:
Este aviso nos indica que va a modificarse item23. Si pulsa el botn Aceptar, la
condicin especificada se llevar a efecto; si pulsa el botn Cancelar, no se har
efectiva. La razn de este aviso es que sea usted consciente de que va a modificar de
alguna forma item23, y es un aviso especialmente oportuno en el caso de que est
especificando condiciones que se solapen unas con otras. Por ejemplo, si la primera
condicin fue que item23 vale 1 si los sujetos son hombres y de 25 aos o menos, los
sujetos que cumplan ambas condiciones recibirn un 1. Pero si la segunda condicin
fuese que item23 vale 2 si los sujetos son hombres y mayores de 23 aos, habr un
grupo de hombres menores de 25 aos (aquellos que tengan ms de 23 aos) que vern
cambiado el 1 que les fue asignado inicialmente en item23 por un 2, que les viene
asignado por la nueva condicin. Por esto es muy importante, a la hora de especificar
condiciones, el que stas sean mutuamente excluyentes (es decir, que un mismo sujeto
no se pueda ver afectado por dos o ms de ellas) y que sean exhaustivas (es decir, que no
haya ningn sujeto al que no le afecte ninguna condicin). En este caso, las condiciones
especificadas son mutuamente excluyentes y tambin exhaustivas, por lo que puede
pulsar el botn Aceptar. Fjese que ahora aparece una puntuacin con el valor 2 en
item23. Corresponde al nico hombre de la muestra, que tiene 38 aos.
48
Ahora ya puede especificar usted sin ayuda las condiciones correspondientes a los
valores 3 y 4 en item23. No obstante, por si tuviese alguna dificultad, le recuerdo la
forma que deben tener las dos condiciones restantes:
Valor 3: item17=2 & item18 <= 25
Valor 4: item17=2 & item18 > 25
4.3. Cmo seleccionar sujetos
Existen situaciones en que al usuario le interesara realizar clculos solamente para
ciertos subgrupos de sujetos. Por ejemplo, en el estudio sociolingstico podramos estar
interesados en realizar la distribucin de frecuencias slo para el subgrupo de mujeres
estudiantes. La forma en que SPSS para Windows realiza la seleccin de los sujetos es
mediante un marcado selectivo, de modo que slo los sujetos seleccionados entren a
formar parte de los anlisis. Veamos cmo podemos seleccionar al subgrupo de mujeres
estudiantes para un anlisis en SPSS.
Seleccione la opcin Datos y, en el men que se despliega a continuacin, seleccione la
opcin Seleccionar casos.
Tambin puede utilizar el botn Seleccionar casos.
Efectuando cualquiera de las dos operaciones anteriores aparecer el cuadro de dilogo
para la seleccin de casos (el equivalente a sujetos en SPSS):
Fjese en que la opcin por defecto es que todos los sujetos estn seleccionados. No
obstante, hay una serie de alternativas presentes. Vemoslas una por una:
49
50
Observe, en primer lugar, que, salvo para los sujetos 4, 9 y 11, el botn que contiene el
nmero de orden de los sujetos aparece tachado. Cuando el botn correspondiente a un
sujeto aparece tachado, esto significa que ese sujeto no ha sido seleccionado Qu
ocurre, pues, con los sujetos 4, 9 y 11? Estos sujetos son mujeres estudiantes (vea las
columnas correspondientes: item17 e item20) y, por tanto, s estn seleccionados. Si
51
solicita ahora un anlisis de frecuencias, observar que la muestra que aparece en los
listados consta ahora de slo 3 sujetos, los sujetos 9 y 11, en lugar de los 20 sujetos que
existen realmente en el archivo de datos. Fjese ahora en la ltima variable, que tiene el
extrao nombre de filter_$. Usted no ha creado esta variable; la ha creado SPSS
despues de que usted efectu una seleccin dentro de la muestra de sujetos. La funcin
de la variable filter_$ es la de contener la informacin sobre qu sujetos estn
seleccionados y qu sujetos no lo estn. A los primeros se les asigna un 1 en filter_$ y a
los segundos, se les asigna un 0. Todos los sujetos, menos el n 4, el n 9 y el n 11,
tienen un 0 en la casilla correspondiente de filter_$. Los sujetos 4, 9 y 11, por su parte,
tienen un 1 en su casilla.
Qu ocurre si ahora quiere volver a utilizar la muestra completa de 20 sujetos? No hay
ningn problema. Simplemente vuelva a seleccionar la opcin Datos y, a continuacin,
la opcin Seleccionar casos. Ahora seleccione la opcin Todos los casos que aparece en
primer lugar en el cuadro de dilogo. La variable filter_$, aunque contina presente,
dejar de estar en efecto, y todos los sujetos volvern a ser seleccionados. Si ms
adelante vuelve a efectuar alguna seleccin, el resultado volver a almacenarse en
filter_$.
Pruebe ahora usted solo a hacer alguna seleccin de sujetos basado en un criterio
distinto al condicional como, por ejemplo, un porcentaje de sujetos extraidos
aleatoriamente de la muesra de 20 original, o seleccionar un rango de casos
determinado. Observe los cambios que se operan en la ventana de datos. Finalmente,
vuelva a dejar el archivo de datos de modo que puedan volverse a utilizar todos los
sujetos.
Un procedimiento alternativo al de la seleccin de sujetos consiste en segmentar el
archivo en varios grupos distintos (p. ej.: hombres y mujeres). De este modo es posible
comparar los resultados de los anlisis efectuados para cada grupo, o llevar a cabo
simplemente los anlisis de forma separada para cada grupo.
El botn Segmentar archivo le permite segmentar el archivo en varios grupos, en
base a una variable de agrupacin
4.4. Cmo clasificar a los sujetos por orden en una o ms variables
El lugar que ocupan los sujetos en el archivo de datos viene determinado, por defecto,
por el orden en que fueron introducidos en el mismo. No obstante, en ocasiones es
posible que usted desee ordenar a los sujetos en base a algn otro criterio (edad, sexo,
etc.). En SPSS es posible ordenar los sujetos, en orden ascendente o descendente, en
base a los valores obtenidos en una o ms variables. Si utilizamos una sola variable, los
sujetos sern ordenados en funcin de los valores numricos o alfanumricos obtenidos
en la misma. si utilizamos dos o ms variables, aquellos sujetos que obtengan la misma
puntuacin en la primera variable de ordenacin sern ordenados, a su vez, en funcin
de los valores obtenidos en la segunda variable de ordenacin. Si persistiesen los
empates, stos seran ordenados en funcin de una tercera variable de ordenacin, y as
sucesivamente.
52
A la izquierda se muestra una lista de las variables que puede usted utilizar para realizar
la ordenacin. Si eligiese varias, la primera de las elegidas sera utilizada por el
programa como primera variable de ordenacin, la segunda como segunda variable de
ordenacin, etctera. Seleccione item01. Ms abajo aparece un recuadro donde puede
usted seleccionar el tipo de ordenacin: ascendente (de 0 a 9 y de A a Z) o descendente
(de Z a A y de 9 a 0). El modo ascendente es el que est seleccionado por defecto. Pulse
ahora el botn Aceptar y eche una ojeada al archivo de datos. Ahora los sujetos con
puntuacin de 1 (nada) en item01 aparecen en primer lugar, seguidos de los sujetos
con puntuacin 2 (regular) y puntuacin 3 (bien).
53
54
55
Para el anlisis de frecuencias, SPSS posee dos tipos de grficos: los grficos de barras y
los histogramas. Estos grficos proporcionan informacin similar a la distribucin de
frecuencias, pero de forma ms intuitiva. En el caso del grfico de barras, que se aplica a
variables de tipo categrico, se utilizan dos ejes ortogonales. En el eje de abscisas
(horizontal) se representan los valores de la variable X, y en el eje de ordenadas
(vertical) se representan las frecuencias. La mayora de las variables del archivo
encuest.sav son de tipo categrico; su representacin grfica debera hacerse, por tanto,
mediante un grfico de barras.
El caso del histograma es muy semejante al del grfico de barras, pero se aplica cuando
la variable representada en el eje X es contnua, es decir, tiene un gran nmero de valores
diferentes. En lugar de representar todos estos valores en el eje de abscisas, se crean
intervalos de valores, donde todos los intervalos tienen el mismo tamao (abarcan un
rango de valores igual de grande). En el eje de ordenadas se representa el nmero de
casos que caen dentro de cada intervalo. El uso del histograma sera necesario, por
ejemplo, para representar grficamente la variable item18, dado que el nmero de
edades diferentes puede ser muy grande. Al crear un histograma, SPSS calcula
automticamente tanto el nmero como la amplitud de los intervalos que debe
representar en el grfico.
Ahora pruebe usted a obtener un grfico para la variable item01. Pulse el botn
etiquetado Grficos. Aparecer este cuadro de dilogo:
56
Frecuencia
6
4
2
0
nada
regular
bien
57
Como las opciones para estadsticos son bastante amplias, las iremos viendo una por
una: Tendencia central, Dispersin, Distribucin, y Valores percentiles.
5.1.2. ndices de Tendencia central
20
0
2.70
3.00
3
54
La moda es el valor de la variable que tiene la frecuencia ms alta. Para saber cul es la
moda basta con observar en la distribucin de frecuencias cul es el valor ms frecuente.
En el caso de item01, observbamos que el valor 1 tena 1 frecuencia, el valor 2 tena 4
frecuencias, y el valor 3 tena 15 frecuencias. Por tanto, la moda ser 3. ste es el valor
que aparece en su listado.
58
La mediana es un valor de la variable (observado o no) tal que deja la mitad de las
observaciones (datos) por encima y la otra mitad por debajo. Para el clculo de la
mediana hay que considerar dos casos:
a) cuando el nmero total de observaciones N es impar;
b) cuando el nmero total de observaciones N es par.
Cuando N es impar se ordenan las observaciones de menor a mayor y se toma como
mediana la observacin que deje la mitad de los observaciones (restantes) por debajo y
la otra mitad por encima. Por ejemplo, considrense las 5 observaciones siguientes (N =
5):
8, 3, 5, 6, 3.
En un primer paso, ordenamos las observaciones:
3, 3, 5, 6, 8.
Se observa que el valor 5 deja la mitad de las observaciones (3,3) por debajo y la otra
mitad (6,8) por arriba. Por tanto la mediana es 5.
Una manera ms precisa de definir la mediana consiste en describirla como la
observacin que ocupe el nmero de orden (N+1)/2. En este caso, (N+1)/2 = (5+1)/2 =
3. La observacin que ocupa el tercer lugar es el 5. Por tanto, la mediana es 5.
Cuando el nmero de observaciones N es par, la mediana es el punto medio entre la
observacin que ocupa el nmero de orden N/2 y la observacin que ocupa el nmero de
orden (N/2) + 1. Por ejemplo, considrense las seis observaciones siguientes (N = 6):
8, 3, 5, 6, 3, 2.
Primero, se ordenan las observaciones:
2, 4, 4, 5, 6, 8.
La observacin que ocupa el nmero de orden 6/2 (es decir, el tercer lugar) es el 4. La
observacin que ocupa el nmero de orden (6/2) + 1 (es decir, el cuarto lugar) es el 5. El
punto medio entre 4 y 5 es 4.5. Por tanto la mediana es 4.5.
En el caso de nuestro listado, observar que la mediana para item01 es 3. Para ver cmo
se obtiene este resultado, recuerde que item01 tena 3 posibles valores (1, 2, 3), y que las
frecuencias de estos valores eran 1, 4 y 15, respectivamente. He aqu las 20
observaciones ordenadas:
1 2 2 2 2 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3.
59
N aqu es par (20). La observacin que ocupa el lugar N/2 (es decir, el dcimo lugar) es
un 3, y la observacin que ocupa el lugar (N/2)+1 (es decir, el undcimo lugar) tambin
es un 3. El punto medio entre 3 y 3 es 3. De ah que la mediana sea 3.
La media aritmtica es el valor central con propiedades estadsticas ms deseables. La
media aritmtica se define como la suma de todas las observaciones obtenidas para una
variable, dividida por el nmero total de observaciones (N). Formalmente, la media
arimtica ( X ) se puede definir as:
N
X
X =
i=1
N
donde Xi es una observacin (dato o medida). En adelante, por simplicidad, una
observacin la representamos simplemente por X, prescindiendo del subndice i. En
consecuencia, tampoco ofreceremos los lmites de la suma () que siempre son 1, en el
lmite inferior, y N en el lmite superior.
Para comprender por qu la media aritmtica es el valor central por excelencia,
considrense las 4 observaciones siguientes:
1, 2, 4, 5.
La media aritmtica es
X =
1+ 2 + 4 + 5
= 3
4
La desviacin (distancia o diferencia) existente entre cada una de las observaciones (1,
2, 4, 5) con respecto a 3 es, en conjunto, la menor posible. No existira otro valor
numrico que hiciera ms pequeas estas desviaciones. Si medimos una a una estas
desviaciones obtenemos:
1 - 3 = -2
2 - 3 = -1
4-3= 1
5-3= 2
Se puede hacer la observacin principal de que la suma de las desviaciones negativas (3), correspondientes a valores que estn por debajo de la media aritmtica, es igual a la
suma de la desviaciones positivas (3), correspondientes a valores situados por encima de
la media aritmtica. Esta propiedad produce que la suma de todas las desviaciones sea
cero. En consecuencia, se dice que la media aritmtica minimiza las desviaciones.
A modo de contraste, imagine que tomramos como valor representativo del conjunto de
observaciones el 4. En este caso tendramos:
60
1 - 4 = -3
2 - 4 = -2
4-4= 0
5-4= 1
Se observa que la suma de las desviaciones negativas (-5) es mayor que la suma de las
desviaciones positivas (1), lo que produce que 4 no minimice las desviaciones.
Volviendo a nuestro listado, podr observar que la media aritmtica para item01 es 2.7.
5.1.3. ndices de Dispersin
Supongamos que 3 sujetos (N=3) obtienen las tres puntuaciones siguientes en una
prueba:
7, 8, 9.
Denominemos a este conjunto de observaciones A. La media aritmtica de A es 8.
Asumamos ahora que otros 3 sujetos (N=3) obtienen estas puntuaciones en la misma
prueba:
1, 8, 15.
Denominemos a este segundo conjunto B. La media aritmtica de B tambin es 8.
Se observa fcilmente que, aunque los conjuntos de observaciones A y B tienen la
misma media aritmtica, son sustancialmente distintos. Qu es lo que los hace
distintos? La respuesta es: la variabilidad.
La manera ms elemental de medir la variabilidad para un conjunto de observaciones
consiste en describir cul es el valor observado ms bajo, o mnimo, cul es el valor
observado ms alto, o mximo, y cul es la diferencia entre ambos. A esta diferencia se
le denomina Amplitud total o tambin Rango.
A continuacin se ofrecen estos ndices para los conjuntos A y B:
Mnimo
Mximo
Rango
conjunto A
7
9
2
conjunto B
1
15
14
Todos estos ndices reflejan el hecho emprico de que B es ms variable que A. Pero, a
pesar de que estos ndices son tiles para medir la variabilidad de las observaciones
correspondientes a una variable, existen otros ndices de variabilidad con propiedades
estadsticas ms deseables. Estos ndices son la varianza y la desviacin tpica.
61
Desde el punto de vista de estos ndices, la variabilidad se mide utilizando como punto
de referencia la media aritmtica. Cuanto ms se desven las observaciones de la media
aritmtica mayor ser la variabilidad, y cuanto menos se desven menor. La manera ms
simple de operativizar esta definicin parece que podra obtenerse en los dos pasos
siguientes:
1. Hallar la desviacin (distancia o diferencia) entre cada observacin y la media
aritmtica.
Esto en A sera:
7-8 = -1
8-8 = 0
9-8 = 1
Esto mismo en B sera:
1-8 = -7
8-8 = 0
15-8 = 7
2. Hallar la media de las desviaciones obtenidas en el paso 1.
La media de las desviaciones en A sera:
-1+ 0 + 1
= 0
3
S =
62
2
Sx =
S =
(X - X )2
N
Al elevar las desviaciones al cuadrado se evita el problema de los signos, lo cual es muy
til para el objetivo que se busca aqu. No obstante, la elevacin al cuadrado produce
una "distorsin" notable de las desviaciones que provoca, a su vez, problemas de
interpretacin. A modo de ejemplo, en el conjunto de observaciones B, la observacin
ms baja era el 1, y la ms alta era el 15. La varianza, no obstante, era 32.67, que se sale
fuera del rango de las observaciones obtenidas. Un procedimiento muy prctico, que
permite recuperar la escala original de las observaciones, consiste en hallar la raz
cuadrada de la varianza. A este ndice se le denomina desviacin tpica, y se representa
por Sx. Formalmente,
Sx =
S 2x
0.67 1 = 0.82.
32.67 2 = 5.72.
(X - X )2
N -1
63
S =
S =
Para entender por qu SPSS ofrece esta definicin modificada de la varianza, permtame
proponerle un ejemplo. Imagine que una empresa con 10.000 empleados le encarga a
usted un sondeo de opinin sobre el nivel de satisfaccin laboral de sus empleados. Por
razones econmicas y de tiempo, le piden que el estudio no lo haga con los 10.000
empleados sino con una muestra aleatoria de tan slo 800 empleados. Su objetivo es
conocer la satisfaccin laboral de los 800 empleados y extrapolar, luego, este
conocimiento a los 10.000 empleados de la empresa. Entre los indicadores de la
satisfaccin laboral usted elige la media aritmtica y la varianza. Pues bien, se sabe que
la mejor estimacin de la media aritmtica de los 10.000 empleados sera la media
aritmtica de los 800 empleados; sin embargo, esto no es verdad para la varianza. La
mejor estimacin de la varianza de los 10.000 empleados no sera la varianza de los 800,
sino la varianza de los 800 empleados ligeramente aumentada. Precisamente, para
producir este aumento se divide la suma de cuadrados del numerador de la definicin de
varianza entre N-1. SPSS supone, por tanto, que el inters del usuario es la inferencia, la
extrapolacin de las conclusiones obtenidas en una muestra a una poblacin de donde es
extrada dicha muestra. A veces, para distinguir la varianza con N en el denominador de
la varianza con N-1 en el denominador se le denomina, a la primera, varianza y, a la
segunda, cuasi-varianza. No obstante, esta distincin no se hace en SPSS, y la nica
varianza que se ofrece es la cuasi-varianza.
Todos los ndices de variabilidad a los que nos hemos referido hasta ahora (mnimo,
mximo, rango, varianza, desviacin tpica) pueden obtenerse en SPSS. En el caso de
item01, por ejemplo, para obtener estos ndices se puede proceder de la siguiente
manera:
Vuelva a solicitar un anlisis de frecuencias. Puede hacer esto utilizando de nuevo el
men o utilizando la barra de botones.
El botn Rellamada de cuadro de dilogo le permite volver a llamar a un
procedimiento de anlisis estadstico previamente utilizado.
En el cuadro de dilogo correspondiente al procedimiento Frecuencias, vuelva a pulsar
el botn Estadsticos. Elimine la seleccin anterior sobre la media, mediana, moda y
suma. Vaya ahora el recuadro etiquetado Dispersin. Los ndices de variabilidad o
dispersin que SPSS nos ofrece son: desviacin tpica, varianza, amplitud o rango,
mnimo y mximo, y error tpico de la media. Seleccione los cinco primeros, deje el
64
20
0
.57
.33
2
1
3
0.571
x 100 = 21.15
2.7
Otro ndice de variabilidad que se recoge en los libros de estadstica es la amplitud semiintercuartil. Con este ndice se mide la variabilidad sin utilizar la media aritmtica. La
amplitud semi-intercuartril (Q) se define as:
65
Q =
Q3 - Q1
2
Imagine que realiza una prueba a 15 sujetos y obtiene los siguientes resultados:
Sujeto
1
2
3
4
5
6
7
8
X
3
5
2
5
4
4
4
3
Sujeto
9
10
11
12
13
14
15
X
1
3
3
2
2
1
3
66
0
1.0
2.0
3.0
4.0
5.0
g1 =
N (X - X )3
(N - 1)(N - 2) S 3x
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
3
5
2
5
4
4
4
3
1
3
3
2
2
1
3
_
3
(X-X )
0
8
-1
8
1
1
1
0
-8
0
0
-1
-1
-8
0
0
Como el resultado de esta suma es cero, el numerador ser cero. En consecuencia, sea
cual sea el denominador, g1 ser cero.
Ntese en el grfico anterior como la simetra puede "romperse" de dos maneras
distintas. Una sera "mover" los datos de forma que haya ms observaciones en la parte
alta (hacia la derecha en el grfico) que en la parte baja. A modo de ejemplo, hagamos
que los resultados de los 15 sujetos en la prueba fueran los siguientes:
67
Sujeto
1
2
3
4
5
6
7
8
X
3
5
2
5
4
4
4
3
Sujeto
9
10
11
12
13
14
15
X
1
3
3
5
2
4
3
0
1.0
2.0
3.0
4.0
5.0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
3
5
2
5
4
4
4
3
1
3
3
5
2
4
3
68
_
3
(X-X )
-0.064
4.096
-2.744
4.096
0.216
0.216
0.216
-0.064
-13.824
-0.064
-0.064
4.096
-2.744
0.216
0.064
-6.480
(15) (-6.480)
-97.2
=
= -0.32
(14)(13)(1.65) 300.3
X
3
5
2
1
4
2
4
3
Sujeto
9
10
11
12
13
14
15
X
1
3
3
2
2
1
3
0
1.0
2.0
3.0
4.0
5.0
69
g1 =
Sujeto
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
3
5
2
1
4
2
4
3
1
3
3
2
2
1
3
_
3
(X-X )
-0.064
13.824
-0.216
-4.096
2.744
-0.216
2.744
0.064
-4.096
0.064
0.064
-0.216
-0.216
-4.096
0.064
6.416
(15) (6.416)
96.24
=
= 0.32
(14)(13)(1.65) 300.3
5.1.4.2. Curtosis
X
3
5
2
5
4
4
4
3
Sujeto
9
10
11
12
13
14
15
X
1
3
3
2
2
1
3
70
g2 =
Sujeto
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
3
5
2
5
4
4
4
3
1
3
3
2
2
1
3
_
2
(X-X )
_
4
(X-X )
0
4
1
4
1
1
1
0
4
0
0
1
1
4
0
22
0
16
1
16
1
1
1
0
16
0
0
1
1
16
0
70
[(15)(16)(70)] - [(3)(22)(22)(14)]
= -0.654
(14)(13)(12)(2.4694)
71
Observacin ms baja,
Observacin ms alta,
Media aritmtica,
Desviacin tpica.
Por ejemplo, si nuestro objetivo fuese describir la distribucin de la variable item01 del
estudio sociolingtico, y asumimos que est medida a nivel de intervalos, quedara
adecuadamente descrita si sealamos que el valor observado ms bajo era el 1, el ms
alto el 3, la media aritmtica 2.7, y la desviacin tpica 0.57.
En ocasiones, dependiendo de los anlisis estadsticos que se vayan a realizar
posteriormente, suele ser til definir, adems de los 4 ndices sealados, la forma de la
distribucin de la variable; es decir, su asimetra y su curtosis.
Si la escala es ordinal, nuestro consejo es que se describa igualmente el valor observado
ms bajo y el ms alto; pero que, en lugar de la media aritmtica se defina la mediana, y
en lugar de la desviacin tpica, la amplitud semi-intercuartil.
Finalmente, si la escala es nominal, nuestro consejo es que se ofrezca la distribucin de
frecuencias (con excepcin de la columna de porcentajes acumulados), haciendo
especial nfasis en sealar cul es el valor observado ms bajo, el ms alto, y aquel que
ms veces se repite (moda).
5.1.6. Procedimiento alternativo para el clculo de estadsticos descriptivos
72
73
Por ejemplo, imagine que se ha presentado a una prueba para acceder a un determinado
puesto de trabajo. Cuando termina la prueba le indican que usted ha obtenido una
puntuacin global de 35. En principio, usted no dispone de criterios para juzgar si dicha
puntuacin es buena, mala o regular. Lo que la hace buena, mala o regular es la
ejecucin de los dems solicitantes.
5.2.1. Valores percentiles
frecuencia acumulada
x 100
numero de observaciones
74
Z =
X-X
Sx
75
Valor de Z
-3
-2
-1
0
1
2
3
Porcentaje acumulado
0.14%
2.28%
15.87%
50.00%
84.13%
97.72%
99.86%
Pulse el botn Aceptar. En el visor de resultados aparecer una tabla con los estadsticos
descriptivos por defecto para item01 (n de sujetos, mnimo, mximo, media y
desviacin tpica). Vaya ahora al editor de datos y sitese en la ltima variable del
archivo de datos; ver que aparece una nueva variable llamada zitem01. Los valores de
esta variable son las puntuaciones Z correspondientes a los valores 1, 2 y 3 de la variable
original. De este modo, el 1 se convierte en la puntuacin Z: -2.97598; el 2 se convierte
en la puntuacin Z: -1.22540; finalmente, el 3 se convierte en la puntuacin Z: 0.52517.
Observe que las puntuaciones Z correspondientes a los valores 1 y 2 son negativas, ya
que 1 y 2 se encuentran por debajo de la media de item01 (2.70), mientras que la
puntuacin Z correspondiente al valor 3, que se encuentra por encima de la media, es
positiva.
76
6.1. La covarianza
La covarianza es un ndice para la medida de la relacin entre dos variables, que ofrece
informacin sobre los dos siguientes aspectos:
1. Si existe o no relacin entre dos variables X e Y;
2. Cul es la direccin de la relacin (positiva o negativa).
Formalmente la covarianza puede representarse como cov (X,Y) y se define de la
siguiente manera:
cov (X,Y) =
xy
N
xy
N -1
x= XX
y = Y Y
77
Y
4
2
9
7
3
25
x
14
-36
34
4
-16
y
-1
-3
4
2
-2
xy
-14 _
108 X = 46
136 _
8 Y= 5
32
270
cov (X,Y) =
xy
270
=
= 67.5
N -1
4
78
debe seguir siendo la misma. Para hacer esta idea ms comprensible, suponga que X son
las notas en la Universidad e Y son las horas de estudio. Suponga que se sabe que existe
una relacin positiva, a ms horas de estudio mejores notas. Si esto es verdad, la relacin
debe ser la misma si el rendimiento se mide en una escala e 0 a 10 que si se mide en una
escala de 0 a 100. Pues bien, la covarianza sera positiva en ambos casos, pero su valor
sera distinto.
r xy =
Zx Zy
N
r xy =
Zx Zy
N -1
Y
4
2
9
7
3
ZX
0.5182
-1.3324
1.2584
0.1480
-0.5922
r xy =
ZY
-0.3430
-1.0290
1.3720
0.6860
-0.6860
ZxZy
-0.1777 _
1.3710 X = 46,
1.7265 _
0.1015 Y = 5,
0.4063
3.4276
Sx = 27.0185
Sy = 2.9155
Zx Z y
3.4276
=
= 0.8569
N -1
4
79
r xy =
cov(X,Y)
Sx S y
r xy =
cov(X,Y)
Sx S y
67.5
= 0.8569
(27.0185)(2.9155)
Para la interpretacin de este resultado (0.8569) debemos tener en cuenta que rxy oscila
entre los valores -1 y 1, donde 1 indica la existencia de una relacin (lineal) positiva
perfecta entre X e Y, y -1 indica la existencia de una relacin (lineal) negativa perfecta
entre X e Y. Otro criterio que ayuda a interpretar rxy es el significado del valor 0. Al igual
que ocurra con la covarianza, un valor de rxy igual a 0 indica que no existe relacin
(lineal) entre X e Y. Por tanto, para interpretar rxy debemos observar, primero, si ste es
positivo, negativo o igual a cero. Un valor positivo indica relacin (lineal) positiva, un
valor negativo indica relacin (lineal) negativa y un valor igual a 0 indica que no existe
relacin (lineal) entre X e Y.
En el ejemplo, rxy = 0.8569 indica dos cosas:
1. que la relacin entre X e Y es positiva, puesto que 0.8569 es positivo;
2. que la relacin es intensa, puesto 0.8569 est mucho ms cerca de 1 que de 0.
Una apreciacin interesante que cabe hacer aqu es que el signo de rxy no es un indicador
de la intensidad de la relacin. Por tanto, si tuviramos un valor de rxy igual a 0.50 y otro
valor de rxy igual a -0.90 no podramos concluir que la primera relacin (0.50) es ms
intensa que la segunda (-0.90). Al contrario la segunda relacin (-0.90) es mucho ms
intensa que la primera (0.50) porque -0.90 est mucho ms prximo a -1 (relacin
perfecta) que 0.50 a 1 (relacin perfecta). Recuerde que el signo slo sirve para
representar la direccin de la relacin (positiva o negativa). En efecto, en un caso la
relacin es positiva (0.50) y en otro negativa (-0.90).
A pesar de tener unos lmites (-1 y 1) y un punto central (el cero), con un significado
inequvoco, la interpretacin del coeficiente de correlacin de Pearson puede portar
cierta subjetividad. La manera ms objetiva de interpretar rxy se consigue elevndolo al
cuadrado. El cuadrado del coeficiente de correlacin de Pearson tiene, incluso, un
nombre propio: coeficiente de determinacin. El coeficiente de determinacin ofrece la
ventaja de que indica la cantidad de varianza comn a X y a Y, expresada dicha cantidad
en tantos por uno. Si elevramos el coeficiente de correlacin que obtuvimos en el
ejemplo (rxy = 0.8569) al cuadrado obtendramos un valor de 0.7343, que es la
proporcin de varianza comn o compartida por X e Y. A veces se establece una
direccin en la relacin y se le denomina proporcin de varianza de Y determinada por X
(de ah el nombre de coeficiente de determinacin).
80
81
entiendo el
gallego hablado
entiendo el
gallego escrito
Correlacin de Pearson
Sig. (bilateral)
Suma de cuadrados y
productos cruzados
Covarianza
N
Correlacin de Pearson
Sig. (bilateral)
Suma de cuadrados y
productos cruzados
Covarianza
N
entiendo
el gallego
hablado
1.000
.
6.200
.326
20
.926**
.000
entiendo
el gallego
escrito
.926**
.000
5.900
.311
20
1.000
.
5.900
6.550
.311
20
.345
20
82
item01 item02
item01
r11 r12
r
item02
21 r22
Formalmente, un elemento se representa por una letra minscula (aqu la r de rxy) y dos
subndices. El primer subndice se refiere a la fila. Observe como en los dos elementos
de la fila 1 el primer subndice es un 1. De forma similar, observe como el primer
subndice de los elementos de la segunda fila es un 2. El segundo subndice se refiere a
la columna. Observe como el segundo subndice de la columna 1 es un 1 y el segundo
subndice de la columna 2 es un 2.
La matriz que usted ha obtenido tiene cuatro elementos. El elemento r11 es la correlacin
de Pearson entre item01 e item01, es decir, la correlacin de item01 consigo misma.
Evidentemente, esta correlacin tiene que ser perfecta positiva. Por eso, el valor
numrico que se observa en dicha posicin en el listado de SPSS es un 1. El elemento
r12 es la correlacin entre la item01 e item02 (.926). El elemento r21 es la correlacin de
Pearson entre item02 e item01. Obviamente, esta correlacin tiene que ser idntica a la
correlacin entre item01 e item02. Por eso el coeficiente de correlacin es tambin .926.
Finalmente, el elemento r22 es la correlacin entre item02 e item02. Por eso, el resultado
es 1.
Cuando slo se analizan dos variables no se observa la ventaja de ordenar los
coeficientes de correlacin en una matriz. Esta observacin se hace ms fcilmente
cuanto mayor sea el nmero de variables. Pruebe a hacer el mismo anlisis con item01,
item02, e item03. Si realiza este ejercicio, obtendr una matriz de correlaciones con el
siguiente formato:
item02
r21 r22 r23
r31 r32 r33
item03
Dado que las filas son variables y las columnas son esas mismas variables, la matriz de
correlaciones siempre ser cuadrada (nmero de filas = nmero de columnas). Una
matriz cuadrada se puede descomponer en tres partes: (a) la diagonal principal; (b) el
tringulo superior; y (c) el tringulo inferior.
La diagonal principal est formada por aquellos elementos en que el primer subndice y
el segundo son iguales. Los elementos de la diagonal principal de la matriz anterior son
r11, r22 y r33. Ya habamos sealado que una caracterstica distintiva de la matriz de
83
84
xy
x2
Y
4
2
9
7
3
25
x
14
-36
34
4
-16
b =
y
-1
-3
4
2
-2
xy
-14
108
136
8
32
270
x y 270
=
= 0.09247
x 2 2920
85
x
196
1296
1156
16
256
2920
_
X = 46
_
Y=5
a = Y bX = 5 (0.09247)(46) = 0.74638
La ecuacin de regresin lineal sera, por tanto, la siguiente:
Y = 0.74638 + 0.09247 X.
A nivel interpretativo, la constante a indica el valor que le corresponde a Y cuando X es
igual a 0. A la constante a se le denomina interceptal. La constante b indica el cambio
medio que se producira en Y ante el cambio de una unidad en X. A esta constante se le
denomina pendiente y es la ms interesante desde un punto de vista sustantivo. Lo
primero que debemos observar en b es su signo. Una constante b con signo positivo
indica que ante un incremento de X tambin se producira un incremento de Y. Una
constante b negativa indica que ante un incremento de X se producira una disminucin
del valor de Y. En este caso, un valor de b igual a 0.09247 indica que ante el incremento
de una unidad en X, se produce un incremento medio de 0.09247 unidades en Y.
Para ilustrar la utilidad de la ecuacin de regresin estimada anteriormente, imagine que
nos indican que un sujeto, distinto de los 5 anteriores, ha obtenido una puntuacin en
inteligencia igual a 70. Este sujeto, adems, no ha realizado la prueba Y y nos requieren
que hagamos un pronstico de su rendimiento en tal prueba. Como tenemos construida
la ecuacin de regresin de Y sobre X, resolvemos en ella para X = 70 y ya obtenemos la
prediccin en Y. Esto es,
Y = 0.74638 + (0.09247) (70) = 7.22.
La ecuacin de regresin nos permiti realizar una prediccin de 7.22 para este nuevo
sujeto. As se podra utilizar la misma ecuacin de regresin para realizar predicciones
para otros muchos sujetos.
Ahora bien, una vez hecha esta prediccin nos podran preguntar por el grado de
"fiabilidad" de la misma. Para contestar a esta pregunta deberamos disponer de ndices
que reflejaran la precisin de la ecuacin de regresin.
Existen dos maneras de enfrentarse al problema de la "fiabilidad" de la ecuacin de
regresin. Una consiste en medir el error tpico que se comete utilizando la ecuacin de
regresin. La otra consiste en medir la cantidad de variabilidad de Y que explica la
ecuacin de regresin.
Para comprender cmo se obtiene una medida global del error, recuerde que el error se
defina as:
Error = Y - Y
donde Y es el verdadero valor de Y, e Y es la prediccin que se realiza en Y mediante la
ecuacin de regresin.
En principio podra pensarse que una medida global del error se obtendra hallando la
media de los errores. Esto es,
86
(Y - Y )
N
Esto sera correcto de no ser porque se sabe que la suma de los errores (el numerador)
siempre es igual a 0. Para comprobarlo numricamente se ofrecen, a continuacin, estos
valores para el mismo ejemplo numrico tratado anteriormente:
Y
4
2
9
7
3
Y
6.29
1.67
8.14
5.37
3.53
Y-Y
-2.29
0.33
0.86
1.63
-0.53
0.00
Observe como la suma de los errores cometidos con la ecuacin de regresin, (Y-Y),
es igual a 0. Este hecho no slo sera cierto para estos datos, sino para cualquier par de
valores (X,Y).
Para evitar este problema de la no aditividad de los errores, lo que se hace es elevarlos al
cuadrado y hallar, luego, la media de dichos cuadrados. Formalmente,
(Y - Y )2
N
Observe que este ndice es una medida global de la magnitud del error que se comete
utilizando una ecuacin de regresin dada. Cuanto mayor sea este ndice, mayor es el
error. Observe tambin que este ndice es un tipo de varianza. Precisamente, por esta
razn, se le denomina varianza de los errores o tambin varianza residual. El trmino
"residuo" se utiliza en este contexto en el sentido de "error".
Dado que para el clculo de la varianza residual se han elevado los errores al cuadrado,
su interpretacin es difcil. Por esta razn, es muy til hallar la raz cuadrada de la
varianza residual. Este ndice es una desviacin tpica que, en este contexto, se
denomina error tpico. Formalmente, el error tpico se define as:
(Y - Y )2
N
87
Y
4
2
9
7
3
Y
6.29
1.67
8.14
5.37
3.53
Error tpico =
Y-Y
-2.29
0.33
0.86
1.63
-0.53
9.0304
=
5
(Y-Y)
5.2441
0.1089
0.7396
2.6569
0.2809
9.0304
1.81 = 1.34
Ntese que un error tpico de 1.34 indica que el error que se comete pronosticando una
puntuacin de 7.22, para un hipottico sujeto que hubiese obtenido una puntuacin en X
igual a 70, no es alto. Si el error fuese alto este ndice debera estar prximo a 2.9155.
En este caso, 1.34 se aleja bastante de 2.9155.
Otra manera de aproximarse al problema de la "fiabilidad" de las predicciones realizadas
con la ecuacin de regresin consiste en medir la cantidad de variabilidad de Y que es
capaz de explicar la ecuacin de regresin. Esta aproximacin suele realizarse de dos
maneras. Una de ellas consiste en hallar el coeficiente de correlacin de Pearson entre
los verdaderos valores de Y y los valores predichos por la ecuacin de regresin (Y).
Formalmente, este coeficiente, que aqu denominaremos ryy, puede definirse as:
r yy =
cov(Y,Y )
SySy
Es importante sealar que, a diferencia de rxy, ryy no asume valores negativos, oscila
entre 0 y 1. Un valor de ryy negativo significara que cuando Y es un valor alto, la
prediccin Y es un valor bajo, y viceversa. Obviamente, esto no tendra sentido en este
contexto.
En el ejemplo anterior, utilizando la definicin de covarianza y de desviacin tpica
incorporada en SPSS, obtendramos un valor de ryy igual a 0.8569. A continuacin se
ofrece el procedimiento seguido para obtener este resultado:
Y
4
2
9
7
3
Y
6.29
1.67
8.14
5.37
3.53
y
-1
-3
4
2
-2
y
1.29
-3.33
3.14
0.37
-1.47
cov(Y,Y ) =
yy
-1.29 _
9.99 Y = 5,
12.56 _
0.74 Y = 5,
2.94
24.94
Sy = 2.9155
Sy = 2.4955
24.94
= 6.235
4
Por tanto,
88
r yy =
6.235
= 0.8569
(2.9155)(2.4955)
Si procedemos de la misma manera que hicimos con rxy y elevamos ryy al cuadrado
obtenemos la proporcin de variabilidad de Y que es explicada por sus predicciones (Y)
o, lo que es lo mismo, la proporcin de variabilidad de Y que es explicada por la
ecuacin de regresin. Para el ejemplo, tenemos
r2yy = (0.8569)2 = 0.7343.
Observe que una proporcin de variabilidad explicada igual a 0.7343 indica la existencia
de una alta fiabilidad en las predicciones que se realicen con la ecuacin de regresin. El
valor mximo de esta proporcin sera 1, y el mnimo 0. Una proporcin de 0.7343 est
bastante cerca de 1.
Otra manera de conocer la cantidad de variabilidad de Y explicada por la ecuacin de
regresin se fundamenta en una propiedad sumamente interesante que posee la
variabilidad de Y. Se sabe que la variabilidad de Y puede descomponerse en dos partes
aditivas: (1) la variabilidad de Y que puede explicar la ecuacin de regresin
(abreviadamente, Variabilidad Regresin); y (2) la variabilidad de Y que no puede
explicar la ecuacin de regresin (abreviadamente, Variabilidad Residual). Esto es,
Variabilidad de Y = Variabilidad Regresin + Variabilidad Residual,
donde
Variabilidad de Y =
(Y Y )
Variabilidad Regresin =
Variabilidad Residual =
(Y 'Y )
(Y Y ')
Y
6.29478
1.67128
8.14418
5.37008
3.52068
_
2
(Y-Y)
1
9
16
4
4
34
_
2
(Y-Y)
1.68
11.08
9.88
0.14
2.19
24.97
89
(Y-Y)
5.27
0.11
0.73
2.65
0.27
9.03
_
Y=5
_
Y = 5
Tal como habamos sealado, se puede observar que la Variabilidad de Y (aqu 34) es
igual a la suma de la Variabilidad explicada por la ecuacin de regresin (Variabilidad
Regresin, aqu 24.97) y la Variabilidad no explicada por la ecuacin de regresin
(Variabilidad Residual, aqu 9.03).
Una coincidencia importante se obtiene si dividimos ahora lo que hemos denominado
Variabilidad Regresin entre lo que hemos denominado Variabilidad de Y. El cociente
es la proporcin de Variabilidad de Y explicada por la ecuacin de regresin, y esta es la
definicin del cuadrado de ryy. En efecto, si dividimos en el ejemplo 24.97 entre 34
obtenemos un cociente de 0.7343 que es justamente el cuadrado de 0.8569, que era el
valor de ryy.
Veamos cmo llevaramos a cabo un anlisis de regresin de item03 (variable
dependiente) sobre item01 (variable independiente) del estudio sociolingstico. En
primer lugar, seleccione la opcin Analizar. En el men que se despliega a continuacin,
seleccione la opcin Regresin. A la derecha aparecer un nuevo men con distintos
tipos de regresin, tanto lineal como no lineal. Nosotros vamos a efectuar un anlisis de
regresin lineal; por tanto, seleccione esta opcin. Aparecer un cuadro de dilogo como
el siguiente:
90
Variables
introducidas
entiendo el
gallego a
hablado
Variables
eliminadas
Mtodo
.
Introducir
Recuerde que estamos intentando resolver un problema de regresin lineal con dos
variables X e Y. Una de estas variables (Y) se asume que es funcin lineal de la otra (X).
A la variable Y se le denomina dependiente y a X independiente. En este ejemplo la
variable dependiente es item03 y la variable independiente es item01. La siguiente tabla,
de mayor inters para nosotros, contiene el resumen del modelo:
Resumen del modelo
Modelo
1
R
.536a
R cuadrado
.287
R cuadrado
corregida
.247
Error tp. de la
estimacin
.58
p(1 - R cuadrado)
N - p -1
91
1(1 - .287 )
= .247
20 - 1 - 1
1 - R cuadrado corregida
Segn esta definicin, para el clculo del error tpico necesitamos conocer la desviacin
tpica de la variable dependiente (aqu la desviacin tpica de item03). La desviacin
tpica de item03 puede obtenerse utilizando el botn Estadsticos, situado en la parte
inferior del cuadro de dilogo del anlisis de regresin. Al pulsar ese botn aparece este
nuevo cuadro de dilogo:
92
ANOVAb
Modelo
1
Regresin
Residual
Total
Suma de
cuadrados
2.453
6.097
8.550
gl
1
18
19
Media
cuadrtica
2.453
.339
F
7.243
Sig.
.015a
Observe las dos primeras filas de esta Tabla. En ellas estn representadas las dos partes
en que descomponamos la Variabilidad de la variable dependiente (aqu item03). Estas
partes eran la Variabilidad explicada por la ecuacin de regresin (Regresin) y la
Variabilidad no explicada por la ecuacin de regresin (Residual). Recuerde que la
Variabilidad se defina como una Suma de Cuadrados. Por eso, en la columna 2 se
ofrecen las Sumas de Cuadrados para el componente explicado por la ecuacin de
regresin (2.453) y para el componente no explicado por la ecuacin de regresin
(6.097). Conocidos estos dos componentes, tenemos informacin para obtener la Suma
de Cuadrados de item03. Esto es,
Suma de Cuadrados de item03 = 2.453 + 6.097 = 8.55.
Como la Suma de Cuadrados de item03 es el numerador de su varianza, tenemos que
Varianza de item03 =
0.45 = 0.67.
Ahora ya disponemos de toda la informacin necesaria para calcular el error tpico:
Error tpico = 0.67 1 - 0.247 = .58
Anteriormente se ha indicado que R cuadrado es el cuadrado de ryy. Esta medida indica
la proporcin de Variabilidad de item03 explicada por la ecuacin de regresin. En este
caso, R cuadrado es .287. Otra manera de obtener esta proporcin sera dividiendo la
Suma de Cuadrados explicada por la ecuacin de regresin entre la Suma de Cuadrados
de item03. Esto es,
Suma de Cuadrados regresin 2.453
=
= .287
Suma de Cuadrados de item 03 8.55
93
En este caso,
gl = 20 - 1 - 1 = 18.
MC Regresin 2.453
=
= 7.24
MC Residual
.339
94
Coeficientesa
Modelo
1
(Constante)
entiendo el
gallego hablado
Coeficientes no
estandarizados
B
Error tp.
.452
.644
.629
Coeficient
es
estandari
zados
Beta
.234
.536
t
.701
Sig.
.492
2.691
.015
95
Dado que el cero no se encuentra entre los lmites del intervalo, concluimos que el valor
de b (.629) es fiable o estadsticamente significativo.
El valor Beta igual a .536 ofrecido en la siguiente columna de la tabla es el valor de b si
se estandarizaran tanto la variable independiente como la variable dependiente. Es decir,
es el valor de b si tanto item01 como item03 se transformaran en puntuaciones tpicas
(Z). Recurdese que si se realizara esta transformacin las dos variables tendran la
misma media (0 en ambos casos) y la misma varianza (1 en ambos casos). La
transformacin de b en BETA se obtiene de la siguiente manera:
BETA = b
0.57
= .535
0.67
constante b
0.629
=
= 2.69
0.234
error tpico de b
Ntese que los valores de Y, X1 y X2 son conocidos para un problema dado, y los valores
de a, b1 y b2 desconocidos. Las constantes a, b1 y b2 se pueden calcular por el mismo
procedimiento de mnimos cuadrados utilizado en la regresin con una variable
independiente. Recuerde que este procedimiento garantiza la bsqueda de valores para
las constantes que producen los errores ms pequeos posibles.
A la constante a se le sigue denominando interceptal e indica el valor de Y cuando X1 y
X2 son ambas iguales a 0. La constante b1 indica el cambio medio en Y ante el cambio de
una unidad en X1, bajo el supuesto de que X2 permanece constante. Por esta razn se le
denomina coeficiente de regresin parcial de la variable X1. De forma similar, la
constante b2 indica el cambio medio en Y ante el cambio de una unidad en X2, bajo el
supuesto de que X1 permanece constante. A la constante b2 se le denomina coeficiente de
regresin parcial de la variable X2.
En trminos generales, la ecuacin de regresin mltiple tiene la siguiente forma:
Y = a + b1X1 + b2X2 + ... + bpXp
R
.627a
R cuadrado
.393
R cuadrado
corregida
.322
Error tp. de la
estimacin
.77
97
ANOVAb
Modelo
1
Regresin
Residual
Total
Suma de
cuadrados
6.512
10.038
16.550
gl
2
17
19
Media
cuadrtica
3.256
.590
F
5.514
Sig.
.014a
Modelo
1
(Constante)
entiendo el
gallego hablado
soy capaz de
hablar en gallego
Coeficientes no
estandarizados
B
Error tp.
1.093
.862
Coeficient
es
estandari
zados
Beta
t
1.267
Sig.
.222
-6.75E-02
.365
-.041
-.185
.856
.902
.311
.648
2.899
.010
98
La ventaja que tiene la tipificacin es que permite la comparacin entre los coeficientes
de regresin parcial.
Dado que el coeficiente de regresin parcial asociado con item01 es no significativo se
podra reducir la ecuacin de regresin con dos variables independientes a una sla,
formada con item03. Esto es,
item11 = b item03.
Para facilitar este tipo de simplificaciones, SPSS dispone de un mtodo alternativo al
mtodo Introducir, denominado Pasos sucesivos. El mtodo por pasos sucesivos
selecciona las variables independientes, de forma tal que primero entra en la ecuacin la
que tiene la relacin significativa ms alta con la variable dependiente, luego la que tiene
la segunda relacin significativa ms alta y as sucesivamente. Si realiza el problema
anterior comprobar como slo entra en la ecuacin item03. La variable item01 no llega
a entrar porque la relacin con la variable dependiente (item11) es no significativa. Para
ejecutar el anlisis de regresin mltiple siguiendo este procedimiento, no tiene ms que
seleccionar, en el recuadro etiquetado Mtodo, la opcin Pasos suc..
Veamos ahora, aunque sea someramente, la utilidad de los botones incluidos en el
cuadro de dilogo del procedimiento Regression. El primero de ellos, etiquetado MCP,
nos permite llevar a cabo un anlisis por el mtodo de Mnimos Cuadrados Ponderados.
Esta opcin abre un espacio aadido dentro del cuadro de dilogo, en el que podemos
incluir una variable que contenga los pesos o ponderaciones asignadas a cada sujeto. La
aplicacin de estas ponderaciones se da en casos en los que no todos los sujetos hayan
sido medidos con el mismo grado de precisin; es, por tanto, de aplicabilidad limitada a
casos muy especiales.
El segundo de los botones, el botn etiquetado Estadsticos, ya lo conoce. El siguiente
botn, etiquetado Grficos, nos permite representar grficamente los valores de los
residuos (es decir, los datos no explicados por la ecuacin de regresin) frente a los
valores originales de la variable dependiente, o frente a los valores de sta estimados por
la ecuacin de regresin, as como tambin examinar la distribucin de estos residuos.
Al igual que en el caso del cuadro de dilogo del anlisis de regresin, aqu tambin
existe la posibilidad de pedir bloques de grficos, que nos permiten examinar los
residuos desde distintos enfoques. La utilidad de estas representaciones es la de obtener
un conocimiento ms completo de la relacin existente entre las variables objeto de
anlisis. El cuadro de dilogo correspondiente tiene este aspecto:
99
Esta opcin resulta til principalmente para salvar los valores de la variable dependiente
predichos por la ecuacin de regresin (Valores pronosticados) como una nueva
variable en el archivo de datos. Estos valores pueden salvarse tanto en la misma escala
de medida que la variable dependiente (No tipificados) como en puntuaciones tpicas
(Tipificados). Las variables as generadas sern etiquetadas por SPSS con los caracteres
pre_ (predicha), seguidos del nmero de orden de creacin de la variable (pre_1, pre_2,
etc.) en el caso de valores no estandarizados., mientras que si estn en forma de
100
puntuaciones tpicas, las etiquetas de las variables empezarn por los caracteres zpr_, (z
predicha), seguidos del nmero de orden (zpr_1, zpr_2, etc.)
El ltimo botn, etiquetado Opciones, nos permite modificar los valores de F, o las
probabilidades asociadas, para que una variable independiente determinada pueda ser
incluida (Entrada) o excluida (Salida) del anlisis. La utilidad de esta opcin reside en
que podemos emplear criterios ms restrictivos para introducir una nueva variable
dependiente en la ecuacin de regresin, o criterios ms laxos para eliminarla, de los
utilizados por SPSS. Otra opcin presente en este cuadro de dilogo consiste en forzar
una recta de regresin que pase por el origen de coordenadas o, lo que es lo mismo,
forzar una ecuacin de regresin en la que no haya constante a. La opcin por defecto es
que se incluye el valor de a en la ecuacin de regresin (Incluir constante en la
ecuacin).
101
de los adultos, las de los universitarios con las de los que tienen estudios inferiores. Es
evidente que, en nuestro archivo, disponemos de una pequea muestra de hombres y de
una pequea muestra de mujeres, de una pequea muestra de jvenes y una pequea
muestra de adultos, de una pequea muestra con estudios universitarios y una pequea
muestra con estudios inferiores. Sin embargo, la comparacin estadstica se realiza para
hipotticas poblaciones mayores de observaciones posibles, y no para las muestras.
Para hacer posible esta comparacin, se establece una hiptesis estadstica a nivel de
poblacin. En el caso ms habitual, esta hiptesis establece que ambas muestras
proceden de una misma poblacin, de modo que la diferencia observada entre ambas
medias se debe al azar y, en consecuencia, no es fiable. A esta hiptesis estadstica se le
denomina hiptesis nula. El objetivo se convierte en comprobar esta hiptesis. Para ello,
se utiliza la informacin observada en las muestras, fundamentalmente sus medias y sus
varianzas. Toda la cuestin radica en decidir si la diferencia observada entre las medias
de las dos muestras es lo suficientemente grande como para poder descartar el azar como
explicacin. Como siempre, la valoracin de la diferencia entre las medias se har en
trminos probabilsticos. Afortunadamente, la distribucin de la diferencia de medias de
muestras es conocida. Si se satisfacen ciertos supuestos, se trata de una distribucin t de
Student con n1 + n2 - 2 grados de libertad, donde n1 y n2 son los tamaos de la muestra 1
y 2, respectivamente. Por tanto, lo que se hace es calcular la probabilidad de obtener una
diferencia de medias mayor (en trminos absolutos) que la obtenida. Si esa probabilidad
es igual o menor que 0.05 (es decir, pequea) se rechaza la hiptesis nula. En caso
contrario, no se rechaza. Rechazar la hiptesis equivale a afirmar que la diferencia
observada entre las medias de las dos muestras es "grande" y, en consecuencia,
significativa (fiable). Otra manera de expresar esto mismo consiste en afirmar que las
dos muestras proceden de dos poblaciones con medias distintas. No rechazar la hiptesis
nula equivale a afirmar que la diferencia entre las medias de las dos muestras es
"pequea" y, en consecuencia, no significativa (no fiable). Tambin se puede afirmar
que ambas muestras proceden de una misma poblacin.
103
Observe los dos interrogantes que aparecen a la derecha de la variable estudios. Nos
indican que SPSS no conoce los dos valores que esta variable puede tomar. Para
definirlos, pulse el botn Definir grupos. Aparecer un pequeo cuadro de dilogo
donde debe introducir ambos valores: 1 para los sujetos con estudios no superiores, y 2
para los sujetos con estudios superiores. Introduzca ahora ambos valores. El cuadro de
dilogo debe quedar as:
entiendo el
gallego hablado
Estudios recodificada
no superiores
superiores
N
13
7
Media
2.69
2.71
Desviacin
tp.
.63
.49
Error tp. de
la media
.17
.18
104
Error Tipico =
Desviacion Tipica
Raiz cuadrada tamao muestra
Por tanto,
(a) en el grupo 1,
Error tpico =
0.630
= .17.
13
Error tpico =
0.488
= .18
7
(b) en el grupo 2,
En principio, se observa que la media de los sujetos con estudios superiores (2.71) es
superior a la media de los sujetos sin estudios superiores (2.69). Por tanto, a nivel
muestral, ambas medias son distintas. Esto es innegable. Pero, la cuestin no es si ambas
medias son distintas a nivel muestral, sino si son distintas a nivel poblacional. Dicho
ms concretamente, la cuestin es si la diferencia que hay entre 2.71 y 2.69 es "pequea"
y se puede explicar por simple azar o la diferencia es "grande" y se debe a factores
sistemticos o no-aleatorios. La respuesta a esta cuestin nos la da el estadstico t que se
muestra en la siguiente tabla:
Prueba de muestras independientes
Prueba de Levene
para la igualdad de
varianzas
F
entiendo el
gallego hablado
Se han asumido
varianzas iguales
No se han asumido
varianzas iguales
.164
Sig.
.690
gl
Sig. (bilateral)
Diferencia
de medias
Error tp. de
la diferencia
95% Intervalo de
confianza para la
diferencia
Inferior
Superior
-.080
18
.937
-2.20E-02
.28
-.60
.56
-.086
15.409
.932
-2.20E-02
.25
-.56
.52
Antes de examinar el valor del estadstico t, es necesario saber si las varianzas de las
poblaciones son o no iguales. Dependiendo de que se de una u otra circunstancia, vara
el modo en que debe calcularse el valor de t. Para solucionar este problema, SPSS
somete a comprobacin la hiptesis nula de igualdad de varianzas. Esta comprobacin
se realiza mediante la prueba de Levene, que calcula un estadstico F a partir de una
transformacin de los datos originales en item01. En concreto, para cada sujeto se
calcula el valor absoluto de la diferencia entre la puntuacin obtenida en item01 y la
media en item01 para el grupo al que pertenece ese sujeto (en nuestro caso, sin estudios
superiores o con estudios superiores). Por ejemplo, un sujeto que hubiese obtenido una
puntuacin de 2 en item01 y perteneciese al grupo sin estudios superiores, obtendra esta
puntuacin transformada: |2 - 2.69| = 0.69. Por su parte, un sujeto que hubiese obtenido
una puntuacin de 1 en item01 y perteneciese al grupo con estudios superiores,
obtendra la siguiente puntuacin transformada: |1 - 2.71| = 1.71.
105
Una vez transformados los datos, se efecta un anlisis de varianza de de un factor (ver
apartado 8.1) a partir de esos datos transformados. El anlisis de varianza ser el que es
el que nos proporcione el valor final de F. Se observa en el listado que el valor de F es
.164 y su probabilidad asociada (nivel de significacin) es .690. Como el nivel de
significacin es mayor que .05 no se rechaza la hiptesis nula y se afirma que las
varianzas de ambas poblaciones son iguales.
Ahora debemos saber qu valor de t es el correcto para nuestros datos. Observe las
columnas encabezadas con el rtulo Prueba T para la igualdad de medias. La primera
columna nos indica el valor de t calculado: para el caso de que se asuman varianzas
iguales o para el caso de que se asuman varianzas distintas. En nuestro caso, y dado el
resultado de la prueba de Levene, el valor de t correcto es el que corresponde al primer
caso, el de varianzas iguales. No obstante, veamos cmo se obtiene t en ambos casos.
7.1.1. Caso de varianzas desiguales
t =
X1 - X 2
2
S1 + S 2
n1
n2
t =
2.6923-2.7143
(0.630 2 / 13)+ (0.488 2 / 7)
= - 0.86
En la columna siguiente aparecen los grados de libertad (gl), que son de 15.409. stos se
obtienen de la siguiente manera:
grados de libertad =
donde
106
1
Z1 + Z 2
s1 / n1
=
Z1
2
2
s1 / n1 + s2 / n2
/ ( n1 - 1)
s2 / n 2
Z2 = 2
2
s1 / n1 + s2 / n2
/ ( n2 - 1)
En este caso,
2
0.630 / 13
=
Z1
(
2
2
0.630 / 13) + ( 0.488 / 7)
0.488 / 7
Z2 =
2
2
( 0.630 / 13) + ( 0.488 / 7)
/ (13 - 1) = 0.0186
/ (7 - 1) = 0.0463
Por tanto,
grados de libertad =
1
= 15.409
0.0186 + 0.0463
Cuando las varianzas son iguales, SPSS calcula otro estadstico t que tambin permite la
comprobacin de la misma hiptesis nula acerca de las diferencias entre las medias de
los dos grupos en item01. Este estadstico, a diferencia del anterior, supone que ambas
muestras proceden de poblaciones que tienen idntica varianza. La definicin es la
siguiente:
t =
X1 - X2
2
2
S p / n1 + S p / n2
donde
107
2
S p=
( n1 - 1) S 21 + ( n2 - 1) S 22
n1 + n2 - 2
En este caso,
2
S p=
t =
2.6923 - 2.7143
= -.08
0.344
0.344
+
13
7
este diseo muy utilizada en las ciencias del comportamiento consiste en someter a los
mismos sujetos a ambas condiciones (experimental y control). En este caso, el sujeto
hace de par de s mismo. Este diseo que resulta tremendamente atractivo slo es
aconsejable en aquellos casos en que no exista posibilidad de transferencia alguna de
una condicin a otra.
Con los datos procedentes del estudio sociolingstico no es posible ilustrar cmo se
realiza el anlisis de datos para este diseo con SPSS. Por ello, desarrollamos un
ejemplo especfico.
Suponga que estamos interesados en investigar la eficacia de un mtodo de enseanza.
Para ello, seleccionamos 2 sujetos con calificaciones iguales, otros 2 sujetos con
calificaciones iguales, y as hasta 7 pares. Luego, asignamos un miembro de cada par a
un grupo que trabajar con el nuevo mtodo (condicin experimental) y al otro miembro
de cada par al grupo que seguir trabajando con el mtodo tradicional (grupo control).
Imagine que las calificaciones obtenidas por los 7 pares de estudiantes fueron las
siguientes:
Condicin experimental
7
4
9
2
6
8
7
Condicin control
5
2
7
3
5
6
4
Nosotros queremos probar la hiptesis nula de igualdad de medias. Para ello utilizamos
el estadstico t. Como el diseo es de grupos apareados los datos se analizan por pares y,
en consecuencia, el estadstico t tiene una nueva definicin:
- X2
t = X1
SD / N
donde SD es la desviacin tpica de las diferencias entre los pares de datos, y N es el
nmero de pares.
La distribucin del estadstico t, bajo el supuesto de distribucin normal de las
diferencias, es t con N-1 grados de libertad.
A continuacin se ofrecen los clculos necesarios para el clculo del estadstico t as
definido (muestras relacionadas):
109
Condicin experimental
Condicin control
7
4
9
2
6
8
7
5
2
7
3
5
6
4
D
2
2
2
-1
1
2
3
43
32
11
_
2
(D-D)
0.1837
0.1837
0.1837
6.6121
0.3265
0.1837
2.0409
_
X1 = 43/7 = 6.1429
_
X2 = 32/7 = 4.5714
_
D = 11/7 = 1.5714
9.7143 S =
D
9.7143 / 6 = 1.272
t =
6.1429 - 4.5714
= 3.27
1.272 / 7
Vamos a resolver este problema utilizando SPSS. En primer lugar, con los datos
anteriores creamos un archivo de datos, como el siguiente, al que hemos denominado
apar.sav:
La variable var00001 contiene los datos correspondientes a los 7 sujetos del grupo
experimental, mientras que la variable var00002 contiene los datos de los 7 sujetos del
grupo control. Ahora veamos cmo llevaramos a cabo el anlisis utilizando la prueba t
110
para dos muestras relacionadas. Como en todos los anlisis anteriores, seleccione la
opcin Analizar en el men principal. A continuacin, seleccione la opcin Comparar
medias, ya utilizada en el apartado anterior. Ahora, en el men que se despliega a la
derecha, seleccione la opcin Prueba T para muestras relacionadas. Aparecer el
cuadro de dilogo de la prueba t para muestras relacionadas. Ahora debe seleccionar las
dos variables que contienen los datos de ambas muestras, var00001 y var00002 e
introducirlas para el anlisis. El cuadro de dilogo tendr este aspecto:
Pulse ahora el botn Aceptar. El visor de resultados le ofrecer tres tablas. stas son las
dos primeras:
Estadsticos de muestras relacionadas
Par 1
VAR00001
VAR00002
Media
6.1429
4.5714
Desviacin
tp.
2.4103
1.7182
N
7
7
Error tp. de
la media
.9110
.6494
VAR00001 y VAR00002
Correlacin
.862
Sig.
.013
111
Par 1
VAR00001 - VAR00002
Media
1.5714
Desviacin
tp.
1.2724
Error tp. de
la media
.4809
95% Intervalo de
confianza para la
diferencia
Inferior
Superior
.3946
2.7482
t
3.267
gl
6
Sig. (bilateral)
.017
112
Otro nombre que se utiliza para referirse a la variable independiente es el de factor. Son
muchos los manuales de estadstica que denominan anlisis de varianza con un factor al
anlisis de varianza con una sola variable independiente, anlisis de varianza con dos
factores al anlisis de varianza con dos variables independientes, y as sucesivamente.
Otro trmino que puede utilizarse para referirse a la variable independiente es el de va.
As, el anlisis de varianza con un variable independiente podra denominarse anlisis de
varianza de una-va (one-way). De forma similar, el anlisis de varianza con dos
variables independientes podra denominarse de dos-vas (two-ways), etc.
Los datos del estudio sociolingstico no resultan muy apropiados para ilustrar el
funcionamiento del anlisis de varianza. Por ello, vamos a crear nosotros una situacin
experimental hipottica donde podra utilizarse el anlisis de varianza como
procedimiento estadstico.
Imaginemos que deseamos conocer la eficacia de tres mtodos de enseanza (1, 2, y 3)
sobre el rendimiento escolar de los estudiantes de E.G.B. Para comprobarlo, tomamos
12 estudiantes de un curso de E.G.B. y asignamos aleatoriamente 4 estudiantes al
mtodo de enseanza 1, 4 estudiantes al mtodo 2, y 4 al mtodo 3. Al finalizar el curso,
registramos la calificacin obtenida por cada uno de los 12 estudiantes.
Ntese que la variable independiente (factor, o va) es el mtodo de enseanza. Se trata
de una variable cualitativa. Entre el mtodo 1 y el 2, por ejemplo, no tenemos valores
intermedios. La variable dependiente es la calificacin escolar de los estudiantes. Es una
variable cuantitativa. Entre dos valores enteros (p.e. el 5 y el 6) son posibles infinitos
valores intermedios.
A continuacin se ofrecen los datos completos para los 12 sujetos:
Mtodo
1
1
1
1
2
2
2
2
3
3
3
3
Calificacin
8
7
5
9
7
5
3
6
5
2
2
5
A nivel estadstico se desea comprobar la hiptesis nula de que las medias de las tres
poblaciones (mtodo 1, mtodo 2, mtodo 3) en rendimiento escolar son iguales. Para
ello, utilizamos la informacin contenida en las tres muestras correspondientes. Ntese
que las medias de las muestras son las siguientes:
(a) Muestra 1
X =
8 +7 + 5 + 9
= 7.25
4
113
(b) Muestra 2
X =
7 + 5 + 3+ 6
= 5.25
4
X =
5+ 2+ 2+ 5
= 3.5
4
(c) Muestra 3
114
Para llevar a cabo el anlisis, simplemente pulse el botn Aceptar. El visor de resultados
le mostrar la siguiente tabla:
ANOVA
VAR00002
Inter-grupos
Intra-grupos
Total
Suma de
cuadrados
28.167
26.500
54.667
gl
2
9
11
Media
cuadrtica
14.083
2.944
F
4.783
Sig.
.038
En la cabecera del anlisis aparece el nombre del procedimiento, ANOVA (en este caso,
de una va). La informacin autnticamente relevante en orden a aceptar o rechazar la
hiptesis estadstica planteada est en las dos ltimas columnas de esta tabla. En la
penltima columna est indicado el valor del estadstico F (4.783), el estadstico que se
calcula en el anlisis de varianza, y en la ltima columna su probabilidad asociada o
nivel de significacin (.038). Como esta probabilidad es menor que .05 se rechaza la
hiptesis nula y se afirma que las diferencias entre las medias son significativas (fiables).
Una manera ms operativa de interpretar este resultado consiste en afirmar que los
distintos mtodos de enseanza producen calificaciones acadmicas distintas.
Habr observado que esta salida se parece mucho a la ofrecida por el anlisis de
regresin. Esto es as porque en el anlisis de varianza, al igual que en el anlisis de
115
116
Pulse ahora el botn Continuar y luego el botn Aceptar. Obtendr una tabla de anlisis
de varianza idntica a la obtenida anteriormente, pero con esta informacin adicional:
Comparaciones mltiples
Variable dependiente: VAR00002
Scheff
(I) VAR00001
1.00
2.00
3.00
(J) VAR00001
2.00
3.00
1.00
3.00
1.00
2.00
Diferencia de
Error tpico
medias (I-J)
2.0000
1.2134
3.7500*
1.2134
-2.0000
1.2134
1.7500
1.2134
-3.7500*
1.2134
-1.7500
1.2134
Sig.
.305
.039
.305
.392
.039
.392
Intervalo de confianza al
95%
Lmite
Lmite inferior
superior
-1.5402
5.5402
.2098
7.2902
-5.5402
1.5402
-1.7902
5.2902
-7.2902
-.2098
-5.2902
1.7902
Las primeras columnas indican los grupos i y j a comparar-. La diferencia entre las
medias de dos grupos i y j es significativa si:
J I 1213
. RANGO
1
1
+
N (I ) N ( J)
Donde el valor del error tpico (1.213) se obtiene hallando la raz cuadrada del resultado
de dividir la media cuadrtica de los errores entre 2. Esto es,
1213
.
=
MC error
=
2
2.944
2
117
Dado que el tamao de los tres grupos es el mismo (4 sujetos), podemos calcular el valor
que se toma como referencia para ver la significacin de las medias:
1213
.
* 4.13 *
2
= 354
.
4
Observamos ahora las diferencias entre las medias de los mtodos dos a dos. La
diferencia entre las medias de los mtodos 1 y 2 es 7.25-5.25 = 2, que es menor que
3.54. La diferencia entre las medias de los mtodos 2 y 3 es 5.25-3.5 = 1.75, tambin
menor que 3.54. Sin embargo, la diferencia entre las medias de los mtodos 1 y 3 es
7.25-3.5 = 3.75, que es mayor que 3.54. Por tanto, esta diferencia de medias s es
significativa. Este es el resultado que se nos ofrece marcado con un asterisco en en la
columna etiquetada Diferencia de medias (I-J). El valor de la significacin (.039)se
ofrece en la columna etiquetada Sig. En la ltima columna de la tabla se muestran los
intervalos confidenciales entre los que se encontrarn, a un nivel de confianza del 95%,
los valores de las diferencias entre las puntuaciones de los grupos i y j en la poblacin.
Vemos que las diferencias entre los grupos 1 y 3 siempre sern del mismo signo
(positivas cuando restamos 1-3, y negativas cuando restamos 3-1). Esto nos permite
concluir que el mtodo de enseanza 1 produce una rendimiento acadmico
significativamente superior al mtodo de enseanza 3. Sin embargo, el mtodo de
enseanza 1 no produce una ejecucin significativamente superior al 2, ni el mtodo de
enseanza 2 produce una ejecucin significativamente superior al 3; en todos estos casos
las diferencias pueden ser tanto positivas como negativas. La ltima tabla del listado nos
muestra los resultados desde otro punto de vista. En este caso se trata de los dos
subconjuntos homogneos encontrados, formados por los grupos 1 y 2, en un caso, y por
los grupos 2 y 3, en el otro. Dentro de cada uno de estos subconjuntos no existen
diferencias significativas entre grupos:
VAR00002
a
Scheff
VAR00001
3.00
2.00
1.00
Sig.
N
4
4
4
Para la correcta aplicacin del anlisis de varianza deben satisfacerse tres supuestos:
1. independencia de las observaciones;
118
2. distribucin normal;
3. homogeneidad de las varianzas.
Desafortunadamente, dentro del procedimiento de anlisis de varianza slo nos es
posible comprobar el tercer supuesto (homogeneidad de las varianzas), pero no los
supuestos 1 y 2 (independencia de las observaciones y distribucin normal). Para la
comprobacin del supuesto de distribucin normal, vase la prueba de KolmogorovSmirnov, en el captulo 10 (apartado 10.1).
Vamos a comprobar el supuesto de homogeneidad de varianzas para el anlisis anterior.
Para ello, repita los mismos pasos que en el primer ejercicio y, una vez situado en el
cuadro de dilogo de ANOVA de un factor, pulse el botn Opciones. Aparecer un
cuadro de dilogo en el que puede seleccionar la prueba de homogeneidad de varianzas.
Una vez seleccionada, el cuadro de dilogo tendr este aspecto:
gl1
gl2
2
Sig.
.863
119
120
1 Variable Independiente
1
1
1
1
2
2
2
2
3
3
3
3
2 Variable Independiente
1
2
3
4
1
2
3
4
1
2
3
4
Mtodo
01
02
03
04
05
06
07
08
09
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
2
2
2
2
2
2
2
2
N
estudiantes
1
1
1
1
2
2
2
2
3
3
3
3
4
4
4
4
1
1
1
1
2
2
2
2
Calificacin
8
7
9
8
7
8
9
7
5
6
4
5
9
9
8
8
6
7
7
8
5
6
4
5
Sujeto
Mtodo
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
2
2
2
2
2
2
2
2
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
N
estudiantes
3
3
3
3
4
4
4
4
1
1
1
1
2
2
2
2
3
3
3
3
4
4
4
4
Calificacin
3
2
4
3
6
5
6
7
5
5
6
4
2
3
2
1
2
2
3
1
5
4
6
5
En este archivo de datos, la primera columna es el nmero del sujeto (desde 01 hasta
48), la segunda columna es la primera variable independiente (mtodo de enseanza,
121
122
Fuente
Modelo corregido
Interseccin
VAR00001
VAR00002
VAR00001 * VAR00002
Error
Total
Total corregida
Suma de
cuadrados
tipo III
217.229a
1376.021
116.542
87.729
12.958
23.750
1617.000
240.979
gl
11
1
2
3
6
36
48
47
Media
cuadrtica
19.748
1376.021
58.271
29.243
2.160
.660
F
29.934
2085.758
88.326
44.326
3.274
Significacin
.000
.000
.000
.000
.011
123
F =
19.748
29.934
.660
En la ltima columna, se observa que el nivel de significacin para F (Sig) es menor que
.001. Por tanto, se rechaza la hiptesis nula y se concluye que el efecto de las variables
independientes es estadsticamente significativo.
La Variabilidad Explicada, cuya Suma de Cuadrados es 217.229, puede, a su vez,
descomponerse en otros dos componentes:
1. aquella parte que se debe a los Efectos Principales;
2. aquella parte que se debe a los efectos de la Interaccin.
Los Efectos Principales son aquella parte de la Variabilidad Explicada que se debe a
cada variable independiente, considerada separadamente. La Suma de Cuadrados
Explicada por var00001 es 116.542 y la Suma de Cuadrados Explicada por var00002 es
87.729. Entre las dos variables independientes Explican 204.271. Cada una de estas
Sumas de Cuadrados se divide entre sus respectivos grados de libertad, y se obtiene una
Media Cuadrtica. Luego, esta Media Cuadrtica se divide siempre entre la Media
Cuadrtica Residual (.660). La F resultante es significativa en todos los casos. Esto es,
existe un efecto significativo de var00001 sobre var00003 (F2,36 = 88.326, p< .01), y un
efecto significativo de var00002 sobre var00003 (F3,36 = 44.326, p< .001). Los
subndices que acompaan a la razn F son los grados de libertad. El primer subndice
representa los grados de libertad de la Media Cuadrtica del numerador, y el segundo
subndice los grados de libertad de la Media Cuadrtica del denominador. Observe que
la Media Cuadrtica del denominador siempre es la Residual. Por eso, los grados de
libertad son siempre 36. La p que acompaa a cada F es el nivel de significacin.
Cuando el nivel de significacin es .000 en el listado, no debe interpretarse como que el
nivel de significacin es cero, sino como que el nivel de significacin es menor que
.001. Ntese que el valor del nivel de significacin tiene un mximo de tres decimales.
Si SPSS ofreciera ms decimales, se observara como el nivel de significacin no puede
ser cero.
Habamos sealado que de la Suma de Cuadrados Explicada (217.229), 204.271 se debe
a los Efectos Principales (116.542 a var00001 y 87.729 a var00002) y el resto (12.958)
a los Efectos de la Interaccin de ambas variables independientes (var00001 y
var00002). Se observa en el listado como la informacin relativa a esta interaccin se
denomina VAR00001 * VAR00002. Si en vez de dos variables independientes, hubiera
tres, apareceran cuatro interacciones. Es decir, se ofrecera la interaccin de la primera
variable independiente con la segunda, la interaccin de la primera con la tercera, la
interaccin de la segunda con la tercera, y la interaccin de las tres. SPSS ofrecera 5
124
filas, una para cada una de estas combinaciones y otra para la suma de todas ellas. Como
en el caso de dos variables independientes slo existe una combinacin, la suma
(primera fila) coincide con la nica combinacin (segunda fila). Se observa que el efecto
de la Interaccin es significativo (F6,36 = 3.274, p = .011).
9. Tablas de Contingencia
Imagine que est estudiando el hbito de fumar en una muestra de 30 sujetos. Imagine
tambin que inicialmente registra para cada sujeto la variable sexo, asignando un 1 a las
mujeres y un 0 a los hombres, y la variable fumar, asignando un 1 a los fumadores y un
0 a los no fumadores. Con estos primeros registros decide crear un archivo de datos en
SPSS. El nombre que le asigna al archivo es conting.sav. Estos son los datos:
N Sujeto
01
02
03
04
05
06
07
08
09
10
11
12
13
14
15
sexo
0
0
0
0
0
1
1
1
1
1
1
1
1
1
0
no fuma/fuma
1
1
1
1
1
0
0
0
0
0
0
0
0
0
1
N Sujeto
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
sexo
0
0
0
0
0
0
0
0
0
1
1
1
1
1
1
no fuma/fuma
1
1
1
1
0
0
0
0
0
1
1
1
1
1
1
125
Para ver cmo puede obtenerse una tabla de contingencia a partir de los datos anteriores,
cree el archivo conting.sav, que contiene la informacin sobre sexo y hbitos de fumar
de nuestros 30 sujetos. Una vez introducidos los datos, el archivo tendr este aspecto:
126
sexo
Total
hombre
mujer
fumar
no fumador
fumador
5
10
9
6
14
16
Total
15
15
30
127
Llegado a este punto, podramos admitir que esta muestra estuviese extrada
aleatoriamente de una poblacin mayor de observaciones posibles. En dicho caso,
podramos plantear una hiptesis a nivel de poblacin (hiptesis nula) y utilizar, luego,
la informacin contenida en la muestra para comprobar dicha hiptesis. Tpicamente, la
hiptesis nula que se establece en estas situaciones es la de la inexistencia de relacin
alguna entre las variables que forman la Tabla de contingencia. Otra manera de expresar
esto mismo consiste en afirmar que ambas variables son independientes. Si la hiptesis
de independencia fuera cierta la Tabla de contingencia debera tener unas frecuencias
determinadas; stas seran las frecuencias que se esperaran si no existiera relacin
alguna entre sexo y fumar. Estas frecuencias esperadas se obtienen, para cada casilla,
multiplicando el total de la fila por el total de la columna, y dividiendo, luego el
resultado entre el nmero total de sujetos. En el caso de nuestra tabla, las frecuencias
esperadas seran las siguientes::
1.
2.
3.
4.
Podemos pedir a SPSS que nos proporcione en la tabla de contingencia los valores de
las frecuencias esperadas junto con los de las frecuencias observadas empricamente.
Para obtener estos valores, siga los mismos pasos que en el apartado anterior y, una vez
situado en el cuadro de dilogo del procedimiento Tablas de contingencia, pulse el
botn etiquetado Casillas. Aparecer un nuevo cuadro de dilogo donde puede solicitar
tanto las frecuencias empricas u Observadas, que se proporcionan por defecto, como las
frecuencias tericas o Esperadas. El cuadro de dilogo tambin ofrece opciones para ver
porcentajes por filas y columnas, que pueden resultar de inters para comprender mejor
el reparto de las frecuencias, pero no los vamos a tener en cuenta ahora. Si selecciona la
opcin de mostrar las frecuencias esperadas, el cuadro de dilogo tendr este aspecto:
Pulse ahora el botn Continuar, y luego el botn Aceptar. Obtendr ahora esta nueva
tabla:
128
sexo
hombre
fumar
no fumador
fumador
5
10
7.0
8.0
9
6
7.0
8.0
14
16
14.0
16.0
Recuento
Frecuencia esperada
Recuento
Frecuencia esperada
Recuento
Frecuencia esperada
mujer
Total
Total
15
15.0
15
15.0
30
30.0
Observe que en la tabla aparece, en cada celdilla, tanto la frecuencia observada (arriba)
como la frecuencia esperada (abajo). A partir de estas dos frecuencias se lleva a cabo la
comprobacin de la hiptesis nula de independencia entre var00001 y var00002. La
lgica que se sigue para comprobar la hiptesis nula es muy sencilla. Si la distancia que
hay entre las frecuencias observadas (O) y las esperadas (E) es pequea se acepta la
hiptesis nula, mientras que si esta distancia es grande se rechaza. Ntese que aceptar la
hiptesis nula implica aceptar la independencia, y rechazarla implica aceptar la
existencia de una relacin fiable entre ambas variables. La distancia o discrepancia que
hay entre una frecuencia observada (O) y una frecuencia esperada (E) se mide de la
siguiente manera:
(O E ) 2
E
ji cuadrado =
(5 7 )
7
(10 8)
8
(9 7)
7
(6 8)
8
4 4 4 4
+ + + = 2.14286
7 8 7 8
Para poder valorar la magnitud de esta distancia (2.14286) tenemos que compararla con
el valor probabilstico de ji-cuadrado para el mismo nmero de grados de libertad que en
el ejemplo. Aqu el nmero de grados de libertad es
(filas - 1) x (columnas - 1) = (2-1) (2-1) = 1.
Si consultamos una Tabla de ji-cuadrado en una manual de estadstica, para 1 grado de
libertad y un nivel de significacin de .05, se podr observar un valor de 3.84. Lo que
indica la Tabla es que la probabilidad de obtener un valor de ji-cuadrado mayor que 3.84
es .05. Como el valor obtenido de ji-cuadrado (2.14286) es menor que el de la Tabla
129
130
Pruebas de chi-cuadrado
Chi-cuadrado de Pearson
Correccin por continuidada
Razn de verosimilitud
Estadstico exacto de Fisher
Asociacin lineal por lineal
N de casos vlidos
Valor
2.143b
1.205
2.170
1
1
1
Sig. asinttica
(bilateral)
.143
.272
.141
.150
gl
2.071
30
Sig. exacta
(bilateral)
Sig. exacta
(unilateral)
.272
.136
La primera lnea de la tabla muestra el valor de ji-cuadrado que hemos obtenido nosotros
anteriormente; esto es, 2.143. El nmero de grados de libertad (gl) es 1, tal como
habamos sealado, y la probabilidad (Significance) de obtener un valor mayor que
2.143 es .143. Como esta probabilidad sobrepasa el lmite de error establecido en
estadstica (.05), no se rechaza la hiptesis nula y se concluye que la variable Sexo y la
variable Fumar son independientes. Recuerde que cuando hacamos uso de las Tablas
estadsticas, ofrecidas en los manuales de estadstica, la conclusin a la que llegbamos
era la misma (no rechazo de la hiptesis nula). All conocamos el valor mnimo de jicuadrado necesario para rechazar la hiptesis nula (3.84). Como no se alcanzaba este
valor, no se rechazaba. SPSS no proporciona el valor de ji-cuadrado necesario para
rechazar la hiptesis nula, sino la probabilidad exacta de equivocarnos rechazando la
hiptesis nula (.143). Como esta probabilidad sobrepasa el mximo error admisible
estadsticamente (.05), se llega a la misma conclusin: no se rechaza la hiptesis nula.
En la segunda lnea de la tabla anterior, aparece un nuevo valor de ji-cuadrado
(1.20536), precedido de la leyenda Correccin por continuidad. Este valor de jicuadrado es el que se obtiene una vez realizada la Correccin de Yates. Esta correccin
se aplica en los siguientes casos:
1. Cuando alguna de las frecuencias observadas (O) es menor que 5. En este ejemplo,
ninguna de las frecuencias observadas (O) es menor que 5. Por tanto, por esta razn
no se aplica la Correccin de Yates.
2. Cuando la Tabla de contingencia es 2 x 2, es decir, tiene 2 filas y 2 columnas. La
distancia ji-cuadrado se puede calcular para un nmero de filas (o columnas) mayor
que 2. El caso de 2 filas y 2 columnas es, por tanto, el ms elemental posible. Pues
bien, en este caso, es cuando se puede corregir la distancia calculada mediante el
procedimiento sugerido por Yates, que consiste en restarle 0.5 a la diferencia entre O
y E, cuando esta diferencia sea positiva, y sumarle 0.5 cuando esta diferencia sea
negativa.
Si aplicamos la Correccin de Yates, en este ejemplo, obtendremos el siguiente valor de
ji-cuadrado.
131
ji cuadrado =
=
(5 7 + 0.5) 2
7
2
( 15
.)
2
(15
.)
(10 8 0.5) 2
8
2
(15
.)
( 9 7 0.50) 2
2
( 15
.)
( 6 8 + 0.5) 2
8
= 1205
.
Justamente este es el valor de ji-cuadrado que proporciona SPSS en esta segunda lnea.
Los grados de libertad se obtienen de la misma forma, por lo que su valor es igual a 1.
Como el valor obtenido de ji-cuadrado es ahora menor que antes, la probabilidad
asociada es mayor (.272). Si la probabilidad anterior era mayor que .05, esta lo es an
ms, por lo que la conclusin es la misma: aceptacin de la hiptesis nula. Esto implica
la aceptacin de la independencia entre ambas variables.
El listado proporciona tambin otros tres estadsticos basados en ji-cuadrado: la razn de
verosimilitud, el estadstico exacto de Fisher y el estadstico de asociacin lineal de
Mantel-Haenszel. El primero de ellos est relacionado con la teora de la mxima
verosimilitud y no ser comentado aqu. El estadstico exacto de Fisher es de
aplicacin recomendable en el caso de tablas de 2x2 con un tamao de muestra
inferior a 20. En cuanto a la prueba Mantel-Haenszel, se utiliza en el caso de datos
ordinales y, por tanto, no es aplicable a la tabla de contingencia de nuestro ejemplo.
132
133
N
Parmetros normales a,b
Diferencias ms
extremas
Media
Desviacin tpica
Absoluta
Positiva
Negativa
Z de Kolmogorov-Smirnov
Sig. asintt. (bilateral)
el gallego
debe ser
la lengua
habitual de
Galicia
20
3.25
.91
.295
.205
-.295
1.319
.062
20 4 .
En realidad, existen Tablas estadsticas que nos indican que para poder rechazar la
hiptesis nula, la distancia mxima obtenida tendra que ser igual o mayor que
1.36/ 20 5 = 0.304. Como 0.295 es menor que 0.304 no rechazamos la hiptesis nula y
afirmamos que la distribucin emprica de item12 se ajusta a una distribucin normal
con media igual a 3.25 y varianza igual a 0.912.
134
simple hecho de que los sujetos de una y otra muestra se diferencien en alguna
propiedad. Por ejemplo, si una muestra est compuesta por hombres y otra por mujeres
ambas muestras se consideran independientes. De forma similar, seran independientes
una muestra formada por jvenes y otra formada por adultos. En contextos
experimentales, la independencia de las muestras se garantiza asignando aleatoriamente
los sujetos a las distintas condiciones experimentales. Por ejemplo, si disponemos de 40
sujetos y queremos crear dos muestras (o grupos) experimentales independientes A y B
lo mejor que podemos hacer es asignar aleatoriamente 20 sujetos al grupo experimental
A y 20 sujetos al grupo experimental B.
La prueba U de Mann-Whitney, como alternativa a la prueba t de Student, puede ser
muy til en los siguientes casos:
1. cuando se violen los supuestos de distribucin normal o de homogeneidad de
varianzas o de ambos;
2. cuando el nivel en que fue medida la variable dependiente es ordinal, en lugar de
intervalos o razn.
Imagine que queremos comparar la calidad acadmica de dos colegios A y B, registrando
el lugar que han ocupado sus estudiantes en el examen de selectividad para acceso a la
Universidad. Para ello, tomamos una muestra aleatoria de 10 estudiantes en cada colegio
y registramos el orden en que han quedado situados en el examen de selectividad. Con
fines de codificacin, vamos a asignar un 1 a los alumnos del colegio A, y un 2 a los
alumnos del colegio B. Con los datos sobre colegio y orden en la selectividad para cada
uno de los 20 estudiantes, obtendramos una tabla como la siguiente:
Colegio
1
1
1
1
1
1
1
1
1
1
Orden
30
72
109
145
158
176
224
230
490
656
Colegio
2
2
2
2
2
2
2
2
2
2
Orden
161
204
403
559
670
720
747
912
950
991
135
La variable var00001 contiene la informacin acerca del colegio al que pertenece cada
alumno (1=Colegio A; 2=Colegio B). Por su parte, la variable var00002 se refiere al
orden obtenido en la prueba de selectividad por cada estudiante. Para aplicar la prueba U
a estos datos, seleccione la opcin Analizar del men principal; a continuacin, la
opcin Pruebas no paramtricas; finalmente, en el men que se despliega a la derecha,
seleccione la opcin 2 muestras independientes. Aparecer el cuadro de dilogo para
pruebas con dos muestras independientes. Observe que la prueba seleccionada por
defecto es la U de Mann-Whitney, por lo que no es necesario modificar esta seleccin.
nicamente es preciso indicar cul es la variable dependiente (Contrastar) y cul es la
variable independiente o Variable de agrupacin. Seleccione var00002 como variable
dependiente, y var00001 como variable independiente. El cuadro de dilogo quedar
as:
Antes de efectuar el anlisis, es necesario especificar, al igual que ocurra con la prueba t
para muestras independientes, cules son los dos valores que identifican a los dos grupos
representados en var00001. Para especificar estos valores, pulse el botn Definir
grupos, e indique ambos valores (1 y 2). A continuacin pulse el botn Aceptar. El visor
de resultados le proporcionar dos tablas. sta es la primera de ellas:
Rangos
VAR00002
VAR00001
1.00
2.00
Total
N
10
10
20
Rango
promedio
6.70
14.30
Suma de
rangos
67.00
143.00
La primera tabla ofrece el rango promedio y la suma de rangos para cada uno de los
grupos. Se observa que cuando var00001=1, es decir, cuando se trata del Colegio A, el
rango medio es 6.70, y el nmero de casos (N) es 10. De igual forma, se observa que
cuando var00001=2, es decir, cuando se trata del Colegio B, el rango medio es 14.30, y
el nmero de casos tambin es 10. Para obtener estos rangos medios, primero, se han
136
Rango
Colegio A Colegio B
01
02
03
04
05
06
07
08
09
10
11
12
13
14
15
16
17
18
19
20
67
143
Ahora se observa fcilmente como la media de los rangos del Colegio A es 67/10 = 6.70,
y la media de los rangos del Colegio B es 143/10 = 14.30.
Veamos ahora la segunda tabla que nos muestra el visor de resultados para la prueba U
de Mann-Whitney:
Estadsticos de contrasteb
U de Mann-Whitney
W de Wilcoxon
Z
Sig. asintt. (bilateral)
Sig. exacta [2*(Sig.
unilateral)]
VAR00002
12.000
67.000
-2.873
.004
a
.003
U es el nmero de veces que los estudiantes del colegio B preceden a los estudiantes del
colegio A. Observe en el listado que U es 12. Para comprender de dnde se obtiene este
valor, fjese en los siguientes aspectos:
137
Z =
U - n1 n2
2
( n1 )( n2 )( n1 + n2 + 1)
12
Z =
- 38
= - 2.873
175
138
139
Atleta
1
2
3
4
5
6
7
Clasificacin
8
16
20
24
25
30
32
Clasificacin
4
20
7
12
14
9
34
Nuestro inters ahora es comparar la clasificacin de los atletas antes de hacerse usted
cargo del trabajo con la clasificacin de los atletas despus de un ao de trabajo.
Observe que los sujetos son los mismos. Tenemos dos medidas (repetidas) para cada
sujeto. Por tanto, las muestras (clasificacin antes, clasificacin despus) son
relacionadas. Observe tambin que la medida es ordinal (clasificaciones). La prueba t de
Student, para muestras relacionadas, sera apropiada para realizar la comparacin entre
las dos muestras, de no ser por el nivel de medida tan bajo, en la escala de Stevens. Este
hecho nos lleva a utilizar una prueba no paramtrica. Por las caractersticas sealadas, la
prueba no paramtrica especfica es la T de Wilcoxon.
La lgica seguida por Wilcoxon para realizar la comparacin es muy sencilla. Primero
se comparan las clasificaciones de cada atleta antes y despus, hallando la diferencia
entre ambas. Si la clasificacin, para un atleta, es la misma antes que despus, la
diferencia ser cero. Si la clasificacin es mejor despus que antes, la diferencia ser
negativa, mientras que si es peor ser positiva. Cuando se tienen calculadas estas
diferencias, se ordenan asignndole el nmero 1 a la diferencia ms pequea, el 2 a la
siguiente ms pequea y as sucesivamente. Para hacer esta asignacin se imponen dos
restricciones:
1. las diferencias iguales a cero se excluyen, y
2. las diferencias distintas de cero (positivas o negativas) se consideran todas como
positivas.
Tpicamente, a los rdenes que se han asignado a estas diferencias se les denomina
rangos. Llegados a este punto, se clasifican los rangos en dos categoras: (1) los rangos
correspondientes a aquellas diferencias que, en principio, eran positivas, y (2) los rangos
correspondientes a aquellas diferencias que, en principio, eran negativas. Luego, se
suman los rangos en cada una de estas categoras y se elige aquella suma que sea menor.
Esta suma menor es el estadstico T de Wilcoxon.
140
Si es cierta la hiptesis nula, que establece la igualdad entre las poblaciones, la suma de
los rangos en ambas categoras debera ser igual. Formalmente, podramos escribir
T1 = T2 = T
donde T1 es la suma de los rangos correspondientes a aquellas diferencias que, en
principio, eran positivas, y T2 es la suma de los rangos correspondientes a aquellas
diferencias que, en principio, eran negativas.
Una manera operativa de definir el valor de T, bajo hiptesis nula, en un problema
determinado es la siguiente:
T =
N(N + 1)
4
N(N + 1)
4
Observe que si la distancia entre el valor obtenido de T y el valor T , bajo hiptesis nula,
es pequea la evidencia en favor de la existencia de diferencias entre ambas poblaciones
es tambin pequea, mientras que si la distancia es grande la evidencia en favor de la
existencia de diferencias ser mayor.
A continuacin se ofrecen los clculos necesarios para la toma de decisiones en cuanto a
si existen diferencias en las clasificaciones obtenidas por los 7 atletas antes y despus de
su trabajo como preparador fsico:
Clasificacin
antes
8
16
20
24
25
30
32
Clasificacin
despus
4
20
7
12
14
9
34
Diferencia
despus-antes
-4
4
-13
-12
-11
-21
2
Rangos (-)
2.5
6
5
4
7
24.5
Rangos (+)
2.5
1
3.5
141
T =
N(N + 1) 7(7 + 1)
=
= 14
4
4
Dado que no hay ninguna diferencia entre rangos nula (igual a cero), tambin se cumple
que:
T =
Ahora slo falta valorar si lo que se aparta 3.5 de 14 (esto es, 10.5 unidades) es lo
suficientemente importante como para poder rechazar la hiptesis nula de igualdad de
poblaciones. Ntese que la distancia que hay entre 3.5 y 14 es, en trminos absolutos, la
misma que la que hay entre 24.5 y 14 (tambin 10.5). Es decir, que si en vez de coger la
suma de rangos menor (3.5), hubiramos tomado la mayor (24.5), las conclusiones
debieran ser las mismas. Como siempre, para poder resolver esta cuestin se necesita
conocer la distribucin de probabilidad del estadstico T, aspecto que fue investigado por
Wilcoxon. Conocida esta distribucin, es posible calcular la probabilidad de obtener una
diferencia mayor que la obtenida. Si esta probabilidad (nivel de significacin) es igual o
menor que .05 se rechaza la hiptesis nula. A continuacin vamos a obtener la T de
Wilcoxon para los datos de los 7 atletas utilizando SPSS. En primer lugar, creamos el
archivo de datos, al que llamaremos nopar2.sav:
Para utilizar la prueba de Wilcoxon con estos datos, siga los mismos pasos que en los
procedimientos no-paramtricos anteriores: Seleccione la opcin Analizar en el men
principal; a continuacin, seleccione la opcin Pruebas no paramtricas. En el men
142
que se despliega a la derecha, seleccione ahora la opcin especfica para este tipo de
datos: 2 muestras relacionadas. Aparecer un cuadro de dilogo donde tiene que indicar
el/los par(es) de variables, a semejanza de lo que ocurra en el caso de la prueba t para
muestras relacionadas; en nuestro caso, seleccione el par de variables formado por
var00001 y var00002. La prueba de Wilcoxon es la que est seleccionada por defecto,
as que no es necesario hacer ms modificaciones.. El cuadro de dilogo tendr, pues,
este aspecto:
Pulse ahora el botn Aceptar. El visor de resultados le proporcionar dos tablas. sta es
la primera de ellas:
Rangos
N
VAR00002 - VAR00001
Rangos negativos
Rangos positivos
Empates
Total
5a
2b
0c
7
Rango
promedio
4.90
1.75
Suma de
rangos
24.50
3.50
Esta primera tabla se refiere a los resultados de las comparaciones entre las dos variables
de inters, var00001 y var00002. Recuerde que var00001 es la clasificacin de los
atletas antes y var00002 la clasificacin despus; es decir, recuerde que tenemos dos
medidas (repetidas) de la misma variable. En las filas siguientes se ofrece el rango
medio de aquellos casos con rangos negativos (-). Los rangos negativos se producen
cuando var00002 (clasificacin despus) es menor que (<) var00001 (clasificacin
antes). Tal como habamos obtenido cuando realizamos el problema manualmente, en
esta situacin se encuentran 5 atletas. El rango medio de estos atletas es 4.9. Este
nmero se obtiene realizando el siguiente clculo:
143
Z
Sig. asintt. (bilateral)
T -T
S
donde
S =
(2N + 1) T
6
T -T
(2N + 1) T
6
3.5 - 14
= - 1.77
(2 x 7 + 1) (14)
6
144
145
Colegio
1
1
1
1
1
1
1
1
1
1
Orden
30
72
109
145
158
176
224
230
490
656
Colegio
2
2
2
2
2
2
2
2
2
2
Orden
161
204
403
559
670
720
747
912
950
991
Colegio
3
3
3
3
3
3
3
3
3
3
Orden
610
840
995
759
908
745
1266
850
1115
875
Para realizar la comparacin entre los rdenes obtenidos por los estudiantes de los tres
colegios, vamos a crear un nuevo archivo de datos, al que llamaremos nopar3.sav. El
archivo de datos, con el nuevo grupo de estudiantes aadido al final, tendra este
aspecto:
La variable var00001 contiene informacin acerca del colegio al que pertenece cada
sujeto (1=Colegio A; 2=Colegio B; 3=Colegio C). La variable var00002 contiene los
rdenes obtenidos por cada estudiante en la prueba de selectividad. Recuerde que, como
las muestras son independientes, cada grupo ocupa una fila distinta.
Veamos ahora cmo utilizaramos la prueba de Kruskal-Wallis con los datos del archivo
nopar3.sav. Seleccione, en el men principal, la opcin Analizar. A continuacin,
seleccione la opcin Pruebas no paramtricas. Finalmente, en el men que se despliega
a la derecha, seleccione la opcin K muestras independientes. Aparecer el cuadro de
dilogo correspondiente, donde tiene que indicar la(s) variable(s) dependiente(s)
146
VAR00002
VAR00001
1.00
2.00
3.00
Total
N
10
10
10
30
Rango
promedio
6.80
16.80
22.90
La tabla le muestra los rangos promedio obtenidos por los sujetos de cada uno de los 3
grupos. Para comprender el modo de clculo de estos rangos promedio, se ofrece a
continuacin el procedimiento que sigue SPSS.
En primer lugar, se consideran los sujetos de las tres muestras (aqu colegios) en
conjunto, y se ordenan asignndole al que obtuvo el registro numrico ms pequeo el
nmero 1, al que obtuvo el siguiente ms pequeo el nmero 2, y as sucesivamente. En
el ejemplo, el sujeto que obtuvo el registro ms bajo fue el estudiante 1 del Colegio A.
En consecuencia, se le asigna el nmero 1. El siguiente sujeto es el estudiante nmero 2
de este mismo colegio. Se le asigna el nmero 2. Se contina as hasta completar todos
los sujetos. A este nmero as asignado a cada sujeto se le denomina especficamente
"rango". A continuacin se ofrece la asignacin completa de rangos y el colegio al que
pertenece cada estudiante.
147
Lugar selectividad
30
72
109
145
158
161
176
204
224
230
403
490
559
610
656
670
720
745
747
759
840
850
875
908
912
950
991
995
1115
1266
Colegio A
01
02
03
04
05
Rango
Colegio B
06
07
08
09
10
11
12
13
15
16
17
19
25
26
27
68
Colegio C
168
14
18
20
21
22
23
24
28
29
30
229
Si se suman los rangos correspondientes a los estudiantes del Colegio A, se obtiene que
esta suma es 68. Si dividimos 68 entre 10 estudiantes que hay en el Colegio A, el rango
medio es 6.80. Este mismo clculo realizado para el Colegio B producira un rango
medio de 16.80, y para el Colegio C de 22.90. Precisamente esta es la informacin que
se ofrece en la columna etiquetada Rango promedio. Tambin se especifica el nmero
de sujetos (N) correspondiente a cada nivel de la variable independiente var00001 (1, 2,
y 3). Ya es sabido que estos valores se corresponden con los colegios A, B y C. Veamos
ahora la segunda tabla de resultados:
Estadsticos de contrastea,b
Chi-cuadrado
gl
Sig. asintt.
VAR00002
17.050
2
.000
a. Prueba de Kruskal-Wallis
b. Variable de agrupacin: VAR00001
148
La hiptesis nula establece que las distribuciones de las tres poblaciones, de donde son
extradas las tres muestras, son idnticas. Kruskal y Wallis utilizan la informacin
contenida en las tres muestras para comprobar (es decir, rechazar o no) dicha hiptesis.
El proceso que siguen incluye el clculo de un estadstico denominado H, que se define
como sigue:
H =
k Ri 2
12
- 3(N + 1)
N(N + 1) i=1 ni
- 3(31) = 17.050
30(31) 10
10
10
Se sabe que cuando el tamao de las muestras ni es igual o mayor que 5, el estadstico H
se puede interpretar como un estadstico ji-cuadrado, con k-1 grados de libertad. Esta es
la razn de que al estadstico H se le denomina Chi-cuadrado en la tabla. Al lado de este
valor se ofrece el nivel de significacin, que es menor que .001. Como esta probabilidad
es menor que .05 se rechaza la hiptesis nula y se afirma que las distribuciones de las
tres poblaciones son distintas. A efectos interpretativos, esto es lo mismo que decir que
hay diferencias significativas (fiables) entre los rangos obtenidos por los estudiantes de
los 3 colegios.
149
Sujeto
1
2
3
4
5
6
7
Coche A
8
16
20
24
25
30
32
Coche B
4
20
7
12
14
9
34
Coche C
3
8
10
4
15
12
26
Para resolver este problema estadstico decidimos crear, en primer lugar, un archivo de
datos, al que llamaremos nopar4.sav. El archivo de datos tendr este aspecto:
150
El botn Estadsticos que aparece en el cuadro de dilogo contiene las mismas opciones
que el botn Opciones que aparece en todos los dems procedimientos estadsticos; es
decir, sirve nicamente para proporcionar estadsticos descriptivos y/o cuartiles de la(s)
variable(s) dependiente(s) implicada(s). Pulse ahora el botn Aceptar. Como en
procedimientos anteriores, el visor de resultados le mostrar dos tablas. La primera de
ellas contiene la siguiente informacin:
Rangos
VAR00001
VAR00002
VAR00003
Rango
promedio
2.71
1.86
1.43
La tabla muestra para cada variable (en realidad, para cada muestra) el valor del rango
promedio. El rango medio en la muestra 1 es 2.71, en la muestra 2 es 1.86, y en la
muestra 3 es 1.43. Este rango medio se obtuvo de la siguiente manera. Primero, para
cada sujeto, se asigna el rango 1 al coche ms preferido, el rango 2, al segundo ms
preferido, y el rango 3 al menos preferido. A continuacin se ofrecen entre parntesis
estos rangos para todos los sujetos:
Sujeto
1
2
3
4
5
6
7
Coche A
8
16
20
24
25
30
32
Rango A
(3)
(2)
(3)
(3)
(3)
(3)
(2)
(19)
Coche B
4
20
7
12
14
9
34
Rango B
(2)
(3)
(1)
(2)
(1)
(1)
(3)
(13)
Coche C
3
8
10
4
15
12
26
Rango C
(1)
(1)
(2)
(1)
(2)
(2)
(1)
(10)
El valor que se ofrece en la ltima fila, entre parntesis, es la suma de los rangos para
cada muestra (coche). Si hallamos ahora la media de estos rangos obtenemos para la
muestra 1 (Coche A) un rango medio de 2.71, para la muestra 2 (Coche B) un rango
medio de 1.86, y para la muestra 3 (Coche C) un rango medio de 1.43.
151
La segunda tabla, que muestra el valor del estadstico de contraste, tiene este aspecto:
Estadsticos de contrastea
N
Chi-cuadrado
gl
Sig. asintt.
7
6.000
2
.0498
a. Prueba de Friedman
12
Nk ( k + 1)
[ R ] 3N (k + 1)
k
i =1
2
i
12
(19) 2 + (13) 2 + (10) 2 ] (3)(7)(3 + 1) = 90 84 = 6
[
(7)(3)(3 + 1)
El nmero de grados de libertad (gl) es k-1. Aqu k es 3; por tanto, los grados de libertad
son 2. Finalmente, la probabilidad asociada a este valor de ji-cuadrado es de .0498.
Como esta probabilidad es menor que .05 rechazamos la hiptesis nula y afirmamos que
las distribuciones de las tres poblaciones son distintas. Una manera ms operativa de
decir esto consiste en afirmar que las preferencias por los tres coches son distintas.
Para entender por qu se denomina a la prueba de Friedman anlisis de varianza de dos
factores, vamos a considerar el siguiente ejemplo. Imagine que desea investigar los
efectos de 4 mtodos de enseanza M1, M2, M3 y M4 sobre el rendimiento acadmico
de los estudiantes. Debido a las caractersticas de los mtodos usted sospecha que,
adems de los mtodos, tambin la edad de los estudiantes puede crear diferencias en el
rendimiento acadmico. Para evitar la confusin del efecto de la edad con el efecto del
mtodo selecciona 4 sujetos de la misma edad y asigna aleatoriamente un sujeto a cada
mtodo. Adems usted cree que algo similar puede pasar con la inteligencia de los
estudiantes. Para evitar la confusin del efecto de la inteligencia con el efecto del
mtodo decide elegir otros 4 sujetos que tengan el mismo nivel de inteligencia y, luego,
asigna aleatoriamente un sujeto a cada mtodo. Por ltimo, usted tambin sospecha que
lo mismo que puede ocurrir con la edad y la inteligencia puede ocurrir con la motivacin
escolar de los estudiantes. De formar similar a lo realizado anteriormente, comienza
eligiendo 4 sujetos con el mismo nivel de motivacin escolar y asigna aleatoriamente un
sujeto a cada condicin.
A los 4 sujetos seleccionados segn el criterio de la edad podramos denominarle grupo
G1. De forma similar, podramos denominar grupo G2 a los 4 sujetos seleccionados
152
Grupo
G1
G2
G3
M1
8
9
9
M2
5
4
7
M3
6
7
5
M4
3
2
5
153
VAR00001
VAR00002
VAR00003
VAR00004
Rango
promedio
4.00
2.33
2.50
1.17
154
Estadsticos de contrastea
N
Chi-cuadrado
gl
Sig. asintt.
3
7.552
3
.056
a. Prueba de Friedman
Como el nivel de significacin, para un valor de ji-cuadrado igual a 7.552, con 3 grados
de libertad, es .056 no rechazamos la hiptesis nula y afirmamos que no existen
diferencias significativas (fiables) en el rendimiento acadmico producido por los cuatro
mtodos de enseanza.
155
156
El programa SPSS para Windows no slo permite analizar los datos, sino que tambin
dispone de opciones para la representacin grfica, tanto de los datos en s como de los
resultados obtenidos en determinados anlisis. La generacin de grficos es sencilla.
Asimismo, las posibilidades de edicin de los mismos para efectuar modificaciones son
muy amplias.
Puede accederse a la utilidad de grficos desde el men principal y seleccionar el tipo de
grfico deseado y las variables a incluir en el mismo. Los grficos as creados son
almacenados en el visor de resultados. Una vez almacenado el grfico en el visor de
resultados, es posible modificar su apariencia utilizando una ventana especfica para
edicin de grficos. Los grficos pueden almacenarse en disco como archivos
independientes o como parte del archivo de resultados. En el primer caso, SPSS permite
guardar el grfico en diversos formatos, tanto de tipo vectorial (WMF, CGM, EPS,
PICT) como de mapa de bits (JPEG, BMP, TIFF). Los primeros resultan ms adecuados
para la impresin, pues preservan la informacin contenida en el grfico original. Los
segundos pueden resultar tiles para representar resultados en pginas web.
El proceso a seguir para todos los tipos de grficos es siempre el mismo: una vez que se
tienen datos en la ventana "Datos nuevos", se selecciona el men Grficos. Dentro de
este men aparecen todos los distintos tipos de grficos disponibles, de los cuales
nosotros seleccionaremos uno. Una vez seleccionado el tipo de grfico correspondiente,
aparecern uno o varios cuadros de dilogo en los que deberemos especificar la variable
o variables implicadas y qu informacin numrica se mostrar (medias, porcentajes de
sujetos, sumas, etc.). El visor de resultados nos presentar el grfico que hemos
solicitado. A continuacin, podemos editarlo y hacer las modificaciones que creamos
convenientes (tamao de los distintos elementos, aadir texto o diagramas, rotar, etc.).
Finalmente, una vez que el grfico est a nuestro gusto, podemos almacenarlo en disco,
imprimirlo, etc. Tambin es posible crear el grfico paso a paso, de forma interactiva.
Los distintos tipos de grficos que se hallan disponibles son:
Barras: Muestran la distribucin de los valores en una serie de categoras dadas (por
ejemplo, el nmero medio de respuestas acertadas en un test por parte de nios de
diferentes colegios).
Lneas: Su principal finalidad es la de mostrar la evolucin de los valores a lo largo
de un contnuo determinado (por ejemplo, la tasa de respuestas emitida por un
organismo a lo largo de diferentes ensayos).
reas: Aunque existen distintos tipos de grficos de reas disponibles, por lo general
se trata simplemente de un grfico de lneas en el que la zona que se encuentra bajo la
lnea se halla coloreada. Permite hacerse una idea ms cabal acerca de la magnitud de
los cambios.
Sectores: Son los conocidos grficos de tarta. En ellos se representa el reparto de un
determinado atributo entre distintas categoras (por ejemplo, la proporcin de
hombres y mujeres contenidos en una muestra).
Mximos y mnimos: Sirven para representar en un mismo grfico los valores
obtenidos en un determinado atributo para varias entidades distintas a lo largo de un
contnuo determinado (por ejemplo, el nmero medio de verbalizaciones nuevas
emitido por tres grupos de nios sometidos a tres distintos programas de desarrollo
157
158
159
Para generar el grfico, es necesario cargar primero el archivo de datos encuest.sav, que
contiene los datos de ese cuestionario. A continuacin, seleccione la opcin Grficos.
De entre todas las opciones que aparecen, seleccione la opcin Sectores. Aparecer el
siguiente cuadro de dilogo:
En este cuadro de dilogo se nos pregunta qu tipo de datos van a aparecer en el grfico:
Resmenes para grupos de casos: Se refiere a si cada uno de los sectores de la tarta
representa los datos de un grupo de sujetos.
Resmenes para distintas variables: En este caso, cada uno de los sectores representa
los resultados para una variable determinada como, por ejemplo, las sumas totales
para diferentes variables; en este caso, cada sector representar una variable.
Valores individuales de los casos: Cada uno de los sectores representa a un sujeto de
la muestra.
En el ejemplo que estamos considerando, queremos saber cules han sido las respuestas
de los 10 sujetos a la pregunta de si entienden el gallego hablado. Dado que esta es la
opcin que viene determinada por defecto por el programa (sealada por un punto
negro), slo tenemos que pulsar el botn Definir. Una vez hecho esto, aparecer un
segundo cuadro de dilogo:
160
En la zona izquierda del cuadro aparecen las variables del archivo de datos, que son las
20 preguntas del cuestionario. En la zona superior se nos pregunta qu representa cada
sector de la tarta: El nmero de sujetos que dan una respuesta determinada, el porcentaje
de sujetos que dan esa respuesta, el nmero acumulado de sujetos , el porcentaje
acumulado de sujetos , o bien otra funcin de resumen, tal como la media o la
desviacin tpica. En este ltimo caso necesitamos una segunda variable de la que
extraer dicha funcin. De todas estas alternativas, nosotros queremos saber el porcentaje
de sujetos que dan una respuesta determinada, por lo que elegiremos la opcin % de
casos.
Justo debajo del cuadro anterior aparece la leyenda Definir sectores por, con una casilla
debajo, en la que debemos introducir la variable de inters. En nuestro caso, nos
interesan las respuestas de los sujetos a la pregunta "Entiendo el gallego hablado", que
se corresponde con la variable item01. Seleccione, pues, item01 en el recuadro de la
izquierda e introdzcala en esta casilla. En la parte inferior del cuadro de dilogo se
encuentra otro recuadro con la leyenda Plantilla. Aqu podemos indicar un archivo de
plantilla grfica cuyas especificaciones queremos que se apliquen al nuestro. Esta opcin
resulta de utilidad cuando generamos varios grficos del mismo tipo y no queremos
perder el tiempo dndoles formato uno a uno. De este modo, podemos usar las
especificaciones de uno de ellos como plantilla para todos los dems. Los archivos de
plantillas grficas pueden generarse en el editor de grficos, que veremos un poco ms
adelante. Por ltimo, en la zona inferior derecha del cuadro de dilogo aparecen dos
botones, Ttulos y Opciones. El primero nos permite colocar ttulos, subttulos y pies de
pgina al grfico. El segundo sirve para seleccionar distintas opciones, que se refieren
fundamentalmente a los valores perdidos. Pulse ahora el botn etiquetado Ttulos.
Aparecer un cuadro de dilogo donde puede indicar el ttulo del grfico. Escriba en la
primera lnea el texto de la pregunta 1: "Entiendo el gallego hablado". Pulse luego el
botn Continuar y, a continuacin, el botn Aceptar. El visor de resultados le mostrar
el siguiente grfico:
Entiendo el gallego hablado
nada
regular
bien
Pulse ahora dos veces sobre el grfico de sectores. Se abrir una nueva ventana, la del
editor de grficos. En esta ventana usted puede modificar diversos atributos del grfico.
Esta nueva ventana posee sus propias opciones de men y su propia barra de botones
161
para edicin de grficos. La funcin de cada uno de estos nuevos botones, de izquierda a
derecha, es la siguiente:
Identificacin de punto. En grficos de dispersin y de cajas, este botn permite
identificar y etiquetar a los sujetos representados por un punto en el grfico.
Trama. Sirve para cambiar la trama de relleno de una parte del grfico. Por
ejemplo, los distintos sectores de un grfico de sectores pueden resaltarse
utilizando distintas tramas para cada uno.
Color. Cambia el color del elemento seleccionado, ya sea grfico o texto.
Marcadores. En grficos de lnea, dispersin, etc., donde se usan marcadores (p.
ej.: crculos o tringulos) para sealar los valores de los sujetos, este botn permite
cambiar el aspecto del marcador para un sujeto o una serie de sujetos dada..
Estilo de lnea. En grficos de lneas, este botn permite cambiar el estilo en que
se muestran las mismas (lnea contnua, punteada, con guiones, etc.).
Estilo de barras. En grficos de barras, este botn permite modificar la apariencia
de las mismas (plana, con sombra, con volumen, etc.).
Etiquetas de barras. En grficos de barras, este botn permite mostrar, dentro de
cada barra, los valores correspondientes.
Estilo de interpolacin. En grficos de dispersin y lneas, permite especificar el
modo de interpolacin, o unin entre puntos sucesivos (directa, en escalera, en
saltos, por curvas). Por defecto, en los grficos de dispersin no hay interpolacin,
mientras que en los de lneas sta es directa (los puntos se unen con una lnea recta).
Tipo de letra. Permite cambiar los atributos del texto seleccionado (tipo de letra,
tamao y formato).
Rotacin 3-D. En grficos en tres dimensiones, permite rotar el grfico para
facilitar la visualizacin de los datos.
Intercambiar ejes. En grficos de lneas, reas y barras, permite intercambiar el
eje de categoras (horizontal) y el de valores (vertical).
Separar sector. En grficos de sectores, separa el sector seleccionado del resto,
con la finalidad de resaltarlo.
Lnea quebrada para valores perdidos. En grficos de lneas, permite especificar
si la lnea se quiebra cuando no se dispone de datos, o si se une al siguiente dato.
Opciones de grfico. Dependiendo del tipo de grfico que estemos editando, nos
mostrar una serie de opciones que nos permiten modificarlo.
Modo espn para grficos de dispersin 3-D. Nos permite acceder a un men que
162
bien
75.0%
163
A continuacin, vamos a modificar el ttulo del grfico y las tres etiquetas de valores que
aparecen para cada uno de los sectores, y que se corresponden con las respuestas "nada",
"regular" y "bien". En primer lugar, seleccionamos una de estas etiquetas con el ratn; el
texto de las tres etiquetas quedar enmarcado con unos pequeos cuadros, lo que indica
que las modificaciones que hagamos se aplicarn nicamente a esa zona del grfico. A
continuacin, seleccionamos con el ratn el botn representado con la letra "T"
mayscula, que nos permite cambiar el tipo y tamao de letra. El uso de este botn
equivale a seleccionar la opcin Texto del men Formato. La ventana del editor de
grficos tendr ahora este aspecto:
En la cuadro de dilogo vemos que la tipografa seleccionada para las tres etiquetas es la
"Arial", con un tamao de 8 puntos. Debajo del tipo y tamao seleccionado aparecen
dos recuadros donde se muestran, respectivamente, otros tipos y tamaos de letra
disponibles. Vamos a modificar slo el tamao de la letra, eligiendo una ligeramente
mayor, de 12 puntos. Una vez hecho esto, pulse el botn Aplicar. A continuacin
modificaremos el ttulo del grfico, "Entiendo el gallego hablado". En primer lugar,
seleccione el ttulo del grfico utilizando el botn izquierdo del ratn; ahora debe
aparecer enmarcado con una lnea continua. En este caso cambiaremos tanto el tipo
como el tamao. Seleccione el tipo de letra Times New Roman, y el tamao de 18
puntos, y pulse a continuacin el botn Aplicar; una vez hecho esto, pulse el botn
Cerrar, que cerrar el cuadro de dilogo para estilo de texto. Una vez modificadas las
etiquetas, podra interesarnos modificar ahora el tramado para cada uno de los sectores.
El tramado es una buena alternativa al color cuando uno desea imprimir un grfico y
slo dispone de una impresora en blanco y negro. Para modificar el tramado de los
164
distintos sectores, marcamos con el ratn uno ellos y pulsamos el botn que representa
un rectngulo sombreado, equivalente a la opcin Trama de relleno del men Formato.
Aparecer un cuadro de dilogo con ocho tramas de relleno. Seleccione ahora el sector
correspondiente a la respuesta "nada" y elija la opcin sin tramado (representada por un
cuadrado en blanco); a continuacin, pulse el botn Aplicar. Seleccione a continuacin
el sector correspondiente a la respuesta "regular" y elija uno de los dos tramados de
lneas oblcuas existentes y vuelva a pulsar el botn Aplicar. Finalmente, aplique un
tramado de lneas horizontales al sector correspondintes a la respuesta bien. Pulse a
continuacin el botn Cerrar.
Vamos a efectuar ahora el ltimo cambio en el grfico. Deseamos resaltar el sector
correspondiente a la respuesta "nada", y que representa a aquellos sujetos que no
entienden el gallego hablado. Para ello, seleccionaremos dicho sector con el ratn y
luego pulsaremos el botn que representa un sector con una flecha apuntando hacia
afuera; esto es lo mismo que utilizar la opcin Desgajar sector del men Formato, y que
sirve para separar a uno de los sectores del resto. El grfico definitivo quedar as:
regular
20.0%
bien
75.0%
Una vez modificado de esta forma el grfico, puede guardarlo de dos formas:
1. Exportndolo como grfico individual en un formato grfico determinado
(vectorial o de mapa de bits).
2. Guardndolo como parte del archivo de resultados (.SPO).
Para exportar el grfico, seleccione la opcin Archivo del men del editor de grficos.
A continuacin, seleccione la opcin Exportar grfico. SPSS le pedir un nombre de
archivo. Los distintos formatos de archivo grfico se muestran en el recuadro
etiquetado Guardar como tipo. Cada formato es idneo para unas aplicaciones
determinadas, por lo que debe seleccionar el que mejor se ajuste a sus fines (integrar
el grfico en un informe, realizar una fotocomposicin, crear diapositivas, etc.).
Si desea guardar el grfico como parte del archivo de resultados, seleccione la opcin
Archivo del men del editor de grficos y, a continuacin, seleccione la opcin
Cerrar. Se cerrar la ventana del editor de grficos, pero el grfico de sectores que ha
165
X Y
60 4
10 2
80 9
50 7
30 3
Cuando analizamos la correlacin entre las variables (ver Apartado 6.2), nos
encontramos con un valor de rxy de, aproximadamente, 0.86. Lo que nos indica este
valor es que existe una relacin lineal positiva e intensa entre X e Y, dado que 0.86 es
positivo y est prximo a 1. Pues bien, utilizando un grfico de dispersin podremos
comprobar visualmente la intensidad de esa relacin lineal.
Para ello, cree en primer lugar el archivo de datos, al que llamaremos regre.sav. Los
resultados en la prueba X se almacenarn en la variable var00001, y los resultados en la
prueba Y, en la variable var00002. A continuacin, seleccione la opcin Grficos en el
men principal y, en el men que se despliega, la opcin Dispersin. Aparecer el
siguiente cuadro de dilogo:
166
VAR00002
0
0
VAR00001
20
40
167
60
80
100
Una de las opciones que aparecen en este nuevo cuadro de dilogo es la de Mostrar los
subgrupos; esta opcin slo se encuentra disponible si previamente hemos seleccionado
una variable con esta finalidad en la opcin Establecer marcas por, en el cuadro de
dilogo anterior. Otra opcin es la que nos permite etiquetar a los sujetos (Etiquetas de
caso), bien por su nmero de orden, bien por una variable identificadora, que debe ser
seleccionada en la opcin Etiquetar los casos mediante, del cuadro de dilogo anterior.
Una tercera opcin es la que nos permite Mostrar girasoles para el caso de puntuaciones
coincidentes; el girasol tendr tantos ptalos como sujetos coincidan en una misma
puntuacin. Por ltimo, se muestran dos opciones para lneas en el grfico. La primera
nos permite mostrar la lnea que mejor se ajuste a las puntuaciones (Ajustar lnea),
mientras que la segunda nos permite mostrar una lnea horizontal de referencia (Lnea
de referencia para la media en Y), correspondiente a la media de la variable Y. Para
obtener la recta de regresin de X sobre Y, seleccione la opcin que nos permite mostrar
la lnea de ajuste para el Total de los sujetos.
Una vez hecho esto, es necesario especificar el tipo de ajuste que se utilizar para
generar la lnea correspondiente. Para especificar este aspecto disponemos de un botn
etiquetado Opciones de ajuste. Pulse este botn y aparecer un nuevo cuadro de dilogo
con varias opciones. En primer lugar, tenemos distintos mtodos de ajuste posibles para
nuestros datos. El mtodo seleccionado por defecto es el de Regresin lineal, pero
tambin es posible utilizar Regresin cuadrtica o Regresin cbica, as como un
mtodo de mnimos cuadrados ponderados (Minsce). Es posible tambin crear intervalos
confidenciales para los valores de la recta de regresin; estos intervalos se producen
debido a la existencia de error en las predicciones hechas por la recta. Como fuente de
168
los intervalos puede utilizarse la media de las predicciones (Media), o bien puede
establecerse un intervalo para cada dato (Individual). Finalmente, dos ltimas opciones
se refieren a la inclusin o no de dos valores: el de la constante a en la recta, y el del
coeficiente de determinacin en la representacin grfica. Dado que la constante a se
incluye por defecto en la ecuacin, seleccione nicamente la ltima opcin. El cuadro de
dilogo quedar as:
VAR00002
R = 0.7343
0
20
40
60
80
100
VAR00001
169
170
R = 0.7343
0
20
40
60
80
100
Vamos ahora a modificar el tamao tanto de las etiquetas de los ejes como el ttulo del
grfico. Usted ya vio en el Apartado anterior el modo en que puede hacerse esto.
Aplique un tipo de letra Arial de 12 puntos a las etiquetas de los ejes, y un tipo de letra
Times New Roman de 18 puntos al ttulo del grfico. A continuacin, modificaremos
los marcadores del grfico. Dado que slo tenemos cinco puntuaciones, el grfico
resultar ms claro si utilizamos marcadores algo mayores para las puntuaciones; por
defecto, los marcadores son de tamao Muy pequeo . Para modificar los marcadores,
seleccione una puntuacin cualquiera del grfico; todas ellas aparecern seleccionadas.
Pulse ahora el botn que representa un asterisco, y aparecer el cuadro de dilogo para
171
modificar los marcadores. Elija un tipo crculo negro como marcador, y un tamao
Pequeo para el mismo. El cuadro tendr este aspecto:
Pulse, sucesivamente, los botones Aplicar y Cerrar. Ahora los marcadores son ms
visibles:
Regresin de X sobre Y
10
R = 0.7343
0
20
40
60
80
100
172
173
174
Droga 1
30
14
24
38
26
Droga 2
28
18
20
34
28
Droga 3
16
10
18
20
14
Droga 4
34
22
30
44
30
Las cuatro variables del archivo de datos (de var00001 a var00004) contienen la medida
del tiempo de reaccin de cada uno de los sujetos bajo cada una de las drogas (variable
independiente). Por su parte, cada fila contiene las puntuaciones de un sujeto en todas
las condiciones experimentales, o lo que es lo mismo, en cada tipo de droga.
En un experimento de medidas repetidas, como en la mayora de las ocasiones, la
descripcin de las variables constituye un primer paso en el anlisis estadstico de los
datos. La media y la desviacin tpica son dos estadsticos muy apropiados para este fin.
175
Si solicita un anlisis descriptivo (ver apartado 5.1.6) para las 4 variables del archivo de
datos obtendr los siguientes resultados:
Estadsticos descriptivos
N
VAR00001
VAR00002
VAR00003
VAR00004
N vlido (segn lista)
5
5
5
5
5
Mnimo
14.00
18.00
10.00
22.00
Mximo
38.00
34.00
20.00
44.00
Media
26.4000
25.6000
15.6000
32.0000
Desv. tp.
8.7636
6.5422
3.8471
8.0000
Por defecto, SPSS llamar factor1 al factor intra-sujetos o factor intragrupo, pero es
posible asignarle un nombre diferente. Dado que queremos ver el efecto de cuatro
drogas diferentes, llamaremos droga al factor intra-sujetos. A continuacin se nos pide
el nmero de niveles de la variable independiente. El nmero de niveles es 4, uno por
cada tipo de droga que fue administrada a los sujetos. Introduzca, pues, un 4 en la
casilla. Una vez definido el factor, pulse el botn "Aadir" y, a continuacin, pulse el
botn Definir. Aparecer el siguiente cuadro de dilogo:
176
En la zona izquierda del cuadro de dilogo aparecen las cuatro variables de nuestro
archivo de datos, que debemos corresponder con cada una de las cuatro variables o
niveles del factor intra-sujetos droga. Seleccione, pues, todas las variables, e
introdzcalas en la casilla correspondiente a Variables intra-sujetos pulsando el botn
con forma de flecha que apunta hacia esta casilla.
En la parte inferior del cuadro de dilogo aparecen una serie de botones que nos
permiten llevar a cabo especificaciones adicionales. Con las especificaciones que
efectuadas ya podramos solucionar el ejemplo planteado, asumiendo las
especificaciones que el programa asume por defecto. Sin embargo, veamos antes las
especificaciones para el modelo de anlisis de varianza de medidas repetidas. Para ello,
pulse el botn Modelo. Aparecer este cuadro de dilogo:
177
SPSS lleva a cabo por defecto un modelo Factorial completo, que ofrece los efectos
principales de los factores Intra-sujetos (en nuestro caso, el factor droga) e Inter-sujetos
(que no existe en nuestro ejemplo), as como las interacciones entre los distintos
factores en el caso del anlisis de varianza de dos o ms factores. En el caso de un
factor, como el de nuestro ejemplo, el programa ofrece dos tablas de efectos: una que
contiene el efecto del factor intrasujetos y otra para el efecto intersujetos. Adems, se
selecciona como prueba intrasujetos nicamente el valor de F, que se muestra por
defecto junto con las pruebas multivariadas, que no comentaremos aqu. Para salir de
este cuadro de dilogo sin efectuar ninguna modificacin pulse el botn Cancelar.
Pulse ahora, en el cuadro de dilogo del anlisis de medidas repetidas, el botn Aceptar.
El visor de resultados le mostrar varias tablas. De todas ellas vamos a detenernos slo
en la que nos interesa, aquella que contiene las pruebas de efectos intra-sujetos:
Pruebas de efectos intra-sujetos.
Medida: MEASURE_1
Fuente
DROGA
Error(DROGA)
Esfericidad asumida
Greenhouse-Geisser
Huynh-Feldt
Lmite-inferior
Esfericidad asumida
Greenhouse-Geisser
Huynh-Feldt
Lmite-inferior
Suma de
cuadrados
tipo III
698.200
698.200
698.200
698.200
112.800
112.800
112.800
112.800
gl
3
1.815
3.000
1.000
12
7.258
12.000
4.000
Media
cuadrtica
232.733
384.763
232.733
698.200
9.400
15.540
9.400
28.200
F
24.759
24.759
24.759
24.759
Significacin
.000
.001
.000
.008
Observemos los valores con esfericidad asumida. Se observa que el valor estadstico F
(cociente entre la Media cuadrtica DROGA (232.733) y la Media cuadrtica del error
(9.4)) tiene un valor de 24.759 con una probabilidad asociada menor que .001. Como
178
esta probabilidad es menor que .05 se puede rechazar la hiptesis nula y afirmar que
existen diferencias significativas entre los tiempos de reaccin correspondientes a las
cuatro drogas. As, se podra interpretar este resultado diciendo que el tiempo de
reaccin de los sujetos vara en funcin del tipo de droga que consuman.
En caso de que nos interesase averiguar entre qu tipos de droga existen realmente
diferencias significativas, tendramos que solicitar la comparacin de los efectos
principales para cada tipo de droga. Sin embargo, esta explicacin excede el objetivo
que nos hemos propuesto. Baste concluir que una revisin de las medias para cada tipo
de droga nos permite decir que el tiempo de reaccin de este grupo de sujetos es
sensiblemente inferior bajo los efectos de la droga 3.
b1
1
2
3
4
5
6
4
6
1
2
5
1
a2
b2
b3
5
8
6
10
10
7
7
10
5
12
10
8
179
b1
b2
1
3
3
1
5
2
2
6
5
4
6
8
b3
4
6
4
7
5
7
Para llevar a cabo el anlisis de varianza de estos datos mediante SPSS crearemos un
archivo de datos al que llamaremos repe2.sav. La ventana del editor tendr este aspecto:
Para mayor claridad se ha puesto nombre a las seis variables del archivo de datos, de
forma que puedan ser identificadas ms fcilmente en el diseo (si no recuerda cmo
cambiar el nombre a una variable, consulte el Apartado 3.2).
Al observar este archivo se puede ver que la disposicin de los datos es la misma que en
el caso de medidas repetidas en un factor; es decir, cada fila contiene las puntuaciones
de un sujeto bajo todas las condiciones de tratamiento. En el ejemplo que nos ocupa los
6 sujetos reciben todas las combinaciones de los factores A y B (A con dos niveles y B
con tres).
La media y la desviacin tpica son dos estadsticos que pueden facilitarnos la
interpretacin de los datos. Si solicita ambos para las 6 variables del archivo de datos
obtendr los siguientes resultados:
180
Estadsticos descriptivos
N
A1B1
A1B2
A1B3
A2B1
A2B2
A2B3
N vlido (segn lista)
6
6
6
6
6
6
6
Mnimo
1.00
5.00
5.00
1.00
2.00
4.00
Mximo
6.00
10.00
12.00
5.00
8.00
7.00
Media
3.1667
7.6667
8.6667
2.5000
5.1667
5.5000
Desv. tp.
2.1370
2.0656
2.5033
1.5166
2.0412
1.3784
Los siguientes pasos para el anlisis son bsicamente los mismos que los efectuados en
el caso de un factor con medidas repetidas. Seleccionaremos la opcin Analizar, dentro
de sta la opcin Modelo lineal general y, finalmente, la opcin Medidas repetidas.
Aparecer el cuadro de dilogo inicial del procedimiento, que nos permite definir un
nombre para cada uno de los factores intra-sujetos, as como el nmero de niveles de los
mismos.En este caso definimos primero al factor A (condiciones de reconocimiento o de
recuerdo). Como nombre del factor escriba facta. Indique a continuacin el nmero de
niveles, que son 2. Una vez definido este factor pulse el botn Aadir y pasaremos a
definir el factor B (intervalo temporal : 1 hora - 1 da - 1 semana). Como nombre del
factor escriba factb e indique el nmero de niveles, que son 3. Pulse de nuevo el botn
Aadir. El cuadro de dilogo tendr este aspecto:
A continuacin, pulse el botn Definir para salir de este cuadro de dilogo. Aparecer la
ventana del anlisis de medidas repetidas propiamente dicho, que usted ya conoce.
Seleccione todas las variables del archivo de datos de la casilla situada en la zona
izquierda del cuadro de dilogo e introdzcalas en el recuadro donde deben introducirse
las Variables intra-sujetos. El cuadro de dilogo debe tener ahora este aspecto:
181
Observe que el orden de las variables coincide con la combinacin de niveles para los
factores A y B (1-1, 1-2, 1-3, 2-1, 2-2, 2-3). Esto facilita la especificacin de qu variable
contiene qu combinacin de efectos. De no encontrarse las variables ordenadas en el
archivo de datos, la operacin anterior debe efectuarse con cuidado para no cometer
errores en la asignacin de variables. Para llevar a cabo el anlisis pulse ahora Aceptar.
Obtendr de nuevo varias tablas, de las que vamos a comentar aqu nicamente la que
ms nos interesa, que es la que contiene las pruebas de efectos intra-sujetos:
182
Fuente
FACTA
Esfericidad asumida
Greenhouse-Geisser
Huynh-Feldt
Lmite-inferior
Error(FACTA)
Esfericidad asumida
Greenhouse-Geisser
Huynh-Feldt
Lmite-inferior
FACTB
Esfericidad asumida
Greenhouse-Geisser
Huynh-Feldt
Lmite-inferior
Error(FACTB)
Esfericidad asumida
Greenhouse-Geisser
Huynh-Feldt
Lmite-inferior
FACTA * FACTB
Esfericidad asumida
Greenhouse-Geisser
Huynh-Feldt
Lmite-inferior
Error(FACTA*FACTB) Esfericidad asumida
Greenhouse-Geisser
Huynh-Feldt
Lmite-inferior
Suma de
cuadrados
tipo III
40.111
40.111
40.111
40.111
24.556
24.556
24.556
24.556
125.389
125.389
125.389
125.389
35.278
35.278
35.278
35.278
10.056
10.056
10.056
10.056
9.278
9.278
9.278
9.278
gl
1
1.000
1.000
1.000
5
5.000
5.000
5.000
2
1.589
2.000
1.000
10
7.944
10.000
5.000
2
1.300
1.569
1.000
10
6.502
7.843
5.000
Media
cuadrtica
40.111
40.111
40.111
40.111
4.911
4.911
4.911
4.911
62.694
78.920
62.694
125.389
3.528
4.441
3.528
7.056
5.028
7.732
6.411
10.056
.928
1.427
1.183
1.856
F
8.167
8.167
8.167
8.167
Significacin
.035
.035
.035
.035
17.772
17.772
17.772
17.772
.001
.002
.001
.008
5.419
5.419
5.419
5.419
.025
.050
.039
.067
De nuevo observemos los resultados para esfericidad asumida. Dado que se estudia el
efecto de dos factores se obtienen 3 valores de F (uno para cada factor y otro para la
interaccin), significativos en todos los casos. Esto es, existe un efecto significativo del
factor A (F(1,5)=8.167; p<.035); un efecto significativo del factor B (F(2,10)=17.77,
p<.001) y, tambin result significativa la interaccin AxB (F(2,10)= 5.419, p<.025).
En lo que se refiere a la interpretacin de estos resultados para nuestros datos, el efecto
significativo del factor A indicara que el nmero de errores es significativamente mayor
bajo condiciones de recuerdo (a1) que bajo condiciones de reconocimiento (a2).
Efectivamente, si observa las medias para las 6 variables, ver que la media de a1b1 es
mayor que la de a2b1, que la media de a1b2 es mayor que la de a2b2, y que la media de
a1b3 es mayor que la de a2b3. Por su parte, el efecto significativo del factor B indicara
que el nmero de errores es significativamente mayor cuanto mayor es el intervalo
temporal transcurrido. Observe de nuevo las medias para las 6 variables. Tanto en el
caso de a1b1, a1b2 y a1b3 como en el caso de a2b1, a2b2 y a2b3, la media de errores
es mayor al cabo de una semana (b3) que al cabo de un da (b2), y es ms pequea al
cabo de una hora (b1). Finalmente, el efecto de interaccin significativo indicara que el
efecto del tiempo sobre el nmero de errores es ms importante bajo condiciones de
reconocimiento que bajo condiciones de recuerdo o, dicho de otra manera, que la
diferencia entre ambas condiciones se hace ms patente cuanto mayor es el intervalo
temporal transcurrido. Observe, en la tabla de medias para las 6 variables, que la
diferencia entre las medias de a1b1 y a2b1 es pequea (3,17 - 2,50 = 0,67), mientras que
la diferencia entre las medias de a1b3 y a2b3 es mucho mayor (8,67 - 5,50 = 3,17).
183
184
C.I.
102
112
112
132
102
Mtodo B
05
08
07
06
07
C.I.
092
122
112
102
112
Mtodo C
05
06
08
07
09
C.I.
082
102
132
102
122
Para analizar estos datos mediante SPSS crearemos un archivo de datos, al que
llamaremos ancova.sav. Una vez introducidos los datos, la ventana del editor de SPSS
tendr este aspecto:
185
En la zona izquierda del cuadro de dilogo aparece las variables del archivo de datos. A
la derecha de esta lista hay una serie de casillas. Debe colocar cada variable en la casilla
correspondiente. Seleccione, en primer lugar, la variable rendim e introdzcala en la
casilla etiquetada con la palabra Dependiente. A continuacin, seleccione la variable
metodo e introdzcala en la casilla etiquetada como Factores fijos. Finalmente,
seleccione la variable ci e introdzcala en la casilla etiquetada con la palabra
Covariables. Ahora ya ha definido todas las variables del modelo.
A la hora de comparar los resultados obtenidos por los distintos mtodos, es de gran
ayuda obtener las medias estimadas para cada grupo. Para obtener esta informacin,
pulse ahora el botn Opciones. En el cuadro de dilogo que aparece seleccione la
variable metodo e introdzcala en la casilla etiquetada Mostrar las medias para. De este
modo, se mostrarn el el visor de resultados, para cada mtodo de enseanza, las medias
186
en la variable dependiente rendim. Una vez efectuado este cambio, el cuadro de dilogo
tendr este aspecto:
Fuente
Modelo corregido
Interseccin
CI
METODO
Error
Total
Total corregida
Suma de
cuadrados
tipo III
28.224a
.414
17.024
7.545
3.376
853.000
31.600
gl
3
1
1
2
11
15
14
Media
cuadrtica
9.408
.414
17.024
3.773
.307
F
30.656
1.350
55.474
12.293
Significacin
.000
.270
.000
.002
En la primera columna de la tabla se indican las fuentes de variacin. De todas ellas, son
dos las que nos interesan especialmente.
1. En primer lugar, el efecto de la covariable ci sobre la variable dependiente arroj un
valor F de 55.474, con una probabilidad asociada p<.001. Este resultado indica que
187
METODO
1.00
2.00
3.00
Media
8.386a
6.707a
7.107a
Error tp.
.249
.248
.248
Intervalo de confianza al
95%.
Lmite
Lmite inferior
superior
7.837
8.935
6.161
7.253
6.561
7.653
188
para
189
DEPO
2
97
247
72
2
189
311
12
107
74
18
56
229
24
EMAG
6
9
6
31
13
15
11
10
31
19
6
61
3
4
INNA
8,4
10,7
12,4
4,1
11,0
5,7
8,7
6,8
2,1
5,3
12,8
1,6
7,2
10,6
190
INRC
10,1
9,2
9,1
8,1
6,6
7,9
10,9
8,0
5,5
6,9
7,2
8,8
9,3
7,3
MOIN
12
10
15
19
11
15
8
14
39
15
7
153
13
13
ENER
5,2
3,7
4,6
1,7
5,8
2,5
3,3
3,4
1,1
2,0
6,3
0,7
3,9
8,7
APTV
36
28
33
12
25
22
24
26
9
21
37
5
39
62
Obtencin de R.
Extraccin de factores.
Rotacin de factores.
Obtencin de Puntuaciones factoriales.
Estos sern, tambin, los distintos pasos que tendremos que ir seleccionando
consecutivamente para ejecutar el anlisis factorial con SPSS. Para acceder al cuadro
de dilogo del procedimiento de anlisis factorial seleccione, en el men, la opcin
Analizar; a continuacin, seleccione la opcin Reduccin de datos y, finalmente,
seleccione la opcin Anlisis factorial. En el cuadro de dilogo que aparece a
continuacin, seleccione las siete variables que contienen los indicadores
191
Veamos, en primer lugar, cmo debemos de proceder, a partir de este momento, para
ejecutar el anlisis y, a continuacin, haremos la interpretacin de los resultados que
hemos obtenido.
Una vez introducidos los datos y seleccionadas las variables a analizar, la solucin al
anlisis factorial se obtiene siguiendo los cuatro pasos mencionados anteriormente.
Cada uno de estos pasos aparece recogido en la parte inferior de la ventana principal
mediante los botones etiquetados como Descriptivos, Extraccin, Rotacin y
Puntuaciones.
Aunque el programa tiene muchas opciones, nosotros seleccionaremos aquellas que
son imprescindibles para poder entender el objetivo que tiene el anlisis factorial e
interpretar los resultados. Veamos la informacin que se ofrece bajo cada uno de estos
pasos, siguiendo nuestro ejemplo.
El primer paso del anlisis factorial tiene como principal finalidad obtener la matriz de
correlaciones entre variables (matriz R). Para ello, pulse el botn Descriptivos.
Aparecer el siguiente cuadro de dilogo:
192
193
194
195
196
Estadsticos descriptivos
Desviacin
tpica
101.33
15.73
3.619
1.462
37.75
2.211
14.40
Media
DENSIDAD DE POBLACIN
102.86
% PERSONAS EMPLEADAS EN AGRICULTURA
16.07
INGRESOS NACIONALES PER CAPITA
7.671
INVERSIN DE RENDIMIENTO DE CAPITAL EN MAQUINARIA 8.207
TASA DE MORTALIDAD INFANTIL
24.57
CONSUMO DE ENERGA POR 100 HABITANTES
3.779
APARATOS DE TV POR 100 HABITANTES
27.07
N del
anlisis
14
14
14
14
14
14
14
Correlacin
Sig. (Unilateral)
DENSIDAD
DE
POBLACIN
DENSIDAD DE POBLACIN
1.000
% PERSONAS EMPLEADAS EN AGRICULTURA
-.150
INGRESOS NACIONALES PER CAPITA
.019
INVERSIN DE RENDIMIENTO DE CAPITAL EN MAQUINARIA
.490
TASA DE MORTALIDAD INFANTIL
-.131
CONSUMO DE ENERGA POR 100 HABITANTES
-.255
APARATOS DE TV POR 100 HABITANTES
-.069
DENSIDAD DE POBLACIN
% PERSONAS EMPLEADAS EN AGRICULTURA
.304
INGRESOS NACIONALES PER CAPITA
.474
INVERSIN DE RENDIMIENTO DE CAPITAL EN MAQUINARIA
.038
TASA DE MORTALIDAD INFANTIL
.327
CONSUMO DE ENERGA POR 100 HABITANTES
.190
APARATOS DE TV POR 100 HABITANTES
.407
% PERSONAS
EMPLEADAS
EN
AGRICULTURA
-.150
1.000
-.786
-.183
.890
-.715
-.783
.304
.000
.266
.000
.002
.000
INGRESOS
NACIONALES
PER CAPITA
.019
-.786
1.000
.196
-.602
.830
.722
.474
.000
.251
.011
.000
.002
INVERSIN
DE
RENDIMIENTO
DE CAPITAL
EN
MAQUINARIA
.490
-.183
.196
1.000
.002
.009
.134
.038
.266
.251
.498
.488
.324
TASA DE
MORTALIDAD
INFANTIL
-.131
.890
-.602
.002
1.000
-.494
-.526
.327
.000
.011
.498
.036
.027
CONSUMO
APARATOS
DE ENERGA DE TV POR
POR 100
100
HABITANTES HABITANTES
-.255
-.069
-.715
-.783
.830
.722
.009
.134
-.494
-.526
1.000
.915
.915
1.000
.190
.407
.002
.000
.000
.002
.488
.324
.036
.027
.000
.000
197
ellas que es explicada por la otra. De manera similar se interpretan los dems
elementos de esta matriz.
Pero, como ya hemos sealado, el objetivo del anlisis factorial es obtener
agrupaciones de variables en funcin, lgicamente, de la relacin que se d entre ellas
en R.
Veamos, pues, qu ms podemos concluir si atendemos a la matriz R en su conjunto.
Para ello nos centraremos nicamente en las correlaciones significativas.
Parecen formarse 2 agrupaciones de variables. Por un lado, EMAG, INNA, MOIN,
ENER, APTV y por otro, DEPO e INCR. Cmo llegamos a esta conclusin?
Analizando las filas y/o columnas de las matrices de correlacin y coeficientes de
significacin.
Si atendemos a la primera columna correspondiente a la variable 1, DEPO, vemos que
con la nica variable con la que tiene una relacin significativa es con la variable 4,
INRC (r14= .490, p=.038). Pero adems, la variable INRC (cuarta columna) tampoco
tiene una relacin significativa con las dems variables, si exceptuamos la variable
DEPO. Por tanto, DEPO e INRC forman un grupo. El otro grupo lo componen las 5
variables restantes (EMAG, INNA, MOIN, ENER, APTV) que muestran relaciones
significativas entre s, pero no con las variables DEPO e INRC.
Por ejemplo, en la fila 7 tenemos, en R y en la matriz de significacin, la relacin de la
variable APTV con las dems:
APTV
DEPO
-.069
(.407)
EMAG
-.783
(.000)
INNA
.722
(.002)
INRC
.134
(.324)
MOIN
-.526
(.027)
ENER
.915
(.000)
De modo similar, si observamos las relaciones de las dems variables veremos que,
efectivamente, cada una de ellas (EMAG, INNA, MOIN, ENER) se relaciona
significativamente con las dems pero ninguna lo hace con las variables que
conforman el otro grupo: DEPO e INRC.
14.2.2. Extraccin de factores
198
Comunalidades
Inicial
DENSIDAD DE POBLACIN
1.000
% PERSONAS EMPLEADAS EN AGRICULTURA
1.000
INGRESOS NACIONALES PER CAPITA
1.000
INVERSIN DE RENDIMIENTO DE CAPITAL EN MAQUINARIA1.000
TASA DE MORTALIDAD INFANTIL
1.000
CONSUMO DE ENERGA POR 100 HABITANTES
1.000
APARATOS DE TV POR 100 HABITANTES
1.000
Extraccin
.803
.910
.805
.665
.618
.884
.816
Componente
1
2
3
4
5
6
7
Autovalores iniciales
% de la
%
Total varianza
acumulado
3.937
56.238
56.238
1.564
22.342
78.580
.810
11.571
90.151
.357
5.102
95.253
.270
3.861
99.114
.045
.644
99.759
.017
.241
100.000
199
variables, pero sus columnas son, solamente 2 que, como ya sabemos, son los factores
significativos.
Centrmonos en la interpretacin de esta matriz. Sus elementos indican la relacin
entre las variables y los factores. Se les denomina cargas o saturaciones factoriales e
indican, si los elevamos al cuadrado, la proporcin de varianza que cada variable
aporta a dicho factor.
Interpretemos cada uno de los factores significativos de A.
Factor 1. En este factor, cuyo autovalor es 3,937 (el 56,238% de la VT=7) se nos
muestran como cargas factoriales significativas las correspondientes a las variables:
.896
.799
(Densidad de poblacin).
(Inversin de capital en maquinaria.).
Las dos variables significativas en el factor tienen cargas positivas; por tanto, a mayor
densidad de poblacin en un pas mayor es la inversin de capital en maquinaria, y
viceversa.
Esta estructura factorial que acabamos de describir para los factores significativos,
coincide con el pronstico que ya habamos hecho analizando el contenido de la
matriz de correlaciones.
201
Factor 1
.018
-.944
.897
.165
-.781
.893
.897
Factor2
.896
-.135
.018
.799
-.084
-.293
-.106
202
DEPO
EMAG
INNA
INRC
MOIN
ENER
APTV
Factor 1
0
1
1
0
1
1
1
Factor2
1
0
0
1
0
0
0
Es decir, maximizar las cargas que son significativas en los factores aproximndolas a
1 y minimizar las cargas no significativas aproximndolas a 0.
En la medida en que nos acerquemos a esta estructura idnea se cumplir la
ortogonalidad (independencia o no correlacin) entre factores, ya que cada uno de llos
ser explicado por diferentes grupos de variables. En el caso del Factor 1, por las
variables EMAG, INNA, MOIN, ENER, APTV, y en el caso del Factor 2 por las
variables DEPO e INRC.
Si bien en muchos de los casos la rotacin de factores consigue su finalidad, mejorar
la interpretabilidad, en otros, realmente, no existen demasiadas diferencias entre la
matriz factorial antes y despus de la rotacin. En nuestro ejemplo, vemos que
realmente el contenido de ambas es muy similar. Ello se debe a que dado el tipo de
relacin que se establece entre las variables, stas ya desde un principio (en el
momento de la extraccin) se posicionan claramente en uno de los factores y en este
caso la rotacin no aade prcticamente nada nuevo a la interpretacin de los factores.
Qu semejanzas y diferencias podemos establecer entre la matriz factorial A
(solamente con factores significativos) y la matriz factorial rotada F?.
En primer lugar, la cantidad de informacin, es decir, el porcentaje de varianza total
de R que contienen ambas es exactamente la misma, si bien se distribuye de distinta
manera en los factores. Los elementos son en ambas coeficientes de correlacin
variable-factor y se denominan de igual manera. La interpretacin del anlisis factorial
se realiza fundamentalmente sobre la matriz F ya que esta es la que tiene la
informacin mejor estructurada.
Hemos partido en nuestro ejemplo de una matriz X en la que tenamos las
puntuaciones originales de cada pas en cada una de las 7 variables. A continuacin,
dadas las relaciones que se establecen entre las variables (matriz R), se ha extrado la
matriz factorial en la que se han tomado como significativos los 2 primeros factores
(por tener autovalores > 1) y en la matriz de puntuaciones factoriales tenemos la
puntuacin (tpica) de cada pas en cada uno de los factores significativos.
14.2.4. Puntuaciones factoriales
203
verlas no tiene ms que cambiarse al editor de datos. La ventana tiene ahora este
aspecto:
Observe que aparecen dos nuevas variables, fac1_1 y fac1_2. Estas variables
contienen las puntuaciones factoriales estandarizadas (z) que solicitamos al llevar a
cabo el anlisis. Tomemos ahora un elemento de la matriz de puntuaciones factoriales,
por ejemplo la puntuacin que obtiene el pas 12 (Turqua) en el factor 1.
Z12,1 = - 2.37737
Turqua tiene una puntuacin factorial negativa y muy extrema en este factor. El factor
1 estaba explicado fundamentalmente por las variables:
-.933
.893
-.774
.911
.902
EMAG
INNA
MOIN
ENER
APTV
204
BIBLIOGRAFA
Amn, J. (1986a). Estadstica para psiclogos. I. Estadstica descriptiva. Madrid:
Pirmide.
Amn, J. (1986b). Estadstica para psiclogos. II. Probabilidad. Estadstica inferencial.
Madrid: Pirmide.
Arnau, J. (1978). Psicologa experimental. Un enfoque metodolgico. Mxico: Trillas.
Arnau, J. (1981). Diseos experimentales en psicologa y educacin (2 Vols.). Mxico:
Trillas.
Bisquerra, R. (1987). Introduccin a la estadstica aplicada a la investigacin educativa.
Un enfoque informtico con los paquetes BMDP y SPSSX. Barcelona: PPU.
Botella, J., y Barriopedro, M.I. (1991). Problemas y ejercicios de psicoestadstica.
Madrid: Pirmide.
Botella, J., Len, O., y San Martn, R. (1993). Anlisis de datos en psicologa I. Madrid:
Pirmide.
Comrey, A.L. (1985). Manual de anlisis factorial. Madrid: Ctedra.
Cuadras, C.M. (1984). Fundamentos de estadstica. Aplicacin a las ciencias humanas.
Barcelona: PPU.
Cureton, E.E.; dAgostino, R.B. (1983). Factor Analysis: an applied approach. Hillsdale:
L.E.A.
Domnech, J.M. (1980). Bioestadstica. Mtodos estadsticos para investigadores.
Barcelona: Herder.
Domnech, J.M., Riba, M.D., Behar, J, Carasa, P., y Gotzens, C. (1982). Problemas de
estadstica aplicada a la psicologa. Barcelona: Herder.
Ferraces, M.J.; Rodrguez, M.S.; Andrade, E.M. (1995). Introduccin a los diseos de
investigacin: planificacin, anlisis estadsticos (SPSS para Windows) e
interpretacin. Santiago: Trculo.
Ferraces, M.J.; Andrade, E.M. (2000). Diseos de Investigacin I: Libro de esquemas.
Santiago: Trculo.
Ferrando Piera, P.J. (1993). Introduccin al anlisis factorial. Barcelona: PPU.
Gorsuch, R.L. (1988). Exploratory factor analysis. En Nesselroade y Cattell (Eds.),
Handbok of multivariate experimental psychology. New York: Plenum Press.
Harman, H. (1980). Anlisis factorial moderno. Madrid: Salts.
Hays, W.L. (1981). Statistics. Nueva York: Holt, Rinehart and Winston.
Kim, J.O.; Mueller, C.W. (1978). Factor analysis: statistical methods and practical
issues. Beverly Hills: Sage.
Kmenta, J. (1980). Elementos de econometra. Barcelona: Vicens-Vives.
Maci, M.A., Garriga, A.J., Lubin, P., y Moreno, E. (1990). Psicologa matemtica II.
Libro de problemas. Madrid: UNED.
Martnez, M. R., Maci, M.A., y Prez, J.A. (1989). Psicologa Matemtica II. Madrid:
UNED.
Mc Donald, R.P. (1985). Factor analysis and related methods. Hillsdale: L.E.A.
Mulaik, S.A. (1972). The foundations of factor analysis. New York: McGraw-Hill.
Norusis, M.J. (1988). SPSS/PC+. Base Manual. Chicago, IL. SPSS Inc.
Nunnally, J.C.; Bernstein, I.J. (1995). Teora psicomtrica. Mxico: McGraw-Hill.
205
206