Anda di halaman 1dari 10

Segunda gua de Ayudanta Estadstica II

Profesor Rodrigo Asn


Ayudante Cristian Sandoval
Contenido:
1) Comando explorar en SPSS
2) Comando tablas cruzadas en SPSS
_________________________________________________________

I.

Comando explorar en SPSS

Bsicamente se trata de una exploracin ms minuciosa de los datos de una


variable, incluye informacin de comandos que ya revisamos anteriormente,
pero tambin agrega nuevas herramientas sobre el comportamiento de
valores atpicos y la estimacin de parmetros. La forma de obtenerlo es en
la siguiente ruta:
Analizar Estadsticos descriptivos Explorar

En la tabla de acceso rpido explorar se ofrece la lista completa de las


variables de la base de datos, adems de 3 ventanas donde es posible
ingresar las variables que deseamos explorar. De esas 3 solo nos importan
las primeras dos, en la primera de ellas (Lista de dependientes) se ingresan
las variables que se desea analizar, mientras que la lista de factores sirve

para ingresar una variable que segmentar la muestra de modo que la


variable dependiente pueda ser explorada en distintos grupos (por ejemplo
la exploracin de la edad en cada uno de los sexos, en este caso).
Las propiedades que ms nos interesa profundizar en este nivel se
encuentran nicamente en la opcin de Estadsticos, la cual nos ofrece las
siguientes opciones (Las marcamos todas):

Descriptivos: Simplemente incorpora todos los estadsticos descriptivos


que ya hemos visto en herramientas anteriores: Media, mediana, moda,
mnimo, mximo, desviacin estndar, etc. Lo importante de este comando
es que ofrece la posibilidad de pedir la estimacin de parmetros al nivel de
intervalos de confianza, seleccionando el nivel de confianza que se desea
pedir (cualquier valor entre 1 y 99,99)
Estimadores M: Se trata de un tipo distinto de estimacin puntual en
medidas de tendencia central (como la media o la mediana), basado en la
nocin de Estimadores robustos, los cuales tienen como principal
propiedad ser mucho menos sensibles a los valores atpicos que la media
aritmtica (Por lo que en distribuciones muy asimtricas resulta ms til
utilizar los estimadores M en lugar de la media). En trminos prcticos se
trata de una media ponderada, en donde los casos que se encuentran ms
alejados del centro de la distribucin reciben una menor ponderacin que
los casos ms centrales, aunque cada uno de los procedimientos que ofrece
el comando utiliza una forma distinta para calcular dicha ponderacin.
Valores atpicos: Muestra los 10 casos ms extremos de la variable en
anlisis, los 5 mayores y los 5 menores, de modo que sirva para,
preliminarmente, identificar casos atpicos dentro de la distribucin.
Percentiles: Muestra medidas de posicionamiento para los percentiles 5,
10, 25, 50, 75, 90 y 95.
El resto de las opciones no las veremos por ahora, sin embargo de lo que
queda lo ms importante es que en la opcin grficos es posible pedir
pruebas de normalidad para la variable en anlisis.
Tablas de resultados
A)

Resumen de procesamiento de casos


Casos
Vlido
N
Edad

Perdidos

Porcentaje

1506

100,0%

Total

Porcentaje
0

0,0%

Porcentaje

1506

100,0%

No requiere mayor anlisis, ofrece la cantidad de casos vlidos incluidos en


el procesamiento y la de casos perdidos.
B)

Descriptivos
Estadstico
Edad

Media

43,25

95% de intervalo de

Lmite inferior

42,38

confianza para la media

Lmite superior

44,12

Media recortada al 5%

42,58

Mediana

41,00

Varianza

294,451

Desviacin estndar

Error estndar
,442

17,160

Mnimo

18

Mximo

93

Rango

75

Rango intercuartil

27

Asimetra

,451

,063

Curtosis

-,667

,126

Sobre la tabla de descriptivos, como ya se dijo, en gran parte introduce


informacin similar a la que es posible obtener en los comandos
Frecuencias y Descriptivos, sin embargo introduce algunos nuevos
valores, el primero de ellos es el intervalo de confianza que le pedimos (Al
95% en este caso), entregando informacin sobre el lmite superior y el
inferior en el cual se encuentra dicho intervalo. Adems, entrega la media
recortada al 5%, que es un valor de la media que resulta menos sensible a
los datos atpicos y se encuentra ms cercano a la mediana que la media
normal, pues en su clculo se omiten los resultados del 5% inferior y el 5%
superior de la distribucin. Por ltimo, entrega tambin el rango intercuartil,
que corresponde a la distancia entre los cuartiles 1 y 3 (25% a 75%, o sea,
el 50% central de la distribucin).
C)

Estimadores-M
Estimador-M de

Biponderado de

Huber
Edad

Estimador-M de

Tukey

41,66

Hampel

41,63

Onda de

Andrewsd

42,08

41,64

a. La constante de ponderacin es 1,339.


b. La constante de ponderacin es 4,685.
c. Las constantes de ponderacin son 1,700, 3,400 y 8,500
d. La constante de ponderacin es 1,340*pi.

Como ya se seal, los estimadores M corresponden a un tipo estimador


que es menos sensible al efecto de los de los casos atpicos y son tiles en
cado de distribuciones asimtricas (Estimadores robustos). Sin embargo no
dejan de ser medidas de tendencia central, por lo que su anlisis es similar
al de una media o una mediana. Su utilidad radica fundamentalmente en
casos en que no es posible asumir los supuestos clsicos para los anlisis
estadsticos (tales como por ejemplo la distribucin normal de los datos de
una variable).
D)
Percentiles
Percentiles

Promedio

10

25

50

75

90

95

19,00

22,00

28,00

41,00

55,00

68,00

74,91

28,00

41,00

55,00

Edad

ponderado(Definicin
1)
Bisagras de Tukey

Edad

La tabla ofrece las medidas de posicionamiento para los percentiles ya


sealados anteriormente, con esto podemos saber, por ejemplo, que
aproximadamente el 95% de los chilenos tiene menos de 74,91 aos. En
algunos casos tambin puede servir para la identificacin de valores
atpicos.
E)

Valores extremos
Nmero del
caso
Edad

Mayor

Valor

1283

93

1494

92

1163

90

Menor

1363

90

630

89a

1489

18

1487

18

1356

18

1344

18

1199

18b

a. Slo se muestra una lista parcial de casos con el valor


89 en la tabla de extremos superiores.
b. Slo se muestra una lista parcial de casos con el valor
18 en la tabla de extremos inferiores.

La tabla de valores extremos muestra, en primer lugar, el nmero del caso


identificado, y luego el valor que posee en la variable en anlisis. De modo
que los 5 valores ms extremos superiores e inferiores quedan incluidos en
la tabla.
*Posteriormente el spss lanza un grfico de tallo y hojas, sin embargo ese
grfico no lo utilizaremos para el anlisis, el que si usaremos es el diagrama
de cajas.
F)

La forma de funcionamiento del diagrama de cajas es muy simple, la caja


del centro refleja el 50% central de la variable, de modo que la lnea del

centro corresponde a la mediana (percentil 50) y los lmites de la caja


corresponden a los cuartiles 1 y 3, es decir, al 25% y al 75% de la variable.
Luego los lmites del grfico se extienden hasta los valores extremos de la
variable, sin embargo, si el programa identifica un caso como atpico,
automticamente lo marca como tal y lo excluye del diagrama de caja,
marcndolo con un asterisco en el lugar que ocupara en la distribucin, y
sealando adems el nmero del caso en la vista de datos para su posible
eliminacin.
Nota sobre el tratamiento de casos atpicos: Luego de haber
identificado algn caso atpico, ya sea de modo manual con los casos
extremos o con el diagrama de cajas que ofrece el SPSS, la forma de excluir
a este (o estos) casos del anlisis es simplemente mediante la herramienta
seleccionar casos, la cual ya fue explicada en la gua anterior.
Nota sobre sintaxis: Ya habiendo entendido el modo de funcionamiento
de la sintaxis, estn en condiciones de desarrollar por sus propios medios la
habilidad en esta herramienta. Para poder averiguar el modo en que se
trabaja una sintaxis con cada herramienta de SPSS, basta con hacer clic en
la opcin pegar que ofrecen casi todos los comandos del programa, y con
esto se abre automticamente una sintaxis con los comandos para pedir el
procesamiento que estaban programando manualmente.

II.

Comando tablas cruzadas (o tablas de contingencia)

Bsicamente se trata de una tabla de frecuencia de doble entrada, en donde


es posible observar el comportamiento conjunto de 2 variables. Se pide con
la ruta:
Analizar Estadsticos descriptivos Tablas cruzadas

En los dos primeros recuadros se introducen las 2 variables que se desea


analizar. Luego, vamos a la opcin de Estadsticos, en donde es posible

solicitar la prueba de chi cuadrado, adems de otras pruebas para medir la


fuerza de la relacin entre las variables:

Para efectos de la ayudanta los estadsticos que importan son, en primer


lugar el chi cuadrado para medir la significacin de la relacin entre las
variables, y luego los estadsticos Gamma para el caso de variables
ordinales, as como tambin Phi y V de Cramer para variables nominales.
Por otra parte, la opcin Casillas de las tablas cruzadas permite pedir una
serie de opciones dentro de las casillas de cada categora cruzada en la
tabla, las que ms nos interesarn en nuestro caso son los recuentos
esperados (frecuencia esperada o terica), los porcentajes (filas o columnas,
dependiendo de la posicin en que pongamos las variables y nuestro inters
al estudiar la relacin), adems de los residuos estandarizados corregidos,
que permiten evaluar la direccin de la asociacin (en caso de existir).

Tablas de resultados
A)

Resumen de procesamiento de casos


Casos
Vlido
N
Nivel socioeconmico *

Porcentaje
684

Posicin poltica

Perdidos

45,4%

Total

Porcentaje

821,986

54,6%

Porcentaje

1505,986

100,0%

La primera tabla de resumen muestra el N total de casos incluidos en el


anlisis y el de casos perdidos, tomando en consideracin que se requieren
valores vlidos en ambas variables para ser incluidos en el anlisis.

B)
Nivel socioeconmico*Posicin poltica tabulacin cruzada
Posicin poltica
DER
Nivel socioeconmico Alto

Recuento

13

52

17,4

10,5

24,1

52,0

61,5%

13,5%

25,0%

100,0%

Residuo corregido

4,5

-1,3

-3,2

Recuento

125

62

162

349

116,8

70,4

161,7

349,0

35,8%

17,8%

46,4%

100,0%

Residuo corregido

1,3

-1,6

,0

Recuento

72

69

142

283

94,7

57,1

131,2

283,0

25,4%

24,4%

50,2%

100,0%

Residuo corregido

-3,7

2,3

1,7

Recuento

229

138

317

684

229,0

138,0

317,0

684,0

33,5%

20,2%

46,3%

100,0%

socioeconmico

Recuento esperado
% dentro de Nivel
socioeconmico

Recuento esperado
% dentro de Nivel
socioeconmico

Total

Total

% dentro de Nivel

Bajo

IZQ

32

Recuento esperado

Medio

CEN

Recuento esperado
% dentro de Nivel
socioeconmico

La segunda tabla corresponde a la tabla de contingencia propiamente tal, en


la cual se ingresan las dos variables para analizar su comportamiento
conjunto. En primer lugar se nos entrega el recuento de los casos para
cada cruce de categoras. Luego viene el recuento esperado, el cual se

calcula a partir de los marginales de la tabla y representa el valor que


tericamente debera poseer cada casilla. En tercer lugar viene el
porcentaje que le hayamos pedido (fila, columna o ambas), en este caso
corresponde al porcentaje dentro del nivel socioeconmico (filas), con lo que
es posible afirmar, por ejemplo que el 61,5% de los casos de clase alta
poseen una posicin poltica de derecha, mientras que solo un 25,4% de la
clase baja es de derecha.
Por ltimo se nos entregan los residuos estandarizados corregidos
(diferencia entre las frecuencias observadas y las esperadas estandarizada)
para cada categora, de los cuales el inters se debe focalizar en los
residuos mayores y menores que 1,96 (trabajando con un 95% de
confianza). Si el valor obtenido en una casilla es mayor a 1,96 significa que
esa casilla tiene un valor mayor al que tericamente debera obtener,
mientras que si el valor es menor que -1,96 significa que la casilla tiene un
valor que es inferior al que tericamente debera tener. En este caso los
resultados ms interesantes seran que el NSE Alto posee un valor mucho
mayor al esperado (residuos estandarizados corregidos de 4,5) en la
posicin poltica derecha, y uno mucho menor a lo esperado en la posicin
poltica izquierda (-3,2). Por otra parte, los residuos estandarizados indican
que el NSE bajo posee valores menores a lo esperado en la posicin poltica
derecha (-3,7) y mayores a lo esperado en la posicin poltica centro (2,3)
C)
Pruebas de chi-cuadrado
Sig. asinttica (2
Valor

gl

caras)

,000

Razn de verosimilitud

28,008

,000

Asociacin lineal por lineal

17,468

,000

Chi-cuadrado de Pearson

N de casos vlidos

28,916

684

a. 0 casillas (0,0%) han esperado un recuento menor que 5. El recuento


mnimo esperado es 10,49.

La tercera tabla corresponde a la prueba de Chi cuadrado (solo analizamos


ese primer estadstico), el cual entrega el valor obtenido por la frmula de
dicho estadstico, con una determinada cantidad de grados de libertad (4 en
este caso) y el nivel de significacin del estadstico, el cual si es menor a
0,05 indica que existe asociacin entre las variables. Por otra parte, la nota
al pie de la tabla indica el nmero y porcentaje de casillas que no alcanzan
un valor terico mayor a 5 (lo cual es uno de los requisitos para la prueba de
chi cuadrado). Si el porcentaje es mayor al 20% de las casillas no debera
aplicarse la prueba de asociacin.
D)

Medidas simtricas
Error estndar
Valor
Nominal por Nominal

Ordinal por ordinal

asintticoa

Aprox. Sb

Aprox. Sig.

Phi

,206

,000

V de Cramer

,145

,000

Gamma

,217

N de casos vlidos

,057

3,740

,000

684

a. No se supone la hiptesis nula.


b. Utilizacin del error estndar asinttico que asume la hiptesis nula.

Por ltimo, la tabla de medidas simtricas muestra las pruebas de fuerza de


la relacin que le pedimos al programa, en este caso Phi, V de Cramer y
Gamma (las pedimos todas para verlas en la tabla, pero en la prctica debe
elegirse cual aplicar en relacin al nivel de medida de las variables a
estudiar).
Gamma: Es una medida de asociacin para tablas de ms de 2x2 con
variables ordinales, su valor oscila entre -1 y 1, siendo 0 la ausencia de
asociacin, y los valores extremos (1 y -1) la existencia de asociacin
perfecta. Convencionalmente se plantea que sobre 0,1 y bajo -0,1 es posible
afirmar la existencia de asociacin. Por otra parte, la significacin
aproximada se analiza del mismo modo que en chi cuadrado, un nivel
menor a 0,05 indica la existencia de asociacin.
Phi y V de Cramer: El primero de estos estadsticos (Phi) se suele usar
para el estudio de la asociacin en tablas de 2x2 (variables dicotmicas). Su
valor oscila entre 0 y 1, en donde uno indica la asociacin perfecta. Por otra
parte, la V de Cramer est basada en Phi, con una pequea modificacin
que permite su aplicacin a tablas de ms de 2x2. Sus valores se
interpretan del mismo modo, oscilando entre 0 y 1.
*En todos los estadsticos antes vistos es posible estudiar la fuerza de la
relacin entre las variables, en donde un valor ms cercano a 1 (o -1 en el
caso de Gamma), significa una relacin mucho ms potente. Con respecto a
los valores intermedios, hay propuestas diferentes, sin embargo una de las
ms generalizadas es la de Cohen, que indica que valores menores a 0,3
representan una asociacin baja entre las variables, valores entre 0,3 y 0,5
indican una asociacin media, y valores mayores a 0,5 indican una
asociacin fuerte.

Anda mungkin juga menyukai