Segunda Guía de Ayudantía Estadística II

Segunda gua de Ayudanta Estadstica II
Profesor Rodrigo Asn

Ayudante Cristian Sandoval
Contenido:
1) Comando explorar en SPSS
2) Comando tablas cruzadas en SPSS
_________________________________________________________
I.
Comando explorar en SPSS
Bsicamente se trata de una exploracin ms minuciosa de los datos de una

variable, incluye informacin de comandos que ya revisamos anteriormente,
pero tambin agrega nuevas herramientas sobre el comportamiento de
valores atpicos y la estimacin de parmetros. La forma de obtenerlo es en
la siguiente ruta:
Analizar Estadsticos descriptivos Explorar
En la tabla de acceso rpido explorar se ofrece la lista completa de las

variables de la base de datos, adems de 3 ventanas donde es posible
ingresar las variables que deseamos explorar. De esas 3 solo nos importan
las primeras dos, en la primera de ellas (Lista de dependientes) se ingresan
las variables que se desea analizar, mientras que la lista de factores sirve
para ingresar una variable que segmentar la muestra de modo que la

variable dependiente pueda ser explorada en distintos grupos (por ejemplo
la exploracin de la edad en cada uno de los sexos, en este caso).
Las propiedades que ms nos interesa profundizar en este nivel se
encuentran nicamente en la opcin de Estadsticos, la cual nos ofrece las
siguientes opciones (Las marcamos todas):
Descriptivos: Simplemente incorpora todos los estadsticos descriptivos

que ya hemos visto en herramientas anteriores: Media, mediana, moda,
mnimo, mximo, desviacin estndar, etc. Lo importante de este comando
es que ofrece la posibilidad de pedir la estimacin de parmetros al nivel de
intervalos de confianza, seleccionando el nivel de confianza que se desea
pedir (cualquier valor entre 1 y 99,99)
Estimadores M: Se trata de un tipo distinto de estimacin puntual en
medidas de tendencia central (como la media o la mediana), basado en la
nocin de Estimadores robustos, los cuales tienen como principal
propiedad ser mucho menos sensibles a los valores atpicos que la media
aritmtica (Por lo que en distribuciones muy asimtricas resulta ms til
utilizar los estimadores M en lugar de la media). En trminos prcticos se
trata de una media ponderada, en donde los casos que se encuentran ms
alejados del centro de la distribucin reciben una menor ponderacin que
los casos ms centrales, aunque cada uno de los procedimientos que ofrece
el comando utiliza una forma distinta para calcular dicha ponderacin.
Valores atpicos: Muestra los 10 casos ms extremos de la variable en
anlisis, los 5 mayores y los 5 menores, de modo que sirva para,
preliminarmente, identificar casos atpicos dentro de la distribucin.
Percentiles: Muestra medidas de posicionamiento para los percentiles 5,
10, 25, 50, 75, 90 y 95.
El resto de las opciones no las veremos por ahora, sin embargo de lo que
queda lo ms importante es que en la opcin grficos es posible pedir
pruebas de normalidad para la variable en anlisis.
Tablas de resultados
A)
Resumen de procesamiento de casos

Casos
Vlido
N
Edad
Perdidos
Porcentaje
1506
100,0%
Total
Porcentaje
0
0,0%
Porcentaje
1506
100,0%
No requiere mayor anlisis, ofrece la cantidad de casos vlidos incluidos en

el procesamiento y la de casos perdidos.
B)
Descriptivos
Estadstico
Edad
Media
43,25
95% de intervalo de
Lmite inferior
42,38
confianza para la media
Lmite superior
44,12
Media recortada al 5%
42,58
Mediana
41,00
Varianza
294,451
Desviacin estndar
Error estndar
,442
17,160
Mnimo
18
Mximo
93
Rango
75
Rango intercuartil
27
Asimetra
,451
,063
Curtosis
-,667
,126
Sobre la tabla de descriptivos, como ya se dijo, en gran parte introduce

informacin similar a la que es posible obtener en los comandos
Frecuencias y Descriptivos, sin embargo introduce algunos nuevos
valores, el primero de ellos es el intervalo de confianza que le pedimos (Al
95% en este caso), entregando informacin sobre el lmite superior y el
inferior en el cual se encuentra dicho intervalo. Adems, entrega la media
recortada al 5%, que es un valor de la media que resulta menos sensible a
los datos atpicos y se encuentra ms cercano a la mediana que la media
normal, pues en su clculo se omiten los resultados del 5% inferior y el 5%
superior de la distribucin. Por ltimo, entrega tambin el rango intercuartil,
que corresponde a la distancia entre los cuartiles 1 y 3 (25% a 75%, o sea,
el 50% central de la distribucin).
C)
Estimadores-M
Estimador-M de
Biponderado de
Huber
Edad
Estimador-M de
Tukey
41,66
Hampel
41,63
Onda de
Andrewsd
42,08
41,64
a. La constante de ponderacin es 1,339.

b. La constante de ponderacin es 4,685.
c. Las constantes de ponderacin son 1,700, 3,400 y 8,500
d. La constante de ponderacin es 1,340*pi.
Como ya se seal, los estimadores M corresponden a un tipo estimador

que es menos sensible al efecto de los de los casos atpicos y son tiles en
cado de distribuciones asimtricas (Estimadores robustos). Sin embargo no
dejan de ser medidas de tendencia central, por lo que su anlisis es similar
al de una media o una mediana. Su utilidad radica fundamentalmente en
casos en que no es posible asumir los supuestos clsicos para los anlisis
estadsticos (tales como por ejemplo la distribucin normal de los datos de
una variable).
D)
Percentiles
Percentiles
Promedio
10
25
50
75
90
95
19,00
22,00
28,00
41,00
55,00
68,00
74,91
28,00
41,00
55,00
Edad
ponderado(Definicin
1)
Bisagras de Tukey
Edad
La tabla ofrece las medidas de posicionamiento para los percentiles ya

sealados anteriormente, con esto podemos saber, por ejemplo, que
aproximadamente el 95% de los chilenos tiene menos de 74,91 aos. En
algunos casos tambin puede servir para la identificacin de valores
atpicos.
E)
Valores extremos
Nmero del
caso
Edad
Mayor
Valor
1283
93
1494
92
1163
90
Menor
1363
90
630
89a
1489
18
1487
18
1356
18
1344
18
1199
18b
a. Slo se muestra una lista parcial de casos con el valor

89 en la tabla de extremos superiores.
b. Slo se muestra una lista parcial de casos con el valor
18 en la tabla de extremos inferiores.
La tabla de valores extremos muestra, en primer lugar, el nmero del caso

identificado, y luego el valor que posee en la variable en anlisis. De modo
que los 5 valores ms extremos superiores e inferiores quedan incluidos en
la tabla.
*Posteriormente el spss lanza un grfico de tallo y hojas, sin embargo ese
grfico no lo utilizaremos para el anlisis, el que si usaremos es el diagrama
de cajas.
F)
La forma de funcionamiento del diagrama de cajas es muy simple, la caja

del centro refleja el 50% central de la variable, de modo que la lnea del
centro corresponde a la mediana (percentil 50) y los lmites de la caja

corresponden a los cuartiles 1 y 3, es decir, al 25% y al 75% de la variable.
Luego los lmites del grfico se extienden hasta los valores extremos de la
variable, sin embargo, si el programa identifica un caso como atpico,
automticamente lo marca como tal y lo excluye del diagrama de caja,
marcndolo con un asterisco en el lugar que ocupara en la distribucin, y
sealando adems el nmero del caso en la vista de datos para su posible
eliminacin.
Nota sobre el tratamiento de casos atpicos: Luego de haber
identificado algn caso atpico, ya sea de modo manual con los casos
extremos o con el diagrama de cajas que ofrece el SPSS, la forma de excluir
a este (o estos) casos del anlisis es simplemente mediante la herramienta
seleccionar casos, la cual ya fue explicada en la gua anterior.
Nota sobre sintaxis: Ya habiendo entendido el modo de funcionamiento
de la sintaxis, estn en condiciones de desarrollar por sus propios medios la
habilidad en esta herramienta. Para poder averiguar el modo en que se
trabaja una sintaxis con cada herramienta de SPSS, basta con hacer clic en
la opcin pegar que ofrecen casi todos los comandos del programa, y con
esto se abre automticamente una sintaxis con los comandos para pedir el
procesamiento que estaban programando manualmente.
II.
Comando tablas cruzadas (o tablas de contingencia)
Bsicamente se trata de una tabla de frecuencia de doble entrada, en donde

es posible observar el comportamiento conjunto de 2 variables. Se pide con
la ruta:
Analizar Estadsticos descriptivos Tablas cruzadas
En los dos primeros recuadros se introducen las 2 variables que se desea

analizar. Luego, vamos a la opcin de Estadsticos, en donde es posible
solicitar la prueba de chi cuadrado, adems de otras pruebas para medir la

fuerza de la relacin entre las variables:
Para efectos de la ayudanta los estadsticos que importan son, en primer

lugar el chi cuadrado para medir la significacin de la relacin entre las
variables, y luego los estadsticos Gamma para el caso de variables
ordinales, as como tambin Phi y V de Cramer para variables nominales.
Por otra parte, la opcin Casillas de las tablas cruzadas permite pedir una
serie de opciones dentro de las casillas de cada categora cruzada en la
tabla, las que ms nos interesarn en nuestro caso son los recuentos
esperados (frecuencia esperada o terica), los porcentajes (filas o columnas,
dependiendo de la posicin en que pongamos las variables y nuestro inters
al estudiar la relacin), adems de los residuos estandarizados corregidos,
que permiten evaluar la direccin de la asociacin (en caso de existir).
Tablas de resultados
A)
Resumen de procesamiento de casos

Casos
Vlido
N
Nivel socioeconmico *
Porcentaje
684
Posicin poltica
Perdidos
45,4%
Total
Porcentaje
821,986
54,6%
Porcentaje
1505,986
100,0%
La primera tabla de resumen muestra el N total de casos incluidos en el

anlisis y el de casos perdidos, tomando en consideracin que se requieren
valores vlidos en ambas variables para ser incluidos en el anlisis.
B)
Nivel socioeconmico*Posicin poltica tabulacin cruzada
Posicin poltica
DER
Nivel socioeconmico Alto
Recuento
13
52
17,4
10,5
24,1
52,0
61,5%
13,5%
25,0%
100,0%
Residuo corregido
4,5
-1,3
-3,2
Recuento
125
62
162
349
116,8
70,4
161,7
349,0
35,8%
17,8%
46,4%
100,0%
Residuo corregido
1,3
-1,6
,0
Recuento
72
69
142
283
94,7
57,1
131,2
283,0
25,4%
24,4%
50,2%
100,0%
Residuo corregido
-3,7
2,3
1,7
Recuento
229
138
317
684
229,0
138,0
317,0
684,0
33,5%
20,2%
46,3%
100,0%
socioeconmico
Recuento esperado
% dentro de Nivel
socioeconmico
Recuento esperado
% dentro de Nivel
socioeconmico
Total
Total
% dentro de Nivel
Bajo
IZQ
32
Recuento esperado
Medio
CEN
Recuento esperado
% dentro de Nivel
socioeconmico
La segunda tabla corresponde a la tabla de contingencia propiamente tal, en

la cual se ingresan las dos variables para analizar su comportamiento
conjunto. En primer lugar se nos entrega el recuento de los casos para
cada cruce de categoras. Luego viene el recuento esperado, el cual se
calcula a partir de los marginales de la tabla y representa el valor que

tericamente debera poseer cada casilla. En tercer lugar viene el
porcentaje que le hayamos pedido (fila, columna o ambas), en este caso
corresponde al porcentaje dentro del nivel socioeconmico (filas), con lo que
es posible afirmar, por ejemplo que el 61,5% de los casos de clase alta
poseen una posicin poltica de derecha, mientras que solo un 25,4% de la
clase baja es de derecha.
Por ltimo se nos entregan los residuos estandarizados corregidos
(diferencia entre las frecuencias observadas y las esperadas estandarizada)
para cada categora, de los cuales el inters se debe focalizar en los
residuos mayores y menores que 1,96 (trabajando con un 95% de
confianza). Si el valor obtenido en una casilla es mayor a 1,96 significa que
esa casilla tiene un valor mayor al que tericamente debera obtener,
mientras que si el valor es menor que -1,96 significa que la casilla tiene un
valor que es inferior al que tericamente debera tener. En este caso los
resultados ms interesantes seran que el NSE Alto posee un valor mucho
mayor al esperado (residuos estandarizados corregidos de 4,5) en la
posicin poltica derecha, y uno mucho menor a lo esperado en la posicin
poltica izquierda (-3,2). Por otra parte, los residuos estandarizados indican
que el NSE bajo posee valores menores a lo esperado en la posicin poltica
derecha (-3,7) y mayores a lo esperado en la posicin poltica centro (2,3)
C)
Pruebas de chi-cuadrado
Sig. asinttica (2
Valor
gl
caras)
,000
Razn de verosimilitud
28,008
,000
Asociacin lineal por lineal
17,468
,000
Chi-cuadrado de Pearson
N de casos vlidos
28,916
684
a. 0 casillas (0,0%) han esperado un recuento menor que 5. El recuento

mnimo esperado es 10,49.
La tercera tabla corresponde a la prueba de Chi cuadrado (solo analizamos

ese primer estadstico), el cual entrega el valor obtenido por la frmula de
dicho estadstico, con una determinada cantidad de grados de libertad (4 en
este caso) y el nivel de significacin del estadstico, el cual si es menor a
0,05 indica que existe asociacin entre las variables. Por otra parte, la nota
al pie de la tabla indica el nmero y porcentaje de casillas que no alcanzan
un valor terico mayor a 5 (lo cual es uno de los requisitos para la prueba de
chi cuadrado). Si el porcentaje es mayor al 20% de las casillas no debera
aplicarse la prueba de asociacin.
D)
Medidas simtricas
Error estndar
Valor
Nominal por Nominal
Ordinal por ordinal
asintticoa
Aprox. Sb
Aprox. Sig.
Phi
,206
,000
V de Cramer
,145
,000
Gamma
,217
N de casos vlidos
,057
3,740
,000
684
a. No se supone la hiptesis nula.

b. Utilizacin del error estndar asinttico que asume la hiptesis nula.
Por ltimo, la tabla de medidas simtricas muestra las pruebas de fuerza de

la relacin que le pedimos al programa, en este caso Phi, V de Cramer y
Gamma (las pedimos todas para verlas en la tabla, pero en la prctica debe
elegirse cual aplicar en relacin al nivel de medida de las variables a
estudiar).
Gamma: Es una medida de asociacin para tablas de ms de 2x2 con
variables ordinales, su valor oscila entre -1 y 1, siendo 0 la ausencia de
asociacin, y los valores extremos (1 y -1) la existencia de asociacin
perfecta. Convencionalmente se plantea que sobre 0,1 y bajo -0,1 es posible
afirmar la existencia de asociacin. Por otra parte, la significacin
aproximada se analiza del mismo modo que en chi cuadrado, un nivel
menor a 0,05 indica la existencia de asociacin.
Phi y V de Cramer: El primero de estos estadsticos (Phi) se suele usar
para el estudio de la asociacin en tablas de 2x2 (variables dicotmicas). Su
valor oscila entre 0 y 1, en donde uno indica la asociacin perfecta. Por otra
parte, la V de Cramer est basada en Phi, con una pequea modificacin
que permite su aplicacin a tablas de ms de 2x2. Sus valores se
interpretan del mismo modo, oscilando entre 0 y 1.
*En todos los estadsticos antes vistos es posible estudiar la fuerza de la
relacin entre las variables, en donde un valor ms cercano a 1 (o -1 en el
caso de Gamma), significa una relacin mucho ms potente. Con respecto a
los valores intermedios, hay propuestas diferentes, sin embargo una de las
ms generalizadas es la de Cohen, que indica que valores menores a 0,3
representan una asociacin baja entre las variables, valores entre 0,3 y 0,5
indican una asociacin media, y valores mayores a 0,5 indican una
asociacin fuerte.

Segunda Guía de Ayudantía Estadística II

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Segunda Guía de Ayudantía Estadística II

Diunggah oleh

Hak Cipta:

Format Tersedia

Segunda gua de Ayudanta Estadstica II

Profesor Rodrigo Asn

Comando explorar en SPSS

Bsicamente se trata de una exploracin ms minuciosa de los datos de una

En la tabla de acceso rpido explorar se ofrece la lista completa de las

para ingresar una variable que segmentar la muestra de modo que la

Descriptivos: Simplemente incorpora todos los estadsticos descriptivos

Resumen de procesamiento de casos

No requiere mayor anlisis, ofrece la cantidad de casos vlidos incluidos en

confianza para la media

Sobre la tabla de descriptivos, como ya se dijo, en gran parte introduce

a. La constante de ponderacin es 1,339.

Como ya se seal, los estimadores M corresponden a un tipo estimador

La tabla ofrece las medidas de posicionamiento para los percentiles ya

a. Slo se muestra una lista parcial de casos con el valor

La tabla de valores extremos muestra, en primer lugar, el nmero del caso

La forma de funcionamiento del diagrama de cajas es muy simple, la caja

centro corresponde a la mediana (percentil 50) y los lmites de la caja

Comando tablas cruzadas (o tablas de contingencia)

Bsicamente se trata de una tabla de frecuencia de doble entrada, en donde

En los dos primeros recuadros se introducen las 2 variables que se desea

solicitar la prueba de chi cuadrado, adems de otras pruebas para medir la

Para efectos de la ayudanta los estadsticos que importan son, en primer

Resumen de procesamiento de casos

La primera tabla de resumen muestra el N total de casos incluidos en el

La segunda tabla corresponde a la tabla de contingencia propiamente tal, en

calcula a partir de los marginales de la tabla y representa el valor que

Asociacin lineal por lineal

a. 0 casillas (0,0%) han esperado un recuento menor que 5. El recuento

La tercera tabla corresponde a la prueba de Chi cuadrado (solo analizamos

Ordinal por ordinal

a. No se supone la hiptesis nula.

Por ltimo, la tabla de medidas simtricas muestra las pruebas de fuerza de

Anda mungkin juga menyukai