Anda di halaman 1dari 11

1

METODOLOGIA II
CATEDRA RUTH SAUTU
1o. Cuatrimestre 2014

RESOLUCION EJERCICIOS DE ESTADISTICA


Pregunta 1

a) Construya un intervalo de confianza del 99% (IC) para la media de la
poblacin y explique su procedimiento.

Respuesta.

1. Lo primero que tenemos que saber es si se trata de una muestra grande (n>120) o
pequea (n120). Dado que n=420 nios, podemos utilizar los procedimientos para
muestras grandes.
2. Dado que n>120, a partir de la Ley de los Grandes Nmeros, sabemos que a mayor
tamao de la muestra, menor ser el error estndar, y que por lo tanto, la distribucin
muestral de las medias tiende a distribuirse normalmente, con media y DE /n.
En este caso, se usa propiedades de curva normal en pruebas de decisin estadstica, ya
que distribucin muestral es casi normal.
3. Por lo tanto, la frmula que corresponde es:

n
s
z Y .
2 /


De todas maneras, si usamos la t-student nos da un valor muy parecido. En
muestras grandes se puede usar z o t-student.

4. Siguiendo la frmula, vemos que la media de la muestra ya la tenemos, Y = 38,1.

5. Luego tenemos que averiguar
2 /
z

Proceso: P z Y (correspondiente al intervalo)

Dado que el nivel de confianza es del 99%, esto es, del 0,99 alrededor de la media,
queda una p de 0,495 de cada lado. Por lo tanto, vamos a la tabla de distribucin de
puntaje z, buscamos el p de 0,495 y vemos qu z le corresponde: 2,58.

6. Luego, debemos calcular el error tpico estimado a partir de los datos que tenemos de
la muestra:
8.2
. . 0.4
420
y
Y
s
S E
n
= = =

Ahora ya tenemos todos los datos para calcular el IC para la media poblacional (ac
como m):
2
8.2
3.81 2.58.
420
m= =3.81 1.032 = [37.07, 39.13]

Conclusin: Podemos decir con el 99% de confianza que la (verdadera) media de la
razn peso/altura en la poblacin cae entre 37,07 y 39,13.


b) Cul es el propsito de formar un IC para una media poblacional? Qu se
aprende mediante un IC que no se puede aprender mediante la realizacin de
una prueba de hiptesis?

Respuesta. Se calcula el intervalo de confianza (IC) para una media de poblacin para
estimar el rango de nmeros alrededor de la estimacin puntual, en el que el parmetro
se cree que cae con una probabilidad determinada (nivel de confianza).

Una prueba de significacin (ST) o de hiptesis proporciona mucha menos informacin
que un IC:
Si la hiptesis estadstica o nula (H
0
) no se rechaza, el resultado no es concluyente. No
podemos decir que el verdadero es definitivamente igual a
0
, pero que la evidencia es
consistente con esa hiptesis, a un nivel de significancia de .
En cambio, con un IC decimos que el verdadero se encuentra entre ciertos valores,
con un 1 - nivel de confianza.
Si se rechaza H
0
, la prueba indica que el valor del parmetro en H
0
no es plausible,
pero no provee de un rango de valores plausibles (la hiptesis alternativa H
a
es
demasiado amplia).
Por el contrario, el IC muestra aquellos valores para un rango tan estrecho como lo
permitan el tamao de la muestra, la variabilidad y el nivel de confianza.
Adems, un IC muestra hasta qu punto los valores plausibles difieren de la H
0
si el
rechazo de la H
0
tiene importancia prctica.
En caso de no rechazo (p-valor grande), un intervalo de confianza indica si la falta de
evidencia en contra de H
0
puede ser debido a la falta de precisin.


c) Explique por qu los IC son ms amplios cuando usamos (a) mayor nivel de
confianza, como en este caso, (b) un tamao pequeo de muestra.

Respuesta. Dado que la frmula para un IC de una muestra grande es:

n
s
z Y .
2 /



(a) El IC es ms amplio cuando se utiliza un nivel de confianza mayor, ya que aumenta
el puntaje z. Por lo tanto, para un nivel de confianza del 90% de puntuacin z es 1,64,
pero para un nivel de confianza mayor tal como 99%, la puntuacin z es ms grande
(2,58) y por lo tanto el IC se hace ms ancho. En este sentido, con un nivel de confianza
mayor ganamos en confianza, pero se convierte en una estimacin menos precisa debido
a que el IC es ms amplio (CONFIANZA vs. PRECISION). La solucin a este
3
problema es aumentar el tamao de la muestra, por lo que el EE (error tpico) disminuye
y por lo tanto el ancho del IC tambin disminuye. La estimacin se hace ms precisa y
exacta con un alto nivel de confianza.

(b) Cuando se utiliza un tamao de la muestra ms pequeo, la desviacin estndar se
ve menos afectada y por lo tanto, el error estndar estimado. As, el IC se hace ms
ancho.


d) Discuta la teora estadstica para las inferencias realizadas en el punto a) para
la media poblacional. Se asume normalidad de la distribucin de la
poblacin? Y de la distribucin de la muestra? Por qu s o por qu no?

Las inferencias extradas anteriormente se basan en el Teorema del Lmite Central. Esto
indica que, independientemente de la forma de la distribucin de la poblacin, la
distribucin muestral de las medias de las medias muestrales es aproximadamente
normal, para tamaos de muestra suficientemente grande (n 120). En tal caso, la
normalidad de la distribucin de la poblacin no es requerida. Para muestras pequeas,
sin embargo, las inferencias son vlidas slo si la distribucin de la poblacin es
aproximadamente normal o si la suponemos normal.

En cualquier caso, la distribucin de la muestra en s es irrelevante tericamente, pero
en la prctica sirve como un predictor de la distribucin de la poblacin, que es
desconocido. (Tambin cabe sealar que dado que en este ejercicio la muestra es
grande, el desvo estndar de la muestra es un buen predictor del desvo estndar de la
poblacin que desconocemos).


4
Pregunta 2. Por ley, una planta industrial puede descargar no ms de 500 litros de
aguas residuales por hora, en promedio, en un lago vecino. Sobre la base de otras
infracciones que han notado, un grupo de accin ambiental considera que este lmite se
est excediendo. El seguimiento de la planta es caro, y slo una pequea muestra es
posible. Una muestra aleatoria de cuatro horas se selecciona durante un perodo de una
semana.

Una impresin de computadora muestra los resultados:

Variable N Media DE EE de la Media
Residuos 4 1000 400 200

a) Si no conoce la forma de la distribucin de la variable residuos en la
poblacin, cmo debe proceder y en base a qu supuesto terico?

Dado que se trata de una muestra pequea (120 casos), s importa que la distribucin
de la variable en la poblacin sea normal. Si la variable tiene una distribucin normal en
la poblacin, no importa tamao de n, incluso puede ser pequeo, ya que por el TLC la
DM va a ser tambin normal. Ahora como no conocemos la distribucin de la
poblacin, debemos suponer una distribucin normal para una muestra pequea. En este
caso no se aplica el teorema de lmite central, ya que el mismo se aplica cuando la
poblacin es normal. Si en cambio tenemos una muestra grande, no importa la forma de
la distribucin en la poblacin, ya que por la LGN, la DM tender a ser normal (aprox.
normal).


b) Para estimar la media de la poblacin, con qu distribucin muestral debe
trabajar y por qu? Descrbala.

En este caso, como se trata de una muestra pequea, debemos usar la distribucin
muestral t-student con gl=n-1.


c) Calcule la estimacin de la media poblacional con un intervalo con un nivel
de confianza del 95%.

1
.
2 /


n
s
t Y



Datos que ya tenemos:
n = 4
Y = 1000 s (desvo estndar)= 400
gl = n-1=4-1=3
entonces reemplazamos en la frmula:
= 1000 t
0,05/2 con 3gl
.(230,9) = 1000 3,182.(230,9)
= (265,3; 1734,7)
5

La media de la poblacin cae entre 265,3 y 1734,7 litros por hora, con 95% de nivel de
confianza. Teniendo en cuenta el intervalo, es probable entonces que la planta analizada
descargue ms de 500 litros, lo cual viola la ley ambiental analizada.

d) Calcule otro IC con un nivel de significancia de 0,001. Compare con los
resultados del punto a). Qu gana y qu pierde en cada caso?


= 1000 t
0,001/2 con 3gl
.(230,9) = 1000 12,924.(230,9) = 10002984,1

Con ese nivel de confianza no se puede trabajar porque incluye el cero y pasa a ser
negativo. Slo lo que podemos decir es que se ampliara enormemente el trmino de
error porque pasara de 734,7 con un nivel de confianza del 95% a uno de 2984,1 para
un nivel de confianza del 99,9%, lo cual gana en confianza, pero pierde en precisin.
Claramente habra que aumentar el tamao de la muestra para ganar en ambos aspectos.


6
Pregunta 3. Si quisiera construir una muestra al azar simple de estudiantes de
Sociologa de la UBA que fuera representativa por sexo con las siguientes
caractersticas, qu tamao tendra?

a) con un nivel de confianza del 95% y un trmino de error de 4%. Adems,
suponga que desconoce la variabilidad de sexo de la poblacin en estudio.
Dado que no conocemos la variabilidad de sexo en la poblacin, suponemos la mxima
posible, esto es 50/50. Por lo tanto, el tamao de la muestra debe ser de mnimo 600
casos para cumplir con los requisitos.

b) lo mismo que en a), pero con un nivel de confianza del 99%. Compare los
resultados con a) e interprete.
Como vimos cuando calculamos los intervalos de confianza, si quiero ganar en
confianza y precisin debo aumentar el tamao de la muestra. Por lo tanto, para un nivel
de confianza mayor (99%) pero quiero mantener la precisin en 4% y que no empeore,
debo aumentar n: debe ser al menos 1036 casos segn tabla.
Si en cambio aumentara la confianza a 99% pero mantuviera un tamao de n de
alrededor de 600 casos (por ejemplo, 663 casos como figura en tabla), tendramos un
trmino de error mayor (5%).

c) con un nivel de confianza del 95% y un trmino de error de 3%, con
variabilidad desconocida en la poblacin. Compare los resultados con a) e
interprete.
Para tener un trmino de error menor que en a), pero mantener el mismo nivel de
confianza, voy a tener que aumentar el tamao de la muestra. En efecto, en lugar de 600
casos, tendr que seleccionar al menos 1067 casos.

d) con un nivel de confianza del 95% y un trmino de error de 4%, pero
sabe a partir de un Censo estudiantil anterior que la proporcin de mujeres
es de 0,6. Compare los resultados con a) e interprete.
En este caso al tener menor variabilidad que en a) porque en lugar de ser 50/50 es 40/60,
tenemos que sacar menos casos que en a): el n debera ser al menos de 576 casos.

En sntesis, para calcular el tamao de una muestra se debe tener en cuenta:
nivel de confianza que se va a usar;
grado de precisin con el que deseamos estimar (amplitud del intervalo);
estimacin razonable de los parmetros (por ejemplo de p y q).

Utilice la Tabla 3.1. de Baranger (1992:78) y recuerde la frmula para calcular el
tamao de muestra para una variable categrica:




Donde:
n = tamao de la muestra requerido
= puntuacin t que corresponde al nivel de confianza y significancia establecidos
p = p de la categora de xito en la muestra
q = p de la categora de fracaso en la muestra
Trmino del error = precisin deseada en los resultados que se van a reportar
2
2
.
) )( (
error ter
t pq
n

t
7
Pregunta 4. Se realiz una encuesta a una muestra representativa de estudiantes de
Trabajo Social de UBA en el primer cuatrimestre del 2012. A partir de la informacin
obtenida, se construy el siguiente cuadro:

Condicin de los estudiantes segn sexo de los alumnos de Trabajo Social de la
UBA, 2012 (en absolutos)
Condicin de estudiante Sexo Total
Masculino Femenino
Slo estudian 65 255 320
Estudian y trabajan part-time 35 65 100
Estudian y trabajan tiempo
completo
50 30 80
Total 150 350 500
Fuente: datos ficticios.

a) Postule una hiptesis entre las variables y realice la lectura del cuadro slo
a partir de los datos de la muestra. Saque conclusiones.

Hiptesis: el sexo de los estudiantes incide en su condicin estudiantil, de manera tal
que las mujeres tienden ms a ser slo estudiantes que los varones.

Para poder sacar conclusiones, dado que el tamao de cada grupo difiere debemos
calcular los porcentajes en el sentido de la variable independiente (sexo).

Condicin de estudiante Sexo Total
Masculino Femenino
Slo estudian 43,3% 72,9% 64,0%
Estudian y trabajan part-time 23,3% 18,6% 20,0%
Estudian y trabajan tiempo
completo 33,3% 8,6% 16,0%
Total (150) (350) (500)


A partir del cuadro anterior, notamos que se corrobora la hiptesis para la muestra, ya
que mientras el 72,9% de las mujeres slo estudia, esto se reduce al 43,3% de los
varones.

b) Usted quiere saber si la relacin que encontr en la muestra, existe en la
poblacin de estudio con cierto nivel de confianza y margen de error. Qu
procedimiento debe realizar? Por qu?

Se debe realizar una prueba de hiptesis Chi cuadrado, ya que se trata de dos variables
cualitativas nominales. Mediante esta prueba mostramos la existencia de la relacin en
la poblacin con cierto margen de error y nivel de confianza.


8
c) Realice la prueba correspondiente para un nivel de confianza de 95%.
Interprete los resultados.

Los pasos de la prueba de hiptesis del Chi cuadrado son:

Paso 1. Supuestos:
- las dos variables deben ser cualitativas;
- el 80% de las celdas deben tener al menos 5 casos de frecuencia esperada.

Paso 2. Hiptesis:
Hiptesis nula o estadstica H
0
: =0 (independencia estadstica)

Hiptesis alternativa Ha: >0 (asociacin estadstica)

Paso 3. Nivel de significancia (y Chi cuadrado terico)

Segn la consigna, =0,05

Para el

debemos tener en cuenta y los gl= (c-1)(f-1) = (2-1)(3-1) = 2



Vamos a la tabla y buscamos el terico correspondiente para 2gl y =0,05 (segunda
columna) y ah vemos que

=5,99

Paso 4. p-valor (y Chi cuadrado observado)

Calculo el Chi cuadrado observado (en examen se los vamos a dar):

e
e o
f
f f
2
2
) (



Para calcular la f
e
de cada celda deben proceder como sigue. Por ejemplo para los
varones que slo estudian:

f
e
= Total fila * total columna = 150 * 320 = 96
Total (n) 500


Pusimos entre parntesis las f
e
de cada celda y dejamos sin parntesis las observadas:

Condicin de estudiante Sexo Total
Masculino Femenino
Slo estudian 65 (96) 255 (224) 320
Estudian y trabajan part-time 35 (30) 65 (70) 100
Estudian y trabajan tiempo
completo
50 (24) 30 (56) 80
Total 150 350 500


9
Fjense que si sumamos las esperadas, me dan los mismos marginales (subtotales) que
las observadas, pero se distribuyen de manera diferente porque seran las frecuencias
esperadas si hubiera independencia estadstica (H
0
).

Luego cada (f
o
f
e
)
2
y luego lo divido por cada f
e
:

Por ejemplo, para la primera celda de varones que slo estudian sera:

(65-96)
2
= 10,01
96

Si sumamos los resultados para las 6 celdas, obtenemos un observado de 55,73.

Si vamos a la tabla, para 2 grados de libertad, vemos que un observado de 55,73 es
ms grande que el ltimo valor que figura en la tabla (13,82 para un 0,001). Por lo
tanto, como est ms a la derecha de ese valor, el p-valor es menor an que 0,001, por lo
que creemos que tiende a ser 0,000. El clculo por SPSS nos lo confirma.

Paso 5. Decisin de rechazo

Como p-valor (0,000) < (0,05) rechamos la H
0
de independencia estadstica y
aceptamos la Ha de asociacin estadstica.

O si quiero, comparo los

observado de 55,73 > a

terico de 5,99 rechamos la H


0
de independencia
estadstica y aceptamos la Ha de asociacin estadstica.

Paso 6. Con un 95% de nivel de confianza, podemos afirmar que hay relacin entre el
sexo y la condicin estudiantil de los alumnos de Trabajo Social de UBA en el primer
cuatrimestre del 2012.


d) Realice la misma prueba con un nivel de significancia de 0,01. Interprete los
resultados y comprelos con el punto anterior.

Paso 1 y Paso 2 iguales que en el ejercicio anterior.

Paso 3. Nivel de significancia (y Chi cuadrado terico)

Segn la consigna, =0,01

Vamos a la tabla y buscamos el terico correspondiente para 2gl y =0,01 (tercera
columna) y ah vemos que

=9,21.

Paso 4. Igual que en el ejercicio anterior.



10
Paso 5. Como p-valor (0,000) < (0,01) rechamos la H
0
de independencia estadstica
y aceptamos la Ha de asociacin estadstica.

O si quiero, comparo los

observado de 55,73 > a

terico de 9,21 rechamos la H


0
de independencia
estadstica y aceptamos la Ha de asociacin estadstica.
Paso 6. Con un 99% de nivel de confianza, podemos afirmar que hay relacin entre el
sexo y la condicin estudiantil de los alumnos de Trabajo Social de UBA en el primer
cuatrimestre del 2012. De hecho, si tenemos en cuenta el p-valor (0,000) notamos que
esta relacin se da incluso con un 99,9% de confianza.


e) Si quisiera conocer la fuerza de la relacin, qu coeficiente de asociacin
utilizara y por qu?

Para conocer la fuerza de la relacin, no nos sirve el valor de Chi cuadrado porque este
depende del tamao de la muestra. Por lo tanto, debemos usar los coeficientes de
asociacin siguiendo los 3 criterios vistos (ver punto f).

Teniendo en cuenta que se trata de dos variables nominales, que la tabla es de 2x3, y
que definimos de antemano que el sexo incide en la condicin estudiantil (asimtrica),
usamos Lambda.

f) Cules son los criterios que debe tener en cuenta para seleccionar un
coeficiente de asociacin?

Los tres criterios que se deben tener en cuenta son:
1. nivel de medicin de las variables cualitativas: si las dos son nominales u ordinales
2. tamao de la tabla: si es de 2x2 o ms grande (fila x columna)
3. si requiere que definamos cul es la variable independiente y cul es la dependiente y
no da lo mismo calcularlo en uno u otro sentido (asimtrica) o si da lo mismo y no es
necesario definir qu rol tiene cada variable (simtrica).


11
Aqu tienen la tabla con las diferentes medidas de asociacin clasificadas segn
dichos criterios:

Medida de
asociacin
Tabla
Nivel de
medicin
Observaciones
Phi 2 x 2 Nominales Son medidas basadas en el estadstico chi
cuadrado. Toman valores entre 0 y 1 que
indican mnimo y mximo grado de
asociacin.
C coeficiente de
contingencia
r x c Nominales No alcanza la unidad, aunque hubiera
asociacin perfecta. Depende del mximo
del tamao de la tabla.
V de Cramer r x c Nominales Tiende a subestimar la asociacin.

Son medidas simtricas.
Lambda r x c Nominales Medida asimtrica.
Puede tomar El mnimo valor en tablas con
asociacin.
Gamma r x c Ordinales Toma valores entre -1 y 1 que indican
mximo grado de asociacin negativa y
positiva respectivamente.
Puede alcanzar valores extremos en tablas
en las que la asociacin no es total.
Medida simtrica.
En un cuadro de 2 x 2 es el mismo
resultado que se obtendra si se hubiese
calculado Q.
Tau b de Kendall r x c Ordinales Medida simtrica.
nicamente alcanza valores extremos en
tablas con asociacin total. Pero si r es
distinto de c no puede alcanzar 1.
Tau c de Kendall r x c Ordinales Medida simtrica.
Puede alcanzar valores extremos en caso
de que r sea distinto de c, pero tiende a
subestimar la asociacin.
D de Somers r x c Ordinales Medida asimtrica.
Puede alcanzar valores extremos en tablas
donde la asociacin no es total.

Anda mungkin juga menyukai