Anda di halaman 1dari 14

DISEOS DE INVESTIGACIN Y ANLISIS DE DATOS

TEMA N 1 ESTIMACIN DE PARMETROS Y CONTRASTE DE


HIPTESIS

CONCEPTOS FUNDAMENTALES

Inferencia estadstica: Afirmaciones sobre la poblacin a partir del conocimiento


de las caractersticas de la muestra. Se hacen siempre en trminos probabilsticos
(no hay certeza, slo probabilidad razonable de acertar), siempre y cuando la
muestra sea representativa de la poblacin (m.a.s.)
Error muestral: La diferencia entre el resultado obtenido en la muestra y el que
se habra obtenido si hubisemos hecho el estudio sobre toda la poblacin (y no
sobre una parte de ella: la muestra)
Distribucin de la muestra: Es la distribucin de los datos recogidos de una
variable medida en una muestra (La muestra siempre se selecciona mediante
muestreo aleatorio y debe ser representativa de la poblacin / todos los
elementos de la poblacin son equiprobables)
Estadsticos: Son los valores numricos que describen las caractersticas de una
muestra (su distribucin)

estadstico media de la muestra de la variable Y

S
2
X

rXY

estadstico varianza de la muestra en la variable X


es la correlacin entre las variables x e y de la muestra

Distribucin de la Poblacin: (Distribucin de frecuencias que presenta la


variable en la poblacin sobre la que se quiere generalizar). Puede ser normal,
asimtrica, etc.
Parmetros: ndices numricos que se calculan para describir a la distribucin
poblacional. Se representan con letras griegas:

= Media poblacin // 2 = Varianza poblacin // XY = Correlacin de Pearson


poblacin

DISTRIBUCIN MUESTRAL DE UN ESTADSTICO


Distribucin de frecuencias que presenta el estadstico a utilizar como base del
proceso de inferencia para estimar los parmetros. Resulta de obtener todas las
muestras posibles (de un determinado tamao) de una poblacin y medir en ellas
una determinada caracterstica.

A partir de los estadsticos de la muestra (lo concreto) realizamos


afirmaciones sobre los parmetros de la poblacin (lo general)
PROBLEMAS EJEMPLO Distribuciones muestrales: Media, Varianza
y Proporcin)
Distribucin muestral de la media es normal cuando se cumple, al menos,
una de las siguientes condiciones: la variable en la poblacin se distribuye
2

normalmente o el tamao de la muestra es n 30 observaciones. Para hacer la


inferencia estadstica (Z curva normal cuando conocemos la varianza poblacional
y T de Student cuando desconocemos la varianza poblacional)
Ejemplo (varianza poblacional conocida) El Cociente Intelectual (CI) de los
alumnos de un centro de Educacin Especial se distribuye normalmente con =
80 y =10. Si de esta poblacin extraemos una muestra aleatoria de 25
alumnos. Cul es la probabilidad de obtener una media mayor de 75 puntos?

P(Y 75) Z

Y
75 80

Z (2,50) p 0,0062 (1 0,0062 0,9938)


/ n 10 / 25

Distribucin muestral de la varianza Distribucin 2 con n-1 grados de


libertad.
Relacin entre varianza
y cuasivarianza
Ejemplo Los tiempos requeridos por un autobs para llegar a su destino en
una ciudad forman una distribucin normal con una desviacin tpica = 1
minuto. Si se elige al azar una muestra de 17 tiempos, encuentre la probabilidad
de que la cuasi varianza muestral sea mayor que 2.
Se busca el valor Chi-cuadrado correspondiente a S2n-1 = 2

2
n 1

(n 1) S n21 nS n2
16 2

2 n21 2 32
2

El valor de 32 se busca en la tabla Chi-cuadrado con 16


grados de libertad. A este valor le corresponde una
probabilidad de 0,99. En consecuencia, 1 - 099 = 0
01 P(S2n-1 >2)
Distribucin muestral de la proporcin Distribucin Binomial (Z Normal
por aproximacin)
Ejemplo Un partido poltico cree que el 60% del electorado est a favor de su
programa (proporcin = 0,60). Su lder encuentra que esta prediccin es
demasiado optimista y decide hacer un sondeo con una muestra de 90 personas.
Cul es la probabilidad de que como mximo 60 personas estn a favor de su
partido?
p
0,67 0,60
P(60 / 90 0,67) Z
Z (1,35) p 0,9115
(1 ) / n (0,60 0,4) / 90

INFERENCIA O ESTIMACIN

Estimador es el estadstico calculado en una muestra que se utiliza para


estimar parmetros.
En la estimacin puntual se utiliza el valor del estadstico obtenido en la
muestra como estimacin del parmetro poblacional.
Para que el estimador represente correctamente al parmetro propiedades
bsicas:
1.- Carencia de sesgo: un estimador es insesgado o centrado cuando el valor del
estadstico (en las infinitas muestras de tamao n extradas de una poblacin)
coincide con el valor del parmetro que queremos estimar. La media, la proporcin
y la cuasivarianza de la muestra son estimadores insesgados de sus valores
poblacionales.
(El valor esperado o media del estadstico coincide con el parmetro)
2.- Eficiencia (Precisin): La distribucin del estimador debe tener poca
variabilidad para que se aleje poco del parmetro y sea ms preciso.
(A mayor varianza, menor eficiencia o precisin)
3.- Suficiencia: el estimador utiliza toda la informacin de la muestra para estimar
el parmetro. Ejemplo: La media muestral sera suficiente para estimar la media
poblacional. No lo sera la amplitud intercuartlica para estimar la varianza
poblacional.
(Suficiente: cuando utiliza toda la informacin de la muestra relacionada
con el parmetro)
4.- Consistencia: El requisito mnimo que se le exige a un estimador es que sea
consistente. Un estimador es consistente si, a medida que se dispone de ms
informacin (que aumenta el tamao de la muestra), aumenta la probabilidad de
que la estimacin coincida con el parmetro. La media, la proporcin y la varianza
insesgada son consistentes porque son estimadores insesgados de los parmetros
correspondientes y en sus lmites valen cero (su sesgo y su varianza tienden a 0 a
media que aumenta n)
(Un estimador es consistente cuando, a medida que aumenta el tamao
de la muestra n su sesgo y su varianza tienden a cero)

ESTIMACIN POR INTERVALOS (INTERVALOS DE CONFIANZA)


4

Una estimacin por intervalos expresa el grado de confianza con el que se espera
que est el valor del parmetro dentro del intervalo, por lo que se suele llamar
intervalo de confianza.
Intervalos de confianza para la media, la varianza y la proporcin.

INTERVALO DE CONFIANZA PARA LA MEDIA


A.- Un investigador quiere saber el tiempo que tardan los jvenes
profesionales en desarrollar una tarea especfica mientras escuchan
msica clsica. Se sabe que la variable tiempo en desarrollar la tarea
se distribuye normalmente con una desviacin tpica poblacional de 9
minutos.
El
investigador
selecciona por procedimiento
aleatorio un grupo de 25 jvenes
profesionales y les pide el
desarrollo
de
una
tarea
especfica mientras escuchan msica clsica
encontrando que el tiempo medio que han tardado en desarrollar la
actividad es de 31 minutos. Calcular el intervalo de confianza con
una probabilidad del 0,95: a) 27,47 y 34,53; b) 27,01 y 34,99; c)
26,73 y 35,28.

Para resolver este ejercicio tenemos que aplicar las frmulas del intervalo
de confianza. La variable se distribuye normalmente con varianza
poblacional (o desviacin tpica poblacional) conocida e igual a 9.
Los valores de Z que delimitan una probabilidad central de 0,95 se buscan
en las tablas y los lmites del intervalo de confianza son:

Media Error mximo de estimacin = (Lmites inf y sup)

B.- Enunciado Similar al anterior A, (se sabe que la variable tiempo en

desarrollar la tarea se distribuye normalmente pero desconoce tanto


la media como la desviacin tpica en la poblacin). El tiempo medio
que han tardado en desarrollar la actividad es de 31 minutos y la
cuasi-desviacin tpica ha sido de 8 minutos. Averiguar el intervalo de
confianza para la media poblacional con un nivel de significacin del
0,01: a) 25,95-36,41; b) 26,52-35,48; c) 27,48-34-33.
5

Se trata de un problema en que la varianza (o desviacin tpica)


poblacional es desconocida; por tanto, se recurre a la frmula
alternativa. Se parte de la distribucin t con 24 grados de libertad (n-1=251=24), los valores de t que dejan una probabilidad central de 0,99 que se
corresponden con los valores de la tabla (2,797 y 2,797) y aplicando las frmulas,
obtenemos:

Media Error
mximo de estimacin = (Lmites inf y sup)

C.- Enunciado similar al anterior (B) aumentando la muestra de sujetos a 120.

nicamente variara el Error muestral mximo al


cambiar el tamao de la muestra (120 gl no
aparecen en la tabla T de Student por lo que se
utiliza la Z por aproximacin a la curva
normal)

X t n1; / 2

S n1
n

31 (2,58

8
)
120
29,12 y 32,88

El Error mximo puede calcularse a partir de la desviacin tpica y de la cuasidesviacin


tpica.

Cuando la varianza poblacional es desconocida y los Grados de Libertad > 100,


podemos utilizar los valores de la Tabla de la curva Normal como una
aproximacin a los valores t de Student.

INTERVALO DE CONFIANZA PARA LA VARIANZA


A.- Supongamos que el cociente intelectual de la poblacin se distribuye
normalmente con media y varianza desconocidas. Para estimar la varianza
poblacional, se extrae una muestra aleatoria simple de tamao 51. La varianza
muestral resulta ser 225. Hallar un intervalo de confianza para la varianza
con un nivel de confianza del 95%.
Supuestos: Estimamos la varianza de la poblacin a partir de la varianza de la
muestra (distribucin 2 con n-1 grados de libertad). Se trata de hacer una
estimacin por intervalo:

(n 1)S n21
(n 1) S n21
nS
nS
2

Tambin 2 n 2 2 n
2
2
/ 2
1 / 2
/ 2
1 / 2
Segn las tablas 2n-1 (250) para ( / 2 = 0,025)
32,36 y para (1 - / 2 = 0,975) 71,42
La varianza muestral se convierte en insesgada

225 (51 / 50 = 1,02) = 229,5

50 229,5
50 229,5
51 225
51 225
2
Tambin
2
32,36
71,42
32,36
71,42
7

Lmites intervalo de confianza [160,7 y 354,6]


B.- Cuando el tamao de la muestra > 100, la distribucin 2 se aproxima a la
distribucin normal.
Utilizando los mismos datos con Varianza n > 100 (N = 144)

2
n

Intervalo de confianza Emx = |Z 1- / 2| (S2)


= Lmites Superior e Inferior
225 1,96 (225 0,12) = 277,92 y 172,08
Varianza Error mximo de estimacin = (Lmites inf y sup)

INTERVALO DE CONFIANZA PARA LA PROPORCIN


Se quiere estimar qu proporcin de hogares navarros tiene conexin a Internet.
Para ello se extrae de la poblacin una muestra aleatoria simple de 400 hogares,
resultado que 120 de ellos tiene conexin. Hallar un intervalo de confianza
para la proporcin muestral con un nivel de confianza del 95%:
Datos: Para ( / 2 = 0,025) Z = (- 1,96) y
Para (1 - / 2 = 0,975) Z = (+ 1,96)
Proporcin muestral (120 / 400) = 0,3
Intervalo de confianza P
Lmites Superior e Inferior

|Z

1-/2

| (P) =

P P (1 P ) / n P 0,3 (1 0,3) / 400 0,0229


Al ser una muestra
aproximacin de la
Binomial a la Z de la Curva Normal.

grande

se

utiliza

la

P Z / 2 P(1 P) / n 0,3 (1,96 0,0229) 0,3 (0,0449) (0,255 0,345)


Proporcin Error mximo de estimacin = (Lmites inf y sup)

TAMAO MUESTRAL
La amplitud del intervalo de confianza depende de dos factores: el nivel de
confianza y el error tpico de la distribucin muestral del estadstico (La suma de
ambos E = Error mximo de estimacin). Cuanto mayor es el tamao de la
muestra mayor es la precisin del intervalo y mayor la precisin de la estimacin.
Cuanto menor es el error tpico, menor es el intervalo de confianza y, por tanto,
ms preciso (para reducirlo se aumenta el tamao muestral)

TAMAO MUESTRAL (MEDIA Y PROPORCIN)


A.- Por experiencias anteriores se sabe que las estaturas de los soldados tienen
una varianza de 64 cm. Qu tamao debe tener la muestra para que la
media estimada no se aleje ms de 1, 5 puntos de la media poblacional?:
considere ( = 0,02).
Para ( / 2 = 0,01) Z

Tablas

= 2,33

Varianza poblacional conocida


8

2 = 64
n = (2 Z2 1-/2) / E2 mx estimacin n = (64 2,332) / 1,52 = 154, 42 154
soldados
Con un margen de error del 2% debemos tomar una muestra de 154 soldados.
B.- Conocemos por un trabajo anterior con 91 sujetos, que la cuasivarianza de la
variable considerada es 64 cm. Se desea estimar la media poblacional de esa
variable con un error mximo de estimacin que no supere 1, 5 puntos.
Trabajamos con un nivel de confianza del 95%.
Para ( / 2 = 0,025) t 90 gl; 0,025 = 1,987
desconocida S2n-1 = 64

Varianza

poblacional

n = (S2n-1 t2n-1; 1--/2) / E2 mx estimacin n = (64 1,9872) / 1,52 = 112,3


112
Con un margen de error del 5% debemos tomar una muestra de 112.
C.- A una muestra de sujetos adolescentes se les pasa una prueba de creatividad
y se obtiene una media de 27 puntos y una cuasivarianza de 9 puntos. Si
queremos estimar la varianza poblacional con un error mximo de estimacin
que no supere los dos puntos Cul debera ser el tamao de la muestra?
Consideramos el nivel de significacin ( = 0,01). Se recuerda que n > 100.
Para ( / 2 = 0,005) Z

Tablas

= 2,58

Varianza poblacional S2n-1 = 9

n = (2S4 Z21--/2) / E2 mx estimacin n = (162 2,582) / 22 = 269, 58 270


Con un margen de error del 1% debemos tomar una muestra de 270.
D.- Un estudio sobre la proporcin de fumadores entre el personal de un hospital
estableci que slo fumaban el 35%. Si el anlisis se efectu con un nivel de
confianza del 95%, Qu tamao debi tener la muestra para que la
proporcin estimada no se aleje ms de 0,15 puntos de la proporcin
poblacional? considere ( = 0,05).
Para ( / 2 = 0,025) Z

Tablas

= 1,96

Proporcin = 0,35

n = P (1 P) Z 2 1-/2 / E2 mximo de estimacin n = (0,35 0,65 1,962 ) /


0,152 = 38,84 39
Con un margen de error del 5% debemos tomar una muestra de 39 personas.

RESUMEN DEL PROCEDIMIENTO (CONTRASTE DE HIPTESIS)


Conjetura que se formula sobre una poblacin y que se somete a contrastacin
emprica a partir de la informacin que proporciona una muestra representativa de la
poblacin.

1.- Supuestos (caractersticas de la variable en la poblacin, y de los datos de la


muestra)
2.- Formulacin de las Hiptesis Estadsticas (exhaustivas y mutuamente
excluyentes)
BILATERAL O
UNILATERAL IZQUIERDO
UNILATERAL DERECHO
BIDIRECCIONAL

La media () es algn
La media () es algn valor
Igual o distinto a (X) valor
valor
No
inferior
a
(X).
Ho : = X

Ho : X
H1 : < X

H1 : X

La media () es algn
No superior a (X).

Ho : X
H1 : > X

3.- Eleccin del estadstico de contraste apropiado.


Estadstico de Contraste
parmetro en la H0

Valor del estadstico en la muestra Valor del

Discrepancia
----------------------------------------------------------------------------------------------------Error tpico de estimacin

4.- Fijar (regla de decisin). La zona de rechazo de la H0 la forman los


valores del estadstico cuya probabilidad de ser obtenidos es muy pequea bajo
el supuesto de que la H0 es cierta.
Valores / 1- / Z ms

CONTRASTE BILATERAL

frecuentes
Valor crtico (Z

/2

Valor crtico (Z

/2

005
001 0001

095
099 0999
1-
Z /2 - 196 - 258 - 329
258 329
Z 1-/2 196
Nivel de significacin
1 Nivel de confianza
Z /2 Z (Tabla III negativa)
Z 1-/2 Z (Tabla IV positiva)

5.- Clculo del estadstico de contraste con los datos obtenidos en la


muestra.
6.- Decisin sobre el rechazo o no de la H0 (inicialmente se asume que es
verdadera):
Mediante el nivel p-crtico (p) ------------------- Mediante el los
10

valores crticos ()
El nivel de significacin () se fija de antemano (cuando esto no es as, se
considera = 0,05), mientras que el nivel p-crtico es consecuencia del
resultado obtenido al aplicar el estadstico de contraste (el nivel crtico es la
probabilidad de encontrar valores como el estadstico de contraste o ms
extremos suponiendo que la hiptesis nula es cierta) p < (se rechaza H0)
7.- Conclusin e interpretacin de los resultados en el contexto de la
investigacin.
Nota: La decisin de utilizar contrastes unilaterales o bilaterales depende de la
informacin o la idea del investigador sobre la tendencia de la variable en la poblacin
(En la prctica, se debe enunciar primero la hiptesis alternativa). Esta decisin influye
en el nivel de significacin () y en la interpretacin de los resultados. El tipo de
contraste es similar para la media (), la proporcin () y la varianza ( 2). En los tres
tipos de contraste, el signo igual est en la H 0. Las hiptesis siempre se hacen
sobre los parmetros poblacionales.

PROBLEMA EJEMPLO CONTRASTE DE HIPTESIS


Enunciado (CH Media) Queremos contrastar la hiptesis que supone que la
media poblacional en un test de atencin de los estudiantes de la ESO es de 35
puntos. La distribucin de la variable en la poblacin es normal con varianza = 225.
Extraemos una muestra aleatoria de 144 alumnos y obtenemos una media = 32
puntos. Fijamos un nivel de significacin = 0,05.
Supuestos La variable (atencin) est medida a nivel de razn. Se distribuye
normalmente en la poblacin. La varianza poblacional es conocida ( 2 = 225). Se
trata de una muestra de observaciones aleatorias e independientes.
Hiptesis Estadsticas
Bilateral)

H0: = 35

Z
Estadstico de Contraste

H1: 35

(Contraste

Y
( / n

(varianza poblacional conocida)

Reglas de decisin Nivel de Significacin


( = 0,05)
Zona de rechazo H0 (Contraste bilateral) Todos los valores iguales o menores
que Z /2 = (- 1,96) y todos los valores iguales o mayores que Z 1 /2 = (+ 1,96),
segn la distribucin normal.
Clculo del Estadstico de Contraste (datos de la muestra)

32 35
(2,4)
(15 / 144
11

Toma de decisin sobre la H0:

Nivel crtico: Como p = 2 [Z |- 2,4 |] = 2 (0,0082) = 0,0164 es menor que


= 0,05, rechazamos la hiptesis nula. Por tanto 0,0164 cae en la zona de
rechazo de la H0.
Valores crticos: Como (-2,4) < (-1,96) rechazamos hiptesis nula.
Intervalo de confianza: 32 (1,96) (1,25) = 29,55 < < 34,45. Como 35 no
est en el intervalo de confianza se rechaza la H0.
Interpretacin de resultados Para un nivel de significacin = 0,05,
podemos rechazar la hiptesis nula (la media en atencin de los estudiantes de la
ESO no es de 35 puntos)

ERRORES EN LA TOMA DE DECISIONES


Los contrastes de hiptesis estn basados en estadsticos (medidas de
discrepancia) y tienen una distribucin de probabilidad conocida; as, todas las
decisiones llevan aparejadas una probabilidad de ocurrencia. Al tomar una
decisin sobre una H0 pueden darse cuatro situaciones (dos de ellas son
decisiones acertadas y dos errneas). Siempre debemos proponernos que (1 - )
y (1 - ) sean altos y que y sean bajos.
Decisin
Sobre la H0
Aceptar
H0
INOCENTE
Rechazar
H0
CULPABLE

Ho (Verdadera)
INOCENTE

H0 (Falsa)
CULPABLE

DECISIN CORRECTA
ES INOCENTE
Probabilidad 1
NIVEL DE CONFIANZA

DECISIN INCORRECTA
ES CULPABLE Y NO SE LE
CONDENA
Probabilidad
ERROR TIPO II
DECISIN CORRECTA
ES CULPABLE
Probabilidad 1
POTENCIA DE CONTRASTE

DECISIN INCORRECTA
ES INOCENTE Y SE LE
CONDENA
Probabilidad
ERROR TIPO I

Siempre se cumple + (1 - ) = 1

+ (1 - ) = 1

Error tipo I () Bajo la distribucin de H0 representa la


probabilidad de rechazar una H 0 verdadera = la
probabilidad de aceptar una H1 falsa / ( = probabilidad
de cometer error de tipo I = nivel de significacin)
Nivel de confianza (1) Representa la probabilidad
de aceptar una H0 verdadera = la probabilidad de
rechazar una H1 falsa.
Error tipo II () Bajo la distribucin de H1 cuando aceptamos errneamente la
H0 siendo falsa ( = probabilidad de cometer error de tipo II)
Potencia de contraste (1) Representa la probabilidad de rechazar la H0
siendo falsa = la probabilidad de aceptar una H 1 verdadera (probabilidad de
12

obtener un resultado estadsticamente significativo) 1 = Probabilidad de no


cometer Error tipo II.

POTENCIA DE CONTRASTE
De una poblacin en la que la variable de estudio tiene una distribucin normal
con varianza 225, se extrae una muestra aleatoria de 25 observaciones. Si
fijamos el nivel de significacin en 0,10, cunto valdr la potencia del contraste
de H1: = 23 frente a H0: = 20, para un contraste unilateral: a) 0,2652; b)
0,7348; c) 0,3887.
Para calcular la potencia del contraste:
Primer paso: buscar en la distribucin muestral de la media formulada en la H 0
el valor de Z que deja por debajo una probabilidad de 0,90, (nivel de confianza en
un contraste unilateral) y es Z= 1,28. A esta puntuacin le corresponde, en la
distribucin de la H0, una media muestral de 23,84.
Segundo paso: En la distribucin de H1, con media de 23, a la puntuacin le
corresponde una puntuacin tpica de 0,28. Buscamos en la tabla de la
distribucin normal las probabilidades correspondientes a esta puntuacin tpica
que vale 0,6103. De forma grfica, el razonamiento es el siguiente:

13

14

Anda mungkin juga menyukai