Anda di halaman 1dari 160

Estadstica I

Guillermo Julin Moreno


Eduardo Miravalls Sierra
UAM - 13/14 C1
4 de febrero de 2016 14:29

Apuntes UAM
Doble Grado Mat.Inf.
Cdigo en Github

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

ndice general
I

Estadstica descriptiva
I.1 Estadstica descriptiva de datos univariantes
I.1.1 Estadsticos de tendencia central . .
I.1.2 Estadsticos de dispersin . . . . . .
I.1.3 Representacin grfica de datos . . .
I.2 Estadstica descriptiva de datos bivariantes .
I.2.1 Representacin grfica . . . . . . . .
I.2.2 Regresin . . . . . . . . . . . . . . .

II Muestreo aleatorio
II.1 Conceptos de probabilidad . . . . . . . .
II.1.1 Distribuciones aleatorias . . . . .
II.2 Problema de inferencia . . . . . . . . . .
II.2.1 Interpretacin estadstica de la ley
II.2.2 Funcin de distribucin emprica .
II.3 Estadsticos . . . . . . . . . . . . . . .
II.3.1 Media muestral y poblacional . .
II.3.2 Varianza muestral y poblacional .
II.3.3 Estadsticos de orden . . . . . .

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

. . . . . . . .
. . . . . . . .
. . . . . . . .
de los grandes
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

3
3
3
3
4
8
8
9

. . . . .
. . . . .
. . . . .
nmeros
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

11
11
12
15
15
15
18
18
20
20

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

22
22
23
26
42
43
46
47
48
48
49

.
.
.
.
.

50
50
51
52
53
54

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

III Estimacin paramtrica


III.1 Estimadores . . . . . . . . . . . . . . . . . . . . . . . . . .
III.1.1 Propiedades interesantes de los estimadores . . . . . .
III.1.2 Estimador de mxima verosimilitud (EMV) . . . . . .
III.1.3 Mtodo de los momentos . . . . . . . . . . . . . . .
III.1.4 Metodologa bayesiana . . . . . . . . . . . . . . . . .
III.2 Estimacin por intervalos de confianza . . . . . . . . . . . .
III.2.1 Intervalos de confianza asintticos basados en el TCL
III.2.2 Mtodo de la cantidad pivotal . . . . . . . . . . . . .
III.2.3 Construccin de intervalos de confianza habituales . .
III.2.4 Intervalos de confianza bayesianos . . . . . . . . . . .
IV Contraste de hiptesis
IV.1 Conceptos bsicos . . . . . . . . . . . . . . . . . . .
IV.1.1 Teora de Neyman-Pearson . . . . . . . . . .
IV.2 Problema de una muestra . . . . . . . . . . . . . . .
IV.2.1 Regiones de rechazo para contrastes habituales
IV.3 Contrastes para dos muestras . . . . . . . . . . . . .
0

Documento compilado el 4 de febrero de 2016 a las 14:29

1 de 159

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

IV.4 Consistencia de tests. Tests insesgados y UMP . . . . . . . . . . . .


IV.4.1 Lema de Neyman-Pearson . . . . . . . . . . . . . . . . . . .
IV.4.2 Familias paramtricas con cociente de verosimilitudes montono
y tests ptimos . . . . . . . . . . . . . . . . . . . . . . . . .
IV.4.3 Construccin de tests. Test de cociente de verosimilitudes . .
IV.4.4 Tests Bayesianos . . . . . . . . . . . . . . . . . . . . . . . .

. 57
. 57
. 59
. 60
. 64

A Anexos
65
A.1 Condiciones suficientes para permutar la derivada con la integral . . . . 65
A.2 Distribuciones notables . . . . . . . . . . . . . . . . . . . . . . . . . . 66
A.3 Regiones de rechazo . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
B Ejercicios
B.1 Tema
B.2 Tema
B.3 Tema
B.4 Tema
B.5 Tema
B.5.1
B.5.2

1
2
3
4
5

- Estadstica descriptiva . . . . .
- Muestreo aleatorio . . . . . . .
- Estimacin puntual paramtrica
- Intervalos de confianza . . . .
- Contraste de hiptesis . . . . .
Hoja 5A . . . . . . . . . . . . .
Hoja 5B . . . . . . . . . . . . .

C Exmenes
C.1 Enero 2013 . . .
C.1.1 Solucin
C.2 Junio 2013 . . .
C.2.1 Solucin
C.3 Enero 2014 . . .
C.3.1 Solucin

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

ndice alfabtico

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

75
76
91
99
110
120
120
133

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.

141
. 142
. 144
. 148
. 150
. 154
. 156
158

2 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

Captulo I
Estadstica descriptiva
I.1.

Estadstica descriptiva de datos univariantes

La estadstica descriptiva es el conjunto de tcnicas para resumir la informacin


proporcionada por una gran masa de datos. El primer objetivo natural es resumir la
informacin que proporcionan esos datos.

I.1.1.
Media

Estadsticos de tendencia central

Definicin I.1 Media.


x=

Pn

i=1

xi

Es la medida de tendencia central ms utilizada. Es bastante sensible a los valores


atpicos (outliers), observaciones anormalmente grandes que aparecen en el conjunto
de datos por errores de transcripcin o medicin.
Mediana

Definicin I.2 Mediana. Es el valor que divide a los datos en dos mitades, de tal
forma que la mitad son menores y la otra mitad mayores que la mediana.
La mediana se calcula de la siguiente forma: dado un conjunto de datos {x1 , . . . , xn },
la mediana es x n+1 si n es impar y el promedio entre x n2 y x n2 +1 si n es par.
2

I.1.2.
Varianza

Estadsticos de dispersin

Definicin I.3 Varianza.


n

2 =

1X
1X 2
(xi x)2 =
x x2
n i=1
n i=1 i

3 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM


Desviacin
tpica

Definicin I.4 Desviacin tpica.


=

La desviacin tpica es la raz de la varianza.


Cuantil

Definicin I.5 Cuantil. Para p (0, 1) se llama cuantil p o qp al valor que deja el
100p % de los datos a la izquierda.

Cuartil

Definicin I.6 Cuartil. Los cuartiles son los tres datos que dejan a la izquierda el 25,
50 y 75 por ciento de los datos respectivamente. Es decir:
Q1 = q0.25
Q2 = q0.5 . El cuartil dos es la mediana.
Q3 = q0.75
Hay varios mtodos para el clculo de cuantiles. Para hacerlo a mano, podemos
usar el siguiente mtodo.
Si el dato en la posicin p(n + 1) no es un nmero entero,
entonces

  se interpola

entre las observaciones ordenadas que estn en la posicin p(n + 1) y p(n + 1) +1
de la siguiente forma: sea j la parte entera de p(n + 1) y m la parte decimal. Entonces,
qp = (1 m)xj + mxj+1

Coeficiente
de asimetra

Definicin I.7 Coeficiente de asimetra. El tercer momento con respecto a la media


se define como
n
1X
(xi x)3
n i=1

que, en su versin adimensional dividimos por 3 .

Un valor diferente de 0 indica asimetra de las muestras. Sin embargo, 0 no garantiza


simetra, solo que ambas colas se compensan.

I.1.3.
Box-plot

Representacin grfica de datos

Definicin I.8 Box-plot. El diagrama de caja o box-plot (imagen I.1) nos permite
visualizar las medidas de dispersin respecto a la mediana. Hay que aadir una nueva
medida, el rango intercuartlico, la diferencia entre el primer y el tercer cuartil:
RI = Q3 Q1

4 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

A partir del rango intercuartlico obtenemos los lmites inferior y superior de la


representacin:

Figura I.1: Diagrama de caja

Lmite
inferior/superior

Definicin I.9 Lmite inferior/superior. Se define el lmite superior (LS) y el inferior


(LI) de la siguiente forma:

LS = Q3 + 1.5RI
LI = Q1 1.5RI
Cualquier dato fuera del intervalo [LI, LS] se considera un atpico.
Histograma

Definicin I.10 Histograma. El histograma se trata de una aproximacin discreta


a la funcin de densidad continua f (t) de la variable que estamos midiendo. Es un
diagrama de frecuencias que mantiene la forma de esa funcin de densidad.
Definimos una serie, las marcas de intervalos an1 , . . . , ann , donde n es el nmero de
intervalos y la longitud de cada intervalo es hn = anj+1 anj . Sea el conjunto {xi }i=0,...,m
los datos de nuestra muestra. Entonces, el estimador, la funcin fn , se define de la
siguiente forma:

fn (t) =





i


i  xi anj , anj+1


nhn

5 de 159

m
X

1(anj ,anj+1 ] (xi )

i=1

nhn

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

Recordemos la funcin indicatriz


(
1 nA
1A (n) =
0 n
/A
A grandes rasgos, lo que hace en una funcin es definir un nmero de intervalos
fijos de ancho hn . Al evaluar fn (t) buscamos en qu intervalo cae t y contamos cuntas
de nuestras mediciones estn tambin en ese intervalo.

Figura I.2: El histograma es una aproximacin de la funcin de densidad real en base


a la muestra que hemos obtenido.

I.1.3.1.

Mtodo de
ventana
mvil

Estimadores ncleo o kernel

Definicin I.11 Mtodo de ventana mvil. El mtodo de ventana mvil nos da una
estimacin de la funcin de densidad en un punto t midiendo los xi que estn en el
intervalo de radio hn centrado en t. Matemticamente:
fn (t) =



n
n
1 X
1 X
t xi
1[thn ,t+hn ] (xi ) =
1[1,1]
n2hn i=1
n2hn i=1
hn

Podemos reemplazar la funcin 12 1[1,1] por otra, llamada la funcin de densidad


K, kernel o ncleo:
Estimador
ncleo

Definicin I.12 Estimador ncleo. Dada una funcin de densidad K simtrica, no


necesariamente positiva, definimos el estimador kernel como:


n
n
1 X
t xi
1X

fn (t) =
Kh (t xi ) =
K
n i=1
nhn i=1
hn
con Kh (x) = h1 K( hx ).
La eleccin del ncleo K no afecta especialmente a lo bien aproximada que est la
funcin de densidad. Sin embargo, s que influye la seleccin de la ventana hn (figura
6 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

I.3), tambin llamada bandwith en ingls. Si escogemos una ventana muy pequea,
damos demasiado peso a los datos de nuestra muestra. Si elegimos una ventana muy
grande, nuestra muestra pierde importancia y podemos perder informacin importante.
La eleccin del hn ms habitual Zes el que minimiza la distancia L2 entre f y f ,

2

fh f . Sin embargo, hay un problema: no


es decir, el parmetro que minimice

sabemos qu es f . Hay trucos que imagino que veremos ms tarde.

Figura I.3: Los efectos que causa elegir una ventana ms grande o ms pequea en
el estimador
t2

Las funciones kernel ms usadas son la uniforme, 12 1[1,1] , la gaussiana 12 e 2 y


la de Epanechnikov, que matemticamente es la que mejor aproxima f .
El estimador kernel fn (t) es la funcin de densidad de una medida de probabilidad
que es la convolucin 1 de dos medidas de probabilidad: una, Kh (x) (el kernel reescalado) y otra que da probabilidad n1 a cada punto de la muestra {xi } (distribucin o
medida emprica).
Generacin de datos del estimador kernel Supongamos que K es el ncleo
gaussiano. Podemos generar datos artificiales de la densidad as:
x0i = xi + hn Zi , i = 1, . . . , k
donde xi es una observacin elegida al azar entre los datos originales y Zi una
observacin aleatoria con probabilidad N (0, 1). Es decir, lo que hacemos es aadir un
dato aleatorio de la muestra y sumamos una pequea perturbacin aleatoria.
1

http://en.wikipedia.org/wiki/Convolution

7 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

I.2.

Estadstica descriptiva de datos bivariantes

En esta seccin estudiaremos dos variables (X, Y ) para explorar la relacin entre
ambas y tratar de inferir si existe una relacin funcional para predecir los valores de
una variable en funcin de los de la otra.

I.2.1.
Diagrama
de dispersin

Representacin grfica

Definicin I.13 Diagrama de dispersin. El diagrama de dispersin representa cada


variable en funcin de la otra para que podamos ver la posible relacin entre ambas.
Ver figura I.4.

Figura I.4: Diagrama de dispersin

8 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

I.2.2.
Recta de
regresin

Regresin

Definicin I.14 Recta de regresin.


La recta de regresin de y sobre x es la recta de forma y = a
+ bx que ms se
aproxima a los datos, minimizando los cuadrados de la distancia:
(
a, b) = arg min
a,b

n
X
i=1

(yi a bxi )2

La recta de regresin se calcula obteniendo primero b:


b = x,y
x2
donde x,y se denomina covarianza muestral de x e y:

n
n
X
X
1
1
(xi x)(yi y) =
xi yi xy
x,y =
n i=1
n i=1

y despus, sabiendo que la recta pasa por el punto (x, y), obtenemos a

a
= y bx
El valor b se denomina coeficiente de regresin lineal o parmetro de la regresin. Cada valor ei = yi yi se denomina residuo. Hay que notar que
n
X

ei =

i=1

n 
n 
 X

X
yi a
bxi =
yi (y bx) bxi =
i=1

i=1

n 

X
=
yi bxi ny + nbx = ny nbx ny + nbx = 0
i=1

P
Esta ecuacin ( ni=1 ei = 0) junto con
n
X

xi e 1 = 0

i=1

son las dos restricciones entre los residuos que nos dan la recta.
Varianza
residual

Definicin I.15 Varianza residual. La varianza residual s2R o


e2 mide, aproximadamente el error cuadrtico cometido en la aproximacin dada por la recta de regresin:
n

s2R =
e2 =

1X 2
e
n i=1 i

9 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

Coeficiente
de correlacin
lineal

Definicin I.16 Coeficiente de correlacin lineal. El coeficiente de correlacin


lineal o coeficiente de Pearson
r=

x,y

x
y

que cumple las siguientes condiciones:

0 r2 1
y2 (1 r2 )

e2 =

x
r = b

y
nos indica el grado de ajuste lineal entre las dos variables. Un valor absoluto ms
cercano a 1 indica una correlacin ms fuerte. Un valor absoluto cercano a cero indica
una correlacin dbil. El signo, positivo o negativo, indica si la correlacin es creciente
o decreciente.

10 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

Captulo II
Muestreo aleatorio
La muestra aleatoria de una cierta v.a.1 X se denomina como la muestra aleatoria
o simplemente muestra.
Durante este tema, usaremos conceptos de Probabilidad, que repasar aqu brevemente2 .

II.1.
Distribucin
de una v.a.

Conceptos de probabilidad

Definicin II.1 Distribucin de una v.a..


PX {B} = P {X B}

Funcin
de distribucin

Definicin II.2 Funcin de distribucin.

Media de
una distribucin

Definicin II.3 Media de una distribucin. Tambin llamada esperanza de X:


Z
E (X) =
F (t) dt

F (t) = P {X t}

1
2

variable aleatoria
repasa PROB I

11 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

Teorema II.1 (Teorema de cambio


de espacio de integracin). Sea g una funcin

real medible tal que E g(X) es finita, entonces

En particular


E g(X)) =

g(x) dF (x) =

g(x) dP (x)

E (X) := =
y
V (X) := =
2

Momento

x dF (x)

(x )2 dF (x)

Definicin II.4 Momento. El momento k es la esperanza de X elevado a una potencia


de orden k. Es el valor esperado de la distancia de orden k con respecto a la media


k = E (X )k

II.1.1.

Distribuciones aleatorias

Ver apndice A.2 (pgina 66).


II.1.1.1.

Criterios de convergencia

Queremos buscar convergencias entre variables aleatorias.


Convergencia
en distribucin

Definicin II.5 Convergencia en distribucin.


Se dice que Xn converge dbilmente o en distribucin a X si la funcin de distribucin de Xn , Fn (x), tiende a F (x) para todo x punto de continuidad de F ; donde
F y Fn son las funciones de distribucin de X y Xn respectivamente.
Esto es equivalente a decir que




lm P Xn (, x] = P X (, x]

Notacin:

Xn X Xn X

12 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM


Convergencia
en probabilidad

Definicin II.6 Convergencia en probabilidad. Se dice que Xn converge en probabilidad a X si > 0 se tiene que


P |Xn X| > 0
n

Es decir, que para cualquier error que tomemos el error cometido en la aproximacin
va a tender a cero siempre que tomemos un Xn suficientemente grande.
Notacin:

Xn X
n

Convergencia
casi segura

Definicin II.7 Convergencia casi segura. Tambin denotada c.s o a.s en ingls,
convergencia en casi todo punto (c.t.p) o convergencia con probabilidad 1.
Se dice que Xn converge a X casi seguro si el conjunto de puntos que no son convergentes tiende a ser vaco. Es decir


P Xn X = 1
n

Otra forma de interpretarlo es: Xn X cuando el conjunto de los tales que


n

X() es el lmite de la sucesin Xn () tiene probabilidad 1.

Ms estrictamente, la condicin se expresa como




P  Xn () X() = 1
n

Notacin

c.s

Xn X
n

Teorema II.2. Se puede probar que si {Xn } es una sucesin de variables aleatorias
y X es variable aleatoria,
c.s

Xn X = Xn X = Xn X
La recproca no es cierta.

13 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

Teorema II.3 (Teorema de Slutsky). Sean {Xn }, {Yn } sucesiones de variables


d
P
aleatorias tales que Xn X, Yn c con c R constante. Entonces
n

1. Xn + Yn X + c
n
d

2. Xn Yn X c
n

3.

Xn d X
si c 6= 0.

Yn n c

II.1.1.2.

Desigualdades bsicas

Teorema II.4 (Desigualdad de Markov). Sea X v.a. Entonces, > 0,



E (X)
P |X| >

Teorema II.5 (Desigualdad de Chebichev). Sea X v.a. Entonces, > 0, se


cumple que
n
o V (X)



P X E (X) >
2

14 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

II.2.

Problema de inferencia

II.2.1.

Interpretacin estadstica de la ley de los grandes nmeros

Teorema II.6 (Ley de los grandes nmeros). Sea {xk } una sucesin de v.a.i.i.d.
con media finita . Se verifica entonces que
n

1X
c.s
X=
xi
n
n i=1

II.2.2.
Funcin
de
distribucin
emprica

Funcin de distribucin emprica

Definicin II.8 Funcin de distribucin emprica. La funcin de distribucin emprica asociada a la muestra {xn } se define mediante
n

1X
P {X t} = Fn (t) =
1(,t] (xi )
n i=1
Es decir, Fn (t) es la proporcin de puntos de la muestra que caen en el intervalo
(, t].
Sin embargo, surge una duda: converge la funcin de distribucin emprica a la
funcin de distribucin original?
Intuitivamente, podemos pensar que cuantos ms puntos cojamos, ms se aproximar a la funcin de distribucin original. De hecho, eso es lo que demuestra el
siguiente teorema:

Teorema II.7 (Teorema de Glivenko-Cantelli). Sean {xn } v.a.i.i.d. con funcin


de distribucin F . Se verifica que

c.s
kFn F k = sup Fn (t) F (t) 0
n

tR

donde kFn F k es el estadstico de Kolmogorov-Smirnov.

Demostracin. Empezamos demostrando la convergencia de los trminos intermedios. Es decir, queremos demostrar que
c.s

Fn (t) F (t)
n

15 de 159

(II.1)

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

Tenemos que

1X
Fn (t) =
1(,t] (xi )
n i=1
A cada uno de los trminos de los trminos de la suma 1(,t] (xi ) los podemos
llamar yi . Estos valores son una muestra de la distribucin
Y = 1(,t] (X)
Por lo tanto y por la LGN (II.6)
n

1X
c.s
Fn (t) =
Yi = Y E (Y )
n
n i=1
pero



E (Y ) = E 1(,t] (X) = P X (, t] = F (t)

por lo tanto hemos demostrado (II.1).

Ahora tenemos que demostrar que el lmite por la izquierda converge. Es decir,
hay que demostrar que
c.s
Fn (t ) F (t )
(II.2)
n

. Esa convergencia se da si y slo si en un conjunto de probabilidad 1 se tiene que


Fn (t ) F (t ). Segn la definicin de lmite, esto se da si y slo si
n



> 0 N  n N = Fn (t ) F (t ) <

(II.3)

Sabemos que

> 0  Fn (t ) = Fn (x) x (t , t + )

(II.4)

Seguimos:


F (t ) = lm F (x) > 0 > 0  x (t, t) = F (x) F (t ) <
xt
2
(II.5)

Tomamos x (t , t) con un delta que cumpla tanto la condicin en (II.4)


como en (II.5). Entonces






Fn (t ) F (t ) = Fn (x) F (x) + F (x) F (t ) Fn (x) F (x) + F (x) F (t )
|
{z
} |
{z
}
(a)

Sabemos que (a) es menor que


por (II.5), por lo tanto

por (II.3) y que (b) tambin es menor que

16 de 159

(b)

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM



Fn (t ) F (t ) <

Buscamos ahora una particin finita de R dada por t0 =


t1 tk =


tal que para todo > 0 se cumpla que F (ti ) F (ti1 ) . Lo construimos
de forma recursiva: dado ti1 tomamos
ti = sup{F (z) F (ti1 + }
zR

El siguiente paso: para todo ti1 t ti se tiene que

Fn (t) F (t) Fn (t
i ) F (ti ) +

Como Fn es no decreciente (es una funcin de distribucin), tenemos tambin


que
Fn (t) F (t) Fn (ti1 ) F (ti1 )
Con estas dos ltimas ecuaciones, llegamos a que


sup Fn (t) F (t) max
tR

n
max Fn (ti ) F (ti ) , max Fn (ti ) F (ti ) +
i=1,...,k

i=1,...,k


c.s
Por (II.1), sabemos que Fn (ti ) F (ti ) 0, y por lo tanto
n


c.s
max Fn (ti ) F (ti ) 0
n

i=1,...,k

De la misma forma, usando (II.2) tenemos que



c.s
n
)

F
(t
max Fn (t
)
0
i
i
n

i=1,...,k

Por lo tanto, todo ese mximo enorme vale 0, de tal forma que


lm sup Fn (t) F (t) = lm kFn F k

n tR

para cualquier > 0 arbitrario que cojamos. Es decir, que



c.s
kFn F k = sup Fn (t) F (t) 0
tR

17 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

II.3.

Estadsticos

Cuando extraemos una muestra {xn } de X se pueden calcular algunas medidas


resumen. Cualquiera de ellas se puede expresar matemticamente como una funcin
T (x1 , . . . , xn ) de la muestra.
Estadstico

Definicin II.9 Estadstico. Sea T (x1 , . . . , xn ) una funcin cuyo dominio incluye el
espacio muestral del vector aleatorio (X1 , . . . , Xn ). Entonces la variable aleatoria T se
denomina estadstico. La nica restriccin es que un estadstico no puede ser funcin
de un parmetro.
Como la distribucin de T se calcula a partir de la distribucin de las variables
Xi que constituyen la muestra, la denominaremos distribucin de T en el muestreo
(sampling distribution).

Error tpico

Definicin II.10 Error tpico. El error estndar o error tpico de un estadstico T ,


es la desviacin tpica de su distribucin en el muestreo. Como en ocasiones depende
de alguna cantidad desconocida, tambin se denomina error tpico a una estimacin
de ese valor.
T
sigue una distribucin t de Student, lo que nos
En ocasiones, se cumple que

permitir definir intervalos de confianza.

II.3.1.
Media
muestral

Media muestral y poblacional

Definicin II.11 Media muestral. La media muestral


n

1X
X=
Xi
n i=1
se puede expresar de la siguiente forma
X=

x dFn (x)

La definicin es anloga con la de la media poblacional


=

x dF (x)

Esto nos da una clave de la estadstica: sustituir todo lo que desconozco de la


poblacin con su anlogo muestral3 (en este caso, pasamos de la funcin de distribucin
terica a la funcin de distribucin emprica). Slo quedara ver si los estimadores que
resultan son adecuados.
3

mtodo plugin

18 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

La media muestral tiene otras relaciones muy importantes con :


 
1. X es estimador insesgado o centrado de : E X =

  2
2. V X = . Como es inversamente proporcional, est claro que cuantos ms
n
datos haya, mejor nos aproximaremos a lo que queremos estimar.

Teorema II.8 (Teorema central del lmite). Suponemos que {Xn } son v.a.i.i.d.
con media y desviacin tpica finitas. Entonces
X d
n
Z N (0, 1)
n

Si denotamos la funcin de distribucin de la normal como


Z x
t2
1
e 2
(x) =
2

entonces
)
(
X
t (t) = P {Z t}
t R P
n
n

Por tanto, para n grande se cumple






x
P
n X x ( )

aunque las Xi no tengan distribucin normal.


Es decir:
X

n
n(X ) N (0, )

X N (0, ) X N (, )
n
n

19 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

II.3.2.

Varianza muestral y poblacional

Una medida importante de dispersin de una variable aleatoria es la varianza


Z
2
V(X) = = (x )2 dF (x)
(II.6)
R

Varianza
muestral

Definicin II.12 Varianza muestral.El anlogo muestral de 2 es la varianza muestral. Utilizando el criterio plugin en (II.6)

n2

1X
(Xi X)2
= (x X) dFn (x) =
n i=1
R
2

Teorema II.9. La varianza muestral cumple lo siguiente


 n1 2
E
n2 =

n
c.s

n2 2
n

Por lo tanto, la varianza muestral es un estimador sesgado. No es un problema


grande ya que cuando n acaba convergiendo a 2 y el sesgo

1 2
n1 2
E
n2 2 =
2 =

n
n

tambin tiende a cero. Es decir, es asintticamente insesgado.


Cuasivarianza
muestral

Definicin II.13 Cuasivarianza muestral. En lugar de usar


n2 usamos la cuasivarianza muestral, definida como
n

n2
S2 =
n1
de tal forma que se tiene

E S 2 = 2
c.s

S 2 2
n

II.3.3.

Estadsticos de orden

20 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM


Estadstico
de orden

Definicin II.14 Estadstico de orden. Dada una muestra {Xn }, se denotan como
X(1) X(n)
las observaciones de la muestra ordenadas de menor a mayor, llamados estadsticos de
orden. Cuando la distribucin de las v.a. es continua, la probabilidad de coincidencia
en valores es 0 y con probabilidad 1 se tiene que
X(1) < < X(n)
Los estadsticos de orden pueden utilizarse para definir la mediana o los cuartiles.
Sin embargo, podemos usar la funcin cuantlica para definir mejor estos conceptos.

Funcin
cuantlica

Definicin II.15 Funcin cuantlica. La funcin cuantlica en p es el punto que deja


una probabilidad p a la izquierda, de tal forma que una proporcin p de los individuos
de la poblacin X sera menor que el cuantil poblacional de orden p.
La funcin cuantlica correspondiente a la funcin de distribucin F se define

F 1 : R 7 (0, 1)


F 1 (p) = nf x  F (x) p
La funcin cuantlica nos permite obtener los cuantiles poblacionales de orden
p al valor F 1 (p). El anlogo es el cuantil muestral de orden p, se define a partir
de la funcin de distribucin emprica como Fn 1 (p).

21 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

Captulo III
Estimacin paramtrica
En este tema supondremos que la muestra es absolutamente continua o discreta,
con funcin de densidad o probabilidad f (.; ) que es totalmente conocida salvo el
valor de un parmetro del cul slo se conoce su rango de posibles valores , al que
se llama el espacio paramtrico.

III.1.
Estimador

Estimadores

Definicin III.1 Estimador. Sean {Xn } v.a.i.i.d. con distribucin comn caracterizada
por la funcin de densidad/masa f (; ), con un parmetro desconocido del que slo
se sabe que pertenece al espacio paramtrico R.
El estimador es una funcin medible n = Tn (X1 , . . . , Xn ) que se utiliza para
estimar o aproximar el valor de .
Cuando tenemos una muestra aleatoria {Xn }, cada Tn (X1 , . . . , Xn ) es un estimador de , una variable aleatoria. Si por el contrario tenemos una serie de observaciones
de una muestra {xn } entonces Tn (x1 , . . . , xn ) es una estimacin de .
Podemos evaluar la calidad de un estimador con el error cuadrtico medio
(ECM):
ECM(Tn ) = E (Tn )2
Si sumamos y restamos E (Tn ), nos queda que

ECM(Tn ) = V (Tn ) + sesgo2 (Tn )


que nos describe el error cuadrtico medio en funcin de la varianza y del sesgo de
Tn .

22 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

III.1.1.

Propiedades interesantes de los estimadores

Buscaremos varias propiedades interesantes de los estimadores:


III.1.1.1.

que

Ausencia de sesgo

Se dice que un estimador Tn es insesgado si, siempre que Xi f (; ) se tiene


E (Tn ) =

III.1.1.2.

Consistencia

Se dice que {Tn } = {Tn (X1 , . . . , Xn )} es consistente en probabilidad si, siempre


P
que Xi f (.; ) se tiene que Tn .
n

Si reemplazamos la consistencia en probabilidad por la convergencia casi segura,


se obtiene la consistencia fuerte o casi segura.
Para probar la consistencia fuerte, usaremos el siguiente teorema:

Teorema III.1 (Teorema de la aplicacin continua). Sea g : R 7 R continua


en todo punto de un conjunto C tal que P {X C} = 1, entonces
d

Si Xn X entonces g(Xn ) g(X).


P

c.s

c.s

Si Xn X entonces g(Xn ) g(X).


Si Xn X entonces g(Xn ) g(X).

Otra forma de probarlo sera usar la desigualdad de Markov (II.4). Buscamos probar
que


P |Tn | > 0
n

entonces





P |Tn | > = P (Tn )2 > 2

que por Markov tenemos que




P (Tn ) >
2

E (Tn )2

23 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

y entonces slo nos quedara probar que E (Tn )2 0.


n

Tambin podemos usar condiciones suficientes

Teorema III.2 (Condicin de Borel-Cantelli). Si se cumple que

X


P |Tn | > < > 0
n=1

c.s

entonces Tn .
n

Con esta condicin, bastara ver que la probabilidad o la esperanza convergen y


automticamente se cumplira la condicin.
Ejemplo: Sean {Xn } v.a.i.i.d. con distribucin uniforme en el intervalo [0, ] con
> 0. Estudiar la consistencia de los siguientes estimadores de
a)
Tn = 2X
Este estimador se basa en que E (X) = 2 . Esto se estima mediante la media
muestral X, y por lo tanto un estimador razonable sera duplicar esa media muestral:
Tn = 2X.
Como Tn se expresa como una funcin continua de la media muestral, por la LFGN
y el teorema de la aplicacin continua
c.s

Tn = g(X) g() = 2 = 2E (X) =


n

y por lo tanto tiene consistencia fuerte.


b)
Tn = X(n) = max{X1 , . . . , Xn }
Aqu usaremos la segunda herramienta: estudiar la probabilidad que el estimador
no se aleja del valor esperado en ms de :
n
o







P |Tn | > = P X(n) > = P X(n) > = P X(n) <

Si pedimos que el mximo sea menor que , es lo mismo que pedir que lo sean
todas las observaciones:

24 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM



P X(n) < = P {X1 < , . . . , Xn < }

Y con esto logramos quitarnos los estadsticos de orden, que nos causan problemas al tratar de seguir con la demostracin. Como las variables de la muestra son
independientes, podemos expresarlo todo como producto
n
Y
i=1

P {Xi < } =

n

Esta probabilidad est contenida en el intervalo (0, 1) y por lo tanto converge a


cero cuando n . Entonces, Tn es un estimador de consistente en probabilidad.
Para examinar si se cumple la condicin de Borel-Cantelli, examinamos la serie
n


X

X

<
P |Tn | > =

n=1
n=1
se cumple la condicin y es un estimador consistente casi seguro.
Si quisisemos explorar cul de los dos estimadores es mejor, usaramos el error
cuadrtico medio.
III.1.1.3.

Normalidad asinttica

Se dice que unasucesin de estimadores {Tn } del parmetro es asintticamente


normal con tasa n si

d
n(Tn ) N (0, )
n

Cmo se puede probar la normalidad asinttica? La herramienta se llama el mtodo delta y es consecuencia casi inmediata del teorema del valor medio y de las
propiedades de la convergencia en distribucin: intentaremos expresar el estimador que
se propone como una funcin C 1 de la media muestral y aplicar entonces el Teorema
Central del Lmite (II.8).
Si llamamos Tn = g(X) con g C 1 entonces podemos expresar, con un entre
X y

n(g(X) g()) = g 0 ( ) n(X )


TV M

c.s

c.s

n
c.s
g 0 ().
n

Como X entonces y por lo tanto y usando el Thm. de la

aplicacin continua (III.1) g 0 ( )

Al final

d
g 0 ( ) n(X ) N (0, g 0 () )
n

25 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

En general, se habla de normalidad asinttica con tasa an si se cumple que


d

an (Tn ) N (0, )
n

con an sucesin creciente y mayor que cero.

III.1.2.

Estimador de mxima verosimilitud (EMV)

En lo que sigue vamos a suponer que {Xn } es una muestra formada por v.a.i.i.d.
cuya distribucin tiene una funcin de densidad o de masa f (.; 0 ) perteneciente a una
familia de funciones {f (.; )  }. 0 nos indica el valor real, y es un parmetro
genrico.
Intuitivamente, lo que pensamos con este mtodo es que la funcin de masa mide
lo verosmil que es que salga un cierto parmetro.
Funcin
de verosimilitud

Definicin III.2 Funcin de verosimilitud. Tambin llamada likelihood function.


Dada una muestra fija {xn }, se define como
Ln (; x1 , . . . , xn ) = Ln () =

n
Y

f (xi ; )

i=1

Estimador
de mxima
verosimilitud

Definicin III.3 Estimador de mxima verosimilitud. Tambin llamado EMV o


MLE (maximum likelihood estimator) es el argumento que maximiza la funcin de
verosimilitud:
n = n (x, . . . , xn ) = arg max Ln (; x1 , . . . , xn )

cuando ese mximo est bien definido.


Para evitar usar derivadas en un producto potencialmente muy largo, podemos
maximizar el logaritmo de la verosimilitud, que es creciente y est bien definido porque
la densidad es siempre mayor que cero, y los casos en los que sea cero no los estudiamos
porque no ocurren (ocurren con probabilidad 0).
III.1.2.1.

Clculo efectivo

El valor del estimador se obtiene como solucin de la ecuacin de verosimilitud.


n

log Ln =
log f (; xi ) = 0

i=1
Ejemplos

26 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

Distribucin de Poisson de parmetro . Suponemos que X Poisson ()


con > 0, de tal forma que
P {X = x} = e

x
; x Z+
x!

Dada una muestra {xn } de X. Entonces

Ln () =

n
Y

f (xi ; ) =

i=1

n
Y
i=1

P {X = x} =

n
Y

i=1

x!

=e

n
P

xi

i=1
x1 ! xn !

Tomamos logaritmos:
log Ln () = n + log
y derivando

n
X
i=1

xi log (x1 ! xn !)
n

1X
log Ln () = n +
xi

i=1

de tal forma que nos queda


n

X
= 1
xi = x

n i=1
En la imagen (III.1) vemos cmo las diferentes funciones se aproximan a = 1.

Figura III.1: Diferentes funciones de verosimilitud para diferentes muestras de la


distribucin de Poisson

27 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

Distribucin normal de parmetros ,

Tenemos

2
1 (x)
1
f (x; , ) = e 2 2
2 2

28 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

La funcin de verosimilitud es
n
P

n
Y

12
(xi )2
1
2
i=1
Ln =
e
f (xi ; , ) =
(2)n/2 ( 2 )n/2
i=1

Tomamos logaritmos:
n
n
1 X
log Ln = log(2) n log 2
(xi )2
2
2 i=1

Derivamos con respecto de

n
n
X
X
log Ln
1
1
= 2
(xi )(1) = 2
xi n = 0 = x

i=1

i=1
de tal forma que
= x.
Hacemos lo mismo con
n

n
1 X
log Ln
= + 3
(xi )2 =

i=1

n
n
1
1 X
1X
= n + 2
(xi )2 = 0 2 =
(xi x)2

i=1
n i=1

luego
2 = 2.

Distribucin Weibull La funcin de densidad de la distribucin de Weibull, que


toma dos parmetros k y , es
k
f (x; , k) =

 k1
x k
x
e( ) 1[0,) (x)

La funcin de verosimilitud para los dos parmetros es:


 k1
n
Y
xi k
k xi
Ln (k, ) =
f (xi , , k) =
e( ) =

i=1
i=1

k1

k1
n
n
P
P
n
n
Y
Y
1k
xki
1k
xk
i=1
i=1 i
n n
n(k1)
n nk

=k
xi
=k
xi

e
e
n
Y

i=1

i=1

Tomamos logaritmos:

29 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

log L = n log k nk log + (k 1)

n
X
i=1

n
1 X k
x
log xi k
i=1 i

y derivamos con respecto de ambas variables


1
log L
= nk (k)k1

n
X
i=1

n
X
k
1
xki = n + k
xkk = 0

i=1
n

X
X
log L
n
= n log +
log xi
k
k
i=1
i=1


x1
xi k
log
=0

Con la primera ecuacin, tenemos que

k1
n
n
X
X
1
1
k =
xki =
xk
n i=1
n i=1 i

De la segunda ecuacin resulta prcticamente imposible despejar k. Sin embargo,


podemos usar mtodos numricos para obtener el valor de k.

Teorema III.3 (Invarianza del EMV). Si es una funcin biyectiva y es el e.m.v.

de , entonces el e.m.v. de () es ()

Por ejemplo, tomamos X N (, ). Ya habamos calculado el e.m.v. de la varianza, que era la varianza muestral.
Cmo calcular
entonces el e.m.v. de la desviacin

tpica? Sabiendo que = 2 , tomamos () = que es una funcin biyectiva en


2
R+ y por lo tanto podemos decir que emv () =
III.1.2.2.

Motivacin del mtodo

Estudiamos la siguiente funcin

n
n
Y
1
1
1X

log f (Xi ; )
log Ln () = log
f (Xi , ) =
n
n
n i=1
i=1

que por la L.G.N. (II.6) converge a una funcin () que es el valor esperado de
esos logaritmos de las muestras:
1
logLn () ()
n
n
donde



() = E0 log f (X; ) =

30 de 159

log f (x; )f (x; 0 ) dx

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

Teorema III.4 (Teorema MV1). Sea X f (.; 0 ). Supongamos que se satisfacen


las siguientes condiciones:
MV0) Parametrizacin adecuada Las distribuciones son distintas si el
parmetro es distinto.
MV1) Soporte comn Las distribuciones f (.; ) tienen un soporte comn.
Es decir, que las funciones de densidad o de masa tienen valor distinto de cero en
los mismos puntos.
MV2) () es finita para todo .

Entonces 0 es el nico mximo de la funcin () y adems




P0 Ln (0 ; X1 , . . . , Xn ) > Ln (; X1 , . . . , Xn ) 1 6= 0
n

En el teorema se habla del soporte, definmoslo formalmente:


Soporte

Definicin III.4 Soporte. El soporte de una funcin de distribucin o masa f es el


conjunto de puntos en el que el valor de f es distinto de 0. Es decir,
soporte f = {x R  f (x) 6= 0}
Para la demostracin, primero veremos la siguiente desigualdad:

Teorema III.5 (Desigualdad de Jensen). Supongamos que X es una v.a. tal que
1
E (X) < (su
 esperanza existe y es finita) y que es una funcin convexa tal
que E (X) < .
Entonces


E (X) (E (X))

Con esto, podemos pasar a la demostracin del teorema (III.4):


Demostracin. Decir que
Ln (0 ; X1 , . . . , Xn ) > Ln (; X1 , . . . , xn )
1

como una parbola y = x2 , ms o menos

31 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

es equivalente a que

log Ln (0 ; X1 , . . . , Xn ) > log Ln (; X1 , . . . , xn )


n
n
X
X
log f (Xi ; 0 ) >
log f (Xi ; )
i=1

0>

1
n

i=1

n
X
i=1



log f (Xi ; ) log f (Xi ; 0 ) =





n
f (Xi ; )
1X
f (Xi ; ) P
f (Xi ; )
=
log
= E0 log
<0
E0 log
n i=1
f (Xi ; 0 ) n
f (Xi ; 0 )
f (Xi ; 0 )
usando la L.G.N (II.6). Aplicando ahora la desigualdad de Jensen (III.5)


f (Xi ; )
f (Xi ; )
> log E0
E0 log
f (Xi ; 0 )
f (Xi ; 0 )
Entonces
f (Xi ; )
E0
=
f (Xi ; 0 )

f (x; )
f (x; 0 ) dx =
f (x; 0 )

f (x; ) dx = 1

y por lo tanto
E0

f (Xi ; )
log
f (Xi ; 0 )

= log 1 = 0

Entonces, > 0



n

1 X

f
(X
;
)
f
(X;
)
i


log
E0 log
> 0
P

f (Xi ; 0 )
f (X; 0 )
n
n i=1



n
1 X

f (Xi ; )
f (X; )

P
log
E0 log

f (Xi ; 0 )
f (X; 0 )
n i=1
n





1
f (X; )
Tomo = E0 log
y entonces
2
f (X; 0 )




n
1 X

f (Xi ; )
1
f (X; )
P
log
< E0 log
<
0
1

n
n
f (Xi ; 0 )
2
f (X; 0 )
i=1

32 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

III.1.2.3.

Consistencia del mtodo

Teorema III.6 (Teorema MV2). Supongamos que se cumplen las condiciones del
teorema MV1 (III.4) y adicionalmente
MV3) El espacio paremtrico es un intervalo abierto no necesariamente finito y, para casi todo x, f (x; ) es diferenciable respecto a con derivada
continua.
Entonces, con probabilidad tendiente a 1, la ecuacin

log Ln (; X1 , . . . , Xn ) = 0

(III.1)

tiene una raz n = n (x1 , . . . , xn ) que converge en probabilidad a 0 (el verdadero valor del parmetro). Si adems suponemos que la raz es nica, entonces
n maximiza la verosimilitud Ln y por lo tanto es el estimador de mxima verosimilitud.

Demostracin. Sea > 0. Entonces para casi todo2 x en el intervalo = (0


, 0 + ) se tiene que f (x; ) es diferenciable con derivada continua.
Ln (0 )
Ln (0 )

Ln (0 + )

0 +

Cogemos entonces un conjunto Sn definido de la siguiente forma:


Sn = {(x1 , . . . , xn )  Ln (0 ; x1 , . . . , xn ) > Ln (0 ; x1 , . . . , xn )
Ln (0 ; x1 , . . . , xn ) > Ln (0 + ; x1 , . . . , xn )}
Aplicando el teorema MV1 (III.4), tenemos que P0 (Sn ) 1.
n

En algn punto del interior del intervalo hay un mximo local. Como puede
haber varios mximos locales, tomo n como el punto de mximo local ms cercano
a 0 .
Se cumple que cada uno de esos puntos de mximo satisfacen la ecuacin de
verosimilitud (III.1). En consecuencia n satisface tambin esa misma ecuacin. Por
lo tanto










P n 0 < 1 P n 0 0
n

33 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

y entonces
P
n 0
n

III.1.2.4.

Informacin de Fisher

Supongamos el conjunto de todos los estimadores de un parmetro . Su error


cuadrtico medio es
 
= V + sesgo2 ()

ECM()

Si queremos buscar el mejor estimador, buscamos los que minimicen el ECM. Por
lo tanto, nos interesaremos en el subconjunto de estimadores insesgados (sesgo =
0). Sin embargo, no tenemos una forma clara de distinguir cul es mejor entre esos
estimadores insesgados. En esta seccin vamos a buscar una escala, a la que llamaremos
la informacin de Fisher, que nos dar una cota para la varianza de un estimador.
R
Suponemos que en la integral f (x; ) dx se puede derivar dos veces bajo el signo
R 2
integral (esto es, que
2 f (x; ) dx existe) y que adems se puede permutar la integral
y la derivada parcial (vemos condiciones suficientes en el apndice A.1, pgina 65).
Entonces
Z

f (x; ) dx = 1 =

f (x; ) dx = 0

log f (X; ) = 0

Por tanto
Z

(log f (x; ))f (x; ) dx = E

Si derivamos de nuevo en la integral


2
2

2
f (x; ) dx = 0 =
f (x; ) dx =
2
Z
Z
2

=
log
f
(x;
)f
(x;
)
dx
+
log
f
(x;
)

f (x; ) dx = (?)
2

2
Z
Z 
2

log f (x; )f (x; ) dx +


=
log f (x; ) f (x; ) dx =
2

#
"
"
2 #

2
log f (X; ) + E
log f (X; )
=0
= E
2

El segundo valor se llama informacin de Fisher:


2

Casi todo: puntos con probabilidad no nula

34 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM


Informacin
de Fisher

Definicin III.5 Informacin de Fisher. Se denota por I() la informacin de Fisher


del parmetro
2
2 log f (X; )

I() = E

= E

log f (X; )

2 !

Representa intuitivamente la cantidad de informacin acerca del valor del parmetro


contenida en una observacin de X.
En qu consiste esa cantidad de informacin? Tomemos, por ejemplo, una normal
N (0, ) con pequea. Una observacin X que hagamos nos dar mucha informacin
sobre el modelo, ya que todos los valores de la normal estn muy agrupados, y por lo
tanto I() ser grande. Si tomamos grande, una observacin X no nos dar mucha
informacin sobre el modelo porque los valores estn ms dispersos, y por lo tanto
tendremos un valor de I() pequeo.
La informacin de Fisher nos da una cota inferior para la varianza.

Teorema III.7 (Cota de Frchet-Cramr-Rao). Dado un estimador insesgado


de , entonces
 
1
V
nI()
donde

1
nI()

se llama la cota de Frchet-Cramr-Rao.

Demostracin. Tomamos la v.a. Z como la derivada del logaritmo de la verosimilitud


n

Z=
log Ln (X, ) =
log f (Xi ; )

i=1
La desigualdad de Cauchy-Schwartz establece que
V (Tn )

Cov2 (Z, Tn )
V (Z)

Veremos que el numerador vale 1 si Tn es un estimador insesgado, y que V (Z) =


nI().
Primero observamos que


n
X

E (Z) =
E
log f (Xi ; ) = 0

i=1
Y la varianza

V (Z) =

n
X
i=1

 X

2 !
n

log f (Xi ; ) =
E
log f (X; )
[] = nI()

i=1
35 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

La primera parte est demostrada.


Ahora vemos que, si E (Z) = 0, entonces
Cov (Z, Tn ) = E (ZTn ) E (Z) E (Tn ) = E (ZTn )
| {z }
0

Como Z y Tn dependen de la muestra


Z(X1 , . . . , Xn ) Tn (X1 , . . . , Xn ) =

E (ZTn ) = E

Rn

Z(x1 , . . . , xn )Tn (x1 , . . . , xn )f (x1 , . . . , xn )

Como las X1 , . . . , Xn son independientes,

f (x1 , . . . , xn ) =

n
Y

f (xi ; )

i=1

y la integral nos queda entonces como una serie de integrales iteradas


Z

Z(x1 , . . . , xn ) Tn (x1 , . . . , xn )

n
Y

f (xi ; ) dxi

i=1

Vemos cunto vale Z:


n

X f (xi ; )

Z=
log f (xi ; ) =

f (xi ; )
i=1
Pero

n
X
i=1

f (xi ; )

f (xi ; )

n
Y
i=1

n
n
X
Y

f (xi ; ) dxi =
f (xj ; )
f (xi ;

i=1

que por la regla de la cadena es igual a

n
Y

f (xi ; )
i=1
y entonces nos queda que
36 de 159

j=1
j6=i

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

Y
f (xi ; ) dxi =
cov ( Z, Tn ) = E (ZTn ) =
. . . Tn (x1 , . . . , xn )
i=1
R
R
Z
Z
n
Y

. . . Tn (x1 , . . . , xn )
f (xi ; ) dxi =
=
R
R
i=1


E (Tn )

Como Tn es un estimador insesgado E (Tn ) = y entonces Cov (Z, Tn ) = 1.


Por lo tanto, nos queda que
 
V

1
nI()

Adems, si Tn no fuese un estimador insesgado


2
 
dpaE (Tn )

V
nI()
y por lo tanto

ECM(Tn )

Estimador
eficiente

2
(Tn )

nI()

+ Sesgo 2 (Tn )

Definicin III.6 Estimador eficiente. Se dice que un estimador es eficiente si su


varianza es igual a la cota de Frchet-Cramr-Rao (III.7), es decir
 
1
V =
nI()
III.1.2.5.

Eficiencia asinttica

Teorema III.8 (Teorema MV3). Supongamos que se verifican las condiciones


MV0 - MV3 (ver teoremas III.4, III.6) y adems:
MV4) La integral
gral.

f (x; ) dx se puede derivar dos veces bajo el signo inte-

MV5) Para cada x la densidad f (x; ) es tres veces diferenciable con respecto
a , con la tercera derivada continua en .
3

Por ejemplo, porque no tengo ni idea de dnde sale esto.

37 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

MV6) La informacin de Fisher es estrictamente positiva y finita: 0 <


I(0 ) <
MV7) Para cada 0 existen un nmero c > 0 y una funcin M (x), que
pueden depender de 0 , tales que

E0 M (X) <
y



3 log f



(x;
)
M (x) x; (0 c, 0 + c)

3

Entonces, si n (X1 , . . . , Xn ) es cualquier sucesin consistente de soluciones de


las ecuaciones de verosimilitud, se verifica


d
n n 0 N

0, p
I(0 )

Demostracin.

n () = Ln

0n = n ()

f
f0 =
f

(III.2)
(III.3)
(III.4)

donde la funcin III.3 se llama el score (quizs).


n () depende de la muestra. Para cada muestra fija se tiene
Recordemos que

n (n ) =
0n (0 ) + (n 0 )00n (0 ) +

n 0
2

2

000

n (n )

Para algn n entre n y 0 . Como el primer miembro es 0, resulta




n n 0 =

0 ()2
1
n n
n1 00n (0 )

1
2n


000 ( )
n 0
n
n

Vamos a demostrar que esto converge en tres pasos:


Numerador converge a N (0,

I(0 )).

Primera parte converge a I(0 ).


38 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

Segunda parte denom. converge a 0 en prob.


Tendremos por lo tanto que
p


N (0, I(0 )
d

n n 0
n
I(0 ) + 0
Y usando la tercera condicin del teorema de Slutsky (II.3), tendremos que
p
N (0, I(0 )
d
N
n
I(0 ) + 0

0, p
I(0 )

Parte 1: Numerador
"
#
 0
X
n
1 0
n
f 0 (Xi ; 0 )
f (Xi ; 0 )
n (0 ) =
E0
n i=1 f (Xi ; 0 )
f (Xi ; 0 )
n
Como E0
a las variables

f 0 (Xi ;0 )
= 0 (vete t a saber
f (Xi ;0 )
f 0 (Xi ;0 )
Yi = f (Xi ;0 ) y la definicin de

por qu), la aplicacin del TCL (II.8)


I(0 ) proporcionan directamente

p
1 0
d

V (Y ))
(
)

N
(0,
0
n
n n

Calculamos ahora esa desviacin tpica:



V (Y ) = E Y 2 E (Y )2 = E Y 2 =
2 !


log f (X; )
= I()
= E

Y por lo tanto nos queda que


 p

1 0
d

(
)

N
0,
I(
)
0
0
n
n n
Parte 2: Denominador A Operamos con
1
00n (0 )
n
00n con respecto a tenemos que
Si derivamos de nuevo
2
n
00
0
X
f
(x
;
)f
(x
;
)

f
(x
;
)
i
i
i
00n () =

f 2 (xi ; )
i=1
39 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

Entonces n1 00n (0 ) es un promedio, y por la LGN (II.6)

2
f (xi ; )f (xi ; ) f (xi ; )
1
P
=
00n (0 ) E0
n
n
f 2 (xi ; )
 0
2 !

 00
f (Xi ; 0 )
f (Xi ; 0 )
= E0
E0
f (Xi ; 0 )
f (Xi ; 0 )
|
{z
}
00

I(0 )

Operamos ahora con la segunda parte

E0

f 00 (Xi ; 0 )
f (Xi ; 0 )
Z
=

f 00 (Xi ; 0 )
=
f (Xi ; 0 ) dx =
R f (Xi ; 0 )


2

f (x; )
dx
2

=0

y como segn el enunciado del teorema podemos permutar la derivada con la


integral dos veces, tenemos que
Z



2

f (x; )
2

Por lo tanto

=0

2
dx =
2




f (x; ) dx

R

=0


2
0
=
2

=0
=0

1
P
00n (0 ) I(0 )
n
n
Paso 3: Segunda parte del denominador

1 
P

000
0
n 0
n (n )
n
2n
Por hiptesis del teorema, n se considera consistente y entonces


n 0 0
n

000 ( ), y demostraremos
Analizaremos ahora la segunda parte de esa ecuacin,
n
n
que tiende a una constante.
n

1 X 3

000
log f (Xi ; )

(
)
=
n
n
n i=1 3
40 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

Como n es consistente, n , que es un punto intermedio entre n y 0 , tambin


tiende a 0 en probabilidad. Entonces podemos aplicar la hiptesis MV7 del teorema
y acotar la derivada parcial:


3



3 log f (Xi ; ) M (Xi )

y por lo tanto podemos acotar en probabilidad

n


000 1 X
M (Xi )
n (n ) <
n i=1

Este trmino converge a una constante por lo tanto, y entonces se cumple que

1 
000 ( ) P 0
n 0
n
n
n
2n

41 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

III.1.3.

Mtodo de los momentos

Sea X f (x; ), donde = (1 , . . . , p ) es un parmetro p-dimensional, con


p 1.

Si los momentos k () = E0 X k , k = 1, . . . , p son funciones sencillas de los
i , un procedimiento natural para obtener un estimador de es resolver en 1 , . . . , p
el sistema de ecuaciones

m1 = 1 ()

mp = p ()
donde cada mk es el momento muestral:
n

1X k
mk =
X
n i=1 i
La idea es estimar el parmetro de tal forma que los momentos muestrales coincidan
con los momentos poblacionales. Por la LGN, cuando n entonces mk k (0 ).
El mtodo de los momentos se utiliza poco ya que da peores estimadores que el
EMV. Sin embargo, puede resultar muy til en casos en los que el EMV se calcula
difcilmente o directamente no se puede calcular. Ah hay que usar mtodos numricos
de aproximacin, y usando el mtodo de los momentos podemos encontrar una primera
aproximacin que mejore la convergencia de los algoritmos numricos de bsqueda de
races.
III.1.3.1.

Ejemplos

Si se tiene el modelo
f (x; ) =

1 + x
1[1,1](x) [1, 1]
2

no es sencillo calcular el EMV pero s obtener el estimador por el mtodo de los


momentos:
E (X) =

xf (x; ) dx =

Por tanto, la solucin de X = E (X) es n = 3X, cuya varianza es

ya que

 
 
2
3 2
V n = V 3X = 9 =
n
n

1 2
2 = V (X) = E X 2 E (X)2 =
3
9
42 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

Este estimador es consistente ya que, por la LGN, 3X 3E (X).


n

Supongamos un ejemplo ms complicado: X Beta(a, b).


f (x; a, b) =

(a + b) a1
x (1 x)b1 1[0,1] (x)
(a)(b)

y
Z

(a + b) a
x (1 x)b1 dx =
0 (a)(b)
Z 1
(a + b) (a + 1)
(a + b + 1) a
=
x (1 x)b1 dx =
(a) (a + b + 1) 0 (a + 1)(b)
|
{z
}

E (X) =

=1 (f. densidad)

Sabiendo que (p + 1) = p(p)

(a + b)
a
(a + b) (a + 1)
a(a)
=
=
(a) (a + b + 1)
(a) (a + b)(a + b)
a+b
y los estimadores quedan como

a
=X

!
X(1 X)
1
s2

b = (1 X)

III.1.4.

!
X(1 X)
1
s2

Metodologa bayesiana

En muchos casos se tiene cierta informacin a priori, antes de extraer la muestra,


sobre la probabilidad de los diferentes valores del parmetro . En estos casos se sabe,
o se supone, que ciertos intervalos de valores de son ms probables que otros y
se concreta esta informacin en una distribucin a priori sobre cuya funcin de
densidad se denota ().
De manera formal, la estadstica bayesiana considera que el parmetro es una variable aleatoria y que la informacin previa se puede expresar a travs de la distribucin
a priori del parmetro.
Entonces, si antes tenamos una v.a. X f (x; ), ahora lo que diremos es que X
sigue una distribucin condicionada por un parmetro: X f (x|).

En este caso, la muestra X1 , . . . , Xn contiene informacin de la muestra y tambin


de nuestro parmetro. Es decir, que podemos considerar la funcin de distribucin de
la muestra como
n
Y
f (xi |)
i=1

43 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

Para juntar toda esta informacin usaremos el Teorema de Bayes:

Teorema III.9 (Teorema de Bayes). Sea A1 , A2 , . . . una particin del espacio


muestral y sea B un suceso cualquiera. Entonces


P B|Ai P {Ai }
P {Ai B}


=P 
P Ai |B =
P {B}
j P B|Aj P Aj


Esta formulacin se refiere a sucesos probabilsticos. Podemos reformularla con


la informacin a priori del parmetro:
f (x1 , . . . , xn |)()

(|x1 , . . . , xn ) = Z

(III.5)

f (x1 , . . . , xn | )( ) d

donde es todo el espacio paramtrico. A (|x1 , . . . , xn ) se le denomina


distribucin a posteriori

Como es una funcin de distribucin, tenemos que


Z

(|x1 , . . . , xn ) d = 1

para toda posible muestra (x1 , . . . , xn ). Estudiaremos entonces la siguiente integral


Z

f (x1 , . . . , xn |)()

f (x1 , . . . , xn | )( ) d

En esta, integral, el trmino


Z

f (x1 , . . . , xn | )( ) d

es constante. Por lo tanto, lo que nos interesar ser el numerador, la integral


Z

f (x1 , . . . , xn |)() d

que nos dar la informacin que necesitamos.


Estimador
Bayes

Definicin III.7 Estimador Bayes. Se define, para cada muestra dada (x1 , . . . , xn )
como la esperanza de la distribucin a posteriori:
Tn (x1 , . . . , xn ) =

(|x1 , . . . , xn ) d

44 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

III.1.4.1.

Ejemplos

La estadstica bayesiana se suele usar para estimar los votantes de un partido


poltico. Por ejemplo, sea la proporcin de votantes de un partido P , y sea X la
v.a. Bernoulli que toma valor 1 cuando un votante elige P y 0 en otro caso. Es decir
(
f (x|) =
f (x|) = 1

si x = 1
si x = 0

Entonces tenemos que


f (x1 , . . . , xn |) =

n
Y
i=1

f (xi |) =

Pn

i=1

xi

(1 )n

Pn

i=1

xi

Suponemos que la distribucin a priori es una Beta(4,10):


() =

(14)
3 (1 )9 1[0,1] ()
(4)(10)

As pues, aplicando la frmula de Bayes (III.5) nos queda

y entonces

xi

(1 )n

xi 3

(1 )9 = 3+

(|x1 , . . . , xn ) Beta(4 +
El estimador Bayes es, por lo tanto

xi

(1 )9+n

xi , 10 + n

xi

(III.6)

xi )

P
4 + xi
n
4 + 10
4
Tn =
=
x+
14 + n
|4 + 10
{z+ n } |4 + 10 +{zn 4 + 10}
(A)

(B)

Es decir, pondera las dos informacin que tenamos: la media de la distribucin


a priori (B) y la media muestral (A). Si nos fijamos en la expresin, si tenemos un
tamao muestral muy grande (n ) damos mucho ms peso a la informacin de la
muestra que a la distribucin a priori. Sin embargo, si tenemos menos muestras nuestra
distribucin a priori influir ms en el resultado.
P
Con los datos
xi = 125 y n = 1000, el estimador Bayes toma valor 0.127,
mientras que el e.m.v. valdra 0.125. Es decir, nuestro estimador bayesiano pondera la
informacin que tenamos previamente y considera que en nuestra distribucin a priori
era ms probable valores ms altos.
Curiosamente, en (III.6) hemos pasado de una distribucin a priori a una distribucin
a posteriori fcilmente identificable con una distribucin Beta. Esto tiene que ver con
el concepto de familias conjugadas.

45 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

III.1.4.2.

Familia
conjugada

Familias conjugadas

Definicin III.8 Familia conjugada. Sea F una familia de distribuciones paramtricas


f (|), ; y sea una familia de distribuciones a priori () sobre el parmetro
.
Diremos que es la familia de dsitribuciones a priori conjugada de F si la distribucin a posteriori (|x1 , . . . , xn ) tambin pertence a para toda muestra (x1 , . . . , xn )
y para toda a priori de .
Tenemos varias familias conjugadas identificadas:
F

Binomial

Beta

Normal

Normal

Cuadro III.1: Familias conjugadas

III.2.

Estimacin por intervalos de confianza

Al igual que en el tema anterior, vamos a obtener informacin sobre un parmetro


desconocido a partir de una muestra X1 , . . . , Xn . Habamos logrado una estimacin puntual, pero, por qu va a ser vlido slo ese valor? Podra ser vlido un
valor cercano al estimador?
Este tema responde a esa pregunta: ofrece un intervalo que tpicamente contiene a
un estimador puntual, de posibles valores para un parmetro. Veremos cmo construir
ese intervalo y la informacin que ofrecen.
Intervalo
de
confianza

Definicin III.9 Intervalo de confianza. Sea una muestra X1 , . . . , Xn de una v.a.


con una funcin de distribucin F (.; ), con R un parmetro desconocido.
(1)
(2)
(1)
(2)
Sean dos estadsticos Tn (X1 , . . . , Xn ) y Tn (X1 , . . . , Xn ) con Tn < Tn y un valor
(0, 1). Supongamos que se verifica
n
o
P Tn(1) (X1 , . . . , Xn ) < < Tn(2) (X1 , . . . , Xn ) = 1

Entonces para una realizacin concreta de la muestra x1 , . . . , xn se dice que el


(1)
(2)
intervalo (Tn (x1 , . . . , xn ), Tn (x1 , . . . , xn )) es un intervalo de confianza para con
nivel de confianza 1 y lo denotaremos como
IC1 ()
Probemos esta definicin con una muestra X1 , . . . , Xn de v.a.i.i.d. N (, ) donde
es un parmetro desconocido y es conocida. Se sabe que
46 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

XN

,
n

y, tipificando,
X

N (0, 1)

Por tanto, si para cualquier (0, 1), z denota el cuantil 1 en la normal


estndar ((z ) = 1 , siendo la funcin de distribucin de la N (0, 1)) tenemos
P

z/2 <

< z/2

=1

y, despejando



P X z/2 < < X + z/2


=1
n
n
Y por lo tanto, el intervalo



x z/2 , x + z/2
n
n
es un intervalo de confianza de nivel 1 para .

Intuitivamente y en trminos frecuentistas, si por ejemplo 1 = 0.95 y extraemos


muchas muestras de una N (0, 1) aproximadamente en el 95 % de los casos el intervalo
contendr el verdadero valor de .

III.2.1.

Intervalos de confianza asintticos basados en el TCL




Si X no es normal, sabemos que si y son finitas, encontes X N ,


por el TCL (II.8). Entonces
(

1 =' P z/2

z/2

Es decir, obtenemos un intervalo de confianza aproximado si el tamao de la muestra es grande.


Aplicacin: Intervalo de confianza aproximado para una proporcin p Sean
X1 , . . . , Xn i.i.d. Bernoulli(p). Por el TCL
X p
q
N (0, 1)
p(1p)
n

47 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

y reemplazando p por su estimador natural p = X obtenemos que el intervalo de


confianza aproximado para p es
x z/2

III.2.2.

x(1 x)
, x + z/2
n

x(1 x
n

Mtodo de la cantidad pivotal

Una metodologa general para obtener un intervalo de confianza para consiste en


encontrar una funcin Q(; X1 , . . . , Xn ), llamada cantidad pivotal cuya distribucin
no dependa de y sea conocida, al menos de modo aproximado. A partir de esta
distribucin, fijado un valor (0, 1) se obtienen dos valores q1 (), q2 () tales que


P q1 () < Q(; X1 , . . . , Xn ) < q2 () = 1

Despejando se obtiene una expresin del tipo

n
o
(1)
(2)
P Tn (X1 , . . . , Xn ) < Tn (X1 , . . . , Xn ) = 1

III.2.3.

Construccin de intervalos de confianza habituales

III.2.3.1.

Distribucin 2

Estamos interesados en obtener intervalos de confianza exactos, vlidos para cualquier n, para 2 en una normal. Para ello presentaremos una distribucin auxiliar que
tiene una especial importancia en estadstica, la distribucin 2k , que en realidad es
la distribucin ( 21 , k2 ). Esta distribucin surge del estudio de la distribucin de las
formas cuadrticas X 0 AX. En particular, si {Zn } son variables aleatorias normales
estandarizadas, entonces
X
Zk2 2
De hecho, aplicando esto a una suma de varias v.a. X1 , . . . , Xn S 2 , nos queda que
(n 1)S 2
2n1
2
Este resultado proporciona directamente una cantidad pivotal y, en consecuencia,
un intervalo de confianza de nivel 1 para 2 :
(n 1)s2 (n 1)s2
,
2n1;/2 2n1;1/2

48 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

III.2.3.2.

Distribucin t de Student

Sea Z N (0, 1) y W 2k . Supongamos que Z y W son independientes. Entonces


la distribucin de la v.a.
Z
T =p
W/k

se denomina distribucin t de Student con k grados de libertad. Su forma se aproxima a una normal N (0, 1).

Teorema III.10 (Lema de Fischer-Cochran). Si X1 , . . . , Xn son v.a.i.i.d. con distribucin N (, ) entonces X y S 2 (desviacin) son estadsticos independientes.

Este teorema tiene una consecuencia importante, y es que podemos obtener un


intervalo de confianza exacto para en N (, ) an cuando es desconocida.

III.2.4.

Intervalos de confianza bayesianos

En un problema de inferencia con un enfoque bayesiano, el elemento fundamental


para realizar la inferencia es la distribucin a posteriori (|x1 , . . . , xn ). A partir de esa
distribucin se define una regin creble de nivel 1 como un subconjunto A
tal que
Z

(|x1 , . . . , xn ) d = 1

49 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

Captulo IV
Contraste de hiptesis
IV.1.

Conceptos bsicos

El objetivo de la teora de contraste de hiptesis es elegir entre dos posibilidades excluyentes, las hiptesis nula e alternativa, relativas al valor de un parmetro
poblacional a partir de la informacin proporcionada por los datos muestrales.
Sea X1 , . . . , Xn una muestra aleatoria de una v.a. X con funcin de distribucin
F donde . Dada una particin del espacio paramtrico = 0 1 , deseamos
decidir, en base a la muestra obtenida, si est en 0 o en 1 . En el primer caso se
cumple la hiptesis nula, en el segundo la alternativa. Ambas hiptesis son excluyentes.
Para resolver el problema definiremos una regin de rechazo. Esta regin R Rn
nos permitir valorar si el parmetro est en 0 o en 1 en base a la muestra obtenida.
De esta forma, si (x1 , . . . , xn ) R, se rechaza la hiptesis nula.

El paso ms importante del contraste de hiptesis es construir la regin de rechazo


R, y a partir de entonces los pasos son muy mecnicos. En el apndice A.3, pgina 72,
tenemos varias muestras de regiones de rechazo.
En el test de hiptesis podemos cometer dos tipos de fallos:
Error de tipo I Rechazar H0 cuando H0 es cierta.
Error de tipo II Aceptar H0 cuando H0 es falsa.
Para medir la probabilidad de cometer uno de esos fallos definimos la funcin de
potencia
Funcin de
potencia

Definicin IV.1 Funcin de potencia. La funcin de potencia de un test con regin


de rechazo R para contrastar H0 : 0 frente a H1 : 1 es la funcin
n : 7 [0, 1]



7 n () = P (X1 , . . . , Xn ) R

y nos da la probabilidad de rechazar la hiptesis 0 .


50 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

IV.1.1.

Teora de Neyman-Pearson

Nos gustara que n (0 ) = 0 y que n (1 ) = 1, pero normalmente no pasar esto,


sino que n ser una funcin continua y suave del parmetro.
La teora de Neyman-Pearson trata de responder a este problema con los dos
siguientes pasos:
Acotar la mxima probabilidad de error de tipo I
Se fija un nivel de significacin (0, 1). Tpicamente se toma = 0.05.
Se define el tamao de un test como la mxima probabilidad de error de tipo
I, o como
max P {R} = max n ()
0

Se busca una regin de rechazo R tal que


max P {R}
0

Tal y como hemos definido , se puede considerar que el nivel de significacin nos
indica la probabilidad de cometer un error de tipo I, es decir, de rechazar H0 cuando
es cierta. Por lo tanto, cuanto menor es el nivel de significacin ms seguros estamos
de que no estamos rechazando H0 por error.
Minimizar la probabilidad de error de tipo II Se intenta buscar una regin de
rechazo R que maximice la funcin de potencia cuando 1 .

Aqu podemos ver por qu las dos hiptesis no son simtricas. Los tests de hiptesis
estn diseados para controlar la probabilidad mxima de rechazar H0 cuando es cierta.
En consecuencia, suelen ser conservadores con la hiptesis nula: hace falta mucha
evidencia muestral para rechazar H0 . Observemos que es posible que, con los mismos
datos, H0 se rechace para un nivel de significacin = 0.05 y se acepte para = 0.01.
Adems de la asimetra, tenemos que pensar que al aceptar H0 no significa que la
hayamos demostrado, sino simplemente que no se ha encontrado suficiente evidencia
emprica a nivel prefijado en contra de H0 . No es una demostracin matemtica.

51 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

IV.2.

Problema de una muestra

En una primera aproximacin, los problemas de contraste de hiptesis pueden clasificarse en problemas de una muestra o de dos, segn haya slo una poblacin de inters
o queramos comparar dos poblaciones y dispongamos de una muestra de cada una de
ellas. Presentaremos las ideas bsicas en el caso de los problemas de una muestra pero
pueden extenderse de modo anlogo a los de dos muestras.
Dualidad con los intervalos de confianza En algunos casos de hiptesis nula
simple, aparece una dualidad entre el contraste de hiptesis y los intervalos de confianza
(III.2). Si tenemos H0 : = 0 , entonces aceptar H0 significa que IC1 (), es
decir, que est en el intervalo de confianza. La regin de rechazo sera entonces
R = {(x1 , . . . , xn )  (x1 , . . . , xn )
/ IC1 ()}
P-valor del
contraste

Definicin IV.2 p-valor del contraste. Se define el p-valor del contraste como el
nfimo de los niveles de significacin para los que se rechaza H0 .
De esta forma, si es menor que el p-valor, aceptaremos H0 y si es mayor, la
rechazaremos.
Qu informacin nos va a dar el p-valor? Supongamos que tenemos, por ejemplo,
un p-valor pequeo (< 0.01). Con este valor rechazaramos la hiptesis nula para
los valores ms habituales de niveles de significacin (0.01, 0.05, 0.1). Por lo tanto, en
este caso lo razonable sera rechazar H0 .
Por otra parte, supongamos que tenemos un p-valor grande (> 0.1). En este
caso, aceptaramos la hiptesis nula para los valores ms habituales de , y entonces
lo razonable sera aceptar H0 .
Un p-valor que se encuentra entre 0.01 y 0.1 se considera dudoso. Lo razonable
es revisar la muestra, y si es posible, aumentar su tamao. No se puede decidir de
manera razonable entre H0 y H1 .
De forma general, el p-valor de contraste nos dice la probabilidad de observar la
muestra que hemos obtenido suponiendo que H0 es cierta. Si es muy bajo, nos indicar
que es muy poco probable que la muestra obtenida haya salido as por pura casualidad.

52 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

IV.2.1.

Regiones de rechazo para contrastes habituales

IV.2.1.1.

Contraste de la media de una distribucin

En todo caso se rechaza H0 cuando (X1 , . . . , Xn ) R. Para hallar las regiones de


rechazo buscaremos los estadsticos de contraste, medidas de lo razonable que es
la hiptesis nula y que depende de la muestra obtenida. Cuando la hiptesis nula sea
cierta, el estadstico del contraste estar en zonas de alta probabilidad.
Distribucin normal con varianza conocida Primero construiremos el estadstico
del contraste Z, que depende de la media muestral obtenida.
Z=

son

X 0

/ n

Si H0 : = 0 es cierta entonces Z N (0, 1). Entonces las regiones de rechazo


H0

= 0

{(x1 , . . . , xn )  |Z| z 2 }

0
0

{(x1 , . . . , xn )  Z z 2 }
{(x1 , . . . , xn )  Z z 2 }

Cuadro IV.1: Regiones de rechazo para una normal N (, ).

Distribucin normal con varianza desconocida Sea X1 , . . . , Xn una muestra


aleatoria de X N (, ) con desconocido. Entonces el estadstico del contraste
sigue una distribucin T de Student de n 1 grados de libertad:
T =

X 0

s/ n

H0

= 0

{(x1 , . . . , xn )  |T | t 2 }

0
0

{(x1 , . . . , xn )  T t 2 }
{(x1 , . . . , xn )  T t 2 }

Cuadro IV.2: Regiones de rechazo para una normal N (, ) con desconocida.

53 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

Tests de nivel aproximado (muestras grandes) para la media de cualquier


distribucin Sea X1 , . . . , Xn una muestra aleatoria de X con E (X) = < .
Entonces el estadstico del contraste es
Z=

X 0 T CL

N (0, 1)
S/ n

si H0 : = 0 es cierta. Por lo tanto, nos quedamos con las siguientes regiones:


H0

= 0

{(x1 , . . . , xn )  |Z| z 2 }

0
0

{(x1 , . . . , xn )  Z z 2 }
{(x1 , . . . , xn )  Z z 2 }

Cuadro IV.3: Regiones de rechazo para la media de cualquier distribucin

IV.3.

Contrastes para dos muestras

Supongamos que tenemos 2 muestras X1 , ..., XN y Y1 , ..., YN . Siendo 1 la esperanza de X y 2 la esperanza de Y .


Podemos plantear hiptesis del tipo
H0 : 1 = 2
H0 : 1 2
H0 : 1 = 2
Este ltimo caso (si las varianzas son iguales) suele ser un requisito previo antes de
plantearte contrastes como el segundo ejemplo.
Uno de los test ms usuales es el de igualdad de medias para dos poblaciones
homocedsticas , es decir, con 1 = 2 .
Si

Entonces:




X 1 N 0, n1
X N (1 , )


Independientes

Y 2 N 0, n2
Y N (2 , )
(X 1 ) (Y 2 )
q
N (0, 1)
n11 + n12

Todo esto suponiendo que 1 = 2 , desconociendo su valor real. Nos gustara por
tanto, tener en el estadstico un estimador de .

54 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

Con este razonamiento podemos deducir que la regin de rechazo es:


Contraste de igualdad de medias Si

(n 1)S 2
X1 , ..., Xn1 1 2 1 2(n1 1)
X N (1 , )
1
Independientes
(n1 1)S22

Y N (2 , )
Y1 , ..., Yn1
2(n2 1)
2
2

Para seguir con el contraste de igualdad de medias necesitamos definir la distribucin Fisher-Snedecor con n1 y n2 grados de libertad. . La distribucin se parece
mucho a la 2 , y su funcin de distribucin se obtiene as:
Q1 2n1 ; Q2 2n2
F

Q1 /n1
Q2 /n2

Volviendo al caso donde estbamos podemos definir un estadstico de esta manera:


(n1 1)S12
12 (n1 1)

(n2 1)S22
22 (n2 1)

Fn1 1,n2 1

Sigue una F de Fisher.


Simplificando y suponiendo cierta la hiptesis de homocedasticidad (1 = 2 )
S2
tenemos que F = 12 Fn1 1,n2 1 .
S2
Este es el estadstico del contraste para comparar varianzas de dos poblaciones
normales. Si el valor nos queda en las colas de la distribucin, rechazaremos la hiptesis
de igualdad de varianzas.
Con este razonamiento podemos construir la regin de rechazo, que es
(
)
r
1
1
R = |x y| > tn1 +n2 2;/2 sp
+
n1 n2
siendo
s2p =

(n1 1)s21 + (n2 1)s22


n1 + n2 2

la varianza combinada.
Ejemplo:
Sean X, Y poblaciones de datos emparejados tal que E (X) = 1 y
E (Y ) = 2 .
Qu significa datos emparejados? Muestras tomadas ambas a los mismo individuos
de la mezcla despus de una medicina por ejemplo, siendo X la medida antes e Y
despus. Esto quiere decir que X, Y no son independientes.
55 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

El procedimiento estndar para este tipo de casos es suponer que


D = X Y N (d , )
Y ahora expresamos nuestra hiptesis en funcin de D, de la que sabemos que
E (D) = d = 1 2
Si H0 : 1 = 2 H0 : d = 0. La regin de rechazo de esta hiptesis ser

> tn1; 2
R=

Sd / n
Si H0 : 1 2 H0 : d 0
Si H0 : 1 2 H0 : d 0
En el apndice encontramos un ejercicio realizado en R ?????

56 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

IV.4.

Sucesin
consistente

Consistencia de tests. Tests insesgados y


UMP

Definicin IV.3 Sucesin consistente. Se dice que una sucesin de tests con un
nivel prefijado es consistente cuando
lm n () = 1 1 = \ 0

Es decir, que la probabilidad de rechazar la hiptesis nula cuando es falsa, dada por
la funcin de potencia (IV.1), tienda a uno con muestras suficientemente grandes.
Test insesgado

Definicin IV.4 Test insesgado. Se dice que un test es insesgado cuando


n () 0
es decir, cuando cumple la teora de Neyman-Pearson (ver seccin IV.1.1); y adems
n () 1

Test UMP

Definicin IV.5 Test UMP. Se dice que un test es uniformemente ms potente


(UMP) dentro de una clase Bn, de tests de nivel basados en muestras de tamao
n cuando
n () n (), 1
siendo n la funcin de potencia de cualquier otro test de la clase Bn, .

IV.4.1.

Lema de Neyman-Pearson

Recordemos la funcin de verosimilitud, que meda lo verosmil que es el valor del


parmetro a la vista de la muestra. Para comparar dos hiptesis simples Hi : = i ,
calcularamos la funcin de verosimilitud para esos dos valores y veramos cul es ms
probable. Extendiendo esta idea, llegamos al lema de Neyman-Pearson.

57 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

Teorema IV.1 (Lema de Neyman-Pearson). Se considera el problema de hiptesis


simple y alternativa simple, es decir, que
H0 : = 0
H1 : = 1
Denotemos
fn (x1 , . . . , xn ; ) =

n
Y

f (xi ; )

i=1

Dado (0, 1), supongamos que la regin de rechazo




fn (x1 , . . . , xn ; 1 )
R = (x1 , . . . , xn 
>k
fn (x1 , . . . , xn ; 0 )

verifica P0 (R ) = . Entonces
P1 {R } P1 {R}
siendo R la regin crtica de cualquier otro test tal que P0 {R} .
En otras palabras, R es el test ptimo de nivel para el problema considerado.

Demostracin. Denotamos x = (x1 , . . . , xn ) para cortar.


Tenemos que probar que P1 {R } P1 {R} es mayor o igual que cero.

P1 {R } P1 {R} =

R Rc

fn (x; 1 ) dx

fn (x; 1 ) dx

Rc R

Por definicin de R
Z

R Rc

fn (x; 1 ) dx k

fn (x; 0 ) dx

fn (x; 1 ) dx k

fn (x; 0 ) dx

R Rc

y tambin
Z

Rc R

Por lo tanto,

P1 {R } P1 {R} k

Z

Rc R

fn (x; 0 ) dx
fn (x; 0 ) dx
Rc R

Z
Z
=k
fn (x; 0 ) dx
fn (x; 0 ) dx =
R
R


= k P0 {R } P0 {R} 0
R Rc

58 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

IV.4.2.

Familias paramtricas con cociente de verosimilitudes montono y tests ptimos

En la subseccin anterior hemos construido tests ptimos en problemas de hiptesis


simple y alternativa simple. Pasaremos ahora a definirlos en modelos ms complejos.
Familia
paramtrica
CVM

Definicin IV.6 Familia paramtrica CVM. Se dice que f (|) es una familia paramtrica con cociente de verosimilitudes montono (CVM) si existe un estadstico
Tn (x1 , . . . , xn ) tal que, para todo 1 , 2 con 1 < 2 la razn de verosimilitudes
fn (x1 , . . . , xn ; 2 )
fn (x1 , . . . , xn ; 1 )
es una funcin montona no decreciente de Tn (x1 , . . . , xn ).
Podemos ver algunos ejemplos de este tipo de familias.
Distribucin exponencial Tomemos X exp() con > 0 y f (x; ) = ex
para x > 0. El cociente de las dos funciones es
P

2n e2 xi
P
=
1n e1 xi

2
1

n

e(1 2 )

xi

con 1 2 < 0. Entonces, si consideramos


X
1
Tn (x1 , . . . , xn ) =
xi
Tn (x1 , . . . , xn ) = P
xi

Tenemos tenemos un estimador montonamente creciente y


 n
 n
P
1
2
2
(1 2 ) xi
e
=
e(1 2 ) T
1
1

Teorema IV.2. Supongamos que F (; ) cumpla la propiedad CVM (cociente de


verosimilitudes montono) y que k es tal que:
P0 {tn > k } =
Adems suponemos que P0 {Tn = c} = 0, , c.

Entonces:

R = {(x1 , . . . , xn ) : Tn (x1 , . . . , xn ) > k }

es la regin crtica de un test ptimo1 de nivel para contrastar


H0 : 0
H1 : > 0 .

59 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

Vamos a ver otro ejemplo:


Ejemplo: Ya hemos visto que la exponencial tiene CVM (cociente verosimilitudes
montono).
Por el teorema tenemos que el test ptimo de nivel para H0 : 0 ; H1 :
> 0 .
Podemos construir la regin de rechazo
1
R = {(x1 , . . . , xn ) : Pn

i=1

donde

P 0

n
X

i=1

xi

> k }

1
Xi <
=
k

Ejemplo: Sea f (; ) una uniforme en (0, ). Se deja como ejercicio para el lector
la comprobacin de que la propiedad de CVM y la obtencin del estadstico (que es el
mximo de la muestra)

IV.4.3.

Estadstico
del
contraste de
razn de
verosimilitudes

Construccin de tests. Test de cociente de verosimilitudes

Definicin IV.7 Estadstico del contraste de razn de verosimilitudes.


Sea f (; ) donde = (1 , . . . , n ) Rk , siendo un intervalo Rk . Dada
una muestra x = (x1 , . . . , xn ), sea
fn (x; ) =

n
Y

f (x1 ; )

i=1

Consideremos el problema de contrastar a nivel :


H0 : i = ci para i = 1, . . . , r k
H1 : 1 6= ci para algn i = 1, . . . , r.
El estadstico del contraste de razn de verosimilitudes es
n =

sup0 fn (x; )
sup0 fn (x; )
=

sup fn (x; )
fn (x; )

donde es el e.m.v. (III.3) de , y


1

Uniformemente ms potente (UMP)

60 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

Si H0 es cierta y el verdadero valor de estn en 0 entonces n 1, porque


n tiende al verdadero valor del parmetro.
Si H0 es falsa, el e.m.v.() tiende a un valor fuera de 0 . Entonces n tomar
un valor significativamente menor que 1.
De esta forma, podemos construir una regin de rechazo
R = {(x1 , . . . , xn  n (x1 , . . . , xn ) < k }
Hallar k segn la probabilidad de error que queramos es algo complejo. Por eso
nos apoyamos en el siguiente teorema:

Teorema IV.3. Supongamos que


1. El e.m.v. n es estimador consistente en probabilidad del parmetro .
2. Para todo x, la funcin log f (x; ) tiene derivadas parciales terceras respecto
a los componentes de contnuas.
3. En las integrales que involucran a la funcin f (x; ) se pueden permutar las
derivadas con el signo integral.
4. La matriz de informacin de Fisher
I() =

!
2
log f (X; )
i j

1i,jk

es invertible para cada .


Entonces, bajo H0 ,
d

2 log n 2r
n

IV.4.3.1.

Aplicacin a tests de bondad de ajuste

Sea X una v.a. discreta que toma los valores a1 , . . . ak . Denotemos pi = P {X = ai }.


Supongamos que se desea contrastar
H0 : pi = pi0 i = 1, . . . , k
basado en una muestra x1 , . . . , xn . Obsrvese que, en este caso, con la notacin
del teorema, r = k 1 porque cuando se fijan k 1 probabilidades pi , queda fijada la
probabilidad restante. Por tanto, se rechaza H0 al nivel cuando
2 log n > 2k1;
61 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

Consideramos f (x1 , . . . , xn ; p1 , . . . , pk ) como la probabilidad de haber observado


la muestra x1 , . . . , xn con los valores de los parmetros p1 , . . . , pk .
Entonces el numerador de n es
n!
Ok
1
pO
10 pk0
O1 ! Ok !



siendo Oj = i  xi = aj las frecuencias observadas de los distintos valores de
la variable. Ntese que, bajo H0 , (O1 , . . . , Ok ) tiene distribucin multinomial M(n :
p10 , . . . , pk0 ).
En el denominador tenemos que poner los e.m.v. de cada p, de la siguiente forma
pk =

ok
n

y por lo tanto el denominador queda


n!
O1 ! Ok !

O1
n

O1

Ok
n

Ok

Sustituyendo en n es inmediato ver que que el estadstico de contraste se puede


expresar en la forma
 
k
X
Oi
2 log n = 2
Oi log
ei
i=1
donde ei = npi0 i = 1, . . . , k son las frecuencias esperadas (bajo H0 ) de los distintos
valores de la variable en una muestra de tamao n.

Ejemplo: Experimento de Mendel Un ejemplo clsico de este tipo de ajuste se


puede ver en el experimento de Mendel, en el que se cruzaron plantas de guisantes con
fenotipo rugoso-amarillo con otras de fenotipo liso-verde. En la segunda generacin se
podan observar cuatro fenotipos cuyas respectivas probabilidades, segn la teora de
la herencia mendeliana, deban ser
p10 =

3
3
1
9
, p20 = , p30 = , p40 =
16
16
16
16

Observados n = 556 guisantes en la segunda generacin del experimento, se obtuvieron los siguientes nmeros de guisantes con estos fenotipos:
01 = 315, O2 = 101, O3 = 108, O4 = 32.
Proporcionan estos resultados alguna evidencia en contra de la teora mendeliana?
Aplicamos el test para contrastar H0 : p1 =
e1 = 556

9
, . . . , p4
16

1
.
16

9
3
1
= 312.75, e2 = e3 = 556
= 104.25, e4 = 556
= 34.75,
16
16
16

62 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

Obtenemos el estadstico
2 log n = 2

k
X
i=1

Oi log

Oi
ei

= 0.4754

El p-valor, calculado a partir de la distribucin 23 , es 0.9281 lo que no indica ninguna


evidencia estadstica en contra de H0 .

63 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

Hay una controversia clsica en la historia de la ciencia en el sentido de que los


resultados de Mendel eran demasiado buenos, es decir, haba demasiada concordancia
entre las Oi y las ei (por ejemplo, R.A. Fisher era de esta opinin; ver su artculo de
1936, Has Mendels work been rediscovered?, en The Annals of Science).
Se ha sugerido que este supuesto exceso de concordancia podra deberse a un
sesgo de repeticin (confirmation bias) producido por la repeticin de los resultados
hasta que las Oi concordasen fuertemente con las ei . Tambin se ha conjeturado que
algn ayudante de Mendel pudo actuar con exceso de celo manipulando los resultados.
En todo caso, las ideas bsicas de Mendel eran acertadas y han tenido una influencia
decisiva.

IV.4.4.

Tests Bayesianos

Se desea contrastar
H0 : 0 frente a H1 : \ 0
Obteniendo la informacin de una muestra x1 , . . . , xn .
La metodologa bayesiana supone que la densidad que ha generado los datos es
f (|) y que el parmetro puede considerarse como una v.a. con distribucin a priori
(). A partir de aqu, se calcula la distribucin a posteriori (|x1 , . . . , xn ) dada por
fn (x1 , . . . , xn |)()
, donde
f (x , . . . , xn |)()d
n 1

(|x1 , . . . , xn ) = R

fn (x1 , . . . , xn |) =

n
Y

f (xi ; ).

i=1

El elemento fundamental en la inferencia bayesiana es siempre la distribucin a


posteriori. A partir de ella se pueden calcular las probabilidades a posteriori de ambas
hiptesis:
Z


P 0 |x1 , . . . , xn = (H0 |x1 , . . . , xn ) =
(|x1 , . . . , xn )d,
0


P 1 |x1 , . . . , xn = (H1 |x1 , . . . , xn ) = 1 (H0 |x1 , . . . , xn )
y se toma la decisin en funcin de sus valores. Tpicamente, se optar por H1
cuando
(H1 |x1 , . . . , xn ) , (0, 1)

es un valor que se fija dependiendo de la gravedad que se atribuya al error de tipo I


(IV.1).
Observacin: la metodologa bayesiana de contraste de hiptesis depende fuertemente de la eleccin de la distribucin a priori .

64 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

Apndice A
Anexos
A.1.

Condiciones suficientes para permutar la derivada con la integral

Sea una funcin p(x, ) con x R y T donde T es un intervalo abierto de los


reales. Supongamos que
1. p(x, ) es integrable con respecto a x para cada (se cumple automticamente
si p es funcin de densidad.
2. Para casi todo punto1 existe

p(x, ) .

3. Existe una funcin integrable g : R 7 R tal que






p(x, ) g(x)


Entonces para todo

p(x, ) dx =

Para todo x salvo los que tienen probabilidad 0

65 de 159

p(x, ) dx

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

A.2.

Distribuciones notables

66 de 159

La distribucion normal

Funci
on de densidad:
1 x 2
1
f (x; , ) = e 2 ( ) , x R, R, > 0
2

Momentos:
E(X ) = , V(X ) = 2
Aplicaciones: Es un modelo muy habitual para la distribuci
on de
magnitudes (en fsica, genetica, etc.) que se pueden considerar
como la suma de muchos peque
nos efectos independientes (TCL).
En Estadstica aparece como distribuci
on lmite de muchos
estadsticos que se usan para la inferencia.

La distribucion exponencial
Funci
on de densidad:
f (x) = e x I[0,) (x) ( > 0)
Momentos:

1
1
E(X ) = , V(X ) = 2

Aplicaciones: en modelos de fiabilidad (tiempo de espera hasta que


se produce una avera en un sistema).
Una propiedad interesante (falta de memoria): Si X sigue una
distribuci
on exponencial de parametro , se tiene para a > 0 y
x > 0,
P{X > x + a|X > x} = e a

(no depende de x).

La distribucion gamma
Funci
on de densidad:
f (x) =

ap ax p1
e
x
I[0,) (x), (a > 0, p > 0),
(p)

R
donde (p) = 0 x p1 e x dx. Esta funci
on verifica
(p) = (p 1)! cuando p N y (p + 1) = p(p)
Momentos:
p
p
E(X ) = , V(X ) = 2
a
a
Aplicaciones: Cuando p N se llama distribuci
on de Erlang y se
usa en problemas de fiabilidad (tiempo de espera hasta p fallos),
cantidad de lluvia cada, cuanta de las reclamaciones a las
compa
nas de seguro, modelos de supervivencia,.... Para a = 1/2
p = n/2, con n N, se llama distribuci
on 2 con n grados de
libertad y desempe
na un importante papel en Estadstica.

La distribucion uniforme
Funci
on de densidad:
f (x; a, ) =

1
I (x), (a, R, a < )
a [a,]

Momentos:
E(X ) =

+a
( a)2
, V(X ) =
2
12

Aplicaciones:
La uniforme se relaciona con otras distribuciones a traves de la
siguiente propiedad: si X es v.a. con f. de dist. F continua,
entonces Y = F (X ) tiene distribuci
on uniforme estandar (i.e. con
a = 0, = 1). Esta propiedad se utiliza en los metodos de
generaci
on de n
umeros (pseudo-)aleatorios: se generan n
umeros de
1
una v.a. Y uniforme estandar y se transforman con F
para
obtener observaciones aleatorias con la distribuci
on F .

La distribucion beta
Funci
on de densidad:
f (x; a, b) =

(a + b) a1
x
(1 x)b1 I[0,1] (x),
(a)(b)

siendo a, b > 0 y la funci


on gamma que aparece en la definici
on
de la distribuci
on del mismo nombre.
ab
a
, V(X ) = (a+b+1)(a+b)
Momentos: E(X ) = a+b
2.
Aplicaciones: Dependiendo de los valores de los parametros la
densidad beta adopta formas muy variadas. Esta distribuci
on (o
sus versiones reescaladas en otros intervalos diferentes a [0,1])
proporciona un modelo muy flexible para describir variables
aleatorias reales de soporte compacto.

La distribucion de Weibull
Funci
on de densidad:
k  x k1 (x/)k
e
f (x; , k) =
I[0,) (x), (k > 0, > 0)

Momentos:

1
E(X ) = 1 +
k

 



2
1
2
, V(X ) = 1 +
1+
k
k
2

Aplicaciones:
Tiempos de supervivencia, problemas de fiabilidad en ingeniera,
distribuciones de velocidad del viento en ingeniera, de periodos de
incubaci
on de algunas enfermedades, etc.

La distribucion de Pareto
Funci
on de densidad:
f (x; a, ) =

a
x +1

I[a,) (x), (a > 0, > 1)

Momentos:
a
E (X ) =
, V (X ) =
1

a
1

2

, si > 2
2

Aplicaciones:
Distribuci
on de ingresos, de reservas de petr
oleo, de area
quemadas en bosques, de tama
nos de ficheros enviados por e-mail,
de tama
nos de partculas,...

La distribucion de Cauchy

Funci
on de densidad:
f (x; , a) =

a 1 +


x 2
a

Momentos: No tiene momentos finitos


Aplicaciones: En el estudio de emisiones de partculas. Si Z es un
angulo aleatorio distribuido uniformemente entre /2 y /2,
tang (Z ) tiene distribucion de Cauchy. El cociente de dos v.a.
normales estandar independientes tiene tambien distribuci
on de
Cauchy.

La distribucion lognormal
Funci
on de densidad:
f (x; m, a) =

xa 2

e 2 (

log xm 2
a

)I
[0,) (x), (m R, a > 0)

Momentos:
1 2

E(X ) = e m+ 2 a , V(X ) = (e a 1)e 2m+a

Aplicaciones: Si X tiene distribuci


on lognormal, log X tiene
distribuci
on normal. Se usa en geologa (tama
no de rocas
sedimentarias) y en general en aquellos casos en los que una
variable puede considerarse producto de muchos factores de
peque
no efecto individual.

La distribucion de Bernoulli

Funci
on de probabilidad (o de masa): Se dice que una v.a. X
tiene distribuci
on de Bernoulli de parametro p [0, 1] (y se denota
X B(1, p) o bien X Be(p)) si
P(X = 1) = p, P(X = 0) = 1 p.
Momentos:
E(X ) = p, V(X ) = p(1 p)
Aplicaciones: Experimentos aleatorios binarios, i.e. con s
olo dos
posibles resultados.

La distribucion binomial
Funci
on de probabilidad: Se dice que una v.a. X tiene distribuci
on
binomial de parametro p [0, 1] (y se denota X B(n, p)) si
 
n k
P(X = k) =
p (1 p)nk , k = 0, 1, . . . , n
k
Momentos:
E(X ) = np, V(X ) = np(1 p)
Aplicaciones: N
umero de exitos en n pruebas de Bernoulli
independientes en cada una de las cuales la probabilidad de exito
es p. La suma de n v.a. independientes con distribuci
on B(1, p) es
B(n, p).

La distribucion de Poisson
Funci
on de probabilidad: Se dice que una v.a. X tiene distribuci
on
de Poisson de parametro > 0 (y se denota X P()) si
P(X = k) = e

k
, k = 0, 1, 2, . . .
k!

Momentos:
E(X ) = , V(X ) =
Aplicaciones: Frecuentemente se utiliza como modelo
probabilstico para el estudio de fen
omenos como el n
umero de
sucesos (tales como llegadas de clientes a un servicio, llamadas
telef
onicas a una centralita, accidentes,...) que se producen en un
periodo de tiempo prefijado. Aparece como lmite de la binomial
en el siguiente sentido: Si Xn B(n, pn ) y npn > 0, entonces
lim P(Xn = k) = e

k
, k = 0, 1, 2, . . .
k!

La distribucion binomial negativa


Funci
on de probabilidad: Se dice que una v.a. X tiene distribuci
on
binomial negativa de parametros p [0, 1] y r N (y se denota
X BN(r , p)) si


k 1 r
P(X = k) =
p (1 p)kr , k = r , r + 1, r + 2, . . .
r 1
Momentos:
E(X ) =

r
1p
, V(X ) = r 2
p
p

Aplicaciones: Es un modelo discreto de tiempo de espera: En


una sucesi
on de experimentos de Bernoulli con probabilidad exito
p, la distribuci
on del n
umero de pruebas necesarias para obtener r
exitos es BN(r , p). La distribuci
on BN(1, p) se denomina
geometrica.

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

A.3.

Regiones de rechazo

72 de 159


CONTRASTES DE HIPOTESIS
NOTACION:
= nivel de significacion del contraste.
n= tama
no de la muestra.
H0 = hip
otesis nula.
R= regi
on crtica o de rechazo de H0 .
1) X N (, ).

n
o
R = |
x 0 | > tn1;/2 sn
n
o
: 0 ( desconocida);
R= x
0 > tn1; sn
n
o
: 0 ( desconocida);
R= x
0 < tn1;1 sn (tn1;1 = tn1; )
h
io
n
2
2
2
s
/

: = 0 ; R = n1
n1;1/2
n1;/2
02
o
n
s2 > 2n1;
: 0 ; R = n1
02
n
o
2 < 2
: 0 ; R = n1
s
n1;1
2

H0 : = 0 ( desconocida);
H0
H0
H0
H0
H0

2) X B(1, p) (muestras grandes)




q
0)
H0 : p = p0 ; R = |
x p0 | > z/2 p0 (1p
n
H0 : p p0 ;
H0 : p p0 ;

R=
R=




x
p0 > z

x
p0 < z1

p0 (1p0 )
n

p0 (1p0 )
n

(z1 = z )

3) Contrastes para la media de una poblaci


on no necesariamente
normal (muestras grandes)
H0 : = 0 ( desconocida);
H0 : 0 ( desconocida);
H0 : 0 ( desconocida);

n
o
R = |
x 0 | > z/2 sn
o
n
R= x
0 > z sn
n
o
R= x
0 < z1 sn (z1 = z )

4) Dos poblaciones normales independientes.

X N (1 , 1 ); (X1 , . . . , Xn1 ) m. a. de X; se calcula x


y s21 .
Y N (2 , 2 ); (Y1 , . . . , Yn2 ) m. a. de Y ; se calcula y y s22 .
s2p =
H0 : 1 = 2 (1 = 2 );
H0 : 1 = 2 (1 6= 2 );
H0 : 1 2 (1 = 2 );
H0 : 1 2 (1 6= 2 );

(n1 1)s21 + (n2 1)s22


n1 + n2 2

q
n
R = |
x y| > tn1 +n2 2;/2 sp n11 +


q 2
s2
s
R = |
x y| > tf ;/2 n11 + n22

q
n
R= x
y > tn1 +n2 2; sp n11 +


q 2
s
s2
R= x
y > tf ; n11 + n22

1
n2

1
n2

H0 : 1 2 (1 = 2 );
H0 : 1 2 (1 6= 2 );
H0 : 1 = 2 ;
H0 : 1 2 ;
H0 : 1 2 ;

q
n
R= x
y < tn1 +n2 2;1 sp n11 +


q 2
s22
s1
R= x
y < tf ;1 n1 + n2

1
n2




R = s21 /s22
/ Fn1 1;n2 1;1/2 , Fn1 1;n2 1;/2


R = s21 /s22 > Fn1 1;n2 1;


R = s21 /s22 < Fn1 1;n2 1;1

donde f = entero m
as pr
oximo a

(s21 /n1 + s22 /n2 )2

(s21 /n1 )2
n1 1

(s22 /n2 )2
n2 1

5) Comparacion de proporciones (muestras grandes e independientes).


X B(1, p1 ); (X1 , . . . Xn1 ) m. a. de X.
Y B(1, p2 ); (Y1 , . . . Yn2 ) m. a. de Y .
r


H0 : p1 = p2 ; R = |
x y| > z/2 p(1 p) n11 +
H0 : p1 p2 ;
H0 : p1 p2 ;

R=
R=

r

x
y > z p(1 p) n11 +

1
n2

r

x
y < z1 p(1 p) n11 +

donde p =

1
n2




1
n2



P
x i + yi
n1 x
+ n2 y
=
n1 + n2
n1 + n2

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

Apndice B
Ejercicios

75 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

B.1.

Tema 1 - Estadstica descriptiva

Ejercicio 1.1:

Realizar un analisis descriptivo de los datos britanicos de ingresos familiares contenidos en el


fichero Datos-ingresos.txt. En concreto, calcular los estadsticos de tendencia central, las
medidas de dispersion y representar un diagrama de cajas y un estimador kernel de la funcion
de densidad. Comentar los resultados.

> x = scan(Datos-ingresos.txt)
Read 6711 items
> mean(x)
[1] 1.022779
> median(x)
[1] 0.9417
> var(x)
[1] 0.3657983
> sd(x)
[1] 0.6048126
> boxplot(x)

> hist(x)

1500
500
0

Frequency

Histogram of x

6
x

76 de 159

> plot(density(x,kernel=gaussian))

0.4
0.0

0.2

Density

0.6

density.default(x = x, kernel = "gaussian")

N = 6711 Bandwidth = 0.08785

> sum(x>2)/length(x)
[1] 0.0606467
> skewness(x)
[1] 1.797857

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

Ejercicio 1.2:

Demostrar que
n
X
i=1

(xi x) = mn
aR

Definimos una funcin


g(a) =

n
X
i=1

buscamos su derivada

n
X
i=1

(xi a)2

(xi a)2

n
X
g (a) = 2
(xi a)
0

i=1

e igualamos a cero:

n
X
i=1

n
X
i=1

(xi a) = 0

xi

n
X

a=0

i=1

nx = na
x=a

Esto quiere decir que la media muestral es el valor que minimiza la distancia con
cada uno de los datos de la muestra.

78 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

Ejercicio 1.3:

Representar, en un mismo grafico, los diagramas de cajas correspondientes a la variable Largo


del fichero tortugas.txt para el conjunto de datos global, para los ejemplares hembra y para los
ejemplares macho. Es decir, el grafico debe incluir tres diagramas de cajas, de izquierda a derecha:
el primero debe corresponder a la variable global (sin distinci
on de sexos), el segundo al subconjunto
de los datos correspondiente a las hembras y el tercero al correspondiente a los machos. Emplear
colores distintos para los tres diagramas.
Soluci
on:

100

120

140

160

180

X = read.table("tortugas.txt",header=T)
boxplot(X$Largo,X$Largo[X$Sexo==1],X$Largo[X$Sexo==0],
names=cbind("Total","Machos","Hembras"),col=cbind("green","blue","red"))

Total

Machos

79 de 159

Hembras

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

Ejercicio 1.4:

Los datos del fichero Datos-kevlar.txt corresponden al tiempo hasta el fallo (en horas) de
101 barras de un material utilizado en los transbordadores espaciales, llamado Kevlar49/epoxy,
sometidas a un cierto nivel de esfuerzo. Los datos han sido tomados de Barlow et al. (1984).
(a) Calcula las principales medidas numericas descriptivas de estos datos.
(b) Representa un diagrama de cajas.
(c) Representa un histograma con un n
umero de clases apropiado.
(d) Estudia la presencia de datos atpicos en la muestra. Si hay datos atpicos, suprmelos y
repite todos los apartados anteriores. Compara los resultados obtenidos.

> x = scan(Datos-kevlar.txt)
Read 101 items
> mean(x)
[1] 1.024018
> median(x)
[1] 0.799838
> var(x)
[1] 1.248112
> sd(x)
[1] 1.117189
> skewness(x)
[1] 3.009575
> boxplot(x)

> hist(x)

10 20 30 40 50 60
0

Frequency

Histogram of x

4
x
1

80 de 159

> hist(x)$breaks
[1] 0 1 2 3 4 5 6 7 8
> n=length(x)
> sqrt(n)
[1] 10.04988
> n=length(x)
> sqrt(n)
[1] 10.04988
> (max(x)-min(x))/sqrt(n)
[1] 0.7840221
> max(x)
[1] 7.889078
> min(x)
[1] 0.00975351
> hist(x,breaks=seq(0,8,0.5))

20
5 10
0

Frequency

30

Histogram of x

x
> plot(density(x,kernel=gaussian))

0.0 0.1 0.2 0.3 0.4 0.5

Density

density.default(x = x, kernel = "gaussian")

N = 101 Bandwidth = 0.3231

0.0

1.0

2.0

3.0

> xOrd=sort(x)
> xOrdSin=xOrd[1:(n-3)]
> mean(xOrdSin)
[1] 0.8841606
> median(xOrdSin)
[1] 0.7889238
> var(xOrdSin)
[1] 0.5386131
> boxplot(xOrdSin)

0.0

1.0

2.0

3.0

> skewness(xOrdSin)
[1] 0.9158652
> xOrdSin=xOrd[1:(n-4)]
> boxplot(xOrdSin)

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

Ejercicio 1.5: Determina si es verdadero o falso:


a) Si aadimos 7 a todos los datos de un conjunto, el primer cuartil aumenta
en 7 unidades y el rango intercuartlico no cambia.
b) Si todos los datos de un conjunto se multiplican por -2, la desviacin tpica
se dobla.
c) Si todos los datos de un conjunto se multiplican por 2, la varianza se dobla.
d) Al multiplicar por tres todos los datos de un conjunto, el coeficiente de
asimetra no vara
e) Si el coeficiente de correlacin entre dos variables vale -0.8, los valores por
debajo del promedio de una variable estn asociados con valores por debajo del
promedio de la otra.
f) Si i yi < xi entonces el coeficiente de correlacin es negativo.

g) Si cambiamos el signo de todos los datos de un conjunto, el coeficiente de


asimetra tambin cambia de signo.
h) Al restar una unidad a cada dato de un conjunto, la desviacin tpica siempre
disminuye.
i) Si a un conjunto de datos con media x se le aade un nuevo dato que coincide
con x, la media no cambia y la desviacin tpica disminuye.
Apartado a)
Falso. Aadir siete a todos los datos es una traslacin, as que la distribucin de
los datos no cambia. El rango intercuartlico se mantiene y el cuantil tambin.
Apartado b)
Teniendo en cuenta que si multiplicamos todos los datos del conjunto por 2 la
media tambin se multiplica por 2, y sustituyendo en la frmula de la varianza:
0

1X
n(2xi )2 (2x)2 =
n i=1


1X
4 nx2i x2 = 4 2 = 2
n i=1

Por lo tanto, la desviacin tpica s se dobla.


Apartado c)
Usando los clculos del apartado anterior vemos que la varianza se multiplica por
cuatro.
Apartado d)
Efectivamente: cambiar el signo hara una reflexin de los datos sobre el eje Y y la
asimetra estara orientada hacia el lado contrario.
Apartado e)
83 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

Teniendo en cuenta que si multiplicamos todos los datos del conjunto por 3 la
media tambin se multiplica por 3
El coeficiente de asimetra se calcula:
n

1X
(xi x)3
n i=1
Sustituyendo en la frmula del coeficiente de asimetra
n

1X
1X 3
1X
(3xi 3x)3 =
3 (xi x)3 = 27
(x x)3
n i=1
n i=1
n i=1
Por lo tanto el coeficiente de asimetra s vara.
Apartado f)
Falso.
n

1X

2 =
(yj y)2 =
n j=1
n

(
y j = xj 1
P
P
y = n1 nj=1 (xj 1) = n1 ( nj=1 xj ) 1 = x 1
n

1X
1X
(xj 1 (x 1))2 =
(xj x)2 = 2
=
n j=1
n j=1
Apartado g)

Falso. 2 variables pueden tener una correlacin creciente aunque yi < xi .


Apartado h)
Falso. La desviacin tpica se mantiene (los datos siguen estando igual de separados).
Apartado i)
Verdadero. Al hacer el clculo de la media no vara (en la frmula del ejercicio 2 se
puede comprobar que si aadimos un xi = x el sumatorio de la derecha queda igual)
y la desviacin tpica disminuye.

84 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

Ejercicio 1.6:

Calcula el diagrama de dispersion de las dos variables correspondientes al peso y a la circunferencia de abdomen que aparecen en el fichero Datos-bodyfat.txt. Calcula la recta de
regresion y el coeficiente de correlacion. Comenta los resultados.
Datos=read.table(Datos-bodyfat.txt)
Peso=Datos[,4]
CircAbd=Datos[,8]
plot(Peso,CircAbd)

120
100
80

CircAbd

140

>
>
>
>

150

200

250

300

350

300

350

Peso
> lm(CircAbd~Peso)
Call:
lm(formula = CircAbd ~ Peso)

120
100
80

CircAbd

140

Coefficients:
(Intercept)
Peso
34.2604
0.3258
> cor(Peso,CircAbd)
[1] 0.8879949
> zz=abline(lm(CircAbd~Peso))

150

200

250
Peso
1

85 de 159

> hist(Peso)
> hist(CircAbd) Histogram of Peso

60
20

40

Frequency

40
20

Frequency

60

80

80

Histogram of CircAbd

100

150

200

250

300

350

60

80

100

120

140

CircAbd

Peso

> hist(log(Peso))
> hist(log(CircAbd))
Histogram of log(Peso)

60
40

Frequency

20

30

10

Frequency

50

80

Histogram of log(CircAbd)

4.8

5.0

5.2

5.4

5.6

5.8

4.2

4.4

4.6
log(CircAbd)

log(Peso)

4.8
4.6
4.4

log(CircAbd)

5.0

> skewness(Peso)
[1] 1.198077
> skewness(log(Peso))
[1] 0.317743
> skewness(log(CircAbd))
[1] 0.3548225
plot(log(Peso),log(CircAbd))

4.8

5.0

5.2

5.4

log(Peso)
2

5.6

5.8

4.8

5.0

Analogas preguntas para las dos variables del fichero Datos-geyser.txt.


>
>
>
>
>
>
>

Datos=read.table(Datos-geyser.txt,header=T)
y=Datos[,2]
x=Datos[,3]
plot(x,y)
zz=lm(y~x)
abline(zz)
zz

Call:
lm(formula = y ~ x)
Coefficients:
(Intercept)
33.83
> cor(x,y)
[1] 0.8584273

70
60
50
40

80

90

x
10.74

2.0

2.5

3.0

3.5
x

4.0

4.5

5.0

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

Ejercicio 1.7:

Relaciona los histogramas con los boxplot

Fijndose en los intervalos entre los que se mueven los datos es la forma ms fcil.
12
21
33

Ejercicio 1.8:

Del diagrama de dispersin presentado se pregunta:

a) Existe alguna relacin?


b) Hay algn dato atpico?
c) De los 3 valores siguientes: 0.01, 0.83, 0, 73 cul crees que podra corresponder al coeficiente de correlacin?

Apartado a)
Parece que s.
Apartado b)
Bastante obvio que s
Apartado c)
0.83. Como la nube de puntos parece que se aproxima a una recta con pendiente
positiva, la correlacin debe ser positiva. Adems, como se parece bastante a una
recta, la correlacin debe ser cercana a 1.

88 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

Ejercicio 1.9:

Un estudio sobre el efecto de la temperatura en el rendimiento de un proceso qumico proporciona los siguientes resultados:
Temperatura (x)
Rendimiento (y)

-5
1

-4
5

-3
4

-2
7

-1
10

0
8

1
9

2
13

3
14

4
13

5
18

(a) Representa el diagrama de dispersion de los datos anteriores y calcula el coeficiente de


correlacion entre las dos variables. Se puede admitir que existe una relacion lineal aproximada entre ambas, es decir, yi a + bxi ?

(b) Calcula el termino independiente y la pendiente de la recta de mnimos cuadrados.

(c) Que rendimiento predeciras para un nuevo proceso realizado a temperatura x = 3,5?
#
x
#
y

Temperatura:
= -5:5
Rendimiento:
= c(1,5,4,7,10,8,9,13,14,13,18)

# Diagrama de dispersion
plot(x,y)
# Coeficiente de correlacion
cor(x,y)
# Recta de regresion:
zz = lm(y~x)
abline(zz)

10
5

15

# Prediccion para temperatura x=3.5:


new <- data.frame(x = 3.5)
Prediccion = predict.lm(zz,new)

x
y = 9,27 + 1,44x

r = 0,956

y(3,5) = 9,27 + 1,44 3,5 = 14,30

89 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

Ejercicio 1.10:
correlacin sea 1?

Qu valor tiene que tomar x para que el coeficiente de

a) A = {(1, 1), (2, 3), (2, 3), (4, x)}

b) B = {(1, 1), (2, 3), (3, 4), (4, x)}


Para que el coeficiente de correlacin sea exactamente 1, los puntos tienen que
estar en la misma recta. Buscamos el x que cumpla eso.
Apartado a)
x=6
Apartado b)
Imposible (porque los 3 puntos dados no estn alineados)

90 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

B.2.

Tema 2 - Muestreo aleatorio


Ejercicio 2.1:
Se desea estimar el momento de orden 4, 3 = E X 3
en una v.a. X con distribucin exponencial de parmetro 2, es decir, la funcin
de distribucin de X es F (t) = P {X t} = 1 e2t para t 0. Definir un
estimador natural para 3 y calcular su error cuadrtico medio.
Usando el criterio de plugin, podramos definir el estimador
Z

3 =
x3 dFn (x)
R

Calculamos ahora el error cuadrtico medio:




ECM(
3 ) = E (
3 3 )2 = E (
3 E (
3 ) + E (
3 ) 3 ) 2 =

E (3 E (3 ))2 + (E (3 ) 3 )2 + 2 (
3 E (3 )) (E (3 ) 3 )
{z
} |
{z
} |
{z
}
|
(a)

(b)

(c)

Calculamos (b) que es el sesgo2 (3 ) :

sesgo(
3 ) = E (
3 ) 3 = 3 3 = 0
Como el sesgo es 0, tenemos
 que (c) es tambin 0.
Solo nos queda calcular E (a) , que es la varianza:


 X 
X 
3
X

V
X
1
1
1
V (
3 ) = V
Xi3 = 2 V
Xi3 = 2
V Xi3 =
n
n
n
n

y, teniendo en cuenta el enunciado,


V X
y por lo tanto

=E X

E X


3 2

6!
= 6
2

171
ECM(
3 ) =
=O
16n

3!
23

2

171
16

 
1
0
n n

donde lo que ms nos importa es la convergencia a cero, que indica que cuanto
ms muestras tenemos mejor ser el estimador.

91 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

Ejercicio 2.2: Supongamos que la muestra tiene tamao n = 50 y que la


distribucin de las Xi es una N (4, 1).
a) Obtener,utilizando la desigualdad
de Chebichev, una cota superior para la





probabilidad P X 4 > 0.3 .





b) Calcula exactamente P X 4 > 0.3 utilizando la distribucin de Xi .
Apartado a)
Como = 4, la desigualdad de Chebichev nos da una cota de
 

 V X

V (X)


P X 4 > 0.3
=
' 0.22
2
0.3
n 0.32
Apartado b)
Normalizamos
Z=

X 4
1
50

N (0, 1)

y calculamos.
)
(



0.3


P X 4 > 0.3 = P |Z| > 1
= 2 P {Z > 2.12} = 0.034

50

Ejercicio 2.3:
Utilizando R dibuja la funcin de densidad y la funcin de
distribucin de una v.a. con distribucin beta de parmetros a = 3, b = 6.
A continuacin dibuja, sobrepuestas en cada uno de los grficos, las aproximaciones
a F y f obtenidas respectivamente mediante la funcin emprica y un estimador
kernel.
Verificar empricamente el grado de aproximacin, en las estimaciones de F y f,
que se obtiene mediante un experimento de simulacin basado en 200 muestras de
tamao 20. Es decir, considerando, por ejemplo, la estimacin de F, se trata de
simular 200 muestras de tamao 20; para cada una de ellas evaluar el error (medido
en la norma del supremo) que se comete al aproximar F por Pn . Por ltimo, calcular
el promedio de los 200 errores obtenidos. Anlogamente para la estimacin de f.

# Dibuja la funcin de densidad y la funcion de distribucin de una v.a. con


# distribucin beta de parametros a=3 y b=6.

92 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

a = 3
b = 6
n = 20
t = seq(0,1,0.01)
densidad = dbeta(t, a, b, ncp = 0, log = FALSE)
fndistrib = pbeta(t, a, b, ncp = 0, log = FALSE)
X = rbeta(n,a, b, ncp = 0)
kernelest = density(X,kernel="gaussian")
M = max(max(densidad),max(kernelest$y))
distremp = ecdf(X)
layout(matrix(1:2,2,1))
layout.show(2)
plot(t,densidad,type="l",lwd=2,col="tomato3",xlab="",ylab="",ylim=c(0,M),
main="Densidad y estimador kernel",font.main=1,cex.main=1)
lines(kernelest,type="l",lwd=2,col="navyblue")
mtext("Distribucin beta(3,6)",side=3,line=3,cex=1.5)
plot(t,fndistrib,type="l",lwd=2,col="tomato3",xlab="",ylab="",ylim=c(0,1),
main="Funcin de distribucin poblacional y emprica",font.main=1,cex.main=1)
lines(distremp,do.points=FALSE,lwd=2,col="navyblue")
# Verificar empiricamente el grado de aproximacion:
nMC = 200
Supremo1 = rep(0,nMC) ; Supremo2 = rep(0,nMC)
for (i in 1:nMC){
XMC = rbeta(n,a, b, ncp = 0)
kernelMC = density(XMC,kernel="gaussian")
densidadMC = dbeta(kernelMC$x, a, b, ncp = 0, log = FALSE)
Supremo1[i] = max(abs(kernelMC$y - densidadMC))
distempMC = ecdf(XMC)
Supremo2[i] = max(abs(distempMC(t) - fndistrib))
}
Error1 = mean(Supremo1)
Error2 = mean(Supremo2)

Ejercicio 2.4:

Denotemos por
Cn =

Fn (t) F (t)

2

dF (t)

la llamada discrepancia de Cramer-Von Mises entre Fn y F .


a) Converge a cero casi seguro esta discrepancia?
b) Calcular la distribucin asinttica de la sucesin Dn =
para un valor fijo t R.
93 de 159

n Fn (t) F (t)

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

Apartado a)
Cn =

Fn (t) F (t)

Tenemos que

2

dF (t) =

2
Fn (t) F (t) f (t) dt



Fn (t) F (t) sup Fn (t) F (t) = kFn F k
t

entonces
Z

Fn (t) F (t)

2

f (t) dt kFn

F k2

f (t) dt = kFn F k2

Finalmente, por el teorema de Glivenko-Cantelli (II.7) tenemos que


c.s

kFn F k2 0
n

Apartado b)
Para calcular la distribucin asinttica de
Dn =

n Fn (t) F (t)

usamos el Teorema Central del Lmite (II.8). Necesitamos algo que se asemeje a
una media muestral, y de hecho
n

1X
1X
Fn (t) =
1(,t] (Xi ) =
Yi = Y
n i=1
n i=1

Por otra parte, Y = 1(,t] (X) y por lo tanto



E (Y ) = E 1(,t] (X) = P {X t} = F (t)

Ya podemos aplicar el TCL, pero nos falta saber cul es la desviacin tpica de Y .
Como es una distribucin de Bernoulli
V(Y ) = p(1 p) = F (t)(1 F (t))
y por lo tanto aplicando el TCL
 p

d
Dn N 0, F (t)(1 F (t))
n

94 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

Ejercicio 2.5:
Sea X una v.a. cuya funcin de densidad depende de un
parmetro desconocido R, concretamente
f (x; ) =

1
1
1 + (x )2

para x R. Comprobar que coincide con la mediana y la moda de X pero que


la media E (X) no est definida.
Disear un experimento de simulacin en R, tomando algn valor concreto de ,
orientado a comprobar cmo se comportan la mediana muestral y la media muestral
como estimadores de : mientras la mediana muestral se acerca al verdadero valor
de al aumentar N , la media muestral oscila fuertemente y no se acerca a
aunque se aumente el tamao muestral n.
Viendo la funcin, vemos que es simtrica con respecto al eje x = . Por lo tanto, el
punto que deja a izquierda y derecha la misma probablidad, la mediana, es precisamente
.
La moda es el valor mximo de la distribucin,
f 0 (x; ) =

1 2(x )
= 0 x =
(1 + (x )2 )2

Y se ve que es un mximo porque es el punto en el que el signo de la derivada pasa


de positivo a negativo.

Ejercicio 2.6: Se extrae una muestra aleatoria de tamao n = 600 de una


v.a. cuya desviacin tpica es = 3. Calcular aproximadamente la probabilidad





P X < 0.1
Tenemos 2 posibilidades: Tipificar o con Chebichev.
Segn Chebichev, tenemos que
n
o V (X)

P X E (X) >
2
 
 
Tenemos que = E X , tenemos que hallar V X :

Y por lo tanto,

  V (X)
2
V X =
=
= 0.015
n
n

95 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM











P X < 0.1 = 1 P X > 0.1 0.5
|
{z
}
1.5

Que no es una aproximacin muy buena. As que pasamos a tipificar:


Z=

N (0, 1)

Entonces:










P X < 0.1 = 1 P X > 0.1 =
(
(
)
)
0.1 n
0.1 n
=12P Z >
= 0.582
= 1 P |Z| >

 
(Recordemos que V X =

V(X)
n

 
y que E X = = E (X))

Ejercicio 2.7:
Sea X una v.a con distribucin absolutamente continua.
Sea F la correspondiente funcin de distribucin y f = F 0 continua en todo
punto la funcin de densidad. Para r {1, . . . , n}, denotemos por X(r) el rsimo estadstico ordenado de una muestra de tamao n extrada de X. Calcular la
funcin de distribucin y la de densidad de la v.a. X(r) .

Por definicin, la funcin de distribucin es:




FX(r) (x) = P X(r) x

que es la probabilidad que al menos r elementos de la muestra sean menores o


iguales que x. Luego la probabilidad es igual a
n
X


P exactamente j observaciones de la muestra1 son x =
j=r

n
X
j=r



P B(n, F (x)) = j =

n
X
j=r

nj
n
j
F (x) 1 F (x)
j

Ahora slo falta calcular la densidad de X(r) , y la obtenemos derivando la funcin


de distribucin:
1

que una observacin sea exactemente x es una Bernouilli, y la suma de Bernouillis es la


Binomial

96 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

fX(r) (x) =

n
X
n

j(F (x)j1 (1 F (x))nj f (x) (F (x))j (n j)(1 F (x))nj1 f (x) =


=

j
j=r
n
X

n
X

n
n
j1
nj
j
nj1
f (x) =
j(F (x) (1 F (x)) f (x)
(F (x)) (n j)(1 F (x))
j
j
j=r
j=r


n
X
n
n
j1
nj
= r(F (x))r1 (1 F (x))n1 f (x) +
j(F (x)) f (x)(1 F (x))
j
r
j=r+1

n
X n
j
nj1

f (x) =
(n j)(F (x)) (1 F (x))
j
j=r

n1
X
n 1
n 1
l
nl1
r1
nr
n
f (x)
n
(F
(x))
(1

F
(x))
f
(x)
+
(F (x)) (1 F (x))

l
r1
l=r

n1
X
n 1
j
nj1
f (x)

n
(F (x)) (1 F (x))
j
j=r

Los dos ltimos trminos se cancelan y nos queda que:

n 1
r1
nr
fX(r) (x) = n
(F (x)) (1 F (x)) f (x)
r1

Consideremos los dos casos particulares del mnimo y mximo de la muestra. Con
el mnimo, r = 1 y entonces:

n

X n
j
nj
FX(1) (x) = P X(1) x =
= 2 1 (1 F (x))n
(F (x)) (1 F (x))
j
j=1
En el caso del mximo:


FX(n) (x) = P X(n)

n
Y


x =
P X(j) x = 3 (F (x))n

j=1


n
2
(F (x))j (1 F (x))nj
1 = 1n = (1 F (x) + F (x))n =
j=0
j
3
j X(j) X = P {X x} = F (x)
n
P

97 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

Ejercicio 2.8:
Sea fn un estimador kernel de la densidad basado en un
ncleo K que es una funcin de densidad con media finita. Comprobar que, en
general,
fn (t) es un estimador sesgado de f (t) en el sentido de que no se tiene


E fn (t) = f (t) para todo t y para toda densidad f .
Lo que buscamos es calcular el sesgo:


sesgo (fn (t)) = E fn (t) f (t)

(B.1)




!
n
n

X
X
1
t

X
1
t

X
i
i
E fn (t) = E
K
=
E K
=
nh i=1
h
nh i=1
h


!

Z
tx
1
tX
1
K
= E K
=
f (x) dx = ...
h
h
h R
h


Haciendo un cambio de variable x = t hz, dx = h dz, los lmites se invierten,


1
... =
h

tx
h

1
f (x) d(x) =
h

K(z)f (thz)(h) dz =

Usando que K es funcin de densidad =


Z

K(z)f (thz) dz

K = 1, (B.1) nos queda


Z



K(z)f (t hz) dz
K(z)f (t) dz =
K(z) f (t hz) f (t) dz =

Z
Z
Z
1
1 3 000
0
2 00
2
= hf (t)
zK(z) dz + h f (t)
z K(z) dz + h f (t)
z 3 K(z) dz +
2
6

... =

Al hacer el desarrollo de Taylor, como K es una funcin simtrica, las integrales


con ndice impar (con z = 1, 3, . . . ) se anulan. Sin embargo, el segundo trmino no lo
hace. Por lo tanto, el sesgo de un estimador kernel no es nunca cero.
El sesgo del estimador kernel depende de h (el parmetro de suavizado o bandwith) en potencias pares. Por eso, se toma de manera tal que h 0 y entonces
n

sesgo fn (t) 0 pero manteniendo un equilibrio para que la varianza tambin sea
n

pequea y no tengamos picos en el histograma (ver seccin I.1.3.1).

98 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

B.3.

Tema 3 - Estimacin puntual paramtrica

Ejercicio 3.1: Sea X una v.a. con distribucin exponencial de parmetro .


Calcula la funcin de distribucin, la de densidad y la funcin cuantlica de la v.a.
Y = X 1/3 .

Y
Como X exp() ( > 0) Y = X 1/3 X = ( )3

y3
y 3
y 3
f (x) = f (( ) ) = e( ) = e 2 = f (y)

Z
Y 3
y
y2
F (X) = F (( ) ) = f (( )3 )(3 3 )dy =

Z
2
3
3
y
y
y
= 3 2 e 2 dy = e 2 + C = F (Y ), C R

y3

Finalmente, como e 2 es creciente con valor mximo 0 y mnimo -1 = C = 1.


La funcin cuantlica por definicin es: F 1 (p) = inf {y  F (y) p}, luego
y3

F 1 (p) = nf {y  1 e 2 p}
p[0,1]

Ejercicio 3.2: Supongamos que X mide el error cometido en la medicin


de una magnitud. X es una v.a. normal de media 0 y varianza .

X
N (0, ), > 0, = (0, )
Se desea estimar a partir de una muestra.
a) Calcular el estimador de mxima verosimilitud Tn .
b) Probar que Tn es insesgado y eficiente.
c) Estudiar la distribucin asinttica de Tn .

Apartado a)
Buscamos el mximo de la funcin de verosimilitud
Ln (; X1 , ..., Xn ) =

n
Y

1 P 2
1
2
xi
f (xi ; ) =
n e
2
(
2
)
i=1

El mximo de la funcin de verosimilitud ser tambin el mximo de la logverosimilitud


4

Esta solucin puede estar mal. Edu

99 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

logLn () =

n
n
1 X 2
log(2) log()
xi
2
2
2

Para ello derivamos e igualamos a 0.

n
1 X 2
logLn () = + 2
xi = 0

2 2

1
2

P 2!
n
x
1X 2
+ 2 i = 0 = Tn = e.m.v.() =
xi

Apartado b)
E (Tn ) = E

1
n



x2i = E X 2 =


Nos tenemos que dar cuentade que V (X) = E X 2 E (X)2 . En este caso
E (X) = = 0 por lo que E X 2 = por hiptesis. Vamos a calcular la informacin
de fisher para comprobar si el estimador es eficiente o no.
logf (x; ) =

1
1
1
log(2) log() X 2
2
2
2

Derivamos:

1
1
logf (x; ) = + 2 X 2

2 2
Elegimos derivar otra vez o elevar al cuadrado (2 alternativas para calcularlo).
En este caso vamos a elevar al cuadrado:

1
logf (X; ) = 2

X2
X4
1+ 2 2

Entonces la informacin de fisher ser:

1
I() = E 2
4

X
X
1+ 2 2

= 1
42


Aplicamos por hiptesis: E X 4 = 32
1
I() = 2
4

32

1+ 2 2


!
E X 4
E X 2
1+
2
2

1
22

Vamos a calcular
 X 


1
1 X
n
V (Tn ) = V
x2i = 2
V x2i = 2 V X 2 =
n
n
n
100 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

 1

22
1
1
E X 4 E X 2 = (32 2 ) =
=
n
n
n
nI()

Como la varianza coincide con la cota de Frcher-Cramer-Rao entonces podemos


decir que es un estimador eficiente.
Los siguientes pasos para comprobar lo bueno que es el estimador son:
Tn asintticamente normal.
Tn es consistente casi seguro.

Apartado c)
Vamos a estudiar la distribucin asinttica:

n(Tn ) N (0, ())


n


Llamando Yi = Xi2 = E (Y ) = E X 2 =

Entonces por el TCL (Teorema Central del Lmite):

n(Y E (Y )) N (0,
n

V (Y ))



2
Donde V (Y ) = V X 2 = E (X 2 )2 E X 2 = 32 2 = 22
Ejercicio 3.3:
Se dispone de un gran lote de piezas producidas en una
cadena de montaje. Denotemos por p la proporcin de piezas defectuosas en ese
lote. Supongamos que se seleccionan al azar sucesivamente (con reemplazamiento)
piezas del lote hasta que se encuentra una defectuosa. Sea X la variable aleatoria
que indica el nmero de la extraccin en la que aparece la primera pieza defectuosa.
a) Calcular P {X = k} para k = 1, 2, . . . Obtener el estimador de p por el
mtodo de los momentos, a partir de una muestra X1 , . . . , Xn .
b) Obtener el estimador de p por el mtodo de mxima verosimilitud. Calcular
su distribucin asinttica.

Apartado a)
La probabilidad sigue una distribucin geomtrica de parmetro p:
P {X = k} = (1 p)k1 p
Apartado b)
Calculamos la funcin de verosimilitud:

101 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

Ln (p; x1 , . . . , xn ) =

n
Y
i=1

n
P
n
Y
xi 1
xi 1
i=1
f (xi ; p) =
(1 p)
p = (1 p)
pn

i=1

Tomamos logaritmos
n
X
log Ln (p) = log(1 p)
(xi 1) + n log p
i=1

y derivando
n

1 X
n

log Ln (p) =
(xi 1) + = 0
p
1 p i=1
p
n

1 p 1 X
1
=
(xi 1) 1 p = p(x 1) emv(p) = p =
p
n i=1
x
Vamos a calcular su distribucin asinttica, aplicando el mtodo delta.
Para ello observamos que tomando g(x) = x1 , tenemos que g(x) = p.
Comprobamos que g(E (X)) =

1
E(X)

=p

1
p

Luego por el mtodo delta y aplicando el TCL:

n(g(X) g(E (X))) =

Como g 0 (x) =

1
,
x2

y V (X) =



p
d
n(
p p) N 0, g 0 (E (X)) V (X)
n

1p
,
p2

entonces



p
N 0, g 0 (E (X)) V (X) = N
Ejercicio 3.4:
de una poisson.

0,

1
1
p2

 p

1p
= N 0, p 1 p
p

Estudiar si es eficiente el estimador de mxima verosimilitud

P (X = x) = e

x
x!

El clculo del estimador de mxima verosimilitud se hizo en clase llegando a = x


(III.1.2.1).
Para ver si es eficiente vemos si es su varianza es igual a la cota de FCR. Necesitamos
la informacin de Fisher para comprobar eso.
102 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

Para calcular la informacin de fisher derivamos el logaritmo de la densidad


log f (; x) = + x log log x!
x

log f (; x) = 1 + + 0

Para calcular la informacin de Fisher podemos volver a derivar o elevar al cuadrado.


Elegimos volver a derivar
2
x
log f (; x) = 2
2

Entonces tenemos que


!
 
1
2
x
1
=
I() = E 2 log f (; x) = E
E
(X)
=

2
2

La cota de FCR ser entonces

1
.
1 =
n
n

Calculamos la varianza:
V () = V (x) =

V (x)

=
n
n

Como tenemos la igualdad podemos afirmar que si es un estimador eficiente.

Ejercicio 3.5:

Distribucin de Rayleigh, cuya funcin de densidad es:


f (x; ) =

x x22
e 2 I[0,) (x), > 0
2

a) Calcular el estimador de mxima verosimilitud (e.m.v.) y por el mtodo de


los momentos
b) Calcular la consistencia del e.m.v.
c) Son asintticamente normales ambos estimadores?

Apartado a)
x1 ... xn 12 Pni=1 x2i
e 2
2
X
1 X 2
logLn () =
logxi 2nlog 2
xi
2


l
1
1 X 2
gLn () =
2n + 2
xi = 0
o

Ln (; x1 , ..., xn ) =

103 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

= 2 =

x2i

2n

= = emv() =

Estimador razonable porque E x


2

2 =

1
E(x2 )
2

x2i

2n

= V (x) + E (x) =

! 21

p

2

4 2

Buscamos ahora el estimador por el mtodo de los momentos


E (X) =

y entonces el estimador es
= X

=X
2

Apartado b)
Consistencia: 2 = 12 Y , Yi = Xi2
Por la ley fuerte de los grandes nmeros (II.6) sabemos que:
cs

Y E (Y ) = E (X 2 ) = 22
n

Vamos a aplicar el teorema de Slutsky.


q
Sea g(x) = 12 x definida sobre [0, ).
q
  q P 2
c.s
xi
1
Teorema de Slutsky (II.3) = g Y = 2 n g(E ) = 12 2 = =
n

El e.m.v. de , es consistente c.s.


Apartado c)
Queremos aplicar el mtodo delta:

n( ) =

  


p

d
n g Y g E(Y ) N (0, g 0 (E(Y )) V (Y )
n

E (Y ) = E (X 2 ) = 22
V (Y ) = E(X 4 ) E 2 (X 2 ) = 84 44 = 44
1
1
Entonces tenemos que g 0 (E(Y )) = p
= .
4
2 2E(Y )
Con esta informacin completamos:

n( ) N
n

104 de 159

0,

1
2

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

Buscamos ahora la convergencia asinttica del estimador por el mtodo de los


momentos:


 r

2
2
2
n( ) = n X E (X)
=
n(X E (X))

que, por el TCL (II.8)


r

2
d
n(X E (X))
n

2
N

0,

4
2

=N

0,

y por lo tanto es efectivamente asintticamente normal.

Ejercicio 3.6: Se dice que una v.a. X tiene distribucin Beta de parmetros
a>0y
b > 0 (y se denota X Beta(a, b)) si su funcin de densidad es
f (x; a, b) =

(a + b) a1
x (1 x)b1 1[0,1] (x).
(a)(b)

siendo la funcin gamma que aparece en la definicin de la distribucin del mismo


nombre. Calcular el valor de E (X) y V (X).
Vamos a utilizar la siguiente propiedad de la gamma: (n + 1) = n (n).
Empecemos con E (X):
E (X) =

Z1

xf (x)dx =

Z1

(a + b) a1
x (1 x)b1 dx =
(a)(b)

(B.2)

Z1

(a + b) (a + 1)(b)
(a)(b) (a + 1 + b)

(a + 1 + b) (a+1)1
x
(1 x)b1 dx
(a + 1)(b)
0
|
{z
}

=1 porque es la funcin de densidad de una Beta(a + 1, b)

(a + b) a (a)(b)
a
=
(a)(b) (a + b) (a + b)
a+b

Y ahora calcularemos la varianza:



V (X) = E X 2 E (X)2

105 de 159

(B.3)

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

E X


2

Z1

x2 f (x)dx =

(a + b) (a + 2)(b)
(a)(b) (a + 2 + b)

Z1

x2

(a + b) a1
x (1 x)b1 dx =
(a)(b)

0
1
Z

(a + 2 + b) (a+2)1
x
(1 x)b1 dx
(a + 2)(b)
0
|
{z
}

(B.4)

=1 porque es la funcin de densidad de una Beta(a + 2, b)

(a + b) (a)(b)
(a + 1)a
(a + 1)a
=
(a + b + 1)(a + b) (a)(b) (a + b)
(a + b + 1)(a + b)

Sustituimos en (B.3) lo obtenido en (B.2) y (B.4):



2
(a + 1)a
a
(a + 1) a (a + b) a2 (a + b + 1)
V (X) =

=
=
(a + b + 1)(a + b)
a+b
(a + b + 1)(a + b)2
a3 + a2 b + a2 + ab a3 a2 b a2
ab
=
=
2
(a + b + 1)(a + b)
(a + b + 1)(a + b)2

Ejercicio 3.7:

Ver transparencias 36 y 37 del tema 3.

Ejercicio 3.8:
Sea X N (, ). Estamos interesados en la estimacin
de basados en muestras X1 , . . . , Xn de tamao n. Calcular la cota de FrchetCramer-Rao (III.7) para estimadores insesgados.

La cota FCR es

1
nI()

Podamos calcular la informacin de Fisher como


I() = E

log f (X; )

2 !

= E

!
2
log f (X; )
2

Usaremos la segunda expresin. Calculamos primero el logaritmo:


log f (X; ) =

1
1
1
log 2 log (x )2
2
2
2

y derivamos dos veces

106 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

1
1
log f (X; ) = log f (X; ) = + 2 (x )2

2 2

2
1
2
1 1 1
2
2
(x )
log f (X; ) = 2 3 (x ) = 2
2
2
2

2
Calculamos ahora la esperanza:

1
2

1 1
(x )2
2

!

1 1 1
1
2

E
(X

)
=

2 2 | {z }
22

22
, el valor mnimo.
y por lo tanto la cota FCR vale
n
Ejercicio 3.9:
densidad

Sea X1 , . . . , Xn una muestra de una v.a. con funcin de

f (x; ) = x1
Sea

1 X
Tn (X1 , . . . , Xn ) =
log Xi
n i=1

a) Probar que
1
1
E (Tn ) = ; V (Tn ) = 2

n
b) Es eficiente Tn como estimador de 1 ?
Apartado a)
Aplicamos que la esperanza de la media muestral de una variable es la esperanza
de la variable. En este caso nuestra variable es logX.
E (Tn ) = E (log X) =

log xx1 dx =

  V (X)
Calculamos ahora la varianza (aplicando V X =
).
n
V (log X)
V (Tn ) =
=
n


1
= E log2 X E (log X)2 = 2

107 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

Ejercicio 3.10: El nmero de fallos que se producen anualmente en cierto


mecanismo es una v.a. con distribucin de Poisson de parmetro . El valor de
no es conocido exactamente, pero se tiene cierta informacin a priori que permite considerarlo como una v.a. con distribucin (a, p) (a y p son conocidos). Si
x1 , . . . , xn son observaciones observaciones independientes de la variable aleatoria
nmero de fallos, calcular la distribucin a posteriori y obtener, a partir de ella,
un estimador puntual para .
Sea X nmero de fallos anuales P oisson(), > 0.
Su funcin de densidad es
f (x|) = P {X = x} = e
Y el prior es
() =

x!

, x = 1, 2, 3, ...

ap a p1
e

con > 0, a > 0, p > 0


(p)

Entonces

(|x1 , . . . , xn ) f (x1 , . . . , xn |)() =


n
P

e(n+a) (

xi +p)1

i=1

(a + n,

Luego el estimador Bayes de es



E (|x1 , . . . , xn ) =

n
Y

n
P

xi

ap a p1
e

xi ! (p)

n
X

xi + p)

n
P
xi + p
xi
p
n
p
a
=
+
= x
+
= x
a+n
a+n a+n
a
+
n
a
a
+
n
| {z }
| {z }
n
1
n
0

108 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

Ejercicio 3.11:

(Este ejercicio es del parcial del ao pasado)

U nif [0, ] Con


f (x) =

0x

x
/ [0, ]

Vamos a calcular la funcin de distribucin:


F (x) = P {X x} =

f (t)dt =

inf ty

F =

Nos piden dibujar las funciones.

1
x
dt = si0 x

0x
x
/ [0, ]

Vamos a calcular
Ln (; xi ) =

n
Y

f (xi ) =

i=1


1 n

xi [0, ]
xi
/ [0, ]

Calculamos la logLn que nos piden dibujarla:

Dibujoo!

nlog() si max({x })
i
logLn () =

0
si no
n = e.m.v.() = max Ln ()

Tambin vale tomando el logaritmo:

n = e.m.v.() = arg maslogLn () = max{xi }


porque

nlog() max{x }
i
logLn() =


si no

109 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

B.4.

Tema 4 - Intervalos de confianza

Ejercicio 4.1 y 2:
a) Representa un estimador de la funcin de densidad de la v.a. X = cantidad
de contaminacin por mercurio (en p.p.m.) en los peces capturados en los ros
norteamericanos Lumber y Wacamaw (ver fichero Datos-mercurio.txt). Comparar
esta densidad estimada con la densidad normal de igual media y desviacin tpica
(representada en la misma grfica). En vista de las dos funciones diras que la
funcin de densidad de X es aproximadamente normal?
b) Obtener un intervalo de confianza de nivel 0.95 para la media de X.
c) Se puede considerar fiable este intervalo a pesar de la posible no-normalidad
de X?
d) Qu tamao muestral habr que tomar para estimar la contaminacin media
con un error mximo de 0.06?
Solucionado por Amparo, descargable aqu.

Ejercicio 4.3:
a) Representa en un mismo grfico las densidades de las distribuciones 2k con
k = 4,8,20,30.
b) X (5, 10). Calcular P{X 3}
c) Sea Y 2200 . Calcular P{Y 3}

Apartado a)
El cdigo R utilizado para generar las grficas es:
>
>
>
>
>
>
>
>
>

x = seq(0,20,length.out=1000)
d1=dchisq(x,df=4)
d2=dchisq(x,df=8)
d3=dchisq(x,df=10)
d4=dchisq(x,df=20)
plot(x,d1,type=l)
lines(x,d2,type=l,col=blue)
lines(x,d3,type=l,col=green)
lines(x,d4,type=l,col=red)

110 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

Apartado b)
Vamos a usar el resultado visto en clase: Si X (a, p) entonces tenemos que
a
a
X c ( , p) = c X ( , p)
c

c


a
1 k
Como
,p
,
y a = 5, p = 10
c
2 2
Tenemos que c = 10, luego:


P {10X 30} = P 220 30

Tenemos varias opciontes. Una de ellas es ir a R y calcularlo con el comando


pchisq(30, 20) = 0.93
Y la otra es irse a las tablas y vemos que P{220 30} ' 1
que en las tablas estamos entre 28.4 y 31.4.

0.1+0.05
2

Apartado c)
Sea Y 2200

Podemos hacerlo en R directamente y nos da P {Y 3} = 10141

A mano, aplicamos el T.C.L, que dice:

d
n(X ) N (0, )
n

111 de 159

= 0.93, ya

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

Entonces tenemos: X N

E (X) ,

V (X)
n




Donde5 E (X) = E Z 2 = V (Z) = 1 y V (X) = V Z 2 = V 21 = 2

Con lo que:

XN

1,



1
= N 1,
10

= P {Z 9.85} = 3 1023

2
200

Sustituyendo y estandarizando:


3
P X
20

'P Z

3
200

1
10

Una diferencia bastante distinta a lo que deca R. Tras un debate entre Miguel y
Amparo de 10 minutos no se ha llegado a ninguna conclusin.

Ejercicio 4.4:
a) Utilizando el fichero Datos-lipidos.txt, estima, mediante un intervalo de
confianza de nivel 0.95, la proporcin de pacientes que tienen una concentracin
de colesterol superior o igual a 220 mg/dl. Qu tamao muestral habr que usar
para tener una probabilidad aproximada de 0.95 de no cometer un error mayor que
0.01 en la estimacin de esta proporcin?
b)

Solucionado por Amparo, descargable aqui

Ejercicio 4.5: Sea una v.a. con funcin de densidad f (x; ) = x(+1) 1[1,)
a) Obtener el e.m.v.
b) Obtener su distribucin asinttica
c) Calcular la cantidad pivotal aproximada y, a partir de ella, un intervalo de
confianza de nivel aproximada 1 para
Apartado a)
logL()
1
= 0 = e.m.v.() =

Y
donde Y = logXi
Apartado b)
5


Recuerda: V 2k = 2 k

112 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

Posibles caminos:
d
a) ?
n

b)

n( ) N (0, ?)
n

113 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

La primera opcin es algo difusa y la segunda es mucho ms concreta y mejor.

Tenemos que examinar la expresin n( ) Tenemos 2 posibilidades con las


que calcular este tipo de cosas (T.C.L.) y mtodo delta (que es el que emplearemos a
continuacin)
= E (X) ; = V (X)




n g(X) g(u) N (0, g 0 (u) )
n

Aplicando el mtodo delta:

n( ) =

 

0 1 p
 d

n g(y) g(E (Y )) N 0, g
V (Y )
= N (0, )
n


| {z }
2

Peeero... hay que tener cuidado con que = g(E (Y )) porque sino no podemos
aplicar el mtodo delta.
V (Y ) = E Y

Y =

|1

1
1
(log x)2 x(+1) dx 2 = 2

{z
}
2
2

Apartado c)
La cantidad pivotal es un estadstico que depende de la muestra y del parmetro
desconocido (del que estamos calculando el intervalo) y cuya distribucin, al menos
asintticamente) es totalmente conocida.
En el apartado b) hemos encontrado la distribucin asinttica para poder construir
la cantidad pivotal.
Tipificamos el resultado anterior para evitar que la distribucin dependa del parmetro desconocido.

1
n( ) = n

1 = Q(; X1 , ..., XN )

y depende
Esta es nuestra cantidad pivotal, que depende de la muestra (por el )
del parmetro.
1 = P = {q1 () Q(; X1 , ..., XN ) q2 ()}

Tras despejar obtenemos

IC1 () = (

1+

1 z/2
n

114 de 159

)
1 z/2
n

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

Ejercicio 4.6:
Sea X1 , . . . , Xn una muestra de una v.a. uniforme en el
interalo [0, ] con 0 < < 1. Obtener una cantidad pivotal para a partir del emv.
Usando esta cantidad pivotal construye un intervalo de confianza para de nivel
prefijado 1 .
El e.m.v es
emv() = = max Xi
La cantidad pivotal para = Q(; X1 , . . . , Xn )

n
n
o

Y

FX(n) (x) = P n x = P X(n) x =


P {Xi x} =
i=1


x n

x<0
0x
x>1

X(n)

= , que es vlido como cantidad pivotal porque



x<0
0
X(n)
n
P {Q x} = P
x = x 0x

1
x>1

Tomo Q(; X1 , . . . , Xn ) =

Tenemos que elegir dos valores q1 , q2 de tal forma que



1 = P q1 () Q(; X1 , . . . , Xn ) q2 ()

Cmo
! elegirlos? Queremos buscar que la longitud del intervalo de confianza IC1 () =

n n
,
sea mnima. Calculamos esa longitud:
q2 q1




1
1
q2 q1

len IC = n

= n
q1 q 2
q1 q 2
Es decir, tenemos que buscar que q1 q2 sea ms pequeo y adems tienen que
ser lo mayores posible. Por lo tanto, la eleccin ptima es
q2 = 1, q1 = 1/n

115 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

Ejercicio 4.7:
Construye tres intervalos de confianza asintticos diferentes para el parmetro de una distribucin de Poisson usando los tres mtodos
siguientes:
a) Utiliza el comportamiento asinttico de la media muestral, estima de forma
consistente la varianza y aplica el teorema de Slutsky.
b) Igual que el anterior, pero sin estimar la varianza
c) Aplicando el mtodo delta para estabilizar la varianza, es decir, buscando

d
una funcin g tal que n(g(X) g()) N (0, 1).
n

Apartado a)
El TCL (II.8) nos dice que
X d
N (0, 1)
n
n
Entonces tenemos que
(

1 = P z/2

X
n
z/2

(B.5)

P,c.s
Sustituyo en el denominador por una estimacin consistente
:
n

X d
N (0, 1)
n p
n

Como sabemos que = E (X), tomamos la media muestral como el estimador:


= X. La convergencia nos queda entonces como

X d
n
N (0, 1)
X n
y por lo tanto tomamos
ahora en (B.5):

X
n
como nuestra cantidad pivotal. Despejamos
X

X z/2

X
X + z/2
n

X
n

Apartado b)
Partimos de nuevo de (B.5), pero no tenemos que estimar . Esta ecuacin es equivalente a
116 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

(X )2
2
z/2
P n

De ah slo tenemos que despejar para hallar nuestro intervalo de confianza.


Apartado c)
Tenemos que buscar que se satisfaga la ecuacin

d
n(g(X) g()) N (0, 1)
n

Sin embargo, el mtodo delta (III.1.1.3) nos dice algo distinto:



p

d
n(g(X) g()) N (0, g 0 () V (X))
n

Entonces tenemos que

0
g () = 1 = g 0 () = 1

e integrando vemos que g() = 2 .

Ejercicio 4.8:
a) Se desea evaluar aproximadamente, por el mtodo de Montecarlo, la integral
Z 1
f (x) dx
p=
0

de una funcin continua f : [0, 1] 7 [0, 1]. Para ello se generan 500 observaciones
independientes (Xi , Yi ) con i = 1, . . . , 500 con distribucin uniforme en el cuadrado
[0, 1] [0, 1] y se estima p mediante
p =

500
X
Zi
500
i=1

donde la v.a. Zi vale 1 si Yi f (Xi ) y 0 en caso contrario. Qu distribucin


tienen
P
las Zi ? Suponiendo que, en una muestra concreta hemos obtenido 500
z
=
255,
i=1 i
obtener un intervalo de confianza de nivel 0.99 para la correspondiente estimacin
de p.

Apartado a)
La v.a. sigue una distribucin de Bernoulli, de tal forma que


P {Z = 1} = P Y f (X)
117 de 159

(B.6)

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

La distribucin de densidad de la v.a. (Xi , Yi ) es


(
1 (x, y) [0, 1] [0, 1]
f (x, y) =
0 en otro caso
Aplicando esto en (B.6)



P {Z = 1} = P (X, Y ) {(x, y)  y f (x) } =

f (x)

dy dx =

f (x) dx = p

y llegamos a la forma de estimar la integral que queramos.


Vamos a contruir el intervalo de confianza de nuvel 0.99.

IC0.99 (p) =

z Z0.005

z(1 z)
500

p 2575

!
p(1 p)
) = (0.45 0.057)
500

Apartado b)
En este caso sabemos el valor de
p=

x2 dx =

1
3

Buscamos un n que cumpla:


z0.005

1
3

23
= n > 14734.72
n

Ejercicio 4.9: Sea X una v.a. con distribucin normal de media y varianza
. Estamos interesados en la estimacin de basados
 en muestras X1 , ..., Xn . Si
2
2
s denota la cuasivarianza muestral, calcular V s y compararla con la cota de
Frchet-Cramer-Rao obtenida en la relacin 3 de problemas.
Comentarios previos: Sabemos que s2 es un estimador insesgado de
n

1 X
V (X) =
(Xi X)2
n 1 i=1

Vamos a calcular V s2
Posibilidades:

Aunque es un poco largo


V s

=E s

h
i2
2
E s

118 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

Si X N (, ) entonces

(n 1)s2
2n1
2

Vamos a utilizar la segunda opcin6 y que V 2n1 = 2(n 1):
V s


2

=V

n1 2
2
s

2
n1

4
=
V
(n 1)2

n1 2
s
2

 2 =
4
2
22
2
=
V

2(n

1)
=
n1
(n 1)2
(n 1)2
n1



2
s por lo tanto no es eficiente porque la Cota de FCR es:
. Por ser la
n
varianza de una N (, ), cuya cota de FCR se calcula en el problema 8H3.
2

ver (III.2.3.1)

119 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

B.5.

Tema 5 - Contraste de hiptesis

B.5.1.

Hoja 5A

Ejercicio 5.1: En octubre de 2007 el peridico The New York Times realiz
un muestreo en 20 restaurantes y tiendas de Nueva York con objeto de analizar la
variable X, que representa el contenido en ppm de metilmercurio en el sushi de atn
que se pone a la venta. La media y la cuasi-desviacin tpica muestrales obtenidas
con estas 20 observaciones de X fueron x = 0.794, s = 0.2953. Supongamos que
X tiene distribucin aproximadamente normal.
a) Proporcionan estos datos suficiente evidencia estadstica a nivel 0.05 a favor
de la hiptesis de que la concentracin media de metilmercurio en las raciones de
sushi de atn en la poblacin considerada es superior a 0.6 ppm? El p-valor, es
menor o mayor que 0.01?
b) Obtener, a partir de estos datos, un intervalo de confianza de nivel 0.95
para la concentracin media de metilmercurio en toda la poblacin. Calcular el
mnimo tamao muestral mnimo que habra que utilizar para, con una probabilidad
de 0.95, estimar la concentracin media de metilmercurio con un error mximo de
0.06 ppm.

Apartado a)
Empezamos definiendo la hiptesis nula, que ser que 0.6 ya que queremos
una evidencia muy fuerte para rechazar que la concentracin suba del nivel mnimo.
Tenemos el siguiente contraste a nivel = 0.05:
H0 :
H1 :

0.6
> 0.6

La regin de rechazo en este caso es


R = {T > t19; }
donde
T =

x 0.6
= 2.938
0.2953/ 20

Por otra parte, t19; = 1.729. Se cumple la condicin de la regin de rechazo, por
lo tanto rechazamos H0 . El p-valor del contraste tendr que ser menor entonces que
0.05.
Para saber si el p-valor es menor que 0.01 calculamos t19;0.01 = 2.53. Como sigue
siendo menor que T , seguimos rechazando H0 y por lo tanto el p-valor del contraste
ser menor que 0.01.
Si quisisemos obtener el p-valor concreto del contraste, buscaramos el valor de
tal que t19; = 2.938. En R, obtendramos este valor con la orden
120 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

> pt(2.938, 19, lower.tail=FALSE)


[1] 0.004221168
El p-valor es por lo tanto 0.004. Esto quiere decir que la probabilidad de obtener
la muestra que hemos conseguido suponiendo que H0 sea cierta (esto es, suponiendo
que la media de ppm de metilmercurio en el atn es menor que 0.6) es extremadamente baja, y o bien hemos obtenido una muestra muy, muy extraa o H0 es falsa.
Por lo tanto, lo razonable sera rechazar la hiptesis nula y decir que, de media, la
concentracin de metilmercurio es mayor que 0.6.
Apartado b)
El intervalo de confianza sera


s
= (0.656, 0.932)
IC0.95 () = x tn1; 2
n
Como adems 0.6
/ IC0.95 (), rechazaramos H0 : = 0.06 a nivel = 0.05.
Para hallar el tamao muestral mnimo buscamos que
IC0.95 () = (x 0.06)
Despejando, tenemos que resolver
s
tn1;0.025 < 0.06
n
Como no conocemos s, lo sustituimos por una aproximacin, la cuasivarianza muestral de los 20 restaurantes que tenamos al principio. Adems, intuimos que n va a ser
grande y por lo tanto t se aproximara a una distribucin normal Z = N (0, 1), y por
lo tanto
tn1;0.025 z0.025 = 1.96
y entonces n > 93.
Otra forma de aproximar el tn1;0.025 sera sustituirlo por t1 ya que a menos grados
de libertad, menor peso tienen las colas, luego tn1;0.025 < t1;0.025 .
Despejando obtenemos que n > 3910.
Finalmente, otra forma de aproximarlo sera tomar n 1 = 20, ya que sabemos
que el n va a ser mayor que 20. Con esta aproximacin obtenemos que n > 105.

121 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

Ejercicio 5.2:

En vista de los datos Datos-mercurio.txt hay suficiente evidencia estadstica para afirmar que
el nivel medio de contaminacion por mercurio en los dos ros es diferente? Contrastar la hip
otesis
de igualdad de varianzas.
Indicar, en cada caso, las suposiciones previas necesarias para garantizar la validez de los procedimientos empleados.
Suponemos que X = Nivel de contaminaci
on por mercurio en un pez (de la especie large mouth bass)
elegido al azar en el ro Lumber e Y = Nivel de contaminaci
on por mercurio en un pez (de la misma
especie) del ro Wacamaw son v.a. independientes y siguen una distribuci
on normal: X N (1 , 1 )
e Y N (2 , 2 ).
Contrastemos primero la hipotesis de igualdad de varianzas a nivel :

La region de rechazo es R =

{s21 /s22

H0 :

1 = 2

H1 :

1 6= 2 .

(1)

/ [Fn1 1;n2 1;1/2 , Fn1 1;n2 1;/2 ]}.

X = read.table(Datos-mercurio.txt)
ContHg = X$V5
Rio = X$V1
ContHgL = ContHg[Rio==0]
ContHgW = ContHg[Rio==1]
s2L = var(ContHgL)
s2W = var(ContHgW)
s2L/s2W
[1] 0.6119333
alpha = 0.1
n1 = length(ContHgL)
n2 = length(ContHgW)
c(qf(alpha/2,n1-1,n2-1),qf(alpha/2,n1-1,n2-1,lower.tail=F))
[1] 0.690974 1.430908
Por tanto, a nivel = 0,1 no podemos considerar las varianzas iguales.
alpha = 0.05
c(qf(alpha/2,n1-1,n2-1),qf(alpha/2,n1-1,n2-1,lower.tail=F))
[1] 0.6432225 1.5328961
A nivel = 0,05 tampoco.
Entonces la region de rechazo del contraste
H0 :

1 = 2

H1 :

1 6= 2

(2)

a nivel de significacion es

s21
s22
R = |
x y| tf ;/2
,
+

n1 n2

donde f = 169 es el entero mas proximo a


 2

2

s1
n1

s22
n2

(s21 /n1 )2
n1 1

(s22 /n2 )2
n2 1

= 168,57.

122 de 159

(3)

Como |
x y| = 0,198 y t169;0,025
rechazar H0 : 1 = 2 .

s21
n1

s22
n2

= 0,223, no tenemos suficiente evidencia estadstica para

Con R podemos hacer t-tests (contrastes en los que el estadstico del contraste sigue una distribucion
t) de la siguiente manera:
t.test(ContHg ~ Rio, alternative = "two.sided", mu = 0, paired = FALSE, var.equal
= FALSE, conf.level = 0.95)
o equivalentemente
t.test(ContHgL, ContHgW, alternative = "two.sided", mu = 0, paired = FALSE, var.
equal = FALSE, conf.level = 0.95)
Obtenemos como resultado
Welch Two Sample t-test
data: ContHgL and ContHgW
t = -1.7547, df = 168.57, p-value = 0.08114
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-0.42150363 0.02481087
sample estimates:
mean of x mean of y
1.078082 1.276429
El valor t es el del estadstico del contraste
t= q

x
y
s21
n1

s22
n2

y df es el valor de la expresi
on (3). El intervalo de confianza es IC0,95 (1 2 ).
Con t.test tambien podemos hacer contrastes para una sola muestra (es decir, contrastes acerca
de la media de una N (, ) con desconocido). Por ejemplo, si quisieramos contrastar H0 = 1 1
frente a H1 : 1 < 1 escribiramos:
t.test(ContHgL, alternative = "less", mu = 1, conf.level = 0.95)
Y para hacer el contraste (1) de igualdad de varianzas
> var.test(ContHgL, ContHgW, ratio = 1, alternative = "two.sided", conf.level =
0.95)
F test to compare two variances
data: ContHgL and ContHgW
F = 0.6119, num df = 72, denom df = 97, p-value = 0.0294
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
0.3992008 0.9513555
sample estimates:
ratio of variances
0.6119333
2

Otra posibilidad para hacer el contraste (2) sin suponer normalidad de X e Y (ver figura)
density.default(x = ContHgW)

0.3
0.0

0.0

0.1

0.2

0.2

Density

0.4

Density

0.4

0.6

0.5

density.default(x = ContHgL)

1
N = 73

Bandwidth = 0.2475

1
N = 98

Bandwidth = 0.2983

aprox
aprox
es utilizar que, por el TCL, X
N (1 , 1 / n1 ) e Y N (2 , 2 / n2 ). Si X e Y son independientes entonces

s
2
2
1

Y aprox
X
N 1 2 ,
+ 2
n1 n2
y, por el Teorema de Slustky, si H0 : 1 = 2 es cierta entonces

s
2
2
s
s
aprox
1
Y N 0,
+ 2 .
X
n1 n2

s2

s2

A nivel = 0,05 no podemos rechazar la hipotesis nula (2) porque |


x y| = 0,198 < z/2 n11 + n22 =
0,222, pero s podemos rechazar a nivel = 0,1.
Observemos que, como el tama
no muestral es grande, las regiones de rechazo suponiendo normalidad
y utilizando la aproximaci
on del TCL son practicamente iguales.

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

Ejercicio 5.3:

Con objeto de averiguar si la estatura de las personas disminuye significativamente a lo largo de


la jornada se seleccionaron al azar diez mujeres de la misma edad de las que se midi
o su estatura
(en cm.) por la ma
nana al levantarse (Xi ) y por la noche antes de acostarse (Yi ). Se obtuvieron los
siguientes resultados:
Xi
Yi

169.7
168.2

168.5
166.4

165.9
166.7

177.8
177.2

179.6
177.9

168.9
168.0

169.2
169.5

167.9
166.7

181.8
182.5

163.3
161.1

Proporcionan estos datos suficiente evidencia estadstica, al nivel 0.05, a favor de la hip
otesis de
que la estatura disminuye a lo largo de la jornada?
Definimos D = X Y , la variacion que experimenta la estatura (en cm.) de una mujer entre el
momento de levantarse y el de acostarse. Suponemos que D N (, ) con y desconocidos. A
nivel de significacion = 0,05, queremos contrastar
H0 : 0
H1 : > 0

(la estatura no disminuye a lo largo del da)


(la estatura disminuye a lo largo del da).

La region de rechazo de este test es


R=



sd
d > tn1;
,
n

donde d = 0,84 y sd = 1,11 son la media y cuasidesviaci


on tpica de los valores observados de D:
di

1.5

2.1

-0.8

0.6

1.7

0.9

-0.3

1.2

-0.7

2.2

sd
1,11
s hay suficiente evidencia estadstica, a nivel = 0,05,
Como tn1; = 1,833 = 0,64 < d,
n
10
para rechazar H0 .

125 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

Ejercicio 5.4: Los niveles en sangre de una hormona denominada FSH estn
asociados con la fertilidad femenina. Las mujeres que tienen un nivel de FSH alto
(superior a 10 IU/L) tienen en general ms dificultad para concebir que aquellas
que tienen niveles bajos de FSH. En un estudio realizado recientemente, se analiz
la posible relacin entre el grupo sanguneo y la fertilidad. Para ello se midieron los
niveles de FSH en una muestra de 254 mujeres en edad frtil con grupo sanguneo
O y result que 43 de ellas tenan niveles altos de FSH y, por tanto, podran
tener dificultades para concebir. En otra muestra, independiente de la anterior, de
309 mujeres cuyo grupo sanguneo no es O, result que 27 tenan niveles altos de
FSH.
a) Proporcionan estos datos suficiente evidencia estadstica, al nivel 0.05,
a favor de la hiptesis de que las mujeres con grupo sanguneo 0 tienen ms
dificultades para concebir que las que tienen otro grupo sanguneo?
b) Calcular el tamao muestral necesario para, con probabilidad 0.95, estimar
en la poblacin de mujeres del grupo 0 el porcentaje de las que tienen un nivel alto
de FSH, con un error mximo de 2 puntos.
Consideramos la v.a. X que vale 1 si una mujer del grupo 0 tiene nivel alto de FSH
y 0 si no, y que sigue una distribucin de Bernoulli con probabilidad p1 . Anlogamente,
definimos la v.a. Y que vale 1 si una mujer del grupo no 0 tiene nivel alto de FSH y 0
si no, y que sigue una distribucin de Bernoulli con probabilidad p2 .
Tenemos que
254
X

i=1
309
X

xi = 43
yi = 27

i=1

Apartado a)
Primero tenemos que definir la hiptesis nula:
H0 : p1 p2
es decir, que las mujeres con grupo 0 no tienen ms dificultad para concebir.
Tomamos esto como la hiptesis nula porque es la que aceptamos por defecto, y
queremos una evidencia muy fuerte para poder decir que es falsa.
Para construir la regin de rechazo, usamos la regin del formulario para comparacin de proporciones. Usando el TCL, tenemos que si p1 = p2 = p entonces tanto X
como Y van a seguir una distribucin normal con ni = n1 o n2 segn sea X Y
s

N p,

p(1 p)
ni

126 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

y por lo tanto el estadstico del contraste es


X Y
Z=r

p(1 p) n11 +

1
n2

siendo p un estimador puntual de p, y que se calcula como


p=

P
xi + yi
n1 x + n2 y
=
n1 + n2
n1 + n2

La regin de rechazo es

R=

x y > z0.05

p(1 p)


1
1
+
{0.0819 > 0.0460 }
n1 n2

y por lo tanto rechazamos la hiptesis nula al nivel = 0.05.

Calculamos ahora el p-valor para tener ms datos sobre la hiptesis:




p-valor = P N (0, 1) > z =
Apartado b)
Necesitamos un intervalo de confianza

IC0.95 (p1 ) = x z0 .025

x(1 x
n1

q
donde z0 .025 x(1x
es el error cometido al estimar p1 con el IC, y que tiene que
n1
ser menor que 0.02. Como no tenemos el valor de x, lo sustituimos por el valor de
la media muestral obtenido en la anterior medicin, de tal forma que tenemos que
n1 1351 para obtener la confianza requerida.
Si quisisemos ser ms conservadores, sustituiramos x por el valor mximo que
podemos obtener, aunque en este caso saldra un tamao muestral mucho ms grande.

Ejercicio 5.5: El gasto telefnico medio bimensual en una muestra de 10


usuarios elegidos al azar en una ciudad ha resultado ser 90 euros y la cuasidesviacin
tpica 11 euros. En otra ciudad se ha tomado, de modo independiente, otra muestra
de 12 usuarios y los valores obtenidos para la media y la cuasidesviacin tpica
muestrales han sido, respectivamente, 80 y 10.
a) Proporcionan estos datos suficiente evidencia estadstica, al nivel 0.05,
a favor de la hiptesis de que el gasto medio en la primera ciudad es ms alto

127 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

que el gasto medio en la segunda? Suponer que las varianzas de las variables que
indican los gastos telefnicos en ambas ciudades son iguales. Indicar claramente
las restantes suposiciones necesarias para garantizar la validez del procedimiento
empleado.
b) El p-valor es mayor o menor que 0.01? Razonar la respuesta.

Apartado a)
Definimos las dos variables aleatorias que tenemos: X es el gasto medio bimensual
en la primera ciudad, y Y el gasto en la segunda. Tomamos las esperanzas y varianzas:

E (X) = 1 , V (X) = 12
E (Y ) = 2 , V (Y ) = 22
Definimos la hiptesis nula: H0 : 1 2 , es decir, que el gasto medio en la
primera ciudad no es mayor que en la segunda.
Tenemos que suponer que X e Y son normales para poder definir bien el estadstico
del contraste. Si ussemos cualquier otra distribucin el estadstico del contraste toma
una distribucin mucho ms complicada que no podramos determinar correctamente.
Tambin suponemos que son independientes.
La regin de rechazo es

R=

x y > tn1 +n2 2, sp

1
1
+
n1
n2

Calculando, tenemos que


x y = 10 y s2p = 109.45
R = {10 > 7.73 }

y por lo tanto rechazamos la hiptesis nula.


Apartado b)
Calculamos la regin de rechazo para = 0.01:
R = {10 > 11.32}
y por lo tanto para nivel 0.01 no hay evidencia para rechazar H0 . Entonces, el
p-valor es mayor que 0.01.

128 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

Ejercicio 5.6: Se realiza un experimento para comparar los incrementos en


los niveles plasmticos de insulina producidos por la ingesta de carne y de pescado.
Para ello se midieron los incrementos (medido esn picomoles por litro) producidos
en la concentracin de insulina en la sangre de 6 voluntarios, 90 minutos despus
de comer un bistec de 250 gramos. Dos das ms tarde se realiz de nuevo el
experimento con las mismas 6 personas, despus de consumir un filete de pescado.
En la tabla se observan los resultados:
Persona
Resultados con la carne:

109 106 111 105 110 108

Resultados con el pescado: 100

95

105 106

80

88

a) Proporcionan estos datos suficiente estadstica a nivel significacin 0.05 para


afirmar que el incremento medio...?

Apartado a)
1) Definir las variables:
X nivel de insulina en 1 voluntario tras la ingesta de carne. Llamamos a E (X) =
1
Y nivel de insulina en el mismo voluntario tras la ingesta de carne. E (Y ) = 2
Tenemos que las variables no son independientes (porque son muestras tomadas
de los mismo voluntarios). A este tipo de datos le llamamos datos emparejados
2) Definir las hiptesis
H0 : 1 2
H1 : 1 > 2
3) Como tenemos datos emparejados, podemos trabajar ms facilmente con la diferencia, es decir, definimos D = X Y y definimos el contraste (siendo E (D) = )
0

:0

H1 : > 0
Que es un contraste equivalente.
Adems tenemos que D N (, )

Suponer que la diferencia es una normal es el procedimiento estndar para datos


emparejados. (nos la jugamos, es una hiptesis del problema, que puede ser ms o
menos razonable. En este caso, lo nico que de momento sabemos hacer es suponer que
129 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

es normal (si no fuera normal, tendramos que aplciar el TCL (para lo que necesitamos
n grande) y con este tamao muestral (6) no podramos aplicarlo)
Mirando en la tabla de regiones de rechazo tenemos:


sd
R = d > tn1;
n
Donde

d
es el estadstico del contraste, que sigue una tn1 .
sd / n

De los datos extraemos d = 12.5; sd = 10.97.


Para = 0.05 calculamos el cuantil correspondiente de la t de Student. Para
= 0.05 es 9.02.
De aqu deducimos que s hay evidencia para rechazar la hiptesis nula (porque
d
> 9.02).
sd / n
Apartado b)
Tomando = 0.01 no se cumple la condicin de rechazo, no pudiendo negar
entonces la hiptesis nula.
Apartado c)
Es el tpico ejercicio mecnico de extraer el tamao muestral.

Ejercicio 5.7: Se ha comprobado que la probabilidad de curacin espontnea


(sin medicacin alguna) de cierta enfermedad es de 0.4. Un laboratorio ha obtenido
un nuevo medicamento para tratar la enfermedad y quiere demostrar que es eficaz.
Para ello, se aplica el tratamiento a 100 pacientes que sufren la enfermedad en
silencio y se observa cuntos de ellos se leen este texto.
a) Si se han curado 50 personas de las 100. puede afirmarse que el medicamento es eficaz a nivel = 0.05? Calcula el p-valor del contraste.
b) Cuntas personas de las 100 deberan curarse como mnimo para poder
afirmar al nivel = 0.001 que el tratamiento es eficaz?
c) Supongamos que la probabilidad de curacin con el tratamiento fuese realmente de 0.5 y que se realiza el test de nivel 0.05 con 100 personas. Cul sera la
probabilidad de error, es decir, la probabilidad de rechazar el medicamento como
intil?
Apartado a)
Sea X Bernouilli(p), luego

100
P

xi = nmero de pacientes que se curan.

Tenemos el siguiente contraste a nivel = 0.05:


H0 :
H1 :

p 0.4
p > 0.4

130 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

La regin de rechazo es
x 0.4
R = {z = q
> z0.05 }
0.40.6
100

Como x0.4
= 2.041 > 1.645 = hay evidencia muestral para afirmar que el
0.40.6
100

medicamento es eficaz a nivel = 0.05 (rechazo H0 ).


El pvalor se calcula as
> pnorm(2.041, lower.tail=FALSE)
[1] 0.02062541
Luego a nivel = 0.01 < p-valor, no habra suficiente evidencia muestral para rechazar
la hiptesis nula.
Apartado b)
100
X
x 0.4
q
> z0.001 =
xi > 55.1
0.40.6
100

Apartado c)
Como p = 0.5 H1 es cierta = solo puede cometerse el error de tipo II. Luego
Pp=0.5 {error tipo II} = Pp=0.5 {aceptar H0 } = 1 Pp=0.5 {R} = 1 n (0.5) =

(
)
q
r

X 0.4

)=N (0.5,0.05)
0.4 0.6 XN (p, p(1p)
n
=1P q
> z0.05 = 1 P X > 0.4 + z0.05
=

100
0.40.6

100

0.40.6

0.4 + z0.05
0.5
X 0.5
100
=1P Z =
>
=

0.05
0.05

= 1 P {Z > 0.388} = 1 (1 P {Z > 0.388}) = 0.35

131 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

Ejercicio 5.8:
a) Supongamos que en una determinada poblacin de referencia, formada por
adultos sanos, el nivel en sangre de la enzima heptica GGT (gamma-glutamiltranspeptidasa) sigue aproximadamente una distribucin normal con media poblacional 42IU/L y desviacin tpica poblacional 13. Calcular aproximadamente el
porcentaje de personas en la poblacin que tienen un nivel de GGT superior a 80.
b) Supongamos ahora que se selecciona una muestra de 61 personas en otra
poblacin formada por bebedores habituales no diagnosticados de alcoholismo y
se obtiene una media muestra de 58 IU/L con una desviacin tpica de 21. Hay
suficiente evidencia estadstica, al nivel 0.05, para afirmar que la concentracin
media de GGT en la poblacin de bebedores es mayor que 42?

Apartado a)
Sea X N (42, 13),
P {X > 80} = P

80 42
X 42
>
13
13

= 0.0017

Apartado b)
Sea Y el nivel de GGT en sangre
Tenemos el siguiente contraste a nivel = 0.05:
H0 :
H1 :

42
> 42

La regin de rechazo es
R = {z =

y 42
> Z0.05 }
s/ 61

Y por lo tanto rechazamos H0 ya que 5.95 > 1.645. Podemos calcular el p-valor
de la siguiente manera


p-valor = P N (0, 1) > 5.95 = 7 108

Con lo cual, es muy razonable rechazar la hiptesis nula.

132 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

B.5.2.

Hoja 5B

Ejercicio 5.1: Tenemos una X exp (). Queremos contrastar para =


0.01 las dos siguientes hiptesis: H0 : = 5 frente a H1 : = 1 , siendo 1 > 5
un valor prefijado.
a) Obtener la regin crtica del test UMP.
b) Calcular la probabilidad de error de tipo II en este test.

P
c) Supongamos que para una determinada muestra, se obtiene 5i=1 xi = 5.
Qu decisin habra que adoptar si se utiliza el test construido en a)?
Apartado a)
Primero comprobamos la propiedad de CVM7 :


fn (x1 , . . . , xn ; 1 )
=
fn (x1 , . . . , xn ; 5)

1
5

n

e(1 5)

n
P

xi

Efectivamente, la funcin es montona.


Por tanto, la regin de rechazo del test UMP es, por el lema de Neyman-Pearson
(IV.1), la siguiente:

R =

(

1
5

n

(1 5)

n
P

xi >k

Ya que una vez fijado 1 lo que determina la cota superior es el sumatorio, tenemos
que
R =

nX

xi < c

tal que P=5 {R } =

Como X exp() = (, 1) y las Xi son v.a.i., tenemos que

y entonces

Xi (, n)



P=5 {R } = = P (5, n) < c

De esta forma, c es el cuantil de la distribucin (5, n):


c = q5;n ()
Finalmente, como = 0.01, entonces
7

Ejemplo tpico de aplicar el lema de Neyman-Pearson (IV.1).

133 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

R =

( n
X

xi < q5;n (0.01)

Apartado b)
Calculamos el error de tipo II, (IV.1)

P1 {Rc } = 1P1 {R} = 1P1

nX

o


xi < q5;n (0, 01) = 1P (1 , n) < q5;n (0, 01)

Usando las propiedades de la distribucin gamma, tenemos que


(1 , n) =


5
1
5, n = (5, n)
5
1

y entonces




1
1
P1 {R } = 1 P (5, n) < q5;n (0, 01) = P (5, n) q5;n (0, 01) 0
1
5
5
c

Concretamente tenemos que



1
1
P1 {R } = 1 0.01 P q5;n (0.01) (5, n) < q5;n (0, 01) = 0.99 O(1 )
5
5
c

Lo que quiere decir que la probabilidad de error de tipo II se hace arbitrariamente


cercana a 1 - cerca de 1 .
Apartado c)
Nuestra muestra nos da una estimacin puntual de x = 1.
Bajo la hiptesis nula, la media de la poblacin debera ser 15 , ya que E (X) = 1 .
Bajo la hiptesis alternativa, la media debera ser < 15 .
Intuitivamente, no tenemos evidencia muestral en contra de H0 . Comprobmoslo
ahora calculando la regin de rechazo: tenemos que calcular el cuantil de la distribucin
Gamma:
q5,5 (0.01) = 0.2558 5 0.2558
Luego no hay evidencia muestral para rechazar la hiptesis nula, tal y como habamos intuido.

134 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

Ejercicio 5.2:
En una piscifactora se desea contrastar la hiptesis nula de que el porcentaje
de peces adultos que miden menos de 20 cm es como mximo del 10 % . Para ello,
se toma una muestra de 6 peces y se rechaza H0 si se encuentra ms de uno con
longitud inferior a 20 cm.
a) Cul es el nivel de significacin de este contraste?
b) Calcula la potencia del contraste si en realidad hay un 20 % de peces que
miden menos de 20 cm.
Sea X Bernouilli(p) tal que
(
1 si un pez adulto de la piscifactora mide menos de 20cm
X=
0 en otro caso
Tenemos pues el siguiente contraste a nivel :
H0 : p 0.1
H1 : p > 0.1
Nos dicen que
R=

Ntese que

6
P

6
X

6
X

xi > 1 =
xi 2

xi es una binomial (6, p).

Apartado a)
Tamao del test = max P {error tipo I} = maxp0.1 Pp {R} .

Tenemos que maximizar la siguiente expresin:

(p) = Pp {R} = Pp

6
X

6
6

Xi = 0 Pp
Xi = 1 =
X i 2 = 1 Pp

= 1 (1 p)6 6 (1 p)5 p = 1 (1 p)5 (1 + 5p)

Notese que hay 6 formas de obtener un 1 y cinco 0s. Bien, derivemos:


0 (p) = 5(1 p)4 (1) (1 + 5p) (1 p)5 (5) =
= (1 p)4 (5 + 25p 5 5p) = (1 p)4 (20p) > 0 p (0, 1) es creciente en (0, 1)
Luego
max Pp {R} = max (p) = (0.1) = 1 0.95 (1 + 5 0.1) = 0.1143
p0.1

p0.1

135 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

Ntese que como es montona creciente, alcanza su mximo en el extremo del


intervalo.
Apartado b)
Simplemente debemos calcular el valor de la funcin de potencia. Es decir, sustituir:
(0.2) = 1 (1 0.2)5 (1 + 5 0.2) = 0.3446

Ejercicio 5.3: El error que se comete en la medicin de una magnitud es


una v.a. X cuya funcin de densidad es
x2
1
e 2
f (x; ) =
2

siendo > 0 un parmetro que se desea estimar. Obtener el test uniformemente


ms potente de nivel para contrastar H0 : 0 frente a H1 : > 0
OBSERVACIN: los errores de los aparatos de medicin se suponen que siguen
una N(0, ).

Sea X N (0, ), > 0, donde X es el error cometido por el aparato de


medicin.
Tenemos que comprobar primero que el cociente de verosimilitudes es montono.
Para ello tomamos 1 < 2 y calculamos la razn de verosimilitudes:
f (x1 , . . . , xn ; 2 )
=
f (x1 , . . . , xn ; 1 )

1
2

 n2

12

1
1
2
1

P

x2i

P 2
que s es una funcin creciente8 de Tn =
xi . Por lo tanto esta es una familia
paramtrica CVM (ver definicin IV.6). Aplicando el teorema (IV.2)
R = {Tn > k }  P0 {R} = = P0

( n
X

Cmo resolvemos la expresin de k ? Tomamos


k = 0 2n;
Por lo que
R = P0
8

( n
X

Xi2 > 0 2n;

Porque el exponente de la exponencial es siempre positivo

136 de 159

Xi2 > k

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

Ejercicio 5.4:

Sea X1 , . . . , Xn una muestra de una poblacion con funcion de densidad


f (x, ) = e(x) 1[,) (x)
siendo > 0. Calcula el test de razon de verosimilitudes, de nivel , para contrastar H0 : 0
frente a H1 : > 0 .
Soluci
on: La funcion de verosimilitud es
fn (x1 , . . . , xn ; ) =

f (xi ; ) = e

i=1

i=1 (xi )

1[,) (x(1) ) =

en
0

i=1

xi

si x(1) ,
si > x(1) ,

(1)

donde hemos utilizado que x(1) := mn1in xi y que


n

1 si xi para todo 1 i n
0 si no
(
)
= 1[,) mn (xi ) .

1[,) (xi ) =

i=1

1in

Como la verosimilitud (1) es una funcion creciente en , el estimador de maxima verosimilitud


(e.m.v.) de es = x(1) .
Calculemos la razon de verosimilitudes
n =

sup0 fn (x1 , . . . , xn ; )
.
sup fn (x1 , . . . , xn ; )

Observemos que 0 = (0, 0 ] y = (0, ). Como la verosimilitud es creciente en , tenemos que


sup fn (x1 , . . . , xn ; ) = en0

i=1

xi

Como el supremo del denominador de n se alcanza cuando es igual al e.m.v., tenemos que
n

sup fn (x1 , . . . , xn ; ) = en

i=1

xi

Por tanto, n = en(0 x(1) ) .


El test de razon de verosimilitudes es el que tiene como region crtica o de rechazo
R = {(x1 , . . . , x1 ) : n < k }

(2)

donde k se elige de manera que el tama


no del test (la maxima probabilidad de error de tipo I)
m
ax P(R)
0

sea igual a . Ahora bien, observemos que


n < k en(0 x(1) ) < k n(0 x(1) ) < log(k ) x(1) > 0
Por tanto, la region de rechazo (2) equivale a la region
R = {(x1 , . . . , x1 ) : x(1) > 0 + c }
donde c es tal que

max P(R) = max P {X(1) > 0 + c } = .


0

137 de 159

1
log(k ) =: 0 + c .
n

Para completar la expresion de la region de rechazo, determinemos c . Observemos que


P {X(1) > 0 + c } = P { mn Xi > 0 + c }
1in

= P {X1 > 0 + c , X2 > 0 + c , . . . , Xn > 0 + c }


n

=
P {Xi > 0 + c } = (P {X > 0 + c })n
i=1
n(0 +c )

= e

(3)

donde hemos usado que


P {X > 0 + c } =

e(x) dx = e(0 +c ) .

0 +c

Como la funcion (3) es creciente en tenemos que


1
= max en(0 +c ) = en(0 +c 0 ) = enc c = log .
0
n
Observemos que, como (0, 1), se cumple que c > 0.
As pues, finalmente la expresion de la region crtica del test de razon de verosimilitudes para el
contraste del enunciado es
{
}
1
R = (x1 , . . . , x1 ) : x(1) > 0 log .
n
Intuitivamente es una region crtica razonable, pues rechazamos que 0 cuando la menor de las
observaciones de la muestra esta demasiado alejada de estos valores de . Recordemos que, para un
fijo el soporte de la densidad f (; ) es precisamente el intervalo [, ) y f (x, ) es decreciente en
x. As que esperamos que, al muestrear de f (, ), salgan observaciones justo a la derechade . Es
decir, si estoy contrastando H0 : < 3 y todas las observaciones de la muestra son mucho mayores
que 0 = 3, intuimos que H0 es falsa.

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

Ejercicio 5.5: Sea X1 , . . . , X16 una muestra de tamao 16 de una poblacin


normal de esperanza y varianza 2 = 1. Se desea contrastar H0 : = 0 frente
a H1 : 6= 0.

a) Calcula la regin crtica del contraste de razn de verosimilitudes de nivel


= 0.05. Qu decisin se toma a nivel = 0.05 si con 16 datos se ha obtenido
una media muestral x = 1?

b) Para el contraste anterior, cul es el valor de la funcin de potencia evaluada


en = 0.75?

Apartado a)
Sea X N (, 1), calculamos la funcin de verosimilitud:
f (x1 , . . . , xn ; ) =

P
1
12 (xi )2
e
(2)n/2

Nuestro espacio paramtrico es


0 = { = 0 }
=R
Entonces el cociente es9
n =

1 P 2 P
1
f (x1 , . . . , xn ; 0)
2
2
= e 2 ( xi (xi x) ) = e 2 nx
f (x1 , . . . , xn ; x)

Y la regin de rechazo es
R = {n < k } donde k es tal que P=0 {R} =
La regin de rechazo se puede expresar (utilizando (IV.4.3.1)) de forma equivalente
R = {2 log n > c } = {nx2 > c }
con c cumpliendo la misma condicin que k . Es decir
n 2
o
= P=0 nX > c

Sabemos que la distribucin de una media de normales es tambin una normal,


luego bajo H0 : = 0, X N (0, 1n ).

2
De la misma forma n X N (0, 1) y finalmente nx2 21 . Entonces
R = {nx2 > 21; }
9

recuerda que el EMV() = x

139 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

A nivel = 0.05, como n = 16 y x = 1, tenemos que


R = {16 > 3.84 }
y por lo tanto, hay evidencia muestral para rechazar la hiptesis nula.
Apartado b)
Tenemos que
n 2
o
n ( = 0.75) = P=0.75 {rechazar H0 } = P=0.75 {R} = P=0.75 nX > 21;
Evaluando

nX = n(X 0.75 + 0.75)2 = n(X 0.75)2 +0.752 + 2(X 0.75) 0.75


|
{z
}
|
{z
}
21

nueva v.a. problemn

Amparo observa que esto nos complica la vida, as que toma otro camino:

n 2
o
n 2
o


P=0.75 nX > 21; = 1 P=0.75 nX 21; = 1 P=0.75 (21; )1/2 =
1/ n

(
)
X N (0.75, 1n )
X
=
1 P=0.75 (21; )1/2 (21; )1/2 = ...
1/ n
Con lo que solo nos queda estandarizar y resolver

... = 1 P=0.75

1/2

(3.84)

= 1 P=0.75

X
(3.84)1/2
1/ n

X
,

1.96 1n 0.75
1.96 1n 0.75

Z
1/ n
1/ n

1 ,
n

= 0.75

n = 16

= 1 P {4.96 Z 1.04} = 1 (P {Z > 1.04} P {Z > 4.96}) 0.85


|
{z
} |
{z
}
0.15

(*) Aqu utilizo que la normal es simtrica para poder calcular esa probabilidad con
las tablas que tenemos.

140 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

Apndice C
Exmenes

141 de 159

Estadstica I

Examen

Grado en Matematicas / Doble Grado Matematicas-Ing. Informatica

10 de enero de 2013

1. Sea X1, . . . , Xn una muestra aleatoria de una variable discreta X con funcion de probabilidad
P (X = x) = f (x; ) =

( log )x
, x = 0, 1, 2, . . . , (0, 1).
x!

(1)

Indicaci
on: E (X) = log = V (X).
(a) Calcular el estimador n de por el metodo de maxima verosimilitud, probar que es asintoticamente normal y obtener la distribucion asintotica.
(b) Definir la cantidad de informaci
on de Fisher, I(), y explicar muy brevemente su importancia
en la teora estadstica. Calcular el valor de I() para el modelo (1).
P
(c) Probar que E [(n )2 ] log /n. Deducir de aqu que n1/3 (n ) 0.

[3 p.]

2. Una marca de detergente concentrado vende su producto en paquetes cuyo contenido nominal
medio es 800 gramos. Se seleccionan al azar 20 paquetes y se obtiene para ellos un contenido medio
de 793 gr. con una cuasi-desviaci
on tpica de 15. Hay suficiente evidencia estadstica, al nivel 0.05,
para afirmar que la empresa fabricante vende su producto con un peso medio menor que el valor
nominal 800? Indicar si el p-valor del correspondiente contraste es mayor o menor que 0.01. Explicar
claramente las suposiciones que se necesiten para garantizar la validez del procedimiento que se
utilice. [2 p.]

3. Se considera el problema de contrastar H0 : 0 frente a H1 : > 0 a partir de una muestra

de tama
no 100 de una N (, ) (con conocida). Se utiliza para ello el test cuya region crtica es
R = {(x1 , . . . , xn ) : x
> z n }, donde (0, 1) es el nivel de significacion elegido.

Demostrar que la funci


on de potencia () de este test es una funcion monotona creciente en

[0, ). Calcular 0.05 (1) en el caso en que = 2. [1.5 p.]

4. Sea X

una v.a. con distribuci


on geometrica de parametro . Esto significa que X es discreta

con P (X = x) = (1 )x , x = 0, 1, 2, . . .. Se desea estimar a partir de una muestra de tama


no
n de X, usando la metodologa bayesiana. Para ello se supone que la distribucion a priori de

es Beta de par
ametros > 0 y > 0, es decir que la funcion de densidad a priori es () =
(+) 1
(1 )1 I[0,1] ()
()()

(la correspondiente media es /( + )). Calcular el estimador Bayes

de y estudiar su consistencia casi segura.


Indicaci
on: E (X) =

1
.

[2.5 p.]

5. En el directorio de trabajo del R tenemos un fichero con 1000 datos (en dos columnas de 500)
llamado datos.txt. Redactar un c
odigo que realice las siguientes o operaciones:
(a) Leer el fichero datos.txt.
(b) Definir un vector llamado x con los valores de la primera columna y otro llamado y con los de
la segunda.
(c) Dibujar en un mismo gr
afico los dos diagramas de caja de x e y.
(d) Obtener la ecuaci
on de la recta de mnimos cuadrados de y respecto a x (es decir, y debe ser
la variable respuesta).
[1 p.]

Estadstica I
Soluciones a los problemas del examen

10 de enero de 2013

1) (a) El estimador de maxima verosimilitud se obtiene maximizando en la funcion de verosimilitud


P

n ( log ) Xi
.
Ln (X1 , . . . , Xn ; ) =
X1 ! . . . Xn !
Para maximizar en tomamos logaritmos y calculamos la derivada
n
n
1 X

log Ln (X1 , . . . , Xn ; ) = +
Xi

log
i=1

La u
nica soluci
on de la ecuaci
on

log Ln (X1 , . . . , Xn ; ) = 0 es

n = eX .

Este valor corresponde a un m


aximo porque la derivada segunda en n es negativa.

d
Aplicando el TCL sabemos que n(X
E (X)) N (0, ()), siendo () = V (X)1/2 . Como
con g(u) = eu y esta funci
n = g(X)
on es derivable con derivada continua, podemos aplicar el
metodo delta para obtener

g()) N (0, |g 0 ()|()),


n(g(X)

denotando = E (X). En definitiva, hemos obtenido

n(n ) N (0,

(observemos que log > 0 porque (0, 1)).


(b)

Tenemos

log ),



2
I() = E 2 log f (X; )

1
1
log f (X; ) = +
X

log

2
1
X
X
log f (X; ) = 2 2
2
2

log log2


2
1
E (X)
1
E (X)
I() = E 2 log f (X; ) = 2 + 2
= 2
+

log 2 log2
log
La cantidad I() es importante por varios motivos: bajo ciertas condiciones se verifica V (Tn )

1/(nI()) (cota de Frechet-Cramer-Rao) para estimadores insesgados Tn de . Tambien (bajo condiciones de regularidad) el estimador de maxima verosimilitud n verifica

n(n ) N (0, 1/

p
I()),

de manera que I()1 es la varianza de la distribucion asintotica. En efecto, observese que en este
caso I()1 coincide con la varianza de la distribucion lmite obtenida en el apartado anterior.
(c) Si denotamos g(u) = eu ,
g( log ))2 (X
( log ))2 .
(n )2 = (g(X)

()

Para obtener esta desigualdad hemos usado el Teorema del Valor Medio, junto con el hecho de que
|g 0 (u)| = |eu | 1 para u 0.
Tomando esperanzas,

( log ))2 ] = V (X)


= V (X) = log .
E [(n )2 ] E [(X
n
n
Por tanto, dado cualquier  > 0,
P {n1/3 |n | > } = P {n2/3 (n )2 > 2 } (usando la desigualdad de Markov)
n2/3 E [(n )2 ] (usando (*)) n2/3 ( log )
log

= 1/3 2 0,
2
2

n
n 
P

lo que demuestra n1/3 (n ) 0.


2) Supongamos que la v.a. X = contenido de un paquete elegido al azar tiene distribucion N (, ).
Queremos contrastar
H0 : 800 frente a H1 : < 800.

Tenemos una muestra de n = 20 observaciones independientes de la v.a. X para la cual x


= 793,
s = 15. La regi
on crtica del test usual de nivel para este problema es
s
x
800 < tn1;1 .
n

En este caso, x
800 = 7, tn1;1 = t19,0.95 = t19;0.05 = 1.729, s/ n = 15/ 20 = 3.354102.
Por tanto,

s
t19;0.05 = 1.729 3.354102 = 5.799242
n

Como 7 < 5.799241, se concluye que se ha encontrado suficiente evidencia estadstica, al nivel
0.05, para aceptar H1 .

Si consideramos el nivel = 0.01, se tiene t19;0.01 sn = 2.539 3.354102 = 8.516065.

Por tanto, al nivel 0.01 NO se ha encontrado evidencia estadstica suficiente a favor de H1 .


Se concluye que el p-valor debe de ser mayor que 0.01 ya que el p-valor es el nfimo de los valores
del nivel de significaci
on para los cuales se rechaza la hipotesis nula.
3) La funcion de potencia es la probabilidad de rechazar la hipotesis nula:






n

o
X

> z

= P
= P Z > z 10
() = P (R) = P X > z

n
/ n
n
n


= 1 z 10

donde Z es una v.a. N (0, 1) y su funcion de distribucion. Aqu hemos usado que, como X


N , . Se concluye que () es estrictamente creciente porque
N (, ), tenemos que X
10
lo es (ya que la densidad normal es estrictamente positiva en todo R).
Si = 0.05, = 1 y = 2, obtenemos


1
= P{Z > 1.645 5} ' 1.
0.05 (1) = P Z > z0.05 10
2
4) La densidad (|x1 , . . . , xn ) de la distribucion a posteriori de es proporcional a
f (x1 , . . . , xn |) (),
donde
f (x1 , . . . , xn |) =

n
Y
i=1

f (xi |) =

n
Y
i=1

P {X = xi } =

n
Pn
Y
(1 )xi = n (1 ) i=1 xi
i=1

es la funci
on de verosimilitud de la muestra. Como
Pn

f (x1 , . . . , xn |) () = n (1 )

i=1

xi

( + ) 1

(1 )1 I[0,1] ()
()()

y ( + )/()() es simplemente una constante de proporcionalidad (no depende de ), tenemos


que (|x1 , . . . , xn ) es proporcional a
Pn

n+1 (1 )(

i=1

xi )+1

I[0,1] (),

P
que corresponde a una beta de par
ametros n + y ( ni=1 xi ) + . El estimador Bayes de es la

esperanza de esta distribuci


on a posteriori:

Tn (x1 , . . . , xn ) =

n+
P
.
n + + ni=1 xi +

Para probar la consistencia c.s. de Tn , reescribimos el estimador as


Tn (x1 , . . . , xn ) =

n
+ +
n

1+
1+x

c.s.

Recordemos que Tn si y s
olo si 1 = P {w : Tn (X1 (w), . . . , Xn (w)) }, es decir, si
n

la probabilidad del conjunto en el que se da la convergencia de Tn a es uno. Por la ley fuerte de


1+
c.s.

. Ademas el denominador de Tn siempre
los grandes n
umeros sabemos que X
E (X) =
n

ser
a mayor o igual que 1. Por tanto, para todo w salvo en un conjunto de probabilidad 0, se cumple
que
Tn (X1 (w), . . . , Xn (w)) =
c.s.

es decir, Tn .
n

5)
xx<-read.table(datos.txt)
x<-xx$V1
y<-xx$V2
boxplot(x,y)
lm(y ~ x)

1 + n

1 + X(w)
+

+
n

1
= ,
1 + 1+

Estadstica I

Examen

Grado en Matematicas / Doble Grado Matematicas-Ing. Informatica.

14 de junio de 2013

1. La v.a. X = ingresos (en miles de euros) de un habitante elegido al azar en una cierta ciudad
sigue una distribuci
on de Pareto dada por la siguiente densidad:
f (x; ) = 33 x4 ,

0 < < x < .

Sea X1 , . . . , Xn una muestra aleatoria de X. Un economista sugiere que Tn = mn(X1 , . . . , Xn ) es


un posible estimador de . Es Tn un estimador consistente de ? Es insesgado? En caso negativo,
calcula el sesgo. [2 p.]

2. Sea X una v.a. con distribucion Beta(, 1) cuya funcion de densidad es f (x; ) = x1I(0,1)(x),
para > 0.
(a) Calcula la cantidad de informaci
on de Fisher I(). Explica brevemente por que es importante
esta cantidad.
(b) Calcula el estimador de m
axima verosimilitud de (basado en muestras de tama
no n), demuestra que es asint
oticamente normal e identifica completamente su distribucion asintotica.
(c) Calcula el estimador de por el metodo de los momentos e identifica completamente su
distribuci
on asint
otica. Demuestra que la correspondiente varianza asintotica es mayor que la
obtenida en el apartado (b).
(d) Supongamos ahora que se desea contrastar H0 : = 1 frente a H1 : = 2 a partir de una
muestra de tama
no 2, X1 , X2 . Para ello se usa el test de region crtica
R = {(x1 , x2 ) : 4x1 x2 3}.
Calcula el nivel de significaci
on de este test y la probabilidad de error de tipo 2.
[4 p.]

3. En una encuesta realizada a una muestra aleatoria de 1500 personas, el 43 % de los encuestados
se mostraba de acuerdo con endurecer la ley antitabaco.
(a) Calcula el intervalo de confianza de nivel 0.95 para la proporcion p de personas en la poblacion
que est
an de acuerdo con endurecer la ley.
(b) Seg
un los resultados obtenidos, existe evidencia estadstica suficiente para afirmar que la
mayora de los ciudadanos se opone a endurecer la ley? Para responder a la pregunta, calcula
aproximadamente el p-valor del test e interpreta el resultado.
[3p.]

4. Supongamos que se tiene en el directorio de trabajo un fichero llamado datos

que consiste

en una matriz de 200 filas y 10 columnas. Cada fila es una muestra aleatoria de tama
no 10 de la
distribuci
on N (2, 1). Redacta un c
odigo en R

que calcule las medias y las medianas muestrales de

esas 200 muestras, las almacene en dos vectores llamados medias y medianas, respectivamente, y
aproxime los errores cuadr
aticos medios de ambos estimadores del valor del parametro = 2. [1 p.]
n de posible intere
s sobre distribuciones:
Informacio
Distribuci
on normal, N (, ), R, > 0.
Funcion de densidad: f (x) =

1
2


exp 21 2 (x )2 , x R.

Momentos: E(X) = , V (X) = 2 .

Distribuci
on gamma, (a, p), a > 0, p > 0. Cuando p = 1 se denomina distribucion
exponencial de par
ametro a.
p

a
Funcion de densidad: f (x) = (p)
eax xp1 , para x > 0. Aqu (p) denota la llamada funcion
R x p1
gamma, (p) = 0 e x dx que verifica (p + 1) = p(p) para p > 0.

Momentos: E(X) = ap , V (X) =

p
.
a2

Distribuci
on beta, Beta(a, b), a > 0, b > 0.
Funcion de densidad: f (x) =
Momentos: E(X) =

a
a+b ,

(a+b) a1
(1
(a)(b) x

V (X) =

x)b1 , para x (0, 1).

ab
.
(a+b+1)(a+b)2

Estadstica I
Soluciones a los problemas del examen

14 de junio de 2013

1. Determinemos primero E(Tn ). Para ello seguimos los siguientes pasos:


P{X > t} =

f (x) dx =

33 x4 dx =

P{Tn > t} = P{mn(X1 , . . . , Xn ) > t} =

n
Y
i=1

3
t3

si t >

P {Xi > t} =

3n
t3n

Funcion de distribucion de Tn : FTn (t) = P{Tn t} = 1 P{Tn > t} = 1


d
1
Densidad de Tn : fTn (t) = FTn (t) = 3n3n 3n+1
dt
t
Z
3n
t fTn (t) dt =
E(Tn ) =
3n 1

3n
t3n

si t >

Como E(Tn ) 6= el estimador Tn esta sesgado y su sesgo es


Sesgo(Tn ) = E(Tn ) =

1
.
3n 1

Observemos que Sesgo(Tn ) 0 cuando n , as que Tn es asintoticamente insesgado.

Probemos ahora que Tn es consistente en probabilidad: dado  > 0, por la desigualdad de


Markov tenemos que
P{|Tn | > }

E|Tn |

1
=
0 cuando n .

 3n 1

2. a) La cantidad de informacion de Fisher, I(), aparece en


la cota inferior de Frechet-Cramer-Rao (V(Tn ) 1/(n I()) para la varianza de un
estimador insesgado, Tn , de ;
la varianza asintotica, 1/I(), de los estimadores de maxima verosimilitud (bajo
ciertas condiciones de regularidad).
Para la distribucion Beta(,1) tenemos que


2
1
I() = E 2 log f (X; ) = 2 ,

donde hemos utilizado que


log f (x; ) = log + ( 1) log x
1

1
log f (x; ) = + log x.

b) La funcion de verosimilitud es
Ln (; x1 , . . . , xn ) =

n
Y

xi1

i=1

n
Y
i=1

xi

!1

Para calcular el estimador de maxima verosimilitud (e.m.v.) de


n
MV = Pn
i=1 log xi

basta calcular el punto de maximo del logaritmo de la verosimilitud:


log Ln () = n log + ( 1)

n
X

log xi

i=1

d
n X

log Ln () = +
log xi = 0
d

i=1

d2
n
log Ln () = 2 < 0
2
d

Para obtener la distribucion asintotica del e.m.v podemos aplicar el teorema sobre la
eficiencia asintotica de los e.m.v.:
!

1
d
n(MV ) N 0, p
= N (0, ).
I(0 )

Aplicando el metodo delta obtenemos el mismo resultado. Primero observemos que


MV = g(Y ), siendo g(y) = 1/y e Y = log X. Por el TCL sabemos que



1
d
1/2

n(Y EY ) N (0, V (Y )) = N 0,
,

donde hemos utilizado que


Z 1
1
EY =
(log x)x1 dx =

V(Y ) = E(Y 2 ) E2 (Y ) =

1
.
2

Ahora aplicamos el metodo delta:

d
n(MV ) = n(g(Y ) g(EY )) N (0, |g 0 (EY )|V1/2 (Y )) = N (0, ).
c) Para obtener el estimador de por el metodo de los momentos igualamos los momentos
poblacional y muestral de orden 1 de X:
Z 1

MOM = X .
EX =
xx1 dx =
=X

+1
1X
0

Para determinar la distribucion asintotica del estimador aplicamos de nuevo el metodo


y = g(EX), siendo g(x) = x/(1 x). Por tanto,
delta: MOM = g(X)



1/2 ( + 1)
d
0
1/2

n(MOM ) = n(g(X) g(EX)) N (0, |g (EX)|V (X)) = N 0,


( + 2)1/2
Es facil comprobar que la varianza asintotica de MV es menor que la de MOM :
( + 1)2
<
2 ( + 2) ( + 1)2 , lo cual se cumple > 0.
+2
2

1.0

d) Observemos que la region de rechazo del contraste es la que aparece sombreada en la


siguiente figura, es decir, R = {(x1 , x2 ) R2 : 3/4 x1 1, 3/(4x1 ) x2 1}
(3/4,1)

R
(1,3/4)

0.0

0.2

0.4

0.6

0.8

4x1x2 = 3

0.0

0.2

0.4

0.6

0.8

1.0

El nivel de significacion o tama


no del test es la maxima probabilidad de error de tipo
I, es decir, la maxima probabilidad de rechazar H0 siendo cierta. En este caso, como
la hipotesis nula es puntual, el nivel de significacion es simplemente la probabilidad
de rechazar H0 cuando = 1. Observemos que, si = 1, entonces la funcion de
densidad de X es f (x; 1) = 1 si 0 x 1 y la funcion de densidad de la muestra
X1 , X2 es f=1 (x1 , x2 ) = f (x1 ; 1)f (x2 ; 1) = 1 si 0 x1 , x2 1, que corresponde a una
distribucion uniforme en el cuadrado unidad. Por tanto,


3
3
X1 1,
X2 1
P=1 (R)
= P=1
4
4X1

 
Z 1 Z 1
1
3
=
dx2 dx1 =
1 + 3 log
' 0.0342
4
4
3/4 3/(4x1 )
La probabilidad de error de tipo 2 es la probabilidad de aceptar H0 siendo falsa,
es decir, 1 P=2 (R). Para = 2, la funcion de densidad de la muestra X1 , X2 es
f=1 (x1 , x2 ) = f (x1 ; 2)f (x2 ; 2) = 4x1 x2 , si 0 x1 , x2 1. Luego

 
Z 1 Z 1
3
1 7
P=2 (R) =
4x1 x2 dx2 dx1 =
+ 9 log
' 0.1139
8 2
4
3/4 3/(4x1 )
y, en consecuencia, 1 P=2 (R) ' 0.8861.

3. Sea
X=

1 si un encuestado es partidario de endurecer la ley


0 si no

que sigue una distribucion de Bernoulli(p) con 0 < p < 1. Se ha tomado una muestra
x1 , . . . , x1500 que ha proporcionado el dato x = 0.43.
a)

"

IC0.95 (p) = 0.43 1.96

#
0.43(1 0.43)
= [0.043 0.025] = [0.405, 0.455]
1500
3

b) Planteamos el contraste
H0 : p 0.5
H1 : p < 0.5 (la mayora de los ciudadanos se opone a endurecer la ley),
cuya region de rechazo es
(
R=

x 0.5 < z1

siendo

0.52
n

= {z < z1 } = {z > z },

x 0.5
z=p
= 5.42
0.52 /n

el estadstico del contraste. El p-valor del contraste es la probabilidad de que una


N (0, 1) sea mayor que 5.42. Con la informacion de la tabla (P{Z > 3.99} = 0.0010)
llegamos a la conclusion de que el p-valor es menor que 0.0010. Utilizando R (pnorm(-5.42))
obtenemos que el p-valor es 2.979952e-08: es razonable rechazar la hipotesis nula.

4. medias = apply(datos,1,mean)
medianas = apply(datos,1,median)
ECMmedia = (mean(medias)-2)^2 + var(medias)
# Se ha usado que ECM(T)=Sesgo^2(T)+V(T)
ECMmediana = (mean(medianas)-2)^2 + var(medianas)
Otro codigo alternativo (sin usar la funcion apply sino un for, y utilizando directamente
la definicion de ECM: ECM (T ) = E[(T )2 ]), sera
medias<-rep(0,200)
medianas<-rep(0,200)
for (i in 1:200){medias[i]<-mean(datos[i,])}
for (i in 1:200){medianas[i]<-median(datos[i,])}
ECMmedia<-mean((medias-2)^2)
ECMmediana<-mean((medianas-2)^2)

ESTAD
ISTICA I (2013-2014)
Grado en Matem
aticas / Doble grado Ing. Inform
atica/Matem
aticas
Examen final, 18 de enero de 2014

Nombre:
Grupo:

1.

Se desea comparar la concentraci


on observada de tiol (mM) en el lisado sanguneo de dos grupos
de voluntarios, siendo el primer grupo normal (X) y padeciendo el segundo grupo de artritis
reumatoide (Y ). Para ello se analizan los datos con R de la siguiente manera
> X = c(1.84, 1.92, 1.94, 1.92, 1.85, 1.91, 2.07)
> Y = c(2.81, 4.06, 3.62, 3.27, 3.40, 3.76)
> t.test(X,Y,alternative="two.sided",mu=0,paired=FALSE,var.equal=FALSE)
Welch Two Sample t-test
data: X and Y
t = -8.759, df = 5.263, p-value = 0.0002473
alternative hypothesis: true difference in means is not equal to 0
sample estimates:
mean of x mean of y
1.921429 3.486667
a) (1 punto) Que contraste se esta haciendo? Especificar las hipotesis necesarias para garantizar la validez del metodo empleado. Que conclusiones se obtienen acerca del contraste?
b) (1 punto) Calcular un intervalo de confianza al 95 % para la diferencia de concentraciones
medias de tiol entre los dos grupos. Que relacion hay entre este intervalo y el contraste de
(a)?

2.

Sea
f (x; ) = x1 ,

0 < x < 1,

> 0,

la funcion de densidad de una v.a. X con distribucion beta de parametros y 1.


a) (1.5 puntos) Consideremos el contraste de hipotesis
H0 : = 1
H1 : = 2.
Dada una muestra X1 de tama
no n = 1 de X, determina la region de rechazo del test mas
potente con nivel de significaci
on . Para = 0.05 calcula la funcion de potencia de ese test.
Indicaci
on: si X beta(, 1), entonces Y = log(X) sigue una distribucion exponencial de
par
ametro , es decir, la densidad de Y es g(y) = ey , y > 0.
b) (1.5 puntos) A nivel de significacion , cual sera la region de rechazo del test de razon
de verosimilitudes para el siguiente contraste?:
H0 : = 1
H1 : 6= 1
Empleando la tabla de la 2 , hay evidencia P
para rechazar H0 a nivel = 0.05 si, para una
muestra de tama
no n = 50, hemos obtenido 50
i=1 log(xi ) = 19.342?

3.

Sea > 0 un n
umero conocido. Sea x1 , . . . , xn una muestra de una variable aleatoria X con
distribuci
on Weibull de funci
on de densidad

f (x; ) = x1 e x ,
a)
b)
c)
d)

x > 0,

> 0.

(0.5 puntos) Calcular el estimador de por el metodo de los momentos.


(1 punto) Calcular el estimador de maxima verosimilitud (e.m.v.) de .
(1 punto) Determinar la cantidad de informacion de Fisher I().
(2 puntos) Estudiar la consistencia y la normalidad asintotica del e.m.v. determinado en
(b).
e) (0.5 puntos) Define el concepto de estimador eficiente. Estudia la eficiencia del e.m.v. de
determinado en (b).


m
1
m
, donde (t) =
Indicaci
on: Para cualquier entero positivo m, E(X ) = m/ 1 +

Z
xt1 ex dx es la funci
on gamma, y (n) = (n 1)! si n es un entero positivo.
0

ESTAD
ISTICA I (2013-2014)
Grado en Matem
aticas / Doble grado Ing. Inform
atica/Matem
aticas
Examen final, 18 de enero de 2014. SOLUCIONES

1.

a) Se supone que X N (1 , 1 ) e Y N (2 , 2 ) independientes, con 1 6= 2 . El contraste es


H0 : 1 = 2 frente a H1 : 1 6= 2 . La region de rechazo de este contraste es

2
2
s
s1
x y| > tf ;/2
R = |
+ 2 = {|t| > tf ;/2 },

n1 n2
donde

|
x y|
t= q 2
= 8.759
s1
s22
+
n1
n2

es el estadstico del contraste y f = 5 es el entero mas proximo a 5.263 (los grados de


libertad, df). Seg
un la salida de R, el p-valor del contraste es 0.0002473. Por tanto, es
razonable rechazar la hip
otesis nula. Concluimos que la concentracion esperada de tiol es
distinta en el grupo normal y en el grupo con artritis reumatoide.
b) Bajo las mismas hip
otesis que en (1a), el intervalo pedido es

s
2
2
s
s1
IC95 % (1 2 ) = x
y t5,0.025
+ 2 .
n1 n2
Como x
= 1.921429, y = 3.486667 y t = 8.759, tenemos que
Por tanto,

s21
n1

s22
n2

y
t

= 0.1787.

IC95 % (1 2 ) = (1.565238 2.571 0.1787) = (2.024676, 1.105800).

2.

El intervalo no contiene al 0, luego rechazamos la hipotesis nula simple H0 : 1 = 2 al


nivel = 0.05, pues la regi
on de rechazo R de (a) equivale a rechazar H0 cuando 0
/
IC1 (1 2 ).
a) Por el lema de Neyman-Pearson, el test mas potente es el que tiene region de rechazo


fn (x1 , . . . , xn ; = 2)
R=
> k ,
fn (x1 , . . . , xn ; = 1)
Q
donde k se elige de tal manera que P=1 (R) = y fn (x1 , . . . , xn ; ) = ni=1 f (xi ; ) =
Q
n ( ni=1 xi )1 , si 0 x1 , . . . , xn 1, es la funcion de verosimilitud de la muestra. Como
n

{2n

Qn

Y
fn (x1 , . . . , xn ; = 2)
= 2n
xi ,
fn (x1 , . . . , xn ; = 1)
i=1

tenemos que R =
i=1 xi > k }. Si n = 1, entonces R = {2X1 > k } = { log X1 < c },
donde c es una constante tal que
= P=1 (R) = 1

k
.
2

(1)

En la u
ltima igualdad de (1) se ha utilizado que, si = 1, X1 sigue una distribucion uniforme
en [0,1]. Despejando en (1) obtenemos k = 2(1 ) (tambien se poda utilizar la indicacion
del enunciado para obtener c = log(1 )). Por tanto, si n = 1, R = {X1 > 1 }.
Si = 0.05, entonces R = {X1 > 0.95}. La funcion de potencia es la probabilidad de
rechazar la hip
otesis nula: () = P (R) = P { log X1 < log 0.95} = 1 0.95 . Si = 1,
obviamente (1) = 0.05. Si = 2, (2) = 0.0975.

b) El estadstico del contraste de razon de verosimilitudes para el contraste propuesto es


fn (X1 , . . . , Xn ; = 1)
1
n =
=

n
fn (X1 , . . . , Xn ; )

n
Y

xi

i=1

!1

P
siendo = n/ ni=1 log Xi el estimador de maxima verosimilitud (e.m.v.) de . La region de
rechazo de un test con nivel aproximado es R = {2 log n > 21; }. Es sencillo comprobar
P
que 2 log n = 2n(log + 1 1). Si = 0.05, n = 50 y 50
i=1 log(xi ) = 19.342, entonces

= 2.59, 2 log n = 33.66 y


= 3.84, luego rechazamos la hipotesis nula.
1;0.05

3.

a) El estimador de los momentos


=



1
1

1
+

se obtiene igualando los momentos poblacionales y muestrales de orden 1:




1
1

EX = 1/ 1 +
= X.

b) Funci
on de verosimilitud: L(; x1 , . . . , xn ) = n n

n
Y
i=1

xi

Funci
on de logverosimilitud: log L() = n log + log n
Para hallar el punto de m
aximo de la logverosimilitud:

!1
n
Y
i=1

e
xi

Pn

i=1

x
i

!1

n
X

xi

i=1

n X

log L() =
xi = 0,

i=1

de donde obtenemos que = e.m.v.() = n/


c)
I() = E

Pn

i=1 Xi .

2
 2


1
log(f (X; )) = E
log(f
(X;
))
= 2

n
d) Observemos que = Pn

1
= , donde Y1 , . . . , Yn es una muestra de la v.a. Y = X .
Y
1
c.s.
Por la ley fuerte de los grandes n
umeros, sabemos que Y E(Y ) = E(X ) = . Sea

c.s.
g(x) = 1/x. Por el teorema de la aplicacion continua, = g(Y ) g(E(Y )) = . Por lo
tanto, el e.m.v. de es consistente c.s.
Para demostrar la normalidad asintotica de utilizamos el metodo delta:


p

1
1
d

n( ) = n
= n(g(Y ) g(EY )) N (0, |g 0 (EY )| V(Y )) = N (0, ).
n
EY
Y

i=1 Xi

En la u
ltima igualdad hemos utilizado que V(Y ) = E(X 2 ) E2 (X ) = 1/2 .
y su varianza alcanza la cota de
e) Un estimador Tn de es eficiente si es insesgado (E(Tn ) = )
2
1

Frechet-Cramer-Rao: V(Tn ) =
=
. El e.m.v. de no es necesariamente insesgado
nI()
n
(E(1/X)6=1/E(X)) y, por tanto, no podemos decir si es eficiente, pero s es asintoticamente
p

d
eficiente porque n( ) N (0, 1/ I()).
n

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

ndice alfabtico
Asintticamente
insesgado, 20
normal, 25
Box-plot, 4
Cantidad
pivotal, 48
Coeficiente
de asimetra, 4
de correlacin lineal, 10
de Pearson, 10
Condicin
de Borel-Cantelli, 24
Consistencia
casi segura, 23
en probabilidad, 23
fuerte, 23
Convergencia
casi segura, 13
dbil, 12
en distribucin, 12
en probabilidad, 13
Cota
de Frchet-Cramr-Rao, 35
Covarianza muestral, 9
Cuantil, 4
muestral, 21
poblacional, 21
Cuartil, 4
Cuasivarianza
muestral, 20
Datos emparejados, 129
Desigualdad
de Chebichev, 14
de Jensen, 31
de Markov, 14
Desviacin
tpica, 4

Diagrama
de dispersin, 8
Distribucin, 11
F de Fisher, 55
2 , 48
t de Student, 49
a posteriori, 44
a priori, 43
Ecuacin
de verosimilitud, 26
Error
de tipo I, 50
de tipo II, 50
estndar, 18
tpico, 18
Espacio
paramtrico, 22
Esperanza, 11
Estadstico, 18
de Kolmogorov-Smirnov, 15
de contraste, 53
de orden, 21
del contraste de razn de verosimilitudes, 60
Estimador, 22
Bayes, 44
centrado, 19
de mxima verosimilitud, 26
eficiente, 37
insesgado, 19, 23
ncleo, 6
por el mtodo de los momentos, 42
Familia
conjugada, 46
paramtrica CVM, 59
Funcin
cuantlica, 21
de distribucin, 11
158 de 159

Guillermo Julin Moreno


Eduardo Miravalls Sierra

Estadstica I - 13/14 C1 - UAM

de distribucin emprica, 15
de potencia, 50
de verosimilitud, 26
indicatriz, 6
Histograma, 5
Informacin
de Fisher, 35
Intervalo
de confianza, 46
Invarianza del EMV, 30
Lmite
inferior, 5
superior, 5
Lema
de Fischer-Cochran, 49
de Neyman-Pearson, 58
Ley
de los grandes nmeros, 15
Mtodo
delta, 25
Media, 3
de una distribucin, 11
muestral, 18
poblacional, 18
Mediana, 3
Momento, 12
Muestra, 11
homocedstica, 54

Sucesin
consistente, 57
Tamao
de un test, 51
Teorema
central del lmite, 19
de Bayes, 44
de cambio de espacio de integracin,
12
de Glivenko-Cantelli, 15
de la aplicacin continua, 23
de Slutsky, 14
MV1, 31
MV2, 33
MV3, 37
Test
ptimo, 58, 60
Bayesiano, 64
de bondad de ajuste, 61
de cociente de verosimilitudes, 60
insesgado, 57
UMP, 57
Varianza, 3
combinada, 55
muestral, 20
residual, 9
Ventana mvil, 6

Nivel
de significacin, 51
Normalidad
asinttica, 25
p-valor del contraste, 52
Rango
intercuartlico, 4
Recta de regresin, 9
Regin
creble, 49
Regresin lineal
coeficiente de, 9
Residuo, 9
Skewness, 4
Soporte, 31
159 de 159

Anda mungkin juga menyukai