Anda di halaman 1dari 7

Universidad del valle

UNIVERSIDAD DEL VALLE


FACULTAD DE INGENIERÍA
ESCUELA DE ESTADÍSTICA
EJERCICIOS ESTADÍSTICA MATEMÁTICA
PROFESOR: RAFAEL TOVAR

Common Families of Distributions


1. A standard drug is known to be effective in 80 % of the cases in which it is used. A new drug is tested on 100
patients and found to be effective in 85 cases. Is the new drug superior? (Hint: Evaluate the probability of observing
85 or more successes assuming that the new and old drugs are equally effective.)

2. A large number of insects are expected to be attracted to a certain variety of rose plant. A commercial
insecticide is advertised as being 99 % effective. Suppose 2,000 insects infest a rose garden where the insecticide has
been applied, and let X = number of surviving insects.

a) What probability distribution might provide a reasonable model for this experiment?

b) Write down, but do not evaluate, an expression for the probability that fewer than 100 insects survive, using
the model in part (a).

c) Evaluate an approximation to the probability in part (b).

3. Let the number of chocolate chips in a certain type of cookie have a Poisson distribution. We want the pro-
bability that a randomly chosen cookie has at least two chocolate chips to be greater than 0.99. Find the smallest
value of the mean of the distribution that ensures this probability.

4. Two movie theaters compete for the business of 1,000 customers. Assume that each customer chooses between
the movie theaters independently and with “indifference”. Let N denote the number of seats in each theater.

a) Using a binomial model, and an expression for N that will guarantee that the probability of turning away a
customer (because of a full house) is less than 1 %.

b) Use the normal approximation to get a numerical value for N.

9. The Pareto distribution, with parameters α and β, has pdf

βαβ
f (x) = , α < x < ∞, α > 0, β > 0.
xβ+1
a) Verify that f (x) is a pdf.

b) Derive the mean and variance of this distribution.

c) Prove that the variance does not exist if β ≤ 2

10. Many “named” distributions are special cases of the more common distributions already discussed. For each
of the following named distributions derive the form of the pdf, verify that it is a pdf, and calculate the mean and
variance.

a) If X ∼ exponential(β), then Y = X 1/γ has the W eibull(γ, β) distribution, where γ > 0 is a constant.

b) If X ∼ exponential(β), then Y = (2X/β)1/2 has the Rayleigh distribution.

c) If X ∼ gamma(a, b), then Y = 1/X has the inverted gamma IG(a, b) distribution.

Ejercicios 1
Universidad del valle

d) If X ∼ gamma( 32 , β), then Y = (X/β)1/2 has the Maxwell distribution.

13. Show that each of the following families is an exponential family.

a) normal family with either parameter µ or σ known

b) gamma family with either parameter α or β known or both unknown

c) beta family with either parameter α or β known or both unknown

d) Poisson family

e) negative binomial family with r known, 0 < p < 1

Principles of Data Reduction


1. Let X be one observation from a n(0, σ 2 ) population. Is |X| a sufficient statistic?

3. Let X1 , X2 , ..., Xn be a random sample from the pdf


1 −(x−µ)/σ
f (x|µ, σ) = e , µ < x < ∞, 0 < σ < ∞
σ
Find a two-dimensional sufficient statistic for (µ, σ).

4. For each of the following distributions let X1 , X2 , ..., Xn be a random sample. Find a minimal sufficient sta-
tistic for θ.
2
a) f (x|θ) = √1 e−(x−θ) /2 , −∞ < x < ∞, −∞ < θ < ∞ (normal)

b) f (x|θ) = e−(x−θ) , −∞ < x < ∞, −∞ < θ < ∞ (location exponential)

e−(x−θ)
c) f (x|θ) = , −∞ < x < ∞, −∞ < θ < ∞ (logistic)
(1 + e−(x−θ) )2
1
d) f (x|θ) = , −∞ < x < ∞, −∞ < θ < ∞ (Cauchy)
π[1 + (x − θ)2 ]

Point Estimation
1. One observation is taken on a discrete random variable X with pmf f (x|θ), where θ ∈ {1, 2, 3}. Find the MLE
of θ.

x f (x|1) f (x|2) f (x|3)


1 1
0 3 4 0

1 1
1 3 4 0

1 1
2 0 4 4

1 1 1
3 6 4 2

1 1
4 6 0 4

2. Let X1 , ..., Xn be a random sample from a gamma(α, β) population.

Ejercicios 2
Universidad del valle

a) Find the MLE of β, assuming α is known.

b) If α and β are both unknown, there is no explicit formula for the MLEs of α and β but the maximum can
be found numerically. The result in part (a) can be used to reduce the problem to the maximization of a univariate
function. Find the MLEs for α and β for the data in Exercise 5. c)

3. One observation, X, is taken from a n(0, σ 2 ) population.

a) Find an unbiased estimator of σ 2 .

b) Find the MLE of σ.

c) Discuss how the method of moments estimator of σ might be found.

4. Let X1 , ..., Xn be iid whith pdf


1
f (x|θ) = , 0 ≤ x ≤ θ, θ>0
θ
Estimate θ using both the method of moments and maximum likelihood. Calculate the means and variances of the
two estimators. Which one should be preferred and why?

5. The independent random variables X1 , ..., Xn have the common distribution



 0 if x < 0
P (Xi ≤ x|α, β) = ( βx )α if 0 ≤ x ≤ β
1 if x > β

where the parameters α and β are positive.

a) Find a two-dimensional sufficient statistic for (α, β)

b) Find the MLEs of α and β.

c) The length (in millimeters) of cuckoos’ eggs found in hedge sparrow nests can be modeled with this distribu-
tion. For the data 22.0, 23.9, 20.9, 23.8, 25.0, 24.0, 21.7, 23.8, 22.8, 23.1, 23.1, 23.5, 23.0, 23.0 find the MLEs of α and β.

6. Let X1 , ..., Xn be iid with pdf

f (x|θ) = θxθ−1 , 0 ≤ x ≤ 1, 0<θ<∞

a) Find the MLE of θ, and show that its variance → 0 as n → ∞.

b) Find the method of moments estimator of θ.

Teste de Hipótese
1. Denotemos por µ a verdadeira média de nı́vel de radioatividade (picocuries por litro). O valor 5 pCi/L
é considerado como linha divisória entre água segura e não segura. Qual dos seguintes testes recomenda conduzir?
H0 : µ = 5 vs H1 : µ > 5
H0 : µ = 5 vs H1 : µ < 5
Explique seu raciocı́nio em termos dos erros tipo I e II.

2. Os dados correspondem a uma distribuição Bin(n,p). Conduza o seguinte teste.

Ejercicios 3
Universidad del valle

H0 : p = 0.75 vs H1 : p < 0.75. Assuma n=150.

a) Se a p∗ = 0.72 for uma estimativa pontual de p. Determine a força da evidência contida nos dados (π −value).

b) Para o nı́vel de significância α = 0.01 determine a região de rejeição do teste. Verifique se a entimativa p∗
apresenta evidência suficiente para rejeitar H0 ao nı́vel α. Verifique se p∗ pertence à região de rejeição do teste para
o nı́vel α.

3. Suspeita-se da honestidade de um dado de 6 faces. Procurando suporte para tal afirmação considera-se o
número de vezes que a face 2 é obtida numa seqüência de n lançamentos independentes.

a) Determine a hipótese nula H0 e a alternativa H1 .

b) Em n = 20 lançamentos independentes obtem-se 2 vezes a face 2. Calcule a força da evidência contida nos
dados e responda: Para qué nı́veis de significância α, a hipótese H0 é rejeitada?. Interprete. Calcule o π − value
utilizando a aproximação normal e responda: Para qué nı́veis de significância α, a hipótese H0 é rejeitada?. Compare.

c) Em n = 20 lançamentos independentes obtem-se 6 vezes a face 2. Calcule a força da evidência contida nos
dados e determine se os dados resultam significantes ao nı́vel α = 0.1.

5. Suponha que um processo de produção é considerado fora de controle se mais do 3 % dos seus productos resul-
tam defeituosos. Para controlar o processo, de 4 em 4 horas uma amostra ao acaso de 100 productos é inspecionada.

a) Quantos produtos defeituosos precisamos encontrar numa inspeção para poder concluir que há evidência ao
nı́vel α = 0.05, do que o processo esta fora de controle?. Esta é a região crı́tica do teste para α = 0.05.

b) Qual serı́a a região crı́tica do teste para α = 0.05, se no lugar de 100 produtos fossem inspecionados somente
10 produtos?.

11. Para cada situação apresentada a seguir, verifique se os dados apresentam evidência suficiente para rejeitar
a hipótese nula.

a) População normal, n = 15, X̄ = 83.9, s = 18.2, α = 10 %, para o teste H0 : µ = 85 vs H1 : µ < 85.

b) População normal, n = 15, X̄ = 79.1, s = 11.8, α = 10 %, para o teste H0 : µ = 76 vs H1 : µ 6= 76.

c) n = 36, X̄ = 80.4, s = 16.2, α = 5 %, para o teste H0 : µ = 76 vs H1 : µ 6= 76.

Onde s denota a desviação padrão amostral.

12. Sabendo que a resistência à tensão, de uma peça de algodão possui distribuição normal.

a) A resistência é medida em 15 peças selecionadas ao acaso, observandose uma média amostral igual a 39.3
e um desvı́o padrão amostral igual a 2.6. Verifique se os dados são significantes ao nı́vel α = 10 %, para o teste
H0 : µ = 40 vs H1 : µ 6= 40.

b) Determine a região crı́tica dos teste enunciado em a) para α = 10 %.

c) A resistência é medida em 54 peças seleccionadas ao acaso, observandose uma média amostral igual a 42.4
e uma desviação padrão amostral igual a 3.1. Calcule a força da evidência contida nos dados e determine para
qué nı́veis de significância H0 é rejeitada.

d) Melhorias implementadas no tratamento da fibra de algodão permitem suspeitar que a resistência tem au-
mentado. Perante esta afirmação reformule o teste. Se essa resistência foi medida em 15 peças observandose uma
média amostral de 41.3 com uma desviação padrão amostral igual a 2.6. Verifique se os dados são significantes ao

Ejercicios 4
Universidad del valle

nı́vel α = 0.05. Determine a região crı́tica do teste para α = 0.05.

14. Uma empresa mineira acredita que a exploração de urânio é possı́vel numa certa região, isto é, na região a
concentração média de urânio é superior a 10. Admitindo-se que a distribuição desta concentração é normal e que
as medições em 13 pontos selecionados ao acaso na região são.
7.92, 10.29, 19.89, 17.73, 10.36, 13.50, 8.81, 6.18, 7.02, 11.71, 8.33, 9.32, 14.61.

a) Verifique se há evidência suficiente contra a hipótese de abandono da área.

b) Qual serı́a a região crı́tica do teste ao nı́vel de significância α = 2 %?.

16. Um fabricante de aparelhos de TV afirma que são necessários no máximo 250 microamperes (µA) para atin-
gir um certo grau de brilhantismo num tipo de TV. Uma amostra de 20 aparalhos produz um promedio amostral
de X̄ = 257.3µA. Denotemos por m ao verdadeiro promedio de µA necessário para atingir o grau de brilhantismo
desejado e suponhamos que m é a média de uma população normal com σ conhecido e igual a 15.

a) Calcule a força da evideência contida nos dados para o nı́vel α = 0.05 conduzindo o teste cuja hipótese nula
especifica que m é no máximo 250µA.

b) Calcule a região crı́tica do teste para o nı́vel α = 0.05.

c) Se m = 260, Qual é a probabilidade de cometer um erro tipo II?.

d) Para qué valor de n (tamanho amostral) a probabilidade de cometer o erro tipo II resulta igual a 0.01.

Estimação por Intervalo


1. Seja a amostra aleatóira de tamanho 20: 13.736, 14.579, 14.025, 13.542, 14.294, 13.815, 13.615, 13.633, 13.893,
14.105, 14.129, 15.029, 13.814, 14.516, 13.982, 14.174, 13.900, 14.139, 13.822, 13.728 desde uma distribuição Normal
de média desconhecida µ e variância σ 2 .

a) Calcule o 100γ % I.C. para µ sabendo que σ 2 = 0.36, para os nı́veis de confiança γ = 0.9, 0.95, 0.99. Calcule o
cumprimento de cada intervalo de confiança. Evidência alguma relação entre o cumprimento do intervalo e o nı́vel
de confiança?.

b) Calcule o 100γ % I.C. para µ supondo σ 2 desconhecido, para os nı́veis de confiança γ = 0.9, 0.95, 0.99.

2. Seja a amostra aleatóira de tamanho 15: 5.055, 6.916, 5.812, 5.044, 4.914, 5.665, 4.772, 5.502, 3.841, 5.782,
4.579, 5.477, 7.158, 5.254, 5.276 desde uma distribuição Normal de média µ e variância desconhecida σ 2 .

a) Calcule o 100γ % I.C. para σ sabendo que µ = 5, para os nı́veis de confiança γ = 0.9, 0.95, 0.99. Calcule o
cumprimento de cada intervalo de confiança.

b) Calcule o 100γ % I.C. para σ supondo µ desconhecido, para os nı́veis de confiança γ = 0.9, 0.95, 0.99. Calcule
o cumprimento de cada intervalo de confiança.

7. Supóngase que se toma una muestra aleatoria de ocho observaciones de una distribución normal con media
µ y varianza σ 2 desconocidas, y que los valores observados son 3.1, 3.5, 2.6, 3.4, 3.8, 3.0, 2.9 y 2.2. Encuentre el
intervalo de confianza de menor longitud para µ con los siguientes coeficientes de confianza: a) 0.90, b) 0.95 y c) 0.99.

8. Supóngase que X1 , X2 , ..., Xn constituyen una muestra aleatoria de una distribución normal con media µ y
varianza σ 2 desconocidas y sea la variable aleatoria L la longitud del intervalo de confianza más pequeño que se
puede construir para µ a partir de los valores observados de la muestra. Determı́nese el valor de E(L2 ) para los
siguientes valores del tamaño muestral n y coeficiente de confianza γ:

Ejercicios 5
Universidad del valle

a) n = 5, γ = 0.95 b) n = 10, γ = 0.95 c) n = 30, γ = 0.95 d) n = 8, γ = 0.90 e) n = 8, γ = 0.95 f) n = 8, γ = 0.99

9. Supóngase que X1 , X2 , ..., Xn constituyen una muestra aleatoria de una distribución normal, cuya media µ
y varianza σ 2 son desconocidas. Describase un método para construir un intervalo de confianza para σ 2 con un
coeficiente de confianza especifico γ (0 < γ < 1). Sugerencia: Determinese constantes c1 y c2 tales que
 Pn 2

i=1 (Xi − X̄n )
P r c1 < < c2 = γ
σ2
10. Supóngase que X1 , X2 , ..., Xn constituyen una muestra aleatoria de una distribución exponencial, cuya media
µ es desconocida. Describase un método para construir un intervalo de confianza para µ con un coeficiente de
confianza especifico γ (0 < γ < 1). Sugerencia: Determinese constantes c1 y c2 tales que
 Pn 
Xi
P r c1 < i=1 < c2 = γ
µ

Ejercicios de casos
Para cada una de las siguientes situaciones, plantee el modelo estadı́stico asociado y obtenga el estimador per-
tinente.

1. En estudios de validación de procedimientos para diagnóstico clı́nico, se evalúa la eficiencia de un nuevo proce-
dimiento clasificador con miras a ser usado como prueba de tamizaje pues se considera barato y sencillo de aplicar,
pero con probabilidad de equivocarse en la clasificación de los individuos. Los estudios de validación pueden ser rea-
lizados desde dos perspectivas si se considera la forma como son recogidos los datos en campo, de modo que pueden
ajustarse a un diseño de cohorte o a un diseño de casos y controles. En el primero de los casos, se toma un número fijo
de sujetos (muestra) y a cada individuo se le aplica el procedimiento clasificador nuevo y un procedimiento adicional
generalmente, costoso y/o invasivo para el paciente que puede ser aplicado con restricciones éticas, pero que tiene la
ventaja de clasificar a los individuos como positivos o negativos para la enfermedad (evento de interés) sin equivoca-
ción alguna. A este tipo de procedimiento se le denomina Patrón de oro o Gold Standard. Por otro lado, es posible
usar un diseño de casos y controles, es decir, se toman dos grupos establecidos de individuos, un grupo de enfermos
y un grupo de no enfermos. A los individuos de cada uno de los grupos se les aplica el nuevo método de clasificación.

2. Se quiere estudiar la distribución de casos de una enfermedad X en individuos menores de 15 años para las
comunas de la ciudad de Cali. De acuerdo con la información brindada por un grupo de especialistas en la enfer-
medad X que laboran en un reconocido centro médico de la ciudad, se va a obtener los datos sobre los casos de
enfermedad de todos los centros médicos, clı́nicas y centros de salud de cada comuna. Inicialmente se asume que
existe una sobredispersión en los datos colectados y se estima la cantidad esperada de casos por año (se tienen datos
de 10 años y puede haber sobredispersión debido a los centros médicos y/o a las comunas). Asuma que después de
obtenidas las estimaciones se realiza un test de hipótesis y se llega a la conclusión de que no hay sobredispersión
debida a los centros de atención médica, pero si debida a las comunas. Estime el parámetro de interés para la ciudad.

3. Un médico oncólogo ha recolectado durante cinco años de trabajo, datos relacionados con los tiempos trans-
curridos desde el momento en que a un paciente se le realiza un tratamiento para el cáncer y el momento en que
hace recaida (aparecen células malignas en alguna parte del cuerpo).

4. Un economista especialista en temas de migración y retorno, está realizando un estudio para estimar la
probabilidad de ser un retornado emprendedor en tres regiones de Colombia (R1 , R2 , R3 ). Toma una muestra
P de n
individuos, distribuida proporcionalmente entre las regiones, con pesos p1 en R1 y p2 en R2 (0 ≤ pj ≤ 1 y pj = 1).
Adicionalmente se cuenta con la información de dos covariables cada una con respuesta binaria.

5. Un ingeniero industrial quiere establecer los parámetros de desempeño de una planta embotelladora de ga-
seosas. Para esto, toma como variable de interés la cantidad de lı́quido presente en una botella de 360ml. Hace
un muestreo entre las tres marcas de gaseosas que se venden en la planta y toma n botellas de cada marca. El
departamento de control de calidad de la empresa tiene establecido que la cantidad de lı́quido no debe sobrepasar
en 3ml (por encima y por debajo) la cantidad etiquetada en la botella.

Ejercicios 6
Universidad del valle

6. Un médico veterinario desea estimar la prevalencia de infección de la bacteria Staphylococcus aureus, para
ello realizó mediciones en muestras de leche de 361 vacas de Hatos del Valle del Cauca (mediciones de presencia o
no de la bacteria en el cuarto mamario). No todas las vacas tienen la misma cantidad de cuartos mamarios, el 40 %
de ellas poseen los 4, el 30 % 3, el 25 % posee 2 y el 5 % posee uno. Plantee el modelo estadı́stico para realizar las
estimaciones por vaca y por hato.

Ejercicios 7

Anda mungkin juga menyukai