2. A large number of insects are expected to be attracted to a certain variety of rose plant. A commercial
insecticide is advertised as being 99 % effective. Suppose 2,000 insects infest a rose garden where the insecticide has
been applied, and let X = number of surviving insects.
a) What probability distribution might provide a reasonable model for this experiment?
b) Write down, but do not evaluate, an expression for the probability that fewer than 100 insects survive, using
the model in part (a).
3. Let the number of chocolate chips in a certain type of cookie have a Poisson distribution. We want the pro-
bability that a randomly chosen cookie has at least two chocolate chips to be greater than 0.99. Find the smallest
value of the mean of the distribution that ensures this probability.
4. Two movie theaters compete for the business of 1,000 customers. Assume that each customer chooses between
the movie theaters independently and with “indifference”. Let N denote the number of seats in each theater.
a) Using a binomial model, and an expression for N that will guarantee that the probability of turning away a
customer (because of a full house) is less than 1 %.
βαβ
f (x) = , α < x < ∞, α > 0, β > 0.
xβ+1
a) Verify that f (x) is a pdf.
10. Many “named” distributions are special cases of the more common distributions already discussed. For each
of the following named distributions derive the form of the pdf, verify that it is a pdf, and calculate the mean and
variance.
a) If X ∼ exponential(β), then Y = X 1/γ has the W eibull(γ, β) distribution, where γ > 0 is a constant.
c) If X ∼ gamma(a, b), then Y = 1/X has the inverted gamma IG(a, b) distribution.
Ejercicios 1
Universidad del valle
d) Poisson family
4. For each of the following distributions let X1 , X2 , ..., Xn be a random sample. Find a minimal sufficient sta-
tistic for θ.
2
a) f (x|θ) = √1 e−(x−θ) /2 , −∞ < x < ∞, −∞ < θ < ∞ (normal)
2π
e−(x−θ)
c) f (x|θ) = , −∞ < x < ∞, −∞ < θ < ∞ (logistic)
(1 + e−(x−θ) )2
1
d) f (x|θ) = , −∞ < x < ∞, −∞ < θ < ∞ (Cauchy)
π[1 + (x − θ)2 ]
Point Estimation
1. One observation is taken on a discrete random variable X with pmf f (x|θ), where θ ∈ {1, 2, 3}. Find the MLE
of θ.
1 1
1 3 4 0
1 1
2 0 4 4
1 1 1
3 6 4 2
1 1
4 6 0 4
Ejercicios 2
Universidad del valle
b) If α and β are both unknown, there is no explicit formula for the MLEs of α and β but the maximum can
be found numerically. The result in part (a) can be used to reduce the problem to the maximization of a univariate
function. Find the MLEs for α and β for the data in Exercise 5. c)
c) The length (in millimeters) of cuckoos’ eggs found in hedge sparrow nests can be modeled with this distribu-
tion. For the data 22.0, 23.9, 20.9, 23.8, 25.0, 24.0, 21.7, 23.8, 22.8, 23.1, 23.1, 23.5, 23.0, 23.0 find the MLEs of α and β.
Teste de Hipótese
1. Denotemos por µ a verdadeira média de nı́vel de radioatividade (picocuries por litro). O valor 5 pCi/L
é considerado como linha divisória entre água segura e não segura. Qual dos seguintes testes recomenda conduzir?
H0 : µ = 5 vs H1 : µ > 5
H0 : µ = 5 vs H1 : µ < 5
Explique seu raciocı́nio em termos dos erros tipo I e II.
Ejercicios 3
Universidad del valle
a) Se a p∗ = 0.72 for uma estimativa pontual de p. Determine a força da evidência contida nos dados (π −value).
b) Para o nı́vel de significância α = 0.01 determine a região de rejeição do teste. Verifique se a entimativa p∗
apresenta evidência suficiente para rejeitar H0 ao nı́vel α. Verifique se p∗ pertence à região de rejeição do teste para
o nı́vel α.
3. Suspeita-se da honestidade de um dado de 6 faces. Procurando suporte para tal afirmação considera-se o
número de vezes que a face 2 é obtida numa seqüência de n lançamentos independentes.
b) Em n = 20 lançamentos independentes obtem-se 2 vezes a face 2. Calcule a força da evidência contida nos
dados e responda: Para qué nı́veis de significância α, a hipótese H0 é rejeitada?. Interprete. Calcule o π − value
utilizando a aproximação normal e responda: Para qué nı́veis de significância α, a hipótese H0 é rejeitada?. Compare.
c) Em n = 20 lançamentos independentes obtem-se 6 vezes a face 2. Calcule a força da evidência contida nos
dados e determine se os dados resultam significantes ao nı́vel α = 0.1.
5. Suponha que um processo de produção é considerado fora de controle se mais do 3 % dos seus productos resul-
tam defeituosos. Para controlar o processo, de 4 em 4 horas uma amostra ao acaso de 100 productos é inspecionada.
a) Quantos produtos defeituosos precisamos encontrar numa inspeção para poder concluir que há evidência ao
nı́vel α = 0.05, do que o processo esta fora de controle?. Esta é a região crı́tica do teste para α = 0.05.
b) Qual serı́a a região crı́tica do teste para α = 0.05, se no lugar de 100 produtos fossem inspecionados somente
10 produtos?.
11. Para cada situação apresentada a seguir, verifique se os dados apresentam evidência suficiente para rejeitar
a hipótese nula.
12. Sabendo que a resistência à tensão, de uma peça de algodão possui distribuição normal.
a) A resistência é medida em 15 peças selecionadas ao acaso, observandose uma média amostral igual a 39.3
e um desvı́o padrão amostral igual a 2.6. Verifique se os dados são significantes ao nı́vel α = 10 %, para o teste
H0 : µ = 40 vs H1 : µ 6= 40.
c) A resistência é medida em 54 peças seleccionadas ao acaso, observandose uma média amostral igual a 42.4
e uma desviação padrão amostral igual a 3.1. Calcule a força da evidência contida nos dados e determine para
qué nı́veis de significância H0 é rejeitada.
d) Melhorias implementadas no tratamento da fibra de algodão permitem suspeitar que a resistência tem au-
mentado. Perante esta afirmação reformule o teste. Se essa resistência foi medida em 15 peças observandose uma
média amostral de 41.3 com uma desviação padrão amostral igual a 2.6. Verifique se os dados são significantes ao
Ejercicios 4
Universidad del valle
14. Uma empresa mineira acredita que a exploração de urânio é possı́vel numa certa região, isto é, na região a
concentração média de urânio é superior a 10. Admitindo-se que a distribuição desta concentração é normal e que
as medições em 13 pontos selecionados ao acaso na região são.
7.92, 10.29, 19.89, 17.73, 10.36, 13.50, 8.81, 6.18, 7.02, 11.71, 8.33, 9.32, 14.61.
16. Um fabricante de aparelhos de TV afirma que são necessários no máximo 250 microamperes (µA) para atin-
gir um certo grau de brilhantismo num tipo de TV. Uma amostra de 20 aparalhos produz um promedio amostral
de X̄ = 257.3µA. Denotemos por m ao verdadeiro promedio de µA necessário para atingir o grau de brilhantismo
desejado e suponhamos que m é a média de uma população normal com σ conhecido e igual a 15.
a) Calcule a força da evideência contida nos dados para o nı́vel α = 0.05 conduzindo o teste cuja hipótese nula
especifica que m é no máximo 250µA.
d) Para qué valor de n (tamanho amostral) a probabilidade de cometer o erro tipo II resulta igual a 0.01.
a) Calcule o 100γ % I.C. para µ sabendo que σ 2 = 0.36, para os nı́veis de confiança γ = 0.9, 0.95, 0.99. Calcule o
cumprimento de cada intervalo de confiança. Evidência alguma relação entre o cumprimento do intervalo e o nı́vel
de confiança?.
b) Calcule o 100γ % I.C. para µ supondo σ 2 desconhecido, para os nı́veis de confiança γ = 0.9, 0.95, 0.99.
2. Seja a amostra aleatóira de tamanho 15: 5.055, 6.916, 5.812, 5.044, 4.914, 5.665, 4.772, 5.502, 3.841, 5.782,
4.579, 5.477, 7.158, 5.254, 5.276 desde uma distribuição Normal de média µ e variância desconhecida σ 2 .
a) Calcule o 100γ % I.C. para σ sabendo que µ = 5, para os nı́veis de confiança γ = 0.9, 0.95, 0.99. Calcule o
cumprimento de cada intervalo de confiança.
b) Calcule o 100γ % I.C. para σ supondo µ desconhecido, para os nı́veis de confiança γ = 0.9, 0.95, 0.99. Calcule
o cumprimento de cada intervalo de confiança.
7. Supóngase que se toma una muestra aleatoria de ocho observaciones de una distribución normal con media
µ y varianza σ 2 desconocidas, y que los valores observados son 3.1, 3.5, 2.6, 3.4, 3.8, 3.0, 2.9 y 2.2. Encuentre el
intervalo de confianza de menor longitud para µ con los siguientes coeficientes de confianza: a) 0.90, b) 0.95 y c) 0.99.
8. Supóngase que X1 , X2 , ..., Xn constituyen una muestra aleatoria de una distribución normal con media µ y
varianza σ 2 desconocidas y sea la variable aleatoria L la longitud del intervalo de confianza más pequeño que se
puede construir para µ a partir de los valores observados de la muestra. Determı́nese el valor de E(L2 ) para los
siguientes valores del tamaño muestral n y coeficiente de confianza γ:
Ejercicios 5
Universidad del valle
9. Supóngase que X1 , X2 , ..., Xn constituyen una muestra aleatoria de una distribución normal, cuya media µ
y varianza σ 2 son desconocidas. Describase un método para construir un intervalo de confianza para σ 2 con un
coeficiente de confianza especifico γ (0 < γ < 1). Sugerencia: Determinese constantes c1 y c2 tales que
Pn 2
i=1 (Xi − X̄n )
P r c1 < < c2 = γ
σ2
10. Supóngase que X1 , X2 , ..., Xn constituyen una muestra aleatoria de una distribución exponencial, cuya media
µ es desconocida. Describase un método para construir un intervalo de confianza para µ con un coeficiente de
confianza especifico γ (0 < γ < 1). Sugerencia: Determinese constantes c1 y c2 tales que
Pn
Xi
P r c1 < i=1 < c2 = γ
µ
Ejercicios de casos
Para cada una de las siguientes situaciones, plantee el modelo estadı́stico asociado y obtenga el estimador per-
tinente.
1. En estudios de validación de procedimientos para diagnóstico clı́nico, se evalúa la eficiencia de un nuevo proce-
dimiento clasificador con miras a ser usado como prueba de tamizaje pues se considera barato y sencillo de aplicar,
pero con probabilidad de equivocarse en la clasificación de los individuos. Los estudios de validación pueden ser rea-
lizados desde dos perspectivas si se considera la forma como son recogidos los datos en campo, de modo que pueden
ajustarse a un diseño de cohorte o a un diseño de casos y controles. En el primero de los casos, se toma un número fijo
de sujetos (muestra) y a cada individuo se le aplica el procedimiento clasificador nuevo y un procedimiento adicional
generalmente, costoso y/o invasivo para el paciente que puede ser aplicado con restricciones éticas, pero que tiene la
ventaja de clasificar a los individuos como positivos o negativos para la enfermedad (evento de interés) sin equivoca-
ción alguna. A este tipo de procedimiento se le denomina Patrón de oro o Gold Standard. Por otro lado, es posible
usar un diseño de casos y controles, es decir, se toman dos grupos establecidos de individuos, un grupo de enfermos
y un grupo de no enfermos. A los individuos de cada uno de los grupos se les aplica el nuevo método de clasificación.
2. Se quiere estudiar la distribución de casos de una enfermedad X en individuos menores de 15 años para las
comunas de la ciudad de Cali. De acuerdo con la información brindada por un grupo de especialistas en la enfer-
medad X que laboran en un reconocido centro médico de la ciudad, se va a obtener los datos sobre los casos de
enfermedad de todos los centros médicos, clı́nicas y centros de salud de cada comuna. Inicialmente se asume que
existe una sobredispersión en los datos colectados y se estima la cantidad esperada de casos por año (se tienen datos
de 10 años y puede haber sobredispersión debido a los centros médicos y/o a las comunas). Asuma que después de
obtenidas las estimaciones se realiza un test de hipótesis y se llega a la conclusión de que no hay sobredispersión
debida a los centros de atención médica, pero si debida a las comunas. Estime el parámetro de interés para la ciudad.
3. Un médico oncólogo ha recolectado durante cinco años de trabajo, datos relacionados con los tiempos trans-
curridos desde el momento en que a un paciente se le realiza un tratamiento para el cáncer y el momento en que
hace recaida (aparecen células malignas en alguna parte del cuerpo).
4. Un economista especialista en temas de migración y retorno, está realizando un estudio para estimar la
probabilidad de ser un retornado emprendedor en tres regiones de Colombia (R1 , R2 , R3 ). Toma una muestra
P de n
individuos, distribuida proporcionalmente entre las regiones, con pesos p1 en R1 y p2 en R2 (0 ≤ pj ≤ 1 y pj = 1).
Adicionalmente se cuenta con la información de dos covariables cada una con respuesta binaria.
5. Un ingeniero industrial quiere establecer los parámetros de desempeño de una planta embotelladora de ga-
seosas. Para esto, toma como variable de interés la cantidad de lı́quido presente en una botella de 360ml. Hace
un muestreo entre las tres marcas de gaseosas que se venden en la planta y toma n botellas de cada marca. El
departamento de control de calidad de la empresa tiene establecido que la cantidad de lı́quido no debe sobrepasar
en 3ml (por encima y por debajo) la cantidad etiquetada en la botella.
Ejercicios 6
Universidad del valle
6. Un médico veterinario desea estimar la prevalencia de infección de la bacteria Staphylococcus aureus, para
ello realizó mediciones en muestras de leche de 361 vacas de Hatos del Valle del Cauca (mediciones de presencia o
no de la bacteria en el cuarto mamario). No todas las vacas tienen la misma cantidad de cuartos mamarios, el 40 %
de ellas poseen los 4, el 30 % 3, el 25 % posee 2 y el 5 % posee uno. Plantee el modelo estadı́stico para realizar las
estimaciones por vaca y por hato.
Ejercicios 7