FACULTAD DE AGRONOMA
Universidad del Tolima
Estadstica General
Para las carreras de Agronoma, Agroindustrial
Pgina 1
INTRODUCCIN A LA ESTADSTICA
Estadstica: la ciencia de la obtencin y anlisis de datos.
Como en cualquier otra rama de la ingeniera, en las ciencias agropecuarias nos encontramos con
situaciones que se presentan como un problema a resolver, un ingeniero que debe abordar la tarea
y un conjunto de herramientas de las cuales el ingeniero podr valerse para realizar su tarea. Y
entre las herramientas con las cuales el ingeniero puede contar se encuentra la Estadstica con
todo su bagaje terico y metodolgico.
La teora estadstica se apoya en la Matemtica de la cual puede considerarse una rama y
los mtodos estadsticos son las herramientas que el ingeniero puede usar para responder preguntas tales como a cuntas personas debera encuestarse antes de una eleccin como para poder
hacer una prediccin vlida del resultado de la votacin? o cul de varios herbicidas es el ms
recomendable con vistas al control de una determinada maleza de los cultivos de maz?
Ahora, cundo ser necesario recurrir a los mtodos estadsticos? Los mtodos estadsticos sern tiles en todas aquellas situaciones en las cuales deban tomarse decisiones o hacer
elecciones o emitir opiniones bajo incertidumbre. Es decir, dada una determinada cantidad y calidad de informacin, debe decidirse el camino a seguir y para ello, la Estadstica provee los elementos necesarios para que esas decisiones puedan ser tomadas en forma racional. A su vez, el grado de racionalidad de las decisiones estar determinado por la calidad y cantidad de teora y de la
calidad y cantidad de mtodos de extraccin y anlisis de la informacin de los que se disponga. En este curso elemental e introductorio, expondremos los elementos bsicos de la teora estadstica y de los mtodos que se sustentan sobre ella buscando, en todo momento, enfocarlos
sobre las aplicaciones prcticas ms comunes en la ingeniera agronmica.
La situacin ms comn en la que el ingeniero suele encontrarse es aquella en cual dispone de un conjunto de datos extrados de una masa de informacin mucho ms grande y, probablemente, desconocida y de los cuales debe obtener algn tipo de informacin especfica que responda a sus intereses o interrogantes. Las dudas o interrogantes estarn referidos, la inmensa
mayora de las veces, a una poblacin grande y por grande estamos entendiendo que la poblacin est compuesta por una cantidad de unidades inabarcable por parte del analista y de la
cual deber extraerse una pequea cantidad de unidades denominada muestra.
Podemos definir a la poblacin como un conjunto de elementos fsicos o conceptuales
acerca de los cuales se desea extraer informacin a travs de uno o ms procedimientos. Por
ejemplo, todas las plantas de lamo en explotacin comercial en el delta del Paran.
Por otra parte, una muestra es el conjunto de unidades experimentales realmente observadas o consideradas en un procedimiento de extraccin de informacin. Ejemplo: un conjunto de
50 plantas de lamo que fueron observadas en una dada localidad del delta del Paran en un momento determinado.
Finalmente, una unidad experimental es la mnima cantidad de elementos de una poblacin pasibles de ser observados o considerados en un procedimiento de extraccin de informacin.
Ejemplo: cada planta de lamo en explotacin comercial en el delta del Paran.
En la poblacin est contenida la masa total de informacin que sera deseable (pero,
quizs, imposible) conocer totalmente. En la muestra, est contenida la porcin de informacin que
resulta posible conocer enteramente (los datos) y que servir para, mtodos estadsticos mediante,
deducir o conjeturar cmo es todo el resto de la informacin de la poblacin. A veces, se conoce
toda la informacin contenida en la poblacin. Se trata de poblaciones pequeas o de poblaciones
que, an siendo grandes, admiten, por una u otra razn ser accedidas por el investigador y, por
tanto, en esos casos, puede conocerse toda la informacin y no es necesario tomar ninguna muestra, sino que, directamente, se realiza un censo de toda la poblacin.
Tanto la informacin contenida en una muestra como la contenida en la poblacin total estarn referidas a una o varias magnitudes o variables y pueden ser reducidas o resumidas por una
o unas pocas medidas que las representen. Es decir, comnmente, no es necesario conocer todos
y cada uno de los valores de las variables de inters sino que bastar con conocer solamente alguna medida resumen de ellos. Las medidas resumen que se calculan a partir de los datos de la
Pgina 2
Pgina 3
Figura 1.1.
Pgina 4
Escala nominal.
En la escala nominal, las unidades experimentales slo pueden ser clasificadas en categoras sin
ningn ordenamiento ni jerarqua entre ellas. Es aplicable a variables cualitativas. Ejemplos: ciudad
natal, apellido, color de cabello, color de flor, etc.
Escala de intervalo.
En las escala de intervalo, las unidades experimentales pueden ser clasificadas en categoras las
cuales pueden ser ordenadas o jerarquizadas y, adems, se pueden establecer diferencias entre
categoras. Esta escala es aplicable a las variables cuantitativas discretas. Ejemplos: nmero de
personas con empleo, nmero de plantas con flor, etc.
Escala continua.
En la escala continua, las unidades experimentales pueden ser clasificadas en categoras que
pueden ser ordenadas o jerarquizadas y, adems, se pueden establecer diferencias entre categoras y las variables pueden tomar cualquier valor real. Slo es aplicable a las variables cuantitativas
continuas. Ejemplos: gramos de harina, litros de aceite, tiempo de decantacin, etc.
Pgina 5
DESCRIPCIN DE LA INFORMACIN
Tal como lo hemos apuntado en el captulo 1, el proceso de extraccin de informacin consiste, en
la mayora de los casos, en la obtencin de una muestra aleatoria de una poblacin grande y, una
vez obtenida la muestra, se procede al estudio de la informacin que ella contiene. El estudio de la
muestra comienza con la que se denomina descripcin de la informacin la cual consiste, a su
vez, en la presentacin, organizacin y resumen de los datos de la muestra.
56.0
41.0
53.1
46.0
40.2
53.8
47.7
51.6
44.4
52.7
44.6
51.5
47.2
47.5
44.0
50.0
48.4
54.0
46.0
51.3
54.3
52.5
53.8
53.7
54.6
59.6
60.0
55.3
39.7
43.0
42.0
39.7
44.6
42.6
43.0
39.0
46.9
41.6
43.3
46.7
39.0
39.7
39.7
40.0
40.2
41.0
41.6
42.0
42.6
43.0
43.0
43.0
43.3
44.0
44.4
44.6
44.6
44.9
45.2
45.6
46.0
46.0
46.1
46.4
46.7
46.7
46.9
47.2
47.5
47.6
47.7
47.7
48.3
48.4
49.0
49.0
49.5
50.0
50.0
50.1
50.6
51.0
51.0
51.1
51.1
51.2
51.3
51.4
51.4
51.5
51.6
51.7
51.8
51.8
52.0
52.3
52.3
52.5
52.5
52.6
Pgina 6
52.7 55.3
52.7 55.3
53.0 55.4
53.0 55.4
53.1 55.5
53.3 56.0
53.5 56.3
53.7 56.5
53.8 57.2
53.8 58.0
54.0 58.7
54.2 59.1
54.3 59.6
54.3 60.0
54.4 60.7
54.4 61.0
54.6 61.0
54.7 63.8
55.0 64.6
55.1 65.2
Una forma muy simple de organizar la informacin contenida en los datos consiste en
disponerlos en orden a su magnitud, es decir, clasificarlos en orden ascendente o descendente. En
el Cuadro 2.2 se han dispuesto las 100 mediciones del Cuadro 2.1 en orden ascendente.
Con los datos clasificados como en el Cuadro 2.2 se pueden hacer algunas cosas ms que
con los datos crudos como, por ejemplo, detectar cules son los valores mximo y mnimo del
conjunto o ver si hay alguna discontinuidad en la secuencia de los nmeros, o ver si los nmeros
tienen alguna tendencia a agruparse en alguna zona determinada. Pero, an con las ventajas que
presenta, en la mayora de los casos la clasificacin no le basta al investigador o al ingeniero para
alcanzar sus objetivos. Un paso ms decisivo en ese sentido lo representa la condensacin de los
datos en una tabla o distribucin de frecuencias. En el Cuadro 2.3 se presenta la tabla de
frecuencia correspondiente a los datos de los Cuadros 2.1 y 2.2.
Cuadro 2.3. Tabla de frecuencias correspondiente a los datos de los cuadros 2.1 y 2.2.
Punto medio
(mi)
37.5
42.5
47.5
52.5
57.5
62.5
67.5
Clase
(35 40]
(40 45]
(45 50]
(50 55]
(55 60]
(60 65]
(65 70)
Total
Frecuencia de
clase (fi)
4
14
21
40
15
5
1
100
Pgina 7
en unos pocos nmeros. Finalmente, la tabla de frecuencias hace mucho ms fcil la obtencin de
grficos representativos de la distribucin de los datos en la muestra o en la poblacin.
Representaciones grficas
Existen muchas maneras de representar grficamente una distribucin de frecuencias. En este
curso veremos tres de las ms importantes: el histograma, el polgono de frecuencias y el
diagrama de caja y bigotes. Un histograma es una representacin en la cual se inscriben en el
eje de abscisas los valores de la variable en estudio y en el eje de ordenadas los valores de las
frecuencias. El histograma correspondiente a los datos del Cuadro 2.3 se presenta en la figura
siguiente:
Pgina 8
(a)
(c)
(b)
(d)
El tercer tipo de representacin que veremos es el diagrama de caja y bigotes. Este tipo
de grfico presenta los valores de la variable en el eje de ordenadas, contrariamente al histograma
y al polgono que presentan los valores de la variable sobre el eje de abscisas. Consiste en una
caja que representa el 50% central de la distribucin de los datos ordenados, es decir, desde el
dato que deja por detrs suyo (en orden ascendente) al 25% de los datos, hasta el dato que deja
por detrs suyo (en orden ascendente) al 75% de los datos. Mediante los bigotes pueden
representarse diferentes medidas aunque lo ms comn es que se represente a los valores
mximo y mnimo de la distribucin. Finalmente, mediante un smbolo especial (una estrella, un
segmento, un cuadrado, etc.) se representa la mediana de la distribucin, es decir, el valor que
Pgina 9
tiene por debajo suyo al menos el 50% de los datos y por encima al menos el otro 50%.
Definiremos ms delante a la mediana. En la siguiente figura se presenta el diagrama de caja y
bigotes de la distribucin de frecuencias del Cuadro 2.3.
Frecuencias relativas
Las frecuencias relativas se obtienen a partir de las frecuencias absolutas de una manera muy
simple: se divide cada frecuencia absoluta por el nmero total de datos de la muestra (o de la
poblacin), es decir, fi/n fi/N y se las denota como fri. En el siguiente cuadro se presenta la
distribucin de frecuencias relativas correspondiente a los datos de dimetro.
Cuadro 2.4. Frecuencias relativas correspondientes a los datos de dimetro de
espigas de maz. (Muestra 1)
Clase
(35 40]
(40 45]
(45 50]
(50 55]
(55 60]
(60 65]
(65 70]
Total
100
Frecuencia
(fi)
Frecuencia
relativa (fri)
4
14
21
40
15
5
1
0.040
0.140
0.210
0.400
0.150
0.050
0.010
1.000
Pgina 10
Los
polgonos
de
Frecuencia
Frecuencia
frecuencias
de
Clase
(fi)
relativa (fi)
ambas
(35 40]
5
0.025
distribuciones
(40 45]
10
0.050
permitirn
observar cul
(45 50]
37
0.185
es la utilidad
(50 55]
70
0.350
del clculo de
(55 60]
40
0.200
las
(60 65]
29
0.145
frecuencias
(65 70]
9
0.045
relativas. En
la figura 2.5.
Total
200
1.000
se presentan
las frecuencias absolutas de ambas distribuciones y, como puede verse claramente, ambos
polgonos no se pueden comparar, simplemente, porque la segunda muestra es ms grande que la
primera y, por esta razn, el polgono de frecuencias absolutas refleja este hecho.
En cambio, si graficamos los polgonos de frecuencias relativas de ambas muestras la
comparacin resulta vlida y pueden verse las diferencias entre ambas muestras sobre una base
homognea. En la figura 2.6. pueden verse los polgonos de las frecuencias relativas de ambas
muestras y se nota claramente como, por ejemplo, en la muestra 2 las espigas con dimetros
superiores son un poco ms frecuentes, en trminos relativos, que en la muestra 1 mientras que
las espigas con dimetros bajos son menos frecuentes, en general, en la muestra 1 que en la
muestra 2.
Figura 2.5. Polgonos de
frecuencias absolutas de la
muestra 1 y la muestra 2.
Frecuencias acumuladas
Dagoberto Salgado Horta
Pgina 11
Muchas veces, el inters del investigador no est puesto en la frecuencia absoluta o relativa de un
determinado valor o intervalo de clase sino en el conjunto de valores que est por encima o por
debajo de un valor especfico. Por ejemplo, el nmero o porcentaje de animales de un rodeo que
pesa, por lo menos, 350 kg, o el nmero de plantas de trigo que presentan, a lo sumo, dos espigas
infectadas por un hongo patgeno. Para poder contestar rpidamente este tipo de preguntas se
calculan las denominadas frecuencias acumuladas, tanto absolutas como relativas.
El clculo de las frecuencias acumuladas (Fi o Fi/n) se puede hacer en forma ascendente o
descendente y es muy simple: en el primer caso, consiste en acumular los valores de las
frecuencias absolutas (o relativas) hasta alcanzar el mximo valor, n (o 1); en segundo, consiste en
ir restando o desacumulando las frecuencias absolutas (o relativas) desde el mximo valor, n (o 1)
hasta llegar a 0. Ahora se aplicarn estos clculos al ejemplo de los dimetros de las espigas de
maz con el que se viene trabajando.
Cuadro 2.6. Clculo de frecuencias acumuladas.
Creciente
Clase
(35 40]
(40 45]
(45 50]
(50 55]
(55 60]
(60 65]
(65 70]
fi
Fi
4
14
21
40
15
5
1
4
18
39
79
94
99
100
Decreciente
Fi/n
0.04
0.18
0.39
0.79
0.94
0.99
1.00
Fi
100
96
82
61
21
6
1
Fi/n
1.00
0.96
0.82
0.61
0.21
0.06
0.01
Pgina 12
Variables cualitativas
Hasta ahora hemos visto tablas de frecuencias y representaciones grficas para variables
cuantitativas pero todo esto tambin puede hacerse para variables cualitativas. La tabla de
frecuencias correspondiente a una variable cualitativa muestra, simplemente, las frecuencias, tanto
absolutas como relativas, tanto simples como acumuladas, para cada una de las categoras en las
que est clasificada la variable. Supongamos, por ejemplo, que se recibe una encomienda de 200
unidades de un material clasificado segn su grado de pureza en 5 categoras: muy puro, puro,
mediano, impuro y muy impuro. Una vez hecho el recuento se obtienen los resultados de la
siguiente tabla:
Cuadro 1.7.
La
representacin
Relativa
grfica
que
Muy puro
35
0.175
puede usarse
Puro
59
0.295
es
un
diagrama
de
Mediano
52
0.260
barras
Impuro
42
0.210
verticales
u
Muy impuro
12
0.060
horizontales
Total
200
1.000
en el que se
indican
las
categoras de la variable sobre el eje de abscisas y las frecuencias, sobre el de ordenadas. A
continuacin se presenta un diagrama de barras verticales correspondiente al ejemplo de la pureza
de los materiales. Cabe aclarar que los anchos de las barras son enteramente arbitrarios y no
tienen significado prctico aunque deben ser iguales entre s.
Frecuencia
Absoluta
Medidas de posicin
Las medidas de posicin o de tendencia central dan una idea de cmo es la estructura de los
datos, especialmente, la regin central de la distribucin de los mismos y, por ese motivo, reciben
Pgina 13
x + x2 + + x n
x= 1
n
(2.1)
1 n
= xi
n i =1
Las calculadoras de bolsillos con modo estadstico (SD) permiten calcular la media aritmtica
(aparecen con el smbolo x ). Aplicando la frmula a los datos de muestra del cuadro 2.1,
obtenemos:
x=
1 n
xi
n i =1
1
(5093.1)
100
= 50.931 mm
=
La media aritmtica tiene las siguientes dos propiedades de gran inters para el anlisis de datos:
Pgina 14
I.
que la suma de los desvos de todos los valores de la muestra con respecto a la media
aritmtica es igual a 0:
(x
x) = 0
II.
que la suma de las desviaciones de los datos con respecto a la media elevadas al
cuadrado, es menor que la suma de las desviaciones de los datos con respecto a
cualquier otro valor elevadas al cuadrado.
(x
x ) = mn .
2
x=
1 2 + 3 5 + 4 1 + 5 7 + 6 1 + +7 3 + + 24 5 + 25 2 532
=
= 10.64
2 + 5 +1+ 7 +1+ 3 ++ 5 + 2
50
Una frmula general para este clculo es:
xw =
1
xi wi
wi i
(2.2)
donde x w es la media aritmtica ponderada, xi son los valores de las observaciones individuales y
wi son las ponderaciones
Medidas de dispersin
Las medidas de posicin, especialmente los promedios (media, mediana y moda), como se dijo
antes, dan una idea de cul es el centro de gravedad de la masa de datos pero nada dicen de
cmo estn distribuidos los datos alrededor de esos puntos centrales. Por ejemplo, la distribucin
formada por los nmeros 1, 4, 8, 13, 18, 22 y 25 y la distribucin formada por los nmeros 10, 11,
12, 13, 14, 15 y 16 tienen, ambas, la misma media aritmtica, x = 13 pero no cabe ninguna duda
de que la primera de las distribuciones tiene los datos ms dispersos alrededor del punto central,
que la segunda. Entonces, para completar la caracterizacin de una distribucin de frecuencias, se
necesita contar con alguna medida de esa dispersin. En este curso veremos tres principales, la
amplitud, la amplitud intercuartil y la variancia y otras dos que derivan de la variancia: el desvo
standard y el coeficiente de variacin.
Amplitud
La amplitud es la medida de dispersin ms simple. Esta medida tambin se la conoce con el
nombre de rango, aunque es ms apropiado el trmino amplitud. En un conjunto de n
observaciones x1, x2, x3, ...xn la amplitud se define como la diferencia entre el mximo (xmax) y el
mnimo (xmin). A pesar de la facilidad de clculo y la simpleza de esta medida, la amplitud puede
resultar insensible a la variacin de los datos, sobretodo en conjuntos grandes de datos.
Pgina 15
Amplitud intercuartil
La amplitud intercuartil, como su nombre lo indica claramente, es la diferencia, en valor absoluto,
entre q1 y q3 e incluye, por esta misma razn, el 50% central de la distribucin de frecuencias. Es la
que determina la longitud de la caja en el diagrama de caja y bigotes que vimos pginas atrs.
1 n
Variancia ( X ) = ( xi x )2
n i =1
(2.3)
El los captulos siguientes estimaremos la variancia de una poblacin a partir de los datos
de una muestra, utilizando la frmula, ligeramente diferente de la presentada en 2.3., que
indicamos a continuacin.
s n21 =
n
1
2
( xi x )
n 1 i =1
(2.4)
Como la variancia es un promedio de desvos elevados al cuadrado, sus son las unidades
originales elevadas al cuadrado. Para eliminar esta inconveniencia, se suele medir la dispersin de
los datos por medio del desvo standard que no es otra cosa que la raz cuadrada de la variancia.
Las calculadoras de bolsillos con modo estadstico (SD) permiten calcular tanto sn como sn-1
(aparecen con los smbolos xn y xn-1).
Ilustraremos el clculo de la variancia con un ejemplo. En el siguiente cuadro se presentan
los registros de los rendimientos en grano de un hbrido de girasol (en Kg/parcela) en 10 ensayos
experimentales:
125 120 118 133 127 119 130 124 131 121
Para aplicar la frmula, primeramente debemos calcular la media aritmtica la cual resulta
ser
1248
= 124.8 . Luego, podemos ordenar las cifras en forma de cuadro para facilitar los
10
x=
( xi x )
120
2
125
118
133
127
119
130
124
131
121
23.04 0.04 46.24 67.24 4.84 33.64 27.04 0.64 38.44 14.44 255.6
Luego:
s (2n ) X =
255 .6
= 25.56 s ( n ) X = 25.56 5.055 Kg/parcela;
10
y:
s (2n 1) X =
1248
255.6
28.4 s ( n1) X = 28.4 5.329 Kg/parcela.
(10 1)
Pgina 16
La muestra ha sido pequea y, por esta razn, hay una diferencia ms o menos notoria
entre ambas frmulas de variancia pero, con muestras ms o menos grandes (digamos, n > 30), la
diferencia se hace insignificante.
Coeficiente de Variacin
Cuando se necesita comparar el grado de variabilidad en la informacin entre dos muestras
correspondientes a poblaciones diferentes en la magnitud de los datos, el solo uso del desvo
standard no es suficiente porque surgirn diferencias que se deben a la naturaleza de los datos y
no a las variaciones de las muestras en s. En ese caso, se recurre a una medida relativa de la
variabilidad denominada coeficiente de variacin (cv) que es, simplemente, el cociente entre el
desvo standard y la media aritmtica, multiplicado por 100. Para sn-1 tenemos:
cv =
s n 1
100
x
(2.5)
Ejemplo.
Se cuenta con una muestra de pesos de cerdos y con otra muestra de pesos de gallinas, y
se desea saber cul es comparativamente ms variable. Los valores de medias y desvos
son los siguientes:
Cerdos:
x1 = 324
cv(x1 ) =
s( n 1)1
x1
38.8
100
324
= 12
cv(x 2 ) =
s( n 1) 2
x2
0.299 .
1.600
= 18.7
=
Pgina 17
x=
f 1 m1 + f 2 m2 + + f k mk 1 k
= f i mi
f1 + f 2 + + f k
n i =1
(2.6)
s n2 =
1 k
2
f i (mi x )
n i =1
s n21 =
1 k
2
f i (mi x )
n 1 i =1
o, ms sencillamente:
Para los datos del Cuadro 3:
mi 37.5 42.5 47.5 52.5 57.5 62.5 67.5 Total
fi
14
21
40
15
100
obtenemos:
x=
Para la variancia:
mi
37.5
42.5
47.5
52.5
57.5
62.5
67.5
s n2 =
14
21
40
15
y s n21 =
100
100
36.5275 = 36.8965 .
100 1
Pgina 18
(2.7)
(2.8)
Ejercicios
2.1
a.
b.
c.
d.
e.
2.2
Cul es la poblacin?
Cul es la muestra?
Identifique el parmetro de inters.
Identifique la estadstica y proporcione su valor.
Se conoce el valor del parmetro?
En los siguientes incisos, indique cul es la variable en estudio y qu clase de variable es:
a.
b.
c.
d.
e.
f.
g.
Color de flores.
Razas de bovinos.
Punto de fusin del manganeso.
Altura de tallo.
Salarios por hora.
Porcentaje de asistencia.
Nmero de ptalos de una flor.
h. Monto de las acciones vendidas.
2.3
Cargar los datos del Cuadro 1 en una planilla Infostat y realizar las
siguientes tareas:
Pgina 19
a.
b.
c.
d.
e.
f.
2.5
58
73
23
63
91
80
54
71
86
87
35
91
63
42
15
30
45
47
22
67
23
28
87
44
10
88
61
36
88
45
49
61
8
27
67
35
45
94
20
26
97
84
26
33
19
N de campos
0-1
1-2
2-3
3-4
4-5
>5
2
9
10
13
5
1
a.
b.
c.
d.
e.
Nota: Para realizar los clculos tome como marca de la ltima clase el valor 5.5.
Pgina 20
2.6
El bicho taladro (Platypus mutatus) es una de las plagas ms importantes que afecta la
calidad de la madera para uso comercial. Se determin la presencia de esa plaga segn
el nmero de orificios activos que presentaban los fustes de lamos de una plantacin
comercial. Los resultados fueron los siguientes:
N de orificios activos 0
N de fustes
5 6 7 8 9
12 38 28 16 13 11 9 7 5 1
En una importante empresa lctea hay 600 empleados que cobran $400, 500 que cobran
$600, 100 que cobran $2200 y 5 socios que perciben $100.000 cada uno. Calcular la
media, mediana y la moda y discutir cul de estos 3 estadsticos de tendencia central
estima mejor el sueldo medio de los empleados de la empresa.
2.8
Pgina 21
D is t r ib u c i n d e t a m a o s
D is t r ib u c i n d e t a m a o s
1 .0 0
0 .5 0
0 .2 5
0 .0 0
0 .0 0
1 6 .0 0
3 2 .0 0
4 8 .0 0
6 4 .0 0
8 0 .0 0
0 .7 5
0 .5 0
0 .2 5
0 .0 0
0 .0 0
1 6 .0 0
3 2 .0 0
4 8 .0 0
6 4 .0 0
8 0 .0 0
D AP (c m )
D AP ( c m )
(a)
(b)
150.00
112.50
75.00
37.50
0.00
Campo A
Campo B
Campo C
Pgina 22
CLCULO DE PROBABILIDADES
En el captulo 1 hemos presentado formas para organizar, describir y presentar los datos
de una variable aleatoria registrados en una muestra. El anlisis de los datos muestrales tiene, en
realidad, la finalidad la finalidad de conocer algo acerca de una poblacin de la cual la muestra fue
extrada. Utilizar informacin contenida en una muestra para extraer conclusiones acerca de la
informacin desconocida contenida en una poblacin implica un riesgo basado en la
incertidumbre implcita en dicha decisin. La Estadstica provee una manera racional de
cuantificar y acotar tal incertidumbre y para ello utiliza una medida de la incertidumbre denominada
probabilidad. La utilizacin del concepto de probabilidad y de los mtodos para su clculo
constituye la base sobre la que se asienta la toma de decisiones. Como hemos dicho en una
seccin anterior, la toma de decisiones estar, generalmente, referida a la eleccin de un valor
determinado para un parmetro desconocido o a la eleccin de algn conjunto de valores al cual
se asume que dicho parmetro desconocido pertenece.
La existencia de incertidumbre acerca de un proceso fsico implica la existencia de estados
alternativos posibles para el mismo. Se cuenta con una determinada cantidad de informacin y se
desea conocer una cantidad de informacin adicional, ordinariamente, la porcin restante de la
informacin total. Para ello, se debe contar con una enumeracin del total de estados posibles del
proceso. Adems, se debe tener una medida de la posibilidad de ocurrencia para cada uno de
dichos estados. Daremos, ahora, algunas definiciones.
Un experimento aleatorio es un proceso cuyos resultados no se conocen a priori. El
conjunto de todos los resultados de un experimento aleatorio se denomina espacio muestral lo
que denotaremos S. Cada uno de los resultados posibles contenidos en un espacio muestral es un
evento simple. Dado que los estados posibles del proceso son alternativos, ellos no pueden
ocurrir simultneamente, por lo cual se los considera mutuamente excluyentes. Adems,
asumiremos que el espacio muestral contiene todos y cada uno de esos estados alternativos, por
lo cual se dice que ese conjunto de eventos simples es colectivamente exhaustivo.
Ejemplos:
1. Se arroja un dado de 6 caras, con una determinada cantidad de puntos en cada una de sus
caras. Una cara contiene 1 punto, otra contiene 2 puntos, otra contiene 3 puntos, otra
contiene 4 puntos, otra contiene 5 puntos y la ltima, 6 puntos. Por tanto, S = {1,2,3,4,5,6}.
2. Se arroja al aire una moneda equilibrada. Entonces, S = {C,X}, donde C representa las
caras y X, las cruces.
Un subconjunto de eventos simples del espacio muestral constituye un evento compuesto y se los
suele denotar con letras maysculas.
Ejemplo:
3. Cuando se arroja un dado, un evento compuesto es el subconjunto de las caras con un
nmero impar de puntos: A = {1,3,5}. Otro evento compuesto es el subconjunto de las
caras con una cantidad de puntos superior a 3: B = {4,5,6}.
Pgina 23
Conjuntos
Repasaremos algunas operaciones bsicas que se realizan entre conjuntos.
Unin de dos conjuntos
La unin de dos conjuntos A y B es el conjunto de elementos que pertenecen a
por lo menos uno de los conjuntos A y B es decir, a A o a B o a ambos.
Simbolizamos esta operacin como A B (se lee A unin B).
Ejemplos
Interseccin
La interseccin de dos conjuntos A y B es el conjunto de elementos que
pertenecen a A y a B. Simbolizamos esta operacin como A B (se lee A
interseccin B).
Ejemplo.
Pgina 24
probables, P(1) = P(2) = = P(6) = 1/6. En general, cuando hay K resultados posibles igualmente
probables, la probabilidad de cada uno de ellos ser igual a 1/K.
Entonces, si un espacio muestral tiene K resultados posibles y si un evento, A, que forma
parte de ese espacio muestral contiene k eventos, la probabilidad de dicho evento es,
simplemente, el cociente entre k y K:
P ( A) =
k
K
(3.1)
Ejemplos:
1. Se extrae un naipe de una baraja inglesa de 52 cartas. Sea A el evento corazn. Entonces,
teniendo en cuenta que hay 13 corazones en total en la baraja:
P ( A) =
13 1
=
52 4
2. Otra vez, se extrae un naipe de una baraja inglesa de 52 cartas. Sea B el evento nmero
menor a 6. Hay 5 cartas menores a 6 en cada palo, por lo cual, recordando que hay 4
palos, hay un total de 45 = 20 cartas cuyo nmero es menor a 6. As que:
P ( B) =
20 5
=
52 13
26 1 o
=
52 2
P (C T ) = P (C ) + P (T ) =
13 13 26 1
+
=
=
52 52 52 2
k
K K
P ( X ) = lim
(3.2)
Pgina 25
donde K es la cantidad de veces que se repite el ensayo y k es el nmero de veces en que ocurri
el evento X. Esta es la definicin estricta. Pero nunca repetiremos un ensayo infinitas veces. Por
tanto, utilizaremos como medida de la probabilidad de X, ensayos donde K sea un nmero grande.
P( A B C ) =
50
25
18
12
10
5
3
+
+
+
240 240 240 240 240 240 240
69
.
=
240
= 0.2875
Pgina 26
y X son
P(X ) = 1 P(X),
Ejemplo
Supongamos que se extrae una carta de una baraja inglesa. Cul es la probabilidad de que
no sea un rey? Hay 4 reyes en la baraja as que la probabilidad de rey es igual a (4/52) =
(1/13). Por tanto, aplicando el teorema vemos que la probabilidad de que la carta extrada no
sea un rey ser igual a 1 (1/13) = (12/13)
Combinatoria
Repasaremos algunas operaciones bsicas de conteo.
Permutaciones
Una permutacin de un nmero de objetos es una disposicin de estos objetos
en un orden definido. El nmero de permutaciones de un conjunto de N
elementos, tomados todos juntos es igual a N! Designando este nmero por NPN,
obtenemos que NPN = N! donde N! se lee N factorial y es el producto de todos
los nmeros enteros desde 1 hasta N, es decir: N! = 123(N 2)(N 1)N. En
particular, 1! = 1; 2! = 12! = 2, 3! = 123 = 6, 4! = 1234 = 24. Finalmente,
definimos 0! = 1.
El nmero total de disposiciones de N objetos tomados de a n cada vez, con n
N, es:
Pn =
N!
.
(N n ) !
Ejemplo. Cuatro banderas de seales han de ser izadas, una encima de la otra,
en un mstil. Cuntas seales diferentes pueden ser transmitidas izando 6
banderas diferentes de a 4 cada vez?:
P4 =
6!
2!3 4 5 6
=
= 360 .
2!
(6 4) !
Combinaciones
Una combinacin es una seleccin de objetos considerados sin relacin con su
orden. El nmero total de combinaciones de un conjunto de N elementos
tomados de a n cada vez, es:
NC n
N
y es igual a:
n
N
N!
=
C
=
.
N
n
n n!(N n ) !
3!
3
3 P2 (3 2) !
3!
=
=3
3 C2 =
2 = 2! =
2!
2!(3 2) !
Es importante recordar que en una permutacin el orden cuenta mientras que
Pgina 27
10
C5 =
10!
= 252
5!(10 5) !
P5 =
10!
= 30240
(10 5) !
Probabilidades condicionales
Cuando se rene informacin adicional a la que se dispona inicialmente, el espacio muestral
puede resultar redimensionado. Es decir, cuando hay una reduccin de la incertidumbre (ya sea
por aumento en la informacin disponible o por el empleo de supuestos por parte del ingeniero),
puede que haya puntos muestrales que desaparezcan del espacio muestral resultando ste,
reducido. Por ejemplo, frente al experimento aleatorio de lanzar un dado homogneo, decimos que
la probabilidad de que salga un 5 es igual a 1/6. Ahora, si se ha lanzado el dado pero solamente se
puede saber que ha salido un nmero impar, pero no qu nmero ha salido, sigue habiendo una
grado de incertidumbre, pero no cabe duda de que dicha incertidumbre es menor puesto que ya se
sabe que sali un nmero impar: el nuevo espacio muestral es, ahora, S = {1,3,5}. Ahora, la
probabilidad de que el dado haya salido 5 ya no es 1/6 sino 1/3. Las probabilidades calculadas en
espacios muestrales reducidos por informacin o supuestos adicionales se denominan
probabilidades condicionales. Veamos un ejemplo.
Supongamos que se toma una muestra de 100 estudiantes y a cada uno de ellos se le
hacen dos preguntas: (1) si ha aprobado el curso de Estadstica y, (2) si le gustan las carreras de
autos. Los resultados de la encuesta son los siguientes:
Cuadro 3.1.
Aprob Estadstica
No aprob Estadstica
Total
Le gustan las
carreras
de autos
28
12
40
Total
52
8
60
80
20
100
Se elige un estudiante al azar en dicha muestra y se definen dos eventos: X (el estudiante
aprob Estadstica) e Y (al estudiante le gustan las carreras de autos). Entonces:
P( X ) =
80
40
= 0.80 y P (Y ) =
= 0.40 .
100
100
Ahora, supongamos que la eleccin es realizada entre los estudiantes que han aprobado
Estadstica. Entonces, cul es la probabilidad de el estudiante elegido sea afecto a las carreras
de autos? Hay una informacin adicional que cambia el espacio muestral: se est dando por cierto
que el estudiante aprob Estadstica y la nica incertidumbre que queda es si le gustan las
carreras de autos o no le gustan. Por tanto, el nuevo espacio muestral est restringido a la
Pgina 28
segunda fila del cuadro: S = {le gustan las carreras, no le gustan las carreras} con un tamao igual
a 80 (el total de estudiantes que aprobaron Estadstica). Entonces, la probabilidad buscada es:
P (Y / X ) =
28
= 0.35 .
80
P( X / Y ) =
28
= 0.70 .
40
Aprob
Estadstica
No aprob
Estadstica
Total
Le gustan las
careras de autos
(28/100) = 0.28
No le gustan las
careras de autos
(52/100) = 0.52
Total
(80/100) = 0.80
(12/100) = 0.12
(8/100) = 0.08
(20/100) = 0.20
(40/100) = 0.40
(60/100) = 0.60
(100/100) = 1.00
P (Y / X ) =
0.28
= 0.35 y
0.80
P( X / Y ) =
0.28
= 0.70 .
0.40
Las probabilidades que estn en los mrgenes del cuadro (0.80, 0.20, 0.40 y 0.60) se
denominan probabilidades marginales y las probabilidades que estn en el cuerpo del cuadro
(0.28, 0.52, 0.12 y 0.08) se denominan probabilidades conjuntas.
En general, se presentan tres tipos de problemas:
(i)
(ii)
(iii)
Pgina 29
P (Y / X ) =
P( X Y )
P( X )
P( X / Y ) =
P( X Y )
P (Y )
(3.3)
(3.4)
P( X ) =
P( X Y )
P(Y / X )
P(Y ) =
P( X Y )
P( X / Y )
(3.5)
Eventos independientes
Se dice que dos eventos son estadsticamente independientes cuando la ocurrencia de uno de
ellos no afecta la probabilidad de ocurrencia del otro y, entonces, la probabilidad de su ocurrencia
simultnea (probabilidad conjunta) es igual al producto de sus probabilidades individuales: P(XY)
= P(X)P(Y). Contrariamente, si la ocurrencia de uno de los eventos afecta la probabilidad de la
ocurrencia del otro, entonces se dice que esos dos eventos son estadsticamente dependientes
y, entonces, su probabilidad conjunta es igual al producto de la ocurrencia de uno de ellos por la
probabilidad condicional de la ocurrencia del segundo dado que ha ocurrido el primero: P(XY) =
P(X)P(Y/X).
Ejercicios
3.1
3.2
Bajo
Alto
0.40
0.10
0.20
0.30
a. Calcular P(AB).
Pgina 30
3.4
Se echan dos monedas equilibradas; demuestre que el hecho "cara en la primera moneda"
y el hecho "las dos monedas quedan igual" son independientes.
3.7
Pgina 31
DISTRIBUCIONES DE PROBABILIDADES
Variables aleatorias
En la aplicacin de las probabilidades para el anlisis de la informacin proveniente de
experimentos aleatorios, se trabaja con variables definidas a partir de los espacios muestrales.
Dichas variables reciben el nombre de variables aleatorias. Las variables aleatorias, dado que
provienen de un espacio muestral, son variables que pueden asumir un determinado conjunto de
valores diferentes con determinadas probabilidades. Los anlisis estadsticos involucran a la
distribucin de probabilidades de la variable aleatoria de inters. Estas variables aleatorias
pueden ser de dos clases: variables aleatorias discretas y variables aleatorias continuas.
Probabilidad
1/6
1/6
1/6
1/6
1/6
1/6
Entonces, escribimos: P(1) = P(2) = P(3) = P(4) = P(5) = P(6) = (1/6). Si denotamos a una
variable aleatoria discreta con el smbolo X, y a cada uno de los valores particulares que
puede tomar xi, entonces, la probabilidad de un valor particular xi, se denotar P(xi).
Las distribuciones de probabilidades de variables discretas se pueden representar
grficamente mediante un diagrama de barras verticales en el cual se inscriben los distintos
valores que la variable aleatoria puede tomar en el eje de abscisas y sus respectivas
probabilidades en el eje de ordenadas.
Ejemplo:
3. Sea la variable aleatoria discreta nmero de cruces que se pueden obtener al lanzar tres
monedas equilibradas. Si los lanzamientos de las tres monedas son eventos
independientes, la distribucin de probabilidades de esta variable aleatoria es la siguiente:
Pgina 32
N de cruces en 3 monedas
Probabilidad
1/8
3/8
3/8
1/8
4.1.
de
aleatoria
0
1/8
1/8
1
3/8
4/8
2
3/8
7/8
3
1/8
8/8
Pgina 33
Figura
Distribucin
probabilidades
acumuladas.
4.2.
de
E ( X ) = xi P ( xi )
(4.1)
Sea k una constante arbitraria. Entonces, si se suma k a cada uno de los valores de una
variable aleatoria X, resulta:
E(X + k) = E(X) + k.
(4.2)
Ejemplo.
Si sumamos la constante 2 a la variable aleatoria nmero de puntos obtenidos al arrojar un
dado equilibrado, resulta: E(X + 2) = E(X) + 2. En efecto:
E(X + 2) = X+2
= (1+2)(1/6) + (2+2)(1/6) + (3+2)(1/6) + (4+2)(1/6) +
Pgina 34
+ (5+2)(1/6) + (6+2)(1/6)
= 3(1/6) + 4(1/6) + 5(1/6) + 6(1/6) + 7(1/6) + 8(1/6)
= (33/6)
= 5.5
= 3.5 + 2.
Sea k una constante arbitraria. Entonces, si multiplica por k a cada uno de los valores de una
variable aleatoria X, resulta:
E(Xk) = E(X)k.
(4.3)
Ejemplo.
Si multiplicamos por la constante 2 a la variable aleatoria nmero de puntos obtenidos al
arrojar un dado equilibrado, resulta: E(X2) = E(X)2. En efecto:
E(X2) = X2
= (12)(1/6) + (22)(1/6) + (32)(1/6) + (42)(1/6) +
+ (52)(1/6) + (62)(1/6)
= 2(1/6) + 4(1/6) + 6(1/6) + 8(1/6) + 10(1/6) + 12(1/6)
= (42/6)
= 7.0
= (3.5)2.
Juntando las dos propiedades 4.2. y 4.3. en una sola, obtenemos que :
E(k1X + k2) = k2 + k1E(X)
(4.4)
donde k1 y k2 son constantes arbitrarias. Se deja como ejercicio para el lector, aplicar esta ltima
propiedad a la variable aleatoria nmero de puntos obtenidos al arrojar un dado equilibrado.
La propiedad 4.1. tiene implica que si una variable aleatoria X tiene esperanza E(X) = ;
entonces
E(X - ) = 0
(4.5)
V ( X ) = X2
= p ( xi ) ( xi )2
(4.6)
i
Comparando la frmula 4.2. con la 4.6. es posible visualizar que la variancia poblacional no es otra
2
cosa que V(X) = E[(X-) ], el valor esperado de los cuadrados de los desvos de X con respecto a
su media poblacional .
Propiedades de la variancia de una variable aleatoria discreta:
Pgina 35
(4.7)
Si multiplicamos una variable aleatoria por una constante, su variancia resulta multiplicada por
dicha constante elevada al cuadrado. En efecto
V(k X) =
2
= E [(k X E(k X)) ]
2
= E [(k X k E(X)) ]
2
2
= E [k (X E(X)) ]
2
2
= k E [(X E(X)) ]
2
= k V(X)
(4.8)
(4.9)
= V (X )
35
12
= 1.708
=
y .
(4.10)
1.708
100
3.5
= 48.8
cv
Pgina 36
E(X ) =
b
= x f ( x ) dx
(4.11)
a
y su variancia, como:
Pgina 37
V (X ) = 2
b
= ( x ) 2 f (x ) dx
(4.12)
Las propiedades de la esperanza (4.2., 4.3, 4.4 y 4.5) y de la variancia (4.7, 4.8 y 4.9) de una
variable aleatoria discreta se aplican para variables aleatorias continuas, es decir:
E(X + k) = E(X) + k;
E(Xk) = E(X)k;
E(k1X + k2) = k2 + k1E(X), donde k1 y k2 son constantes arbitrarias;
Sea la variable aleatoria X con E(X) = ; entonces E(X - ) = 0.
Z=
X X
(4.13)
X X
E (Z ) = E
X
E(X ) E(X )
=
y
=0
La variancia de una variable estandarizada es siempre igual a 1 porque:
Pgina 38
X X
V (Z ) = V
X
1
=
V (X X )
X2
V (X )
X2
=1
n
n x
b( x; n, ) = x (1 )
x
(4.14)
n
es un nmero combinatorio como hemos visto en la clase anterior, y es la
x
donde
Pgina 39
3
b(1;3,0.25) = 0.2510.7531 y
1
= 0.42
3
0
3 3
b
(
0
;
3
,
0
.
25
)
+
b
(
1
;
3
,
0
.
25
)
=
0
.
25
0
.
75
+ 0.2510.752
2)
0
1
= 0.84
Como toda distribucin de probabilidades, la distribucin binomial tambin permite calcular
probabilidades acumuladas. La distribucin de probabilidades acumuladas permite calcular la
probabilidad de obtener a lo sumo m resultados en n ensayos:
B(m; n, ) = P( X m )
= b(0; n, ) + b(1; n, ) + + b(m; n, )
=
b(x; n, )
x =0
Ejemplo:
x =8
x =0
b(x;10,0.5) = 1 b(x;10,0.5)
1 0.94531
= 0.05469
Se puede demostrar que la esperanza matemtica de una distribucin binomial es igual a n y que
su variancia es igual a n(1 - ). Por ejemplo, una moneda es lanzada 10 veces la esperanza del
nmero de caras obtenidas es E(X) = 100.5 = 5 y la variancia es V(X) = 100.50.5 = 2.5.
Pgina 40
Z=
X X
(4.13)
Como ocurre con toda distribucin de probabilidades, el rea bajo la curva de la funcin de
densidad, es igual a 1 (es la probabilidad de la totalidad del espacio muestral). Adems, la funcin
es perfectamente simtrica alrededor de su media de lo que resulta que n( - x;,) = n( + x;,),
es decir, el valor de la densidad para la abscisa - x es igual al valor de densidad para la abscisa
+ x. Por ejemplo, P( - < X < ) = P( < X < + ) 0.34 y P( - < X < + ) 0.68.
Los porcentajes de rea que aparecen al pie de la figura son equivalentes a las
probabilidades entre los puntos indicados. Por ejemplo, entre -
y + est
(aproximadamente) el 68% del rea total bajo la curva lo que equivale a decir que la probabilidad
de que la variable est entre - y + es, aproximadamente, igual a 0.68 y la probabilidad de
que la variable est entre - 2 y + 2 es, aproximadamente, igual a 0.95.
La funcin presenta su densidad mxima cuando la variable es igual a para luego ir
decreciendo y acercndose asintticamente al eje de abscisas sin cortarlo nunca. La distribucin
normal es, en realidad, una familia de distribuciones que difieren en su media y/o en su variancia.
La representacin grfica de distribuciones normales con la misma variancia pero con distinta
media se ve, aproximadamente, as:
Pgina 41
Figura 4.7.
La distribucin normal standard (Z) es, simplemente, una distribucin normal con media
igual a 0 y variancia igual a 1 y sus probabilidades estn extensivamente tabuladas. Dada la
transformacin de una variable normal (X) en normal standard (Z), la probabilidad acumulada
correspondiente a un valor particular de X se puede leer fcilmente en una tabla de la distribucin
de Z puesto que:
N ( x; , ) = P ( X x )
= P[( + Z ) x ]
= P Z
= N
;0,1
As que, dados N(,) y dos nmeros reales cualesquiera x1 y x2, con x1 < x2, tendramos:
P (a X b ) = N (b; ; ) N (a; ; )
= N
;0;1 N
;0;1
Pgina 42
Figura 4.9.
Ejemplo:
Una fbrica de objetos de aluminio produce, entre otras cosas, cierto tipo de canal de aleacin
2
de aluminio. Por experiencia se sabe que la rigidez, medida en libras por pulgada sigue una
2
2
distribucin normal con media = 2425 (lb/pulg ) y = 115 (lb/pulg ). Esta distribucin se
representa por la figura (a). Si se escoge al azar un canal de aleacin de aluminio de este
2
proceso, cul es la probabilidad de que tenga un valor: entre 2250 y 2425 lb/pulg ?; (2) entre
2
2
2
2250 y 2500 lb/pulg ?; (3) entre 2525 y 2625 lb/pulg ?; (4) mayor de 2500 lb/pulg ?; (5) menor
2
de 2200 lb/pulg ?
(1)
= P z <
P z <
115
115
N (0) N (11,52)
= 0,5000 0,0643
= 0,4357
Figura 4.10.
Pgina 43
Figura 4.11.
Figura 4.12.
Figura 4.13
Figura 4.14
Pgina 44
(2)
2500 2425
2250 2425
115
115
N (0,65) N (1,52)
= 0,7422 0,0643
= 0,6779
figura (b);
(3)
2625 2425
2525 2425
115
115
N (1,74) N (0,87)
= 0,9591 0,8078
= 0,1513
figura (c);
(4)
P(X > 2500) = 1 P(X 2500)
= 1 P(z < 0.65) 1 0.7422
= 0.2578; figura (d);
(5)
2200 2425
115
N (1,96)
figura (e).
Ahora presentaremos 3 distribuciones que se emplean para el clculo de probabilidades en
situaciones especiales que veremos algunas clases ms adelante.
La distribucin 2
Si Z1, Z2,, Z, son variables normales standard independientes, la suma de sus cuadrados se dice
2
que es una variable (lase ji cuadrado) con grados de libertad. Es decir:
2 = Z12 + Z12 + + Z2
(4.14)
Pgina 45
Figura 4.15.
152 :
= 0.99.
La distribucin t de Student
Una distribucin t de Student resulta de dividir una distribucin normal standard por la raz
2
cuadrada de una distribucin dividida por sus grados de libertad:
t n 1 =
Z0
1
Z12 + Z 22 + + Z n21
n 1
2 n 1
(4.15)
n 1
donde Z0, Z1, Z2,..., Zn, son n + 1 variables normales standard independientes. Esta es una
distribucin t de Student con n 1 grados de libertad. (En la pgina 127 se presenta la tabla de
esta distribucin. Ver, tambin, el men Probabilidades y Cuantitles de Infostat).
En la siguiente figura se representan una distribucin t de Student y una distribucin normal
con finales comparativos:
Pgina 46
Figura 4.15.
Ejercicios
4.1
En una operacin comercial se puede obtener una utilidad de $1000 o sufrir una prdida
de $500. Si la probabilidad de una utilidad es de 0.6, demuestre que la utilidad esperada
en dicha operacin es de $400.
4.2
Sea X una variable aleatoria discreta que slo toma los valores 0, 1, 2, 3, 4 y 5 y que
tiene la distribucin de probabilidad dada por la siguiente tabla.
X
0
1 2 3
4
5
P(X) 0.05 0.30 ? 0.20 0.10 0.05
a. Calcule P(2).
b. Calcule y .
c. Localice el intervalo [ - 2; + 2] sobre el eje x de grfico de distribucin de
probabilidad.
4.3.
Existen insectos como el Tatadios (Mantis religiosa) que son considerados tiles para la
agricultura porque se alimentan de otros insectos que daan a los cultivos. Si cuando un
encuentra un insecto presa tiene una probabilidad de capturarlo de 0,25
a. Cuntos insectos debe encontrar para que la probabilidad de que capture al menos uno sea se 0,8?
Si encontrara esa cantidad de insectos presa por da:
b. Cul sera el nmero esperado insectos que captura por da?
c. Cunto variara el nmero de insectos que captura por da?
4.4
Un plan de control de calidad acepta un lote grande de artculos, si una muestra de siete
artculos no produce ninguno defectuoso. Cul es la probabilidad de aceptar el lote si
ningn artculo del lote es defectuoso? Y si 1/10 son defectuosos? Si 1/2 son
defectuosos?
4.5
Pgina 47
elaborar un informe acerca del estado de la enfermedad en dicha rea y decide visitar
15 quintas, cul es la probabilidad esperada para los siguientes sucesos:
El 40% de los animales de un rodeo son de raza A y el resto, de raza B. El peso de los
animales de la raza A sigue una distribucin normal con media 250 kg y varianza 400 kg2.
El peso de los animales de la raza B sigue una distribucin normal con media 270 kg y
desvo tpico 30 kg. Qu porcentaje de animales tiene peso superior a 240?
4.7
Un proceso industrial produce tornillos cuyos dimetros tienen una distribucin normal
con media y desviacin estndar iguales a 0.498 y 0.002 respectivamente. Si las
especificaciones requieren que el dimetro sea igual a 0.500 0.004 centmetros qu
fraccin de la poblacin ser inaceptable?
4.8
Pgina 48
Pgina 49
x=
s n21 =
1 n
xi y
n i =1
(5.1)
1 n
( x i x )2
n 1 i =1
(5.2)
La razn por la cual son tan importantes estos dos estadsticos es que, la mayor parte de
las veces, hay inters en conocer la media y la variancia de alguna variable en la poblacin total y,
dado que no se pueden conocer todos los datos de la poblacin, se debe recurrir a los
equivalentes muestrales de dichos parmetros. Ahora, un estadstico, dado que no es otra cosa
que una cantidad que se calcula a partir de los datos de una muestra, es, como los datos de la
muestra, una variable aleatoria. Entonces, cuando se tomen muchas muestras, mostrarn la
variacin propia de una variable aleatoria de muestra en muestra. As que se deben conocer las
Pgina 50
propiedades de estas dos variables aleatorias tan importantes, es decir, cmo se espera que sea
su comportamiento al extraer muestras y, sobre todo, cmo cambiarn sus propiedades, al cambiar
el tamao de las muestras que se tomen. Por ejemplo, una propiedad fundamental de la media
muestral es su esperanza. Es muy fcil deducir que si la esperanza de una variable aleatoria x es
igual a , entonces la esperanza de su media muestral ser, tambin: E( x ) = . Como se dijo
antes, en el muestreo de una poblacin, la esperanza de todas las medias muestrales que se
pueden calcular es igual a la media poblacional (). Pero se debe considerar que dichas medias
muestrales mostrarn una variacin de muestra en muestra, es decir, entre todos los valores
posibles que la media muestral puede tomar: esa es la variancia de la media muestral,
(x ) .
(x ) = E [(x )
(x ) =
2
n
, que es una
propiedad muy importante de la variancia de la media muestral puesto que est indicando que la
distribucin de la media muestral se concentra cada vez ms en el entorno de , a medida que
aumenta el tamao de la muestra (n). Esto es lo mismo que decir que, cuanto mayor sea el tamao
muestral, ms confianza se podr tener en que la media de la muestra estar ms cerca de la
media poblacional desconocida ().
500
750
900
P(x)
0.50
0.30
0.20
As que los dos clientes constituyen una muestral aleatoria de esta distribucin de
probabilidades. La siguiente tabla enumera todos los posibles pares de valores de X1 y X2 con sus
respectivas probabilidades calculadas bajo el supuesto de independencia y los valores de media
( x ) resultantes.
Pgina 51
Cuadro 5.2
x1
500
500
500
750
750
750
900
900
900
Por tanto, la distribucin por muestreo de
x2 p(x1;x2)
500 0.25
750 0.15
900 0.10
500 0.15
750 0.09
900 0.06
500 0.10
750 0.06
900 0.04
x
500
625
700
625
750
825
700
825
900
x es:
Cuadro 5.3
x
P(
x)
500
625
700
750
825
900
0.25
0.30
0.20
0.09
0.12
0.04
x son iguales
2
n
. En
x
P( x x0 ) = N 0
/ n
(5.8)
Pgina 52
= P z <
2 / 100 ,
P (M > 50.4 )
50.4 50
= 1 P z <
2 / 100
P (49.8 M 50.6)
50.6 50
49.8 50
= P z <
P z <
.
2 / 100
2 / 100
0.84000
A continuacin, aplicando el TCL, veremos cmo es la distribucin de algunos estadsticos
de uso muy comn, cuando se efectan muestreos sobre distintos tipos de poblaciones.
n y que cuando n ,
x 0.
Aplicamos una vez ms el TCL y esperamos que, para n grande, la funcin de distribucin
acumulativa de x sea:
Pgina 53
P( x x0 ) N 0
(5.14)
= x1 x 2 para estimar la
12
n1
22
n2
las dos poblaciones, respectivamente) cuando n1 y n2 son grandes. As que la probabilidad de una
dada diferencia puede aproximarse mediante la expresin:
P(x x0 ) N 0
(x )
(5.17)
Ejemplo.
El rendimiento medio en [Kg/Ha] de maz en la localidad A es de 4700 con una variancia de
2
47000 [Kg/ha] y en la localidad B, es de 4200 [Kg/Ha] con una variancia de 100000
2
[Kg/Ha] . Si se eligen al azar 49 establecimientos de la localidad A y 80 de la localidad B y
se determinan sus rendimientos medios de maz, cul es la probabilidad de que el
rendimiento medio de la muestra A sea por lo menos 550 [Kg/Ha] mayor que el de la
muestra B?
= 4700 4200 = 500 [Kg/Ha] y ( x ) =
47000 100000
+
47.00 .
49
80
550 500
P (x 550) 1 N
1 N (1.064 ) 0.1446 y
47
Pgina 54
(n 1) s n21
2
= n21
2
n 1
, es decir que el
adems, la aproximacin no ser buena debido al tamao muestral pequeo. En ese caso, x ya no
sigue la distribucin normal sino la distribucin t de Student que presentamos en el captulo
anterior. As, dada una muestra de tamao n:
P ( x < x0 ) = P t n 1 < 0
s
n
(5.18)
donde s es el desvo standard muestral y tn-1 es una variable t de Student con n 1 grados de
libertad.
Ejercicios
5.1
Una compaa azucarera envasa azcar en bolsas de 500 gr. La cantidad de azcar por
bolsa vara de acuerdo a una distribucin normal. Una muestra de 25 bolsas es
seleccionada a partir de la produccin diaria y si el promedio es menor que 498 gramos
por bolsa, el llenado de las bolsas se incrementar. Si el promedio para la produccin
diaria es de 500 gramos por bolsa y el desvo es de 5 grs., cul es la probabilidad que el
llenado de las bolsas se incremente?
5.2
Suponga que una muestra aleatoria de tamao n = 25, es seleccionada de una poblacin
con media , y desvo estndar . Para cada uno de los siguientes valores de y ,
determine los valores de
Pgina 55
x
1
2
3
8
P(x) 0.1 0.4 0.4 0.1
a. Hallar , 2 y .
b. Hallar la distribucin por muestreo de una muestra de tamao n = 2, de esta
distribucin, determinando todos los posibles valores de x , y encontrar los valores
de probabilidad asociados a cada uno de ellos.
El contenido neto de un frasco de dulce est distribuido normalmente con = 850 grs y
= 8 grs.
a. Describa la distribucin de X.
b. Encuentre la probabilidad de que un frasco escogido al azar contengo entre 848 y
855 grs.
c. Describa la distribucin de la media muestral, a partir de una muestra aleatoria de
24 frascos.
d. Encuentre la probabilidad de que una muestra aleatoria de 24 frascos tenga un
peso promedio entre 848 y 855 grs.
5.4
1
2
3
4
5
6
7
8
9
10
5.6
10
80.1
72.9
74.6
77.6
78.4
79.8
75.7
77.5
82.3
74.8
81.0
81.2
79.3
79.7
77.0
81.7
85.0
78.9
78.3
78.6
76.1
82.5
76.2
78.7
76.4
81.8
83.6
87.3
77.2
72.6
77.9
71.4
79.5
84.2
80.2
83.1
86.2
75.4
79.9
80.8
73.3
71.8
78.2
85.5
68.7
75.6
76.8
77.7
73.1
80.5
70.5
73.5
73.9
79.4
76.5
75.8
75.9
76.0
77.3
80.3
81.4
76.7
84.6
79.1
81.1
76.6
83.4
69.8
74.9
82.0
76.9
78.8
75.3
77.1
74.5
78.5
80.6
80.7
83.9
71.0
72.1
79.2
82.2
82.7
73.7
74.2
77.8
81.5
74.3
82.9
78.0
77.4
72.4
74.0
75.0
75.2
80.0
78.1
79.0
81.7
La velocidad del viento en una isla del Atlntico Sur sigue una distribucin
aproximadamente Normal con = 45 Km/h y = 9 Km/h.
Pgina 56
Pgina 57
ESTIMACIN DE PARMETROS
En un estudio acerca de la disponibilidad de alimento para la dieta de elefantes marinos en la
Pennsula de Valds, se necesita determinar la biomasa promedio de las presas disponibles de
una determinada especie. Obviamente es imposible pesar a todas las presas de esa especie que
se encuentran en el espacio que los elefantes marinos pueden explorar en la plataforma
continental en una temporada. En cambio, se puede disear un muestreo aleatorio que abarque el
rea de distribucin de elefantes marinos en el mar (descripta por seguimiento satelital en
campaas anteriores), capturar en cada sitio una presa de la especie en cuestin y pesarla. El
conjunto de las capturas tomadas al azar constituye una muestra aleatoria, representativa de la
poblacin formada por todos los animales que hubieran podido ser capturados. El peso es una
variable aleatoria que puede tomar diferentes valores segn cual sea el animal capturado.
Nuestra intencin al tomar una muestra es la de hacer una inferencia. Este trmino lo
usamos en Estadstica para denominar al procedimiento con el que hacemos afirmaciones acerca
de parmetros de la poblacin mediante los nmeros que observamos en la muestra. En el caso
del estudio sobre la dieta de los elefantes marinos, el parmetro sobre el cual se hace inferencia es
el peso promedio de todas las presas de la poblacin. Para hacer esta inferencia, es fundamental
que cualquier individuo de la poblacin de inters haya tenido igual probabilidad de entrar en la
muestra. En ese caso, la muestra es representativa de la poblacin. Una muestra aleatoria formada
por n unidades de observacin provee una coleccin de n valores (realizaciones) de la variable
aleatoria. Estas realizaciones (a) son independientes y (b) provienen de la misma distribucin de
probabilidad.
Para tener una idea del valor del parmetro que desconocemos tomamos una muestra de
los pesos de las presas. Supongamos que son 100 presas en la muestra. Con una balanza de la
precisin adecuada y con mucho cuidado, medimos los pesos de las 100 presas de la muestra y
calculamos su promedio. Qu nos dice el valor de la media de la muestra acerca de la media de
la poblacin? Por un lado, definitivamente no esperamos que el valor de la media de la muestra
coincida exactamente con el de la poblacin. Por otra parte, no tenemos mejor informacin
respecto a la media de la poblacin que la que extraigamos de la muestra. Por ltimo, sera muy
extrao que si la poblacin de presas tiene, por decir algo, un peso promedio de 250g, nos tocarn
100 presas en la muestra con un promedio de, digamos, 50g. Fjese que no decimos imposible
sino raro o extrao. Adems, si alguien nos preguntara: cunto es el peso promedio de la
poblacin de presas?, le contestaramos diciendo el valor que hayamos visto en la muestra y a
nuestra afirmacin deberamos agregarle alguna advertencia tal como: "ms o menos'', o
``aproximadamente''.
A un valor calculado con los datos de una muestra para jugar el papel de decir,
aproximadamente, el valor de un parmetro de la poblacin, lo denominamos estimador. Cuando
decimos que se trata de un estimador puntual queremos decir que para estimar el parmetro
estamos usando un valor nico. Volviendo al ejemplo de las presas de los elefantes marinos: si la
muestra de 100 presas arroja un valor del promedio de 235 g, diramos que estimamos el
promedio de la poblacin en 235 g.
Es decir que dada una poblacin de una variable aleatoria claramente identificada, el
proceso de toma de muestras desemboca en el anlisis de los valores de dicha variable aleatoria
en la muestra con el fin de extraer de ella alguna conclusin acerca de la informacin contenida en
la poblacin, que seguir siendo objetivamente desconocida. En clases anteriores habamos
definido a las cantidades calculadas a partir de los datos de la muestra como estadsticos y a las
cantidades desconocidas contenidas en la poblacin como parmetros. Entonces, si se habr de
decidir acerca de un parmetro basndose en lo que el estadstico dice, se pueden hacer dos
cosas: (i) especular acerca del valor del parmetro poblacional desconocido basndose en la
informacin que brinda un estadstico muestral conocido o, (ii) decidir si se acepta que el valor del
parmetro es igual, mayor o menor que una cantidad dada. En ambos casos se estar haciendo
Pgina 58
una inferencia estadstica. En el primer caso, se estar haciendo una estimacin del parmetro y
al estadstico que se utiliza para estimar al parmetro se le llama, justamente, estimador. En el
segundo, se estar poniendo a prueba una hiptesis. En este captulo nos concentraremos en la
estimacin de parmetros y en el siguiente trataremos el tema de las pruebas de hiptesis acerca
de los parmetros poblacionales.
La estimacin de un parmetro puede consistir simplemente en proponer un valor posible
para el parmetro basndose en el valor que tiene el estimador, como hicimos en el ejemplo de los
pesos de las presas de los elefantes marinos. Este tipo de estimacin se denomina estimacin
puntual. Otra manera de estimar un parmetro consiste en proponer, con un grado calculado de
riesgo de cometer un error, un intervalo de valores posibles para el parmetro, lo que se
denomina estimacin por intervalo.
Estimacin puntual
En lo sucesivo emplearemos el smbolo
distribucin de probabilidad.
valor esperado: E( ).
(6.1)
Variancia mnima
Pgina 59
Estimacin consistente
Una vez obtenido un valor para a partir de la muestra, es posible que exista una
diferencia entre ese valor y el verdadero valor del parmetro (). A la diferencia - se la
denomina error muestral, y se debe, como su nombre lo indica, a que cuando se toman
varias muestras, stas no sern todas idnticas sino que diferirn entre ellas. Entonces,
otra caracterstica deseable en un buen estimador es que las estimaciones que genere
estn cercanas al valor del parmetro, o sea, que no tengan error muestral o que tenga
una alta probabilidad de no tenerlo. Se dice que un estimador es consistente si
Mtodos de estimacin
Hay varios mtodos de estimacin pero en este curso presentaremos solamente tres. En esta clase
veremos dos de ellos (el mtodo de mxima verosimilitud y el mtodo de los momentos) y en la
clase correspondiente a Regresin Lineal veremos el otro (el mtodo de mnimos cuadrados).
x=
0 11 + 1 36 + 2 38 + 3 15
= 1.57 ;
100
Pgina 60
= n = 3 = 1.57 = 0.523 .
(6.2)
(6.3)
dL 3
7
=
dp p 1 p
3
3
= 0 p = =
10
10
Este es el concepto de mxima verosimilitud. Presentaremos directamente los
estimadores de MV de los parmetros ms comunes.
(a) Estimador de MV de . El estimador de MV de es la proporcin muestral p:
E(p) = y p
(1 )
n
= p con:
x
n
= x . La
muestral, s
2
n 1 :
= s
2
2
n 1 .
2
n 1 es
un estimador insesgado de .
2
Pgina 61
de los cuales se espera, con un dado margen de confianza, que lleguen a cubrir el verdadero valor
del parmetro.
La estimacin por intervalo de confianza consiste en la obtencin de dos valores extremos,
denominados lmite superior y lmite inferior del intervalo, que son variables aleatorias. Para
establecer dichos lmites, se utilizan los datos de una muestra de tamao n. Luego, se establece la
probabilidad deseada de que dicho intervalo alcance a cubrir el verdadero valor del parmetro
(desconocido), lo que se denomina nivel de confianza del intervalo y se simboliza 1 - . Lo que la
muestra debe proporcionar es, en primer lugar, la estimacin puntual del parmetro ( ); luego, se
necesita conocer el tamao de la muestra (n) y el desvo standard del estimador. En smbolos:
()
( )}
P h + h = 1
(6.4)
Como puede verse en la expresin, el intervalo de confianza es simtrico con lmite inferior
()
()
()
()
muestra es grande, de manera que se aplique el Teorema Central del Lmite, el intervalo con una
confianza 1 - , ser:
P x z1
x + z1
= 1
2
2
n
n
(6.5)
Ejemplo.
Una muestra aleatoria de 50 calificaciones en Matemtica mostr una media de 75. Se
sabe que el desvo estndar poblacional es igual a 10.
(a) Construir un intervalo de confianza del 95% (IC95) para la media poblacional.
(b) Con qu grado de confianza se puede decir que la media de las notas es 75 1?
(a) Dado que se conoce el desvo estndar de la poblacin, usamos la distribucin normal:
P x z1
x + z1
= 1
2
2
n
n
Pgina 62
75 z1
2
10
10
75 + z1
2
50
50
75 1.96
10
10
o sea que 72.23 < < 77.77 es el IC95 buscado.
75 + 1.96
50
50
(b) Aqu hay que averiguar el valor de z tal que se obtenga un valor de
z1
2
10
igual a
50
1. Luego:
z1 = 0.707
2
= 0.24
= 0.48
1 - = 0.52.
s
s
P x t1 ;n1 n1 x + t1 ;n1 n1 = 1 .
2
2
n
n
(6.6)
Ejemplo.
Supongamos que deseamos obtener una estimacin por intervalo de la longitud promedio
de cariopse en una variedad de maz colorado. Podemos extraer primero una muestra
aleatoria de, por ejemplo, 17 cariopses para observacin. Supongamos, adems que
encontramos, que x = 10 mm y que s n 1 = 0.3 mm. Con estos datos, puede construirse el
siguiente IC95:
x t16;0.975
s n 1
n
0 .3
= 10 2.120
17
o sea 9.846 10.154.
Pgina 63
. Dado un valor de
n
n=
z12 2
2
(6.7)
e2
Siguiendo con la parte (a) del ejemplo anterior, el error (e) del IC fue 1.96
10
50
= 2.772 .
Con este mismo nivel de error, la confianza del intervalo cambiara si se modificara n. Si se
aumentara n, la aumentara. Por ejemplo, cunto tendra que aumentar n si se deseara trabajar
con una confianza del 98%? Luego:
n=
2.327 2 10 2
= 70.47 71 .
2.772 2
es:
p z1
2
p (1 p )
p + z1
2
n
p (1 p )
.
n
(6.8)
Ejemplo.
Una encuesta hecha a una muestra aleatoria de 100 electores mostr que el 59% de ellos
est a favor de un candidato. Hallar el IC95 para la proporcin de todos los electores que
estn a favor de dicho candidato.
p (1 p )
n
0.59 (1 0.59) .
100
= 0.0492
Aqu p = 0.59 y =
Luego:
Pgina 64
x t n +n 2;1 sa
1
donde
sa =
1 1
1 1
+
x + tn +n 2;1 sa
+ (6.9)
1
2
2
n1 n2
n1 n2
(6.10)
es el desvo standard amalgamado entre los desvos standard de las dos muestras.
Ejemplo.
Supongamos que nos interesan las diferencias entre los rendimientos promedios de maz
(en Kg/Ha) de dos localidades, A y B. Tomamos una muestra aleatoria de 12
establecimientos de la localidad A (n1) y de 15 establecimientos de la localidad B (n2). Las
medias y variancias muestrales resultan ser:
sa =
11 565000 + 14 362500
672 .
12 + 15 2
x t n + n 2;1 s a
1
n1 + n2
n + n2
x + t n + n 2;1 s a 1
1
2
2
n1 n2
n1 n2
63.86 1136.14.
Pgina 65
o sea
Ejercicios
6.1
6.2
II
II
II
El peso medio al nacer de 50 terneros Shorthorn por Hereford es de 50 kg. Se sabe, por
experiencias anteriores, que la desviacin tpica es de 7 kg.
Se seleccion un conjunto de 100 ovinos que padecan una cierta enfermedad y se les
aplic un tratamiento. Se obtuvo un tiempo medio de supervivencia de 46 meses. Se sabe
por experiencias anteriores que la varianza es de 36 meses2.
Pgina 66
6.5
La siguiente planilla muestra las alturas (en centmetros) de una poblacin de 100
personas. La distribucin es normal y la varianza poblacional es igual a 103.13 cm2.
altura
186
177
197
183
178
175
163
165
176
181
166
149
175
190
161
181
168
164
164
163
caso
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
altura
168
146
171
171
181
177
183
177
184
167
170
167
178
171
167
158
184
169
168
180
caso
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
altura
140
179
173
164
173
153
167
160
174
161
173
158
173
169
168
163
174
171
189
146
caso
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
altura
176
179
171
179
170
169
167
172
170
175
170
153
152
178
165
173
161
162
178
171
caso
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
altura
165
179
171
176
178
164
188
170
145
176
173
153
164
153
163
169
160
172
172
166
Pgina 67
0.71 0.75 0.67 0.68 0.72 0.58 0.69 0.70 0.61 0.67 0.74 0.72 0.61 0.63 0.75
0.73 0.59 0.60 0.63 0.59 0.68 0.69 0.77 0.80 0.63 0.62 0.64 0.78 0.76 0.75
6.9
En una regin agrcola se siembra predominantemente una variedad de trigo que tiene un
rendimiento medio de 3.5 toneladas por hectrea. Una compaa productora
de semillas ha desarrollado una nueva variedad y sostiene que el rendimiento
promedio es mayor que en la variedad comnmente usada. Para probar esta
aseveracin se siembran nueve lotes experimentales con la nueva variedad y se obtienen
los siguientes rendimientos (en Ton/Ha):
3.15
3.92
4.26
3.72
4.19
3.42
4.38
4.50
3.36
En una muestra de 100 semillas elegidas al azar entre las cosechadas en un ensayo, se vio
que el 23% de ellas estaban atacadas por gorgojos. Halle los lmites de confianza del
95% y del 99% para la proporcin de semillas daadas.
6.12 Una muestra de 100 productores elegidos al azar entre todos los de un distrito dado,
indic que el 55% de ellos estaban a favor de las polticas agropecuarias vigentes. Hallar
los lmites de confianza del 95% para la proporcin de todos los productores que estaban
a favor de dichas polticas.
Pgina 68
Pgina 69
H0 verdadera
Decisin
H1 verdadera
En este curso trataremos solamente con los casos en los cuales se determina la
probabilidad de cometer un error de tipo I, es decir, cuando se determina un valor para . Frente a
un dado planteo de hiptesis, se especifica un valor de determinado, al que se le denomina nivel
de significacin de la prueba, y una vez calculado el valor de la distribucin del estadstico
muestral que corresponde a dicha probabilidad (), al que se denomina valor crtico, se toma una
decisin. Una vez conocido el valor crtico, el conjunto de valores posibles del estadstico de
prueba queda dividido en dos subconjuntos: el conjunto de valores para los cuales se aceptar H0
(denominado regin de aceptacin) y el conjunto de valores para los cuales se rechazar H0
(denominado regin de rechazo).
()
= 0 + z1
()
Pgina 70
()
c = 0 + z
(7.1)
Pgina 71
Figura
7.2.
Representacin
esquemtica de la
regin crtica o regin
de rechazo (R), de la
regin de aceptacin
(A) y de las reas
correspondientes a dos
niveles
de
significacin, 0.01 y
0.05, para el caso de
una prueba unilateral
izquierda.
De manera que, para una prueba unilateral izquierda, la decisin ser, si usamos = 0.05
(o 0.01), rechazar H0 si el valor del estadstico muestral (en este caso, z) es inferior a -1.65 (o a 2.33). Caso contrario, aceptar H0.
Prueba bilateral (H0: = 0 vs. H1: 0)
En este caso, la regin crtica estar dividida en dos segmentos de igual longitud situados
(simtricamente) a ambos extremos de la distribucin del estadstico (Figura 7.3).
Figura 7.3.
Representacin
esquemtica de las
dos regiones crticas
o de rechazo (R), de
la regin de
aceptacin (A) y de
las reas
correspondientes a
dos niveles de
significacin, 0.01 y
0.05, para el caso de
una prueba bilateral.
De modo que habr dos valores crticos, uno a la izquierda y el otro a la derecha:
Pgina 72
()
( )
cI = 0 + z
2
cD = 0 + z1
(7.3)
(7.4)
El valor p
Con el advenimiento del uso de computadoras y de software estadstico, se ha generalizado una
manera alternativa de tomar decisiones acerca del valor de un parmetro. Frente a un dado
conjunto de datos de muestra, el software estadstico calcula el valor del estadstico de prueba y el
valor de probabilidad que le corresponde (valor p), segn la distribucin por muestreo asumida
para el mismo. Entonces, en lugar de fijar de antemano un nivel de significacin y observar si el
valor del estadstico calculado est por debajo o por encima del valor crtico, el ingeniero toma su
decisin sobre la base de dicho valor p. En este curso, ejemplificaremos el uso de ambas
estrategias.
t n 1 =
x 0
s n 1
n
(7.4)
t de Student con n-1 grados de libertad siempre y cuando la hiptesis nula = 0 sea cierta. Esto
permite poner a prueba la hiptesis nula como en el siguiente ejemplo.
Ejemplo.
Supongamos que una mquina enfardadora produce fardos con un ancho de 80 cm. Para
controlar el funcionamiento de la mquina se tom una muestra de 20 fardos en la cual el
ancho medio result ser de 77 cm con un desvo standard de 12 cm. Probar la hiptesis de
que la mquina est trabajando correctamente con = 0.10.
Pgina 73
t n 1 =
x 0
s n 1
n
4] Regin crtica. Puesto que P(t19 < -1.729 t19 > +1.729) = 0.10, se rechazar H0 si
t < -1.729 t > +1.729.
5] Clculos. n = 20, x = 77, s n 1 = 12 y
t19 =
77 80
3
=
= 1.118 .
12 20 2.683
6] Decisin. Dado que el valor del estadstico de prueba no cae en ninguna de las dos
regiones crticas, H0 no es rechazada.
7] Con el men Estadsticas Probabilidades y cuantiles de Infostat, podemos
calcular el valor p de la prueba. Elegimos v = 19, que es el nmero de grados de
libertad. El valor p es, aproximadamente, igual a 0.2779 que es muy superior a 0.10.
Pgina 74
t n 1 =
d
sd
(7.10)
d =
i
di
n
es la media aritmtica de las diferencias, donde n es el nmero de parejas. El estimador del desvo
standard de esta media aritmtica de las diferencias es
sd
n
con:
sd =
(d
i
d )2
(n 1)
n d i2 ( d i )
n (n 1)
Ejemplo.
Supongamos que se desea saber si un nuevo hbrido de maz (B) es superior a otro hbrido
anterior (A) por su rendimiento promedio en 10 localidades de la regin maicera de la
provincia de Buenos Aires. Se eligieron al azar 10 establecimientos y se obtuvieron los
resultados que se presentan el cuadro siguiente en el cual ya se han calculado las
diferencias para cada localidad y sus respectivos cuadrados.
Cuadro 7.4.
Localidad
I
II
III
IV
V
VI
VII
VIII
IX
X
Total
Hbrido A
8450
7929
8126
8847
9059
8732
8346
8009
8859
8642
84999
Hbrido B
8239
8130
8255
8750
9147
8643
8442
8112
9047
8540
85305
(di)
di
+211 44521
-201 40401
-129 16641
+97
9409
-88
7744
+89
7921
-96
9216
-103 10609
-188 35344
+102 10404
-306 192210
Pgina 75
3] Estadstica de prueba. t n 1
d
sd
grados de libertad.
4] Regin crtica. Para n = 10, obtenemos que P(t9 < -2.821) = 0.01 y se rechazar H0
si, y solo si, t9 < -2.821.
5] Clculos.
d =
i
d i 306
=
= 30.6 ;
n
10
2
n d d i
2
i
i
= 10 192210 ( 306 ) = 142.535
;
n (n 1)
10 (10 1)
2
i
1]
2]
sd =
sd
n
142.535
10
= 45.074 ; t n 1 =
30.6
= 0.679
45.074
d t n 1;1
2
sd
n
= -
Muestras independientes
En este punto tratamos con muestras tomadas independientemente una de la otra.
Consideraremos slo el caso en el cual las poblaciones de las cuales provienen las muestras
tienen igual variancia. En este caso, nuestro estimador insesgado de dicha variancia (que es la
misma para ambas poblaciones) es:
2
2
2 (n1 1) s( n 1),1 + (n2 1) s( n 1), 2
sa =
n1 + n2 2
(7.8)
Pgina 76
sa
1
1
+
n1 n2
(7.9)
t=
( x1 x2 ) 0
1
1
sa
+
n1 n2
(7.10)
tiene distribucin t de Student con n1 + n2 2 grados de libertad siempre y cuando la hiptesis nula
que dice = 0 sea cierta. Esto permite poner a prueba la hiptesis nula como en el ejemplo que
sigue.
Ejemplo.
En una estacin experimental agropecuaria se desea evaluar el efecto de cierto herbicida
sobre la produccin de cebada. Con ese fin, se seleccionan 28 parcelas de tierra, a 14 de
ellas se las trata con herbicida y a las otras 14 no. La produccin promedio de cebada de
las parcelas no tratadas fue de 5 toneladas con un desvo standard igual a 0.5 toneladas.
La produccin promedio de las parcelas tratadas fue de 5.3 toneladas con un desvo
standard igual a 0.7 toneladas. Extraer una conclusin con = 0.05 y determinar el valor p
de la prueba de hiptesis.
Cuadro 7.3.
t=
x1 x 2
1
1
sa
+
n1 n2
n2 2 = 26.
4] Regin crtica. Con = 0.05 para una prueba bilateral: t26 < -2.056 y t26 > +2.056.
Por tanto, se rechazar H0 si t26 < -2.056 o t26 > +2.056.
5]Clculos.
sa =
n1 + n 2 2
13 0.49 + 13 0.25
= 0.608
14 + 14 2
Pgina 77
sa
1 1
1 1
+
= 0.608
+
= 0.230
n1 n2
14 14
t=
x1 x 2 5.3 5.0
=
= 1.304 .
0.230
0.230
Ejercicios
La propaganda de cierta marca de cigarrillos sostiene que el contenido promedio de
nicotina de su producto es menor de 0.7 miligramos por cigarrillo. Suponiendo una
distribucin normal para el contenido de nicotina, su aseveracin es que < 0.7. Entonces,
se desea probar: H0: 0.7 en oposicin a H1: < 0.7
La hiptesis se quiere probar con un nivel de significacin () igual a 0.01, ya que si se
rechaza H0 se deber autorizar que en la publicidad aparezca esta afirmacin, y solo
estamos dispuestos a hacerlo si la evidencia en contra de H0 es fuerte. Para realizar la
prueba determinamos el contenido de nicotina en 30 cigarrillos tomados al azar,
encontrando los siguientes valores:
0.71 0.75 0.67 0.68 0.72 0.58 0.69 0.70 0.61 0.67 0.74 0.72 0.61 0.63 0.75
0.73 0.59 0.60 0.63 0.59 0.68 0.69 0.77 0.80 0.63 0.62 0.64 0.78 0.76 0.75
Cul es la conclusin? Compare estos resultados con los obtenidos en el ejercicio 7 del
captulo anterior.
7.6
7.7
Un investigador est interesado en conocer el nivel promedio de una enzima (A) en hojas
de ceibo, para lo cual toma muestras de hojas de 16 rboles y determina el nivel de
enzima por gramo de hoja para cada rbol. Con estos valores estima un nivel promedio de
Pgina 78
2.2 mg de enzima A por gramo de hoja y un desvo estndar muestral de 0.67 mg/gramo
de hoja.
a) Estime con una confianza de 90%, el nivel promedio de enzima por gramo de hoja.
b) En otra variedad de ceibo se conoce que el nivel promedio de la enzima es de 2.1
mg por gramo por hoja. Se puede considerar que la variedad estudiada por el
investigador presenta una concentracin de enzima significativamente diferente?
Use un nivel de significacin de 5%.
7.1
4.23
4.05
4.60
4.10
3.66
4.42
3.96
3.66
4.24
4.05
4.03
4.33
3.83
4.00
3.74
3.77
3.48
4.10
a.
b.
c.
d.
Un fabricante de alimentos para pollos asegura que luego de un mes de utilizar sus
productos se logra un peso promedio superior a los 700 g por animal. Para verificarlo
suministra una racin a un lote de 50 animales y al cabo de 30 das se observa que el
peso promedio logrado es de 730 g, con un desvo de 40 g. Puede asegurarse, con un
nivel de significacin del 1 %, que lo afirmado por el fabricante es cierto?
7.15 En un estudio para predecir el peso de novillos de raza britnica sin balanza,
a partir del permetro torcico, se compararon las evaluaciones hechas
mediante una cinta mtrica de origen norteamericano con los obtenidos
mediante el pesado por mtodo nacional. Las observaciones para cada animal fueron las
siguientes:
Novillo
1
2
3
4
5
6
7
335
362
338
329
333
371
356
355
367
367
342
349
399
342
Pgina 79
8
9
10
341
334
335
349
355
322
4 10 7
10
Prueba n 2 14 9 13 12 13 8
10
7.18 Los pesos de los vellones, en kg, de ovinos de 6 dientes de raza Corriedale, en dos
estancias vecinas de Tierra del Fuego son los siguientes:
Estancia I
4.3 3.8 3.9 4.0 4.4 4.5 3.9 4.6 4.2 3.8
10
Con abono
6.5 5.6 6.6 6.1 5.8 6.0 6.4 6.3 6.1 6.6
Sin abono
5.4 5.8 5.4 5.8 5.7 5.4 5.7 6.0 5.3 6.0
Pgina 80
10 10 13 12 17 8 12 11
Hormona B
15 11
16 15
16 17 18 9 14 12 15 16
Determine si hay diferencias significativas entre los crecimientos producidos por ambas
hormonas a un nivel del 5%. Suponga distribucin normal y varianzas poblacionales iguales.
Pgina 81
Pgina 82
As como existen medidas de tendencia central (medias, medianas, etc.) y de dispersin (variancia, desvo standard, coeficientes de variacin, etc.) para describir la distribucin de una variable
aleatoria, tambin existen medidas que sirven para describir la asociacin entre dos variables o,
ms especficamente, la manera en que dos variables aleatorias varan en forma conjunta. La medida principal del tipo de asociacin entre dos variables aleatorias se denomina covariancia entre
las variables X e Y, y se denota Cov(X,Y). La Cov(X,Y) se calcula de la siguiente manera:
Cov( X , Y ) = E [( X X ) (Y Y )]
(8.1)
( X i X ) (Yi Y )
n 1
(8.2)
Y as como existe el coeficiente de variacin como medida de dispersin relativa independiente de las unidades de medicin, tambin existe una medida relativa de la asociacin estadstica entre dos variables que es, tambin, independiente de las unidades de medicin, que se denomina coeficiente de correlacin. Para el caso de una poblacin, el coeficiente de correlacin
poblacional entre dos variables es un parmetro que se denota con la letra y que se define de la
siguiente manera:
(X ,Y ) =
Cov( X , Y )
(8.3)
V ( X ) V (Y )
Para el caso de una muestra bivariada de tamao n, estimamos el coeficiente de correlacin mediante el coeficiente de correlacin muestral que se denota mediante la letra r y se calcula de la siguiente manera:
r=
(X X ) (Y Y )
(X X ) (Y Y )
i
(8.4)
La covariancia puede tomar cualquier valor en la escala de los nmeros reales, y tanto valores positivos como negativos mientras que el coeficiente de correlacin, por su naturaleza relativa, slo puede tomar valores en el intervalo [-1,+1]. Ambas medidas, cuando son positivas, describen una asociacin de tipo directo entre las variables (es decir, cuando aumenta una de ellas, la
otra tambin tiende a aumentar) mientras que cuando son negativas, describen una asociacin de
tipo inverso entre las variables (es decir, cuando aumenta una de ellas, la otra tiende a disminuir).
Pgina 83
Ejemplos
1. Los coeficientes descriptos permiten describir la asociacin positiva entre los contenidos del micro y del macronutriente del suelo que se visualiza en la Figura 8.1.
Entonces:
r=
(X X ) (Y Y )
(X X ) (Y Y )
i
135.30
= 0.9563
141.479
Obs.
(X
0.01 55.2
-0.598
-47.8
0.3576
2284.84
28.584
0.18 59.9
-0.428
-43.1
0.1832
1857.61
18.447
0.23 77.3
-0.378
-25.7
0.1429
660.49
9.715
0.29
-0.318
-24
0.1011
576
7.632
0.47 92.1
-0.138
-10.9
0.0190
118.81
1.504
0.59 118.3
-0.018
+15.3
0.0003
234.09
-0.275
+18.5
0.0740
342.25
5.032
+26.4
0.1459
696.96
10.085
+49.7
0.2043
2470.09
22.464
10
+41.6
0.5960
1730.56
32.115
1.8244
10971.7
135.303
Suma
79
6.08 1030
2. Sea la siguiente muestra bivariada donde X es el nmero de horas de fro recibidas por
un grupo de semillas e Y es el nmero de das transcurridos desde siembra a germinacin:
X
Y
18
32
23
30
29
23
31
22
42
20
47
16
59
15
66
12
88
10
116
5
Pgina 84
En este caso, puede visualizarse que la asociacin entre las dos variables es negativa. Esto concuerda con los valores negativos de la covarianza y del coeficiente de correlacin estimados:
n 1
(X i X ) (Yi Y )
(X
X ) (Yi Y )
2
2257.5
= 0.9373
2408.39
relacin funcional y,
relacin estadstica.
La primera puede ser expresada por una frmula o modelo matemtico. Es el caso de la relacin entre el costo de un traslado de mercadera (Y) y la distancia a recorrer (X), cuando el costo
fijo por el traslado es de $30 y se suman $5 por cada km de recorrido. En este caso el costo total
del traslado se puede calcular exactamente mediante la siguiente funcin:
Y = 30 + 5X
Se trata de una funcin que representa a una lnea recta, donde la ordenada al origen es
30 (precio que nos cobra el flete slo por haber sido contratado y llegar al lugar de partida, aunque
luego decidamos no realizar el transporte) y la pendiente es 5 (incremento del costo por cada km
de aumento del recorrido). Si se desea calcular el costo de un traslado a 6 km, basta con reemplazar en la funcin, la variable X por el valor 6 y realizar la cuenta, para enterarnos que deberemos
pagar $60. En la figura 8.3 se observa que todos los puntos que satisfacen la relacin se encuentran sobre la misma lnea recta y que a cada valor de X le corresponde un nico valor de Y.
A diferencia de la relacin funcional, la relacin estadstica no es una relacin perfecta. En
general, las observaciones no caen directamente sobre una lnea recta. Por ejemplo, si se estudia el
tiempo hasta floracin de una especie, en funcin de la temperatura, se puede obtener una muestra
de datos como la siguiente, que representa la suma de temperaturas (X) por encima de un umbral y
los das hasta floracin (Y) para la especie en cuestin
Pgina 85
18
23
31
31
42
59
19
78
47
59
66
23
36
66
60
32
30
25
22
20
12
26
16
15
12
26
18
Figura 8.3.
Sin embargo, puede verse que la relacin no es perfecta: para cada valor de suma de temperaturas no existe un nico tiempo hasta floracin, sino que hay una dispersin de puntos sugiriendo que parte de la variacin en el tiempo hasta floracin no se explica por la suma de temperaturas. En este caso el tiempo hasta floracin es la variable dependiente o variable respuesta (Y)
y la suma de temperaturas, la variable independiente o variable predictora (X).
La Figura 8.5 muestra la recta que describe la relacin estadstica entre las variables estudiadas (luego explicaremos como obtenerla). La dispersin de puntos alrededor de la lnea representa la variacin en tiempo a floracin que no est asociada linealmente a la suma de temperaturas.
Pgina 86
Figura 8.5.
La tcnica de anlisis de regresin lineal simple se utiliza para analizar la relacin estadstica entre dos variables. Debe quedar claro desde ahora que la relacin entre las dos variables que
se pretende determinar es de naturaliza estadstica y no solamente matemtica, siempre habr un
grado de incertidumbre en cuanto a las relaciones que se establezcan y en cuanto a las estimaciones y pruebas de hiptesis que se hagan.
Emplearemos la relacin funcional ms simple: la lnea recta que queda completamente
definida una vez conocidos su ordenada al origen y su pendiente. El objetivo de la tcnica consiste
en encontrar la lnea recta que mejor describa la relacin entre las variables predictora (X) y respuesta (Y).
Ejemplo:
El ejemplo consiste en 10 lotes de Picea en un gran vivero de Bariloche. En dicha muestra
se midieron dos variables: el tamao del lote de produccin y el nmero de Horas-Hombre
insumidas para producir arbolitos en dicho lote.
El nmero de Horas-Hombre es la variable dependiente o variable respuesta (Y)
y el tamao del lote, la variable independiente o variable predictora (X). En la Tabla 2 se
muestran los datos. La Figura 6 muestra la dispersin de los datos. Se nota claramente en
el grfico que la relacin entre las dos variables es directa: a mayor tamao de lote, mayor
cantidad de Horas-hombre necesarias para producirlo.
De conocer todos los valores posibles de ambas variables (estaramos tratando
con una poblacin), entonces se podra buscar una recta que describa ajustadamente la relacin entre las dos variables, es decir que, si se hallara dicha recta, se conoceran sus
parmetros: la ordenada al origen ( 0) y la pendiente ( 1). Pero si eso no es posible, solo
se podr disponer de los datos de una muestra. La cuestin ahora es encontrar la recta
que mejor ajuste los puntos del diagrama de dispersin, es decir que, a partir de los datos
de la muestra se debern encontrar estimadores de los parmetros 0 y 1 de la recta verdadera (en la poblacin) a los que denotaremos como b0 y b1.
Pgina 87
Tabla 8.2.
Salida de
produccin
(i)
1
2
3
4
5
6
7
8
9
10
Tamao
de lote
(Xi)
30
20
60
80
40
50
60
30
70
60
Horas
-Hombre
(Yi)
73
50
128
170
87
108
135
69
148
132
Figura 8.6.
No esperaremos que todos los puntos muestrales caigan exactamente sobre ella sino que
habr una diferencia debida al error de la muestra. Para expresar la relacin estadstica entre las
dos variables tendremos que escribir el modelo de regresin:
Modelos de regresin
Un modelo de regresin es una manera formal de expresar los dos ingredientes esenciales de
una relacin estadstica:
Siguiendo con el ejemplo, para cada tamao de lote, se asume que hay una distribucin de
probabilidades de Y. La Figura 7 muestra esa distribucin para X = 30 que es el tamao de lote
Pgina 88
para la primera salida de produccin. Entonces, la cantidad real de Horas-Hombre (73) es vista
como una seleccin aleatoria a partir de esta distribucin de probabilidades.
Figura 8.7.
La Figura 8.7 tambin muestra las distribuciones de probabilidades de Y para los tamaos
de lote 50 y 70 (X = 50 y X = 70). Ntese que las medias de las distribuciones de probabilidades
guardan una relacin exacta con el nivel de X. Esta relacin exacta se denomina funcin de regresin de Y sobre X. El grfico de la funcin de regresin se denomina curva de regresin. En
la figura la funcin de regresin es lineal. Para nuestro ejemplo, esto implicara que el nmero esperado (es decir, la media) de Horas-Hombre vara de manera lineal con la variacin en el tamao
del lote. El nmero de Horas-Hombre podra estar relacionado de otra manera con el tamao del
lote - no necesariamente deber ser una lnea recta pero en este curso slo estudiaremos relaciones lineales.
Objetivos del anlisis de regresin
El anlisis de regresin persigue tres grandes objetivos: (1) descripcin, (2) control y, (3) prediccin.
En los estudios observacionales, es decir, cuando se observa un proceso sin incidir sobre el mismo (o tratando de no hacerlo) el propsito es claramente descriptivo. Por ejemplo, en el estudio de
la influencia de la cantidad de dixido de azufre en el aire (X) sobre el porcentaje de plantas atacadas por un insecto en un bosque (Y), se tomarn muestras bivariadas y se registrarn los valores
de ambas variables con el fin de describir ese proceso de contaminacin-infestacin. En los estudios tcnicos donde el ingeniero manipula una variable (X) y observa cmo cambia otra (Y), el
propsito es controlar el proceso con fines tcnicos o econmicos. Por ejemplo, la manipulacin de
dosis de fertilizantes sobre el rendimiento de un cultivo: un ensayo permitira hallar una relacin
estadstica entre rendimientos y dosis de fertilizante en el cultivo para fijar los gastos en ese rubro.
Finalmente, conocer la relacin estadstica funcional entre dos variables permite predecir el comportamiento futuro de una de ellas dado que se conoce el valor de la otra. Por ejemplo, si se conoce la relacin funcional que liga el porcentaje de humedad en el ambiente con el porcentaje de
plantas infectadas por un hongo patgeno en un cultivo, se puede lanzar una alarma cuando el
nivel de humedad llegue a un nivel crtico. Pero los distintos objetivos suelen superponerse. El
ejemplo de los tamaos de lotes y las Horas-Hombre permite la prediccin del requerimiento en
Horas-Hombre para la prxima salida de produccin dado un tamao de lote, a los fines de la estimacin de los costos y la programacin de la produccin. Despus que la produccin se complet,
los ingenieros pueden comparar las Horas-Hombre reales con las horas predichas por el modelo a
los fines del control administrativo.
Pgina 89
(8.6)
3. puesto se supone que los i son independientes, tambin se supone que los diferentes
resultados obtenidos, Yi, son completamente independientes (es decir que el valor de
uno de ellos no tiene ninguna influencia sobre el valor de otro de ellos).
Siguiendo con el ejemplo, supongamos que un modelo de regresin lineal se puede aplicar al
ejemplo de los tamaos de lote y que dicho modelo es: Yi = 9.5 + 2.1Xi + i. La siguiente figura
contiene una representacin de la funcin de regresin E(Y) = 9.5 + 2.1X. Supongamos que en la
i-sima unidad se produce un lote de Xi = 45 unidades y que el nmero observado de HorasHombre es Yi = 108. En este caso, el trmino del error es i = +4 porque E(Yi) = 9.5 + 2.1(45) =
104 e Yi = 108 = 104 + 4.
La Figura 8.8 muestra la distribucin de probabilidad de Y cuando X = 45 e indica dnde est
la observacin Yi = 108 en esta distribucin. Ntese otra vez que el trmino del error i es, simplemente, la desviacin de la observacin con respecto a su valor promedio E(Yi). La figura tambin
muestra la distribucin de probabilidad de Y cuando X = 25. Ntese que esta distribucin muestra
la misma variabilidad que la distribucin de probabilidad correspondiente a X = 45, de conformidad
con los requerimientos del modelo lineal simple.
Pgina 90
Figura 8.8.
Parmetros de la regresin
Los parmetros 0 y 1 se denominan coeficientes de regresin. 1 es la pendiente de la lnea
de regresin e indica el cambio en la media de la distribucin de probabilidad de Y por cada unidad de incremento en X. El parmetro 0 es la ordenada al origen (intercepcin) de la lnea de regresin. Si el rango de valores del modelo llega hasta X = 0, 0 da la media de la distribucin de
probabilidad de Y en X = 0. Cuando el rango del modelo no llega hasta X = 0, 0 no tiene ningn
significado particular como trmino en el modelo de regresin.
Ejemplo.
La Figura 8.9 muestra la funcin de regresin E(Y) = 10 + 2X para el ejemplo anterior de
los tamaos de lotes. La pendiente 1 = 2 indica que un incremento de una unidad en el
tamao del lote lleva a un incremento en la media de la distribucin de probabilidad de Y
de 2 Horas-Hombre. La ordenada al origen 0 = 10 indica el valor de la funcin de regresin en X = 0, pero como el modelo de regresin lineal fue formulado para que se aplique a
tamaos de lote que iban desde 20 hasta 80 unidades, 0 no tiene ningn significado por s
mismo y, en particular, no indica necesariamente el tiempo promedio al comienzo del proceso, es decir el nmero promedio de Horas-Hombre antes de que comience la produccin.
Figura 8.9.
Pgina 91
i = 1,2,,n
(8.7)
donde fi() es una funcin conocida del parmetro y las i son variables aleatorias de las cuales
se asume, comnmente, que tiene esperanza igual a 0, es decir, E(i) = 0. Con el mtodo de mnimos cuadrados, para un conjunto de observaciones mueestrales dado, la suma de cuadrados:
n
Q = [Yi f i ( )]
(8.8)
i =1
es considerada como una funcin de . El estimador de mnimos cuadrados de se obtiene minimizando Q con respecto a , es decir, derivando Q con respecto a e igualando a 0. En muchas
instancias, los estimadores de mnimos cuadrados son insesgados y consistentes.Este mtodo
utiliza los cuadrados de las diferencias entre las observaciones Yi y sus valores esperados:
n
Q = (Yi 0 1 X i )
(8.9)
i =1
Y buscar los valores b0 y b1 que hagan que Q tenga su valor mnimo: sos sern los estimadores de los parmetros 0 y 1. Como es sabido, para hallar mnimos se debe recurrir al clculo
de derivadas. En este caso que nos ocupa, tendremos un sistema de ecuaciones en derivadas
parciales (denominadas ecuaciones normales) del cual se pueden despejar los valores de b0 y b1:
(VER ANEXO I)
Como dijimos, el objetivo del mtodo de mnimos cuadrados es hallar estimaciones b0 y b1
para 0 y 1, respectivamente, para las cuales Q sea mnima. Despus de las correspondientes
manipulaciones algebraicas (que aqu no detallaremos), se llega a las siguientes dos expresiones
para b0 y b1:
b1 =
( X X ) (Y Y )
(X X )
i
b0 = Y b1 X
(8.10)
donde X e
Ejemplo.
Para ilustrar el clculo de los estimadores de mnimos cuadrados b0 y b1, utilizaremos,
nuevamente, el ejemplo de los tamaos de lotes en el vivero de Picea en Bariloche, cuyos
Pgina 92
Luego:
b1 =
30
20
60
80
40
50
60
30
70
60
Suma
73
50
128
170
87
108
135
69
148
132
(X
X)
(Yi Y ) 2 ( X i X ) (Yi Y )
400
1369
740
900
3600
1800
100
324
180
900
3600
1800
100
529
230
0
4
0
100
625
250
400
1681
820
400
1444
760
100
484
220
3400
13660
6800
SCX = 3400, SCY = 13660 y SPXY = 6800.
( X X ) (Y Y ) = SP
SC
(X X )
i
XY
= 2.0
Pgina 93
Y = 10.0 + 2.0 55 = 120 . As, estimaramos que el nmero medio de Horas-Hombre para los
lotes de tamao X = 55 es igual a 120. Esto significa que si se producen muchas tandas con lotes
de tamao 55 bajo las condiciones de las 10 tandas de la muestra, el tiempo de trabajo promedio
para cada tanda ser de alrededor de 120 horas. Desde ya que el tiempo de trabajo para un lotea
de tamao 55 cualquiera es probable que sea ms alto o ms bajo que la respuesta media debido
a la variabilidad inherente en el sistema, tal como se representa mediante el trmino del error en el
modelo. La Figura 8.10 contiene un grfico de la funcin de regresin estimada Y
as como los datos originales.
= 10.0 + 2.0 X ,
Figura 8.10
Los valores ajustados para los datos muestrales son obtenidos sustituyendo los valores de
X de la muestra en la ecuacin de regresin estimada. Por ejemplo, para los datos de la muestra
del ejemplo, X1 = 30. Por tanto, el valor ajustado es: Y = 10.0 + 2.0 30 = 70 . Esto se compara
con el valor observado de Horas-Hombre, Y = 73. La Tabla 4 contiene los valores de la variable
independiente (Xi), las respuestas (Yi), los valores ajustados por el modelo de regresin lineal ( Yi ),
los residuales y sus cuadrados.
Residuales
El i-simo residual es la diferencia entre el valor observado Yi y el correspondiente valor ajustado Yi :
ei = Yi Yi = Yi b0 b1 X i .
La Figura 8.11 muestra los 10 residuales del ejemplo. Las magnitudes de los residuales se
muestran mediante lneas verticales entre cada observacin y el valor ajustado sobre la lnea de
regresin estimada. Debemos distinguir entre el valor del trmino del error del modelo, i = Yi
E(Yi), y el residual,
la lnea de regresin poblacional desconocida y, por tanto, es desconocido. Por otra parte, el residual es la desviacin vertical observada de Yi con respecto a la lnea de regresin ajustada.
Los residuales son muy tiles para estudiar si un modelo de regresin es apropiado para
los datos con los cuales se est trabajando.
Pgina 94
Figura 8.11.
Tabla 8.4.
Observ.
1
2
3
4
5
6
7
8
9
10
Total
( )
30
20
60
80
40
50
60
30
70
60
500
73
50
128
170
87
108
135
69
148
132
1100
Residual
Residual al cuadrado
ei = Yi Yi
70
50
130
170
90
110
130
70
150
130
1100
ei2 = Yi Yi
+3
0
-2
0
-3
-2
+5
-1
-2
+2
0
9
0
4
0
9
4
25
1
4
4
Q = 60
e
i =1
dad, tenemos la propiedad de que la suma de los valores observados Yi es igual a la suma
de los valores ajustados, Yi :
Y = Y .
i =1
i =1
2
i
, es un mnimo.
Pgina 95
Para poder obtener una estimacin de , es necesario conocer los valores de los residuales del
2
anlisis de regresin, Yi
SC E = Yi Yi
i =1
) = (Y b
2
i =1
b1 X i ) = ei2
2
(8.12)
i =1
SC E
n2
2
(Yi Yi )
CM E =
=
=
=
n2
2
(Yi b0 b1 X i )
(8.13)
n2
2
i
n2
Coeficiente de determinacin
2
El coeficiente de determinacin, R , es una medida descriptiva del grado de asociacin lineal entre
las dos variables. Est compuesto por la Suma de Cuadrados Total (SCTOT), que mide la variacin
total en las observaciones Yi, y la Suma de Cuadrados de Error (SCE) que mide la variacin residual en las Yi cuando se emplea el modelo de regresin. Una medida natural de la magnitud del
efecto de X de reducir la variacin en Y es:
R2 =
SCTOT SC E
SC R
=
SCTOT
SCTOT
(8.14)
donde:
n
SC TOT = SCY = ( y i y )
(8.15)
i =1
Pgina 96
SC E = (ei )
(8.16)
i =1
i =1
i =1
(8.17)
i =1
R2 =
SCTOY SC E 13660 60
=
= 0.995
SCTOT
13660
b1 =
(X X ) (Y Y )
(X X )
i
(8.18)
2 (b1 ) =
(X
X)
(8.19)
Pgina 97
Figura 8.12.
b1 1
s(b1 )
El estadstico que utilizaremos para las pruebas de hiptesis acerca de 1 es el estadstico estan-
b1 1
que tiene distribucin normal standard y estimaremos (b1) mediante s(b1). Fi (b1 )
b1 1
tiene distribucin tn-2 para el modelo que estamos utilizando, siendo
nalmente, bajo H0,
s(b1 )
CM E
(8.20)
s 2 (b1 ) =
2
( xi x )
darizado
b1 1
tiene distribucin t, el IC1-
s(b1 )
Resulta:
Sea:
P b1 t1
b 1
P t ;n 2 1
t1 ;n 2 = 1 , o
2
s(b1 )
2
;n 2
s (b1 ) 1 b1 + t1
;n 2
s (b1 ) = 1
(8.21)
(8.22)
Ejemplo. Siguiendo con el ejemplo de los tamaos de lote, supongamos que se desea obtener un IC95 para 1. Los clculos necesarios son los siguientes:
= 50 ; b0 = 10.0; b1 = 2.0;
Y = 10.0 + 2.0 X ; SCE = 60;
n = 100; X
CME = 7.5;
(X X ) = 3400 ;
(X X ) (Y Y ) = 6800 ;
2
Pgina 98
(Y
s 2 (b1 )
Y ) = 13660 ;
2
CM E
7 .5
=
= 0.002206
2
3400
(
)
X
X
i
y s(b1) = 0.04697.
Para el IC95 hallamos que t8;0.975 = 2.306 y, entonces:
2.0 2.306(0.04697) 1 2.0 + 2.306(0.04697),
es decir, 1.89 1 2.11.
As que, con una confianza del 95%, estimamos que el nmero medio de Horas-Hombre se
incrementa entre 1.89 y 2.11 por cada incremento de
Pruebas de hiptesis para 1
Prueba bilateral.
Supongamos que se desea probar si existe alguna asociacin lineal entre los tamaos de los lotes
y el nmero de Horas-Hombre, es decir: H0: 1 = 0; H1: 1 0.
La estadstica de prueba es: t* =
b1
y la regla de decisin con un nivel de significacin
s (b1 )
es:
si |t*|
t1
;n 2
t1
;n 2
, se rechaza H0.
Para el ejemplo de los tamaos de lote, con = 0.05, b1 = 2.0, s(b1) = 0.04697 y t8;0.975 =
2.306 la regla de decisin es aceptar H0 si |t*| 2.306 y rechazar H0 si |t*| > 2.306. Dado que:
t* =
2 .0
= 42.58 > 2.306
0.04697
se decide rechazar H0 y concluir en que 1 0, o sea que existe una asociacin lineal entre los
tamaos de los lotes y el nmero de Horas-Hombre. Mediante el men Estadsticas Probabilidades y cuantiles de Infostat podemos ver que el valor p para el resultado de la muestra es casi
0. Y, por tanto, el valor de p bilateral tambin es casi 0.
Prueba unilateral.
En este caso las hiptesis son: H0: 1 0; H1: 1 > 0 y la regla de decisin basada en la prueba t:
si |t*|
t1 ;n 2
t1 ;n 2
= Y b1 X
Pgina 99
X2
,
(b0 ) = +
2
n ( X i X )
2
(8.23)
respectivamente.
X2
s 2 (b0 ) = CM E +
2
n ( X i X )
Distribucin por muestreo de
(8.24)
b0 0
.
s (b0 )
b0 0
tiene distribucin tn-2. Por tanto, se pueden establecer intervalos de confianza y pruebas
s (b0 )
de hiptesis usando la distribucin t.
Intervalo de confianza para 0
Lmites de confianza con 1 - para 0:
b0 t n 2;1 s(b0 ) .
2
Ejemplo. Si se desea construir un IC90, hallaramos primero t8;0.95 y s(b0). T8;0.95 = 1.860 y, por los
resultados previos, sabemos que:
1
X2
50 2
s 2 (b0 ) = CM E +
=
7
.
5
= 6.26471 y
2
n (X i X )
10 3400
s(b0) = 2.50294.
Y el IC90 para 0 es: 10.0 1.860(2.50294) 0 10.0 + 1.860(2.50294), es decir, 5.34 0
14.66.
Inferencias para la media de Y dado X
Otro aspecto fundamental del anlisis de regresin es que, conociendo la funcin de regresin que
ajusta los datos, tambin se puede conocer el valor esperado de la variable respuesta, E(Yk), correspondiente a un valor determinado de la variable predictora, Xk, Por tanto, tambin se pueden
construir intervalos de confianza con respecto a Yk. El estimador puntual de E(Yk)
es Yk : Yk
= b0 + b1 X k .
Pgina 100
E( Yk ) = E(Yk) y Yk = +
2
n ( X i X )
( )
(Y ), la variancia estimada de Y :
k
1
(X k X )
s 2 Yk = CM E +
2
n (X i X )
( )
(8.25)
(8.26)
Yk E (Yk )
s Y
( )
k
Yk E (Yk )
tiene distribucin tn-2 y, por esto, las inferencias acerca de E(Yk) se realizan con la diss Y
( )
k
tribucin t.
Intervalo de confianza para E(Yk)
Un IC de 1 - para E(Yk) es: Yk
( ).
t n 2;1 s Yk
2
Ejemplo 1. Buscar un IC90 para E(Yk) para Xk = 55. Hallamos la estimacin puntual
50 )
(Y ) = 7.5 101 + (553400
55
Yk :
= 0.80515 ,
de manera que
( )
s Y55 = 0.89730 .
Para un coeficiente de confianza del 90% tenemos t8;0.95 = 1.860. Luego, el IC90 es:
120 1.860(0.89730) E(Y55) 120 + 1.860(0.89730),
es decir, 118.3 E(Y55) 121.7.
ANEXO 1
Ecuaciones Normales
Las ecuaciones normales pueden ser derivadas mediante el clculo. Para un conjunto de observaciones muestrales dado, (Xi,Yi), la cantidad Q de la pgina 95 es una funcin de 0 y 1. Obtenemos:
Pgina 101
Q
= 2 (Yi 0 1 X i )
0
Q = 2 X (Y X )
i i 0 1 i
1
Posteriormente, igualamos estas derivadas a 0, utilizando b0 y b1 para denotar los valores particulares de 0 y 1, respectivamente, que minimizan a Q:
2 (Yi b0 b1 X i ) = 0
2 X i (Yi b0 b1 X i ) = 0
Simplificando, obtenemos:
n
(Yi b0 b1 X i ) = 0
i =1
n
X (Y b b X ) = 0
i
i
0
1
i
i =1
Disociando la suma obtenemos:
Yi nb0 b1 X i = 0
2
X i Yi b0 X i b1 X i = 0
de las cuales, reordenando los trminos, se obtienen las ecuaciones normales [9].
El clculo las derivadas segundas mostrara que, con los estimadores de mnimos cuadrados b0 y
b1, lo que se obtuvo es un mnimo.
Yi = n b0 + b1 X i
2
X i Yi = b0 X i + b1 X i
Como dijimos, el objetivo del mtodo de mnimos cuadrados es hallar estimaciones b0 y b1 para 0
y 1, respectivamente, para las cuales Q sea mnima. Despus de las correspondientes manipulaciones algebraicas (que aqu no detallaremos), se llega a las siguientes dos expresiones para b0 y
b1:
b1 =
(X X ) (Y Y )
(X X )
i
donde X e
1
b0 = (Yi b1 X i ) = Y b1 X
n
Ejercicios.
Pgina 102
8.1
8.2
Cargar en una planilla Infostat los datos de la tabla 8.2y mediante la opcin Estadsticas
Regresin Lineal elegir como Variable dependiente a la Columna 2 y como Variable
Regresora, a la Columna 1. Luego, en la solapa General del cuadro de dilogo, tildar las
opciones Coeficientes de regresin y estadsticos asociados y Ordenada al origen. En
la solapa Diagnstico, tildar las opciones Residuos, Predichos, Graficar ajuste, Graficar
bandas de Confianza y Graficar bandas de prediccin.
8.3
en Coatepec Harinas, Mxico. En virtud de que la obtencin de variedades de porte bajo es uno de los objetivos del fitomejorador, se puso especial nfasis en la determinacin de la correlacin entre algunos criterios de seleccin en rboles de tres aos de
edad. Se encontr una correlacin negativa y altamente significativa entre altura y
proporcin de rea transversal de corteza y positiva y altamente significativa entre
altura y dimetro del tallo. No se encontr correlacin entre altura y
nmero de entrenudos. Comente como podra utilizar esta informacin.
8.4
a 5 cm
a 20 cm
Rendimiento
700
560
735
735
595
350
595
420
490
560
768
140
1890
2030
1295
2380
1295
1610
945
2555
1295
1295
1890
1750
13775.4
13775.4
15543.2
14732.1
12800.3
13568.9
16365.5
16084.2
15434.3
16689.9
13219.8
16874.8
Pgina 103
350
785
945
700
140
595
315
350
420
210
1260
1120
1505
1050
1120
1330
1015
1050
1120
1260
1435
1190
1365
1120
15825.8
13886.1
15808.2
15020.7
18045.5
16356.7
16222.6
13714.4
16492.3
16151.3
14646.6
12566.6
Para una nueva variedad de repollo se desea conocer si el crecimiento est relacionado
linealmente con las dosis de fertilizante de uso habitual en otras variedades de la misma
especie. Para comprobarlo, se realiza un experimento en 14 parcelas cultivadas con la
nueva variedad. Se aplican distintas dosis de fertilizante y se mide el crecimiento promedio del dimetro de la hortaliza al cabo de tres semanas. A continuacin se presentan
el caudro con las observaciones y el grfico de dispersin:
20.00
crecim ie nto(cm )
15.00
10.00
5.00
0.00
0.00
0.63
1.25
1.88
2.50
D o s is (l/m 2)
Pgina 104
Parcela
1
2
Dosis (l/m )
10 11 12 13 14
0.0 0.5 0.5 0.8 0.9 1.0 1.2 1.2 1.3 1.5 1.6 1.8 1.8 2.0
Crecimiento (cm) 4
10 11
13 15 14 16 16 16 19
R2 = 0.9295
Coeficientes
Error standard
t Student Valor p
Intercepcin
2.63
0.79
3.33
0.0060
Pendiente
7.78
0.62
12.58
< 0.0001
N
9
R
0.93
Coeficientes de regresin
Coef. Estimad.
Interc.
18.36
Pendiente
1.30
Error
0.65
0.14
LI(95%) LS(95%) t
p
16.82 19.89 28.25 <0.0001
0.98
1.62
9.53 <0.0001
Pgina 105
30.00
28.00
26.00
24.00
22.00
20.00
18.00
16.00
0.00
2.00
4.00
6.00
8.00
10.00
Balanceado [kg/da]
8.7
Intercepcin
Pendiente
Coeficientes
Error standard
Probabilidad
LI 95%
LS 95%
55.2843
0.8378
65.98
8.310-18
53.4742
57.0943
-0.4213
-0.3148
-0.368
0.0246
-14.93
1.510
-9
Pgina 106
8.8
Observacin
Dosis compost
Total nitrgeno
1
2
3
4
0
0
0
0
180
153
152
140
5
6
7
8
6
6
6
6
195
185
150
175
9
10
11
12
12
12
12
12
195
165
200
175
13
14
15
16
18
18
18
18
188
214
204
199
Se analizaron los datos correspondientes a la cantidad de protena en subproductos alimentarios de porotos de soja, en funcin de la cantidad de cido ascrbico (en ppm) que
se agregaban en el proceso. Se ensayaron dosis de cido ascrbico desde 50 a 54. El
anlisis de los datos arroj los siguientes resultados:
Constante
cido
Coeficientes
Error standard
Valor p
-58.0000
2.00000
27.9501
0.53730
-2.08
3.72
0.0493
0.0011
Pgina 107
N
20
R
0.17
2
R
0.69
0.
Pgina 108
Coeficientes de regresin
Coef.
const
altura
Est.
6.69
0.84
E.E.
6.13
0.43
t
1.09
1.94
p
0.29
0.07
const
dap
Coef.
-5.22
1.17
Est.
3.85
0.18
E.E.
-1.36
6.38
t
0.19
0.00
DAP
Altura
MS
9.20
11.40
12.10
14.70
9.70
14.60
12.40
17.75
22.00
24.00
31.50
18.75
23.00
25.50
32.50
11.70
26.00
31.55
20.55
24.50
8.20
9.10
10.30
9.50
7.50
8.40
8.00
10.00
17.40
8.00
20.95
19.90
10.00
22.50
23.30
14.30
17.70
14.00
14.00
12.00
6.13
9.03
12.55
20.94
4.70
14.00
9.00
12.20
21.00
36.00
24.50
13.90
12.80
15.50
38.30
5.20
28.70
38.21
11.77
21.36
Pgina 109
(oi ei )2
i =1
ei
=
2
(9.1)
de
la
prueba.
(oi ei )2
i =1
ei
=
2
que
se
distribuye
Pgina 110
4. Regla de decisin. P
2
1
5. Clculos.
Cuadro 9.1.
Tegumento
Liso
Rugoso
Total
oi
285
115
400
oi - ei
-15
15
---
ei
400(3/4) = 300
400(1/4) = 100
400
6. Decisin. Puesto que 3.0 < 3.84 no puede rechazarse H0 con = 0.05. Los
datos de la muestra no constituyen una prueba suficiente como para dudar de
que las proporciones verdaderas son 3:1.
Tablas de contingencia
En una tabla de contingencia la informacin tambin est formada por cuentas o frecuencias organizadas en f filas y c columnas y se dice entonces que se tienen dos criterios de clasificacin.
Se pueden describir dos situaciones posibles.
(1) Hay f poblaciones de inters, cada una en una fila de la tabla, y en cada poblacin se
describen c categoras o atributos. Se toma una muestra de cada poblacin y las frecuencias se
anotan en las celdas de la tabla.
(2) Hay una sola poblacin de inters y cada individuo es clasificado respecto a dos factores diferentes. Hay f categoras de un factor y c categoras del otro factor. Se toma una sola
muestra y se anota el nmero de individuos en cada categora de ambos factores.
Las situaciones de tipo (1) se conocen como pruebas de homogeneidad y las situaciones
de tipo (2) como pruebas de independencia. Estas pruebas son muy parecidas; de hecho en
ambas se utilizan tablas de contingencia y se calculan los valores esperados y los grados de libertad de manera similar. Lo que diferencia ambas pruebas son las hiptesis. El estadstico que se
utiliza es el mismo que el empleado en las pruebas de bondad del ajuste:
c
=
2
j =1
i =1
(o
ij
eij )
(9.2)
eij
donde f es el nmero de filas, c nmero de columnas, oij y eij son las frecuencia observada y espe2
rada en la celda ij, respectivamente. Este estadstico tiene una distribucin con un nmero de
grados de libertad igual a = (f 1)(c 1). Por ejemplo, si la tabla de contingencia fuera 2 2,
tendramos una cantidad de grados de libertad igual a = (2 1)(2 1) = 1.
Pruebas de homogeneidad
Estas pruebas se utilizan cuando se desea determinar si las proporciones de las diferentes categoras son las mismas para todas las poblaciones. La hiptesis nula establece que las poblaciones
son homogneas con respecto a las categoras y la alternativa establece que no lo son. Otra manera de abordar el mismo problema es preguntar si las muestras provienen o no de la misma poblacin.
Pgina 111
n. j
ni.
n. j =
ni.
n..
n..
eij =
(9.3)
donde ni. es el total de la fila i, n.j es el total de la columna j, y n.. es el total general.
Ejemplo.
En la siguiente tabla se resume la informacin sobre el tipo de marcas encontradas en
hojas de trboles blancos muestreados en un sitio no pastoreado y en otro pastoreado. En
cada sitio se muestrearon 550 y 450 individuos respectivamente.
Cuadro 9.2.
Tipo de marca
L LL Y O Total
No pastoreado 409 11 22 8 450
Sitio Pastoreado 512 4 14 20 550
Total
921 15 36 28 1000
Viendo la forma en que es planteado el problema, una hiptesis nula apropiada
que puede ponerse a prueba sera que la proporcin de individuos con los diferentes tipos
de marcas en las hojas es la misma para las dos poblaciones, o sea en cada sitio.
Luego:
1. Hiptesis: H0: p1j = p2j; donde j = 1,2,3,4 son las 4 marcas e i = 1,2 son los dos sitios.
H1: p1j p2j
2. Nivel de significacin. = 0.05.
3. Estadstica de la prueba.
f c
(oi ei )2
i =1
ei
4. Regla de decisin. P
2
3
(oi ei )2
i =1
ei
=
2
3
2
2
2
(
(
409 414.45) (11 6.75)
20 15.4)
=
+
++
414.45
11.82
Dagoberto Salgado Horta
6.75
15.4
Pgina 112
6. Decisin. Puesto que 11.82 > 7.81 se rechaza H0 con = 0.05. La proporcin de individuos con diferentes tipos de marcas no es la misma en las dos poblaciones o sea
que las dos poblaciones de trboles no son homogneas en cuanto a su distribucin
de marcas.
Pruebas de independencia
Este tipo de prueba se aplica cuando existe inters en determinar si dos atributos categricos presentan algn tipo de asociacin entre ellos o, si por el contrario, son independientes. En otras palabras concentramos nuestra atencin en la relacin entre dos factores diferentes de la misma
poblacin. En esta prueba tomamos una muestra de la poblacin y caracterizamos cada individuo
segn dos criterios de clasificacin dispuestos en i filas y j columnas. A diferencia de las pruebas
de homogeneidad donde en muchos casos los totales de filas estn fijos por anticipado, en las
pruebas de independencia solo el tamao muestral es fijo y tanto los totales de filas como los de
columnas son variables aleatorias. La hiptesis nula establece que la categora de un individuo con
respecto al factor A es independiente de la categora con respecto al factor B. En otras palabras y
recordando el captulo de probabilidades, la hiptesis nula establece que los eventos son indepen.
dientes y por lo tanto P(A B) = P(A) P(B).
Ejemplo.
En el partido de Balcarce se realiz una encuesta a 930 productores de trigo-soja y se los
clasific segn el mtodo de siembra empleado (siembra convencional o siembra directa) y
el rea sembrada. Se consideraron 3 categoras: (1) rea menor a 100 ha; (2) rea entre
100 y 500 ha y;(3) rea superior a 1000 ha. Los resultados se muestran en la siguiente tabla de contingencia:
Cuadro 9.3.
rea
1
2
3
Total
Tipo de siembra
SC
SD
94
180
116
320
140
80
350
580
Total
274
436
220
930
Tipo de siembra
SC
SD
Total
1
103.12 170.88 274
2
164.09 271.91 436
rea
3
82.8
137.20 220
Total
350
580
930
y dado que la tabla de contingencia es una tabla a 3 2, tenemos 2 grados de libertad.
Con esta evidencia obtenida en la muestra, se puede sostener la hiptesis de que el
mtodo de siembra y el rea sembrada son independientes ( = 0.01)?
Pgina 113
=
2
3. Estadstica de la prueba.
4. Regla de decisin. P
2
2
(oi ei )2
i =1
ei
f c
(oi ei )2
i =1
ei
22 =
=
113.12
= 87.26
1
170.88
137.20
Decisin. Dado que 87.26 > 9.21 se rechaza H0 con = 0.01. Hay evidencia suficiente para rechazar la hiptesis de que el mtodo de labranza y el rea sembrada
son independientes.
Ejercicios
9.1
Se cree que tres razas distintas de roya se encuentran distribuidas en una zona con una
proporcin de 3 de raza A, 2 de raza B y 1 de raza C. Para probar esta hiptesis se
extrajo una muestra de 100 plantas atacadas por roya y luego de examinar el tipo de
roya que las atac, se arrib al siguiente resultado:
Tipo de roya
5
2
3
7
11
Se ajustan los datos observados al modelo poblacional que se plantea con = 0.01?
9.2
Alber's fabrica y distribuye tres tipos de cerveza: ligera, clara y oscura. En un anlisis
de segmentacin de mercado para las tres cervezas, el grupo de investigacin encargado
ha planteado la duda de si las preferencias para las tres cervezas son diferentes entre
los consumidores hombres y mujeres. Si la eleccin del tipo de cerveza fuera independiente del gnero del consumidor, se iniciara una campaa de publicidad para todas las
Pgina 114
cervezas de Alber's. Sin embargo, si la eleccin depende del gnero del consumidor, se
ajustarn las promociones para tener en cuenta los distintos mercados meta. Se toma
una muestra aleatoria de 150 bebedores de cerveza y despus de saborear cada una, se
les pide expresar su preferencia o primera alternativa. Los datos de la siguiente tabla
constituyen las frecuencias observadas para las seis clases o categoras:
Cerveza preferida
Gnero
Ligera
Clara
Oscura
Masculino
20
40
20
Femenino
30
30
10
En base a estos resultados determine ( = 0.05) si existe relacin entre la eleccin del
tipo de cerveza y el gnero de la persona que elige.
9.3
Un semillero intenta probar un hbrido nuevo de maz aparentemente resistente a heladas. Para ello se escogen 279 parcelas donde se realiza una siembra temprana (alta probabilidad de heladas). 139 parcelas escogidas al azar son sembradas con el hbrido tradicional y las otras 140 son sembradas con el hbrido nuevo. Luego de transcurrido el perodo de heladas, se comprob que en 31 parcelas sembradas con el hbrido tradicional se
observaron problemas de densidad de cultivo (debido a muerte de plantas por heladas),
mientras que slo 17 parcelas sembradas con el hbrido nuevo presentaron este problema. Qu podra usted concluir con respecto a la resistencia a heladas de estos dos
hbridos? Concluya con un nivel de significacin del 5%. Si un productor quiere sembrar
temprano el maz y le consulta sobre cul hbrido utilizar (tradicional o nuevo), qu le
dira? En qu basara su respuesta?
9.4
a.
b.
c.
d.
e.
f.
g.
9.5
Se clasific a un grupo de 400 plantas de maz, segn su variedad y la cantidad de mazorcas por plantas. Probar ( = 0.05) en base a los datos, si
Pgina 115
Menos de 4 mazorcas
4 o ms mazorcas
V1
V2
V3
42
86
24
84
120
44
9.6
Un vendedor de maquinara agrcola sabe, por recoleccin de datos histricos, que durante la primavera las ventas ms comunes son tractores 50%, pulverizadoras 35%, cosechadoras 10% y otras mquinas 5%. Durante la primavera de 2005 ocurrieron las siguientes ventas: tractores 90, pulverizadoras 80, cosechadoras 30 y otras mquinas 20.
Cree Ud. que estos datos estn en concordancia con los datos histricos ( = 0.05)?
9.7
NOA
NEA
22
67
32
5
33
10
Con mosca
Sin mosca
Se puso a prueba la calidad de 4 marcas de maz para hacer pochoclos. Se probaron 100
granos de cada marca y en cada prueba se anot el nmero de granos que no reventaron.
La informacin se recopil en la siguiente tabla:
Marca
A
B
C
D
Nmero de granos
Total
sin reventar
14
8
11
15
100
100
100
100
Pgina 116
Pgina 117
PRODUCTOR
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
PROVINCIA
BUENOS AIRES
BUENOS AIRES
BUENOS AIRES
BUENOS AIRES
BUENOS AIRES
BUENOS AIRES
BUENOS AIRES
BUENOS AIRES
BUENOS AIRES
BUENOS AIRES
BUENOS AIRES
BUENOS AIRES
BUENOS AIRES
BUENOS AIRES
BUENOS AIRES
SANTA FE
SANTA FE
SANTA FE
SANTA FE
SANTA FE
SANTA FE
SANTA FE
SANTA FE
SANTA FE
SANTA FE
SANTA FE
SANTA FE
SANTA FE
SANTA FE
SANTA FE
TIPO
MIXTO
MIXTO
MIXTO
AGRICOLA
AGRICOLA
MIXTO
MIXTO
GANADERO
MIXTO
GANADERO
MIXTO
MIXTO
AGRICOLA
MIXTO
AGRICOLA
MIXTO
MIXTO
AGRCOLA
MIXTO
MIXTO
MIXTO
MIXTO
MIXTO
MIXTO
MIXTO
AGRCOLA
MIXTO
AGRCOLA
MIXTO
AGRCOLA
2] Se realiz una encuesta a 30 productores rurales de la zona norte de Buenos Aires y Sur
de Santa Fe. A cada productor se le pregunt qu tipo de produccin tena (agrcola, ganadera o mixta). A partir de los resultados genere una tabla de doble entrada y conteste:
a) Qu porcentaje del total de productores tiene una explotacin mixta? Rta: 66,67%
b) De los productores con explotacin netamente agrcola, qu porcentaje se encuentra en
la provincia de Buenos Aires? Rta: 50%.
---------------------------------------------------------3] Dos candidatos a los consejos de administracin A y B, compiten por el control de una
corporacin. Las probabilidades de ganar de estos candidatos son 0.7 y 0.3,
respectivamente. Si gana A, la probabilidad de introducir un nuevo producto es 0.8; si gana
B, la correspondiente probabilidad es 0.4. Demuestre que, antes de las elecciones, la
probabilidad de que sea introducido un nuevo producto es igual a 0.68.
Pgina 118
-----------------------------------------------------------4] Un productor desea presentarse a una licitacin de granos embolsados y por ello presta
especial atencin a que el peso de cada bolsa no se aparte excesivamente del promedio. Si
el promedio es de 63 kg con un desvo estndar de 2 kg:
(a) Cul es la probabilidad de que una bolsa no se aparte ms de 3 kg. del
promedio?;
(b) Si se toma una bolsa al azar, cul es la probabilidad de que pese menos de 60
kg.?;
(c) Si se toma al azar un lote de 10 bolsas, cul es la probabilidad de que a lo sumo
una pese menos de 60 kg.?;
(d) Si se toma un lote de 1000 bolsas, cul es la probabilidad de que a lo sumo 100
pesen menos de 60 kg.?
Rtas: (a) 0.8664; (b) 0.0668 c) 0.85945 d) Aproximadamente 1
------------------------------------------------------------------------------------------------------------------------5] Sea X una variable aleatoria con distribucin binomial, con n = 10 y = 0.5.
(a) Determinar las probabilidades de que X se encuentre dentro de una desviacin estndar
de la media y a dos desviaciones estndares de la media.
(b) Cmo cambiaran las respuestas en (a) si n = 15 y = 0.4?
Rtas. (a) 0.8849, (b) 0.0918, (c) 0.0446, (d) 0.8413, (e) 0.0233, (f) 0.8403, (g) 0.1141.
----------------------------------------------------------------------------------------------------------------------------7] Una compaa recibe un lote de insumos muy grande. Se analiza una muestra aleatoria
de 16 artculos, y se acepta el lote si menos de dos resultan defectuosos. Cul es la probabilidad de aceptar un envo que contenga:
(a) un 5% de artculos defectuosos? Rta: 0.8107
(b) Un 15% de artculos defectuosos? Rta: 0.2840
(c) Un 25% de artculos defectuosos? Rta: 0.0635
----------------------------------------------------------------------------------------------------------------------------8] Se sabe que el dinero que gastan al ao los estudiantes de la Universidad de Agronoma
en libros de texto sigue una distribucin normal con media $ 125 y desviacin tpica $ 25.
Pgina 119
Rta: (a) 0.0047, (b) 0.1587, (c) 0.6195, (d) el rango menos costoso: de $0 a $146.04
----------------------------------------------------------------------------------------------------------------------------9] El 90% de los rboles plantados en un monte forestal sobreviven hasta la tala final del
rodal. Cul es la probabilidad de que sobrevivan 10 o ms de 15 rboles que acaban de ser
plantados?
Rta: p = 0.99776
----------------------------------------------------------------------------------------------------------------------------10] La duracin de lmparas de luz producidas por un cierto fabricante tiene una media de
mil doscientas horas y una desviacin tpica de cuatrocientas horas y se sabe que la poblacin sigue una distribucin normal. Supongamos que adquirimos 9 lmparas, que pueden
ser consideradas como una muestra aleatoria de la produccin del fabricante.
(a)
(b)
(c)
(d)
Pgina 120
12] Una corporacin ha recibido 120 solicitudes de trabajo de estudiantes que acaban de
terminar su carrera de agronoma. Suponiendo que estas solicitudes pueden ser consideradas como una muestra aleatoria de todos los ingenieros, cul es la probabilidad de que
entre un 35% y un 45% de las solicitudes correspondan a mujeres si se sabe que el 40% de
los ingenieros agrnomos que acaban de terminar su carrera son mujeres? Rta: 0.8686
----------------------------------------------------------------------------------------------------------------------------13] Suponga que una muestra aleatoria de tamao n = 25, es seleccionada de una poblacin
con media , y desvo standard . Para los siguientes valores de y , determine los valo-
res de
----------------------------------------------------------------------------------------------------------------------------14] Despus de seleccionar una muestra y calcular el IC para , una persona dice: "tengo
una confianza del 88% de que la media de la poblacin flucta entre 106 y 122". Qu es lo
que realmente est diciendo?
(a) que hay una probabilidad de 0.88 de que flucte ente 106 y 122?
(b) qu hay una probabilidad de 0.88 de que el valor real de sea 114 (el punto medio del
intervalo)?
(c) qu el 88% de los intervalos obtenidos de las muestras de este tamao contendrn la
media de la poblacin?
(d) (a), (b) y (c) son correctas.
Rta: c
----------------------------------------------------------------------------------------------------------------------------15] Una muestra de 30 parcelas sembradas con algodn, arroj un rendimiento medio de
950 kg/ha. Sabiendo que los rendimientos tienen distribucin normal con desvo tpico 25
kg/ha, estimar el verdadero rendimiento medio, mediante un IC95 y un IC99.
Rta: IC95: 950 8.95kg ; IC99: 950 11.73kg
----------------------------------------------------------------------------------------------------------------------------16] Un ensayo de un nuevo hbrido de maz arroj los siguientes resultados (Tn/ha).
12.4 11.0 10.5 11.7 9.9 12.0 8.9
Son estos resultados evidencia suficiente para afirmar que este hbrido es mejor que otro
que tiene una media de rendimiento de 10 Tn/ha? ( = 0.05).
Rta: Prueba de hiptesis de una cola, varianza estimada a partir de la varianza muestral. Valor t = 2.48, valor p = 0.0176. Los resultados aportan evidencia suficiente para
afirmar que los rindes del nuevo hbrido son mayores a 10 Tn/ha.
Pgina 121
----------------------------------------------------------------------------------------------------------------------------17] Se estudian dos raciones, A y B, para el engorde de cerdos. Se tomaron 8 lotes de cerdos, cada uno formado por hermanos de la misma lechigada, y se le suministraron las raciones aleatoriamente en cada lote. Los resultados, en kg, se presentan en la siguiente tabla:
(a) Probar si ambas raciones producen
igual engorde ( = 0,05)
(b) Estimar el parmetro de inters con
una confianza del 95%.
(c) Podra decir cul es la mejor racin?
Justifique estadsticamente de acuerdo sus resultados anteriores.
Lotes
1 2 3 4 5 6 7 8
A 75 80 80 72 72 75 78 82
Raciones
B 85 79 90 68 75 81 88 90
Pgina 122
N
31
R
0.94
Est.
-19212.74
1.76
E.E.
15251.77
0.08
LI(95%)
-50406.10
1.58
LS(95%)
11980.62
1.93
T
-1.26
20.78
p
0.22
0.00
(a) Escriba la ecuacin ajustada correspondiente y describa las estimaciones de los parmetros en trminos del problema. Datos sobre cuntas empresas fueron considerados en este
anlisis?
(b) Usted es gerente de una empresa de agroqumicos, considerando su respuesta en a) decidira invertir en publicar avisos en esta revista?. Justifique su respuesta.
(c) Calcule el valor de ventas estimado para una empresa que invirti 200 000 $ en publicidad en esta revista (asuma que este valor est dentro del rango de estimacin posible del
modelo).
Pgina 123
ao 2004. Se dispone de los siguientes datos sobre rendimiento (en quintales por ha) y precipitaciones (en mm) desde 1992 hasta 2001.
Rendmiento
Precipitaciones
78
91
85
62
85
88 112 46 106 66
1328 1289 1371 1401 1350 1271 1215 1517 1285 1431
(a) Ajuste un modelo lineal entre ambas variables. Cul es la variable dependiente y cul
la independiente?
(b) Describa los parmetros incluidos en el modelo e incluya las unidades en las que deben
ser expresados. Que significa en trminos del problema que exista una pendiente negativa?
(c) San Lorenzo es una zona de elevada precipitacin que es frecuentemente afectada por
inundaciones. Se espera que el 2004 sea un ao relativamente hmedo con 1500 mm de
precipitaciones cul seria el rendimiento esperado?.
Rtas: (a) modelo lineal 365.86 0.21x; Variable dependiente: rendimiento, Variable independiente: precipitaciones; (b) 365.86 es la ordenada al origen, el rendimiento estimado
cuando la precipitacin es igual a 0, aunque no tiene significado biolgico. 0.21 quintalesha-1/ mm es la pendiente o sea el cambio en rendimiento por cada unidad (mm) de precipitacin. Una pendiente negativa indica que a medida que la precipitacin aumenta, el
rendimiento disminuye. (c) rendimiento para x = 1500 mm: 50.86 quintales ha-1
----------------------------------------------------------------------------------------------------------------------------23+ En la siguiente tabla se detalla la inversin hecha y la ganancia obtenida en miles de
pesos para 12 explotaciones agropecuarias en la prov. de Buenos Aires durante el ao 2002:
inversin 16 11 14 16 18 20 31 14 20 19 11 15
ganancia 5 2 3 5 3 7 10 6 10 5 6 6
(a) Presente la estimacin del modelo de regresin lineal para predecir la ganancia esperada
en funcin de la inversin de capital hecha.
(b) Presenta este modelo suficiente evidencia a un nivel de significacin de 0.05 de que la
ganancia en las explotaciones agropecuarias de la provincia de Bs. As. est determinada por
la inversin realizada? Justifique su respuesta.
(c) Segn el modelo propuesto que ganancia se espera para una inversin de 30000 $?
(d) Usando el modelo propuesto sera correcto predecir la ganancia esperada para un establecimiento que invierte 100000$. Justifique su respuesta.
Rtas: (a) 0.17 + 0.32x; (b) Si, presenta suficiente evidencia. R2 = 0.47, p = 0.01; (c) Ganancia esperada para x = 30: 9.77 miles de $; (d) No es correcto predecir la ganancia
esperada para x = 100 porque cae fuera del rango de prediccin del modelo.
-----------------------------------------------------------------------------------------------------------------------------
Pgina 124
Bibliografa de consulta
Devore Jay L. (2003) Probabilidad y estadstica para ingeniera y ciencias. 5ta. edicin. International Thomson Editores, S. A.
Wackerly D, Mendenhall W y Scheaffer R. (2002) Estadstica Matemtica con Aplicaciones.. 6ta.
ed. Thomson: Mxico
Steel R and Torrie J.(1980) Principles and Procedures of Statistics. McGraw-Hill: NY
Mendenhall, W. (1990) Estadstica para administradores. Grupo Editorial Iberoamericana.
Ya Lun Chou. (1978) Anlisis Estadstico. Interamericana: Mxico.
Pgina 125