Anda di halaman 1dari 180

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

Unidad I Estadstica Descriptiva


PRESENTACIN DEL CURSO
La ESTADISTICA es la parte de las matemticas encargada de la presentacin y anlisis de los datos de un experimento. Normalmente la estadstica se divide en: Estadstica Descriptiva Estadstica Inferencial ESTADSTICA DESCRIPTIVA: se encarga de la presentacin adecuada de la informacin (tablas, grficas, histogramas, etc.) ESTADSTICA INFERENCIAL: se especializa en la estimacin e inferencia de parmetros (promedio, desviacin estndar, etc.).

Experimentos probabilsticos y determinsticos


Un EXPERIMENTO es un procedimiento mediante el cual se puede obtener informacin acerca de un sistema fsico Matemtico. El objetivo principal de realizar experimentos el obtener informacin acerca de sistema bajo estudio, y a partir de ella obtener conclusiones. Los DATOS experimento. son en generalmente la forma en que se presenta la informacin obtenida de un

Los datos pueden clasificarse primeramente como: DATOS NUMERICOS.- son aquellos que como su nombre indica pueden representarse mediante un nmero real el cual representa su magnitud y sus respectivas unidades de medicin, por ejemplo los obtenidos de la medicin de una cantidad fsica como longitud, masa, tiempo, energa, etc. DATOS DE ATRIBUTO. Son aquellos datos que no se pueden expresar como datos numricos, por ejemplo, sabor, color, sexo, nombre, pas, nacionalidad, etc. Se dice que un EXPERIMENTO ES DETERMINSTICO si al realizarse bajo las mismas condiciones se obtiene invariablemente en mismo resultado o dato, en el caso de que se obtenga resultados o datos diferentes se dir que el es un EXPERIMENTO PROBABILISTICO ALEATORIO.

Poblacin muestra, eventos


La POBLACION es el conjunto total de datos que se obtienen al realizar un experimento. La MUESTRA es una parte subconjunto de la poblacin. Los EVENTOS estn formados generalmente por muestras a las cuales se les pide que cumplan con alguna condicin o condiciones.

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

ORGANIZACIN DE DATOS
Una vez que se ha realizado un experimento el resultado generalmente es un conjunto de datos u observaciones, sin embargo, tal como aparecen pueden no resultar adecuados para obtener informacin de ellos, por lo que es necesario realizar en la mayora de los caso un trabajo mnimo que consiste en la organizacin y presentacin de los datos de manera adecuada. Esto es precisamente el objetivo de la estadstica descriptiva. Como primer paso los datos pueden ser acomodados en un ARREGLO, el cual tiene el objetivo de presentar los datos con un mnimo de orden. Es deseable que este orden sea descendente o ascendente, como se muestra a continuacin. NUMERO DE PERSONAS VIVIENDO EN UN GRANJAS

2 2 3 3 4

4 4 4 5 5

5 5 5 5 6

6 6 6 6 6

6 7 7 7 7

7 7 7 7 8

8 8 8 8 8

8 9 10 9 9 11 9 10 11 9 10 12 9 10 12

TABLA DE DISTRIBUCIN DE FRECUENCIAS


A partir de los datos ordenados en un arreglo se puede presentar los datos en una DISTRIBUCION DE FRECUENCIAS. Para realizar la distribucin de frecuencias se puede seguir el siguiente procedimiento: a) Localice el valor mximo (Xmax) Obtngase el RANGO como: y mnimo (Xmin) del conjunto de datos, y a partir de ellos

R = Xmax - Xmin b) Ahora proceda a dividir el rango en INTERVALOS DE CLASE, se sugiere que el nmero de intervalos de clase no sea menor a 6 ni mayor a 20. c) La LONGITUD DE EL INTERVALO de cada clase debe ser la misma en todas las clases y deber ser de tal que el punto medio de cada intervalo tenga en mismo nmero de dgitos y precisin que los datos originales. d) Una vez definidos adecuadamente los intervalos proceda a contar los datos que se encuentren dentro de su lmite inferior y su lmite superior, el nmero de datos que caen dentro de dicho intervalo, constituye la FRECUENCIA DE CLASE. e) Tome en cuenta que cada dato solo pertenece a una clase, por lo que no debe haber ambigedad en su pertenencia a alguna clase. f) El punto medio de cada intervalo es llamado LA MARCA DE CLASE y representar a todos los puntos que caigan dentro del intervalo. g) LA TABLA DE DISTRIBUCIN DE FRECUENCIA se construye colocando en la primera columna ( fila) los intervalos de clase y/o las marcas de clase y en la siguiente columna ( fila) las frecuencias correspondientes.

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

EJEMPLOS 1. Obtenga la tabla de la distribucin de frecuencias para los datos siguientes. NMERO DE PERSONAS VIVIENDO EN UN GRANJAS

2 2 3 3

4 4 4 5

5 5 5 5

6 6 6 6

6 7 7 7

7 7 7 7

8 8 8 8

8 9 10 9 9 11 9 10 11 9 10 12

4 5 6 6 7 8 8 9 10 12
Por la naturaleza de los datos presentados en la tabla se puede optar por que cada uno de los valores: 2, 3, 4, 5, 6, 7, 8, 9, 10 11 y 12 sean los intervalos, entonces X FR(X) 2 2 3 2 4 4 5 6 6 7 7 8 8 7 9 6 10 4 11 2 12 2

(2) Obtenga la tabla de la distribucin de frecuencias para los datos siguientes. Divida en 7 clases. 2.3 2.3 2.4 2.6 2.8 3.0 3.4 3.5 3.5 3.6 El rango es Dividiendo el rango en N = 7 intervalos 3.7 3.8 3.8 3.9 3.9 4.0 4.0 4.1 4.1 4.3 4.3 4.4 4.4 4.4 4.5 4.5 4.6 4.6 4.6 4.6 4.7 4.8 4.8 4.9 4.9 5.0 5.0 5.1 5.1 5.3 5.4 5.5 5.6 5.7 5.8 5.9 6.0 6.4 6.5 7.1

R = 7.1 - 2.3 = 4.8. ancho =4.8 / 7=0.6857

Como el ancho tiene muchos dgitos, el ancho se puede redefinir como: ancho =0.7 Pero en este caso la longitud total de los intervalos es Longitud = (7) ( 0.7) = 4.9 Esta longitud excede en 4.9 - 4.8= 0.1 al rango, este excedente se puede repartir entre las clase extremas, por ejemplo, el lmite inferior de la primera clase es 2.25 y el superior 2.25 + 0.7= 2.95. Para la segunda clase se considera como lmite inferior el lmite superior de la primera clase, su correspondiente lmite superior es 2.95 + 0.7 = 3.65, el proceso anterior se repite para cada una de las clases posteriores.

Los resultados son colocados en la siguiente tabla

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

Clases 2.25 -2.95 2.95 -3.65 3.65 - 4. 35 4.35 -5.05 5.05 -5.75 5.75 -6.45 6.45 -7.15

Marca de Frecuencia Clase FR(X) 2.6 5 3.3 4.0 4.7 5.4 6.1 6.8 5 11 16 6 5 2

Tabla 1. Distribucin de frecuencias problema 2

PRESENTACIN GRFICA DE DATOS. HISTOGRAMA Y POLGONO DE FRECUENCIAS


La tabla de distribucin de frecuencias puede ser utilizada para obtener una grfica en la cual se coloca en el eje X los puntos medios de las clases y en el eje Y las correspondientes frecuencias de la clase. La grfica descrita se conoce como HISTOGRAMA. Un histograma se puede convertir en un POLGONO DE FRECUENCIAS simplemente conectando los puntos medios o marcas de clase con lneas rectas, pero es necesario agregar dos puntos medios extras, uno correspondiente a una previa a la primera clase y con frecuencia cero y otro posterior a la ltima clase con frecuencia cero.

OJIVA
Para algunas aplicaciones es requerido obtener la tabla de las FRECUENCIAS ACUMULADAS la cual se obtiene sumando las frecuencias precedentes a cada una de las clases. La grfica de las clases vs las frecuencias acumulas es conocida como OJIVA EJEMPLOS 3. Utilice el resultado de problema (2) anterior para obtener el histograma, polgono de frecuencias y ojiva. SOLUCION: Primero se obtiene la frecuencia acumulada de los datos. Clases 2.25 -2.95 2.95 -3.65 3.65 - 4. 35 4.35 -5.05 5.05 -5.75 5.75 -6.45 6.45 -7.15 Marca de Frecuencia Frecuencia Clase FR(X) acumulada 2.6 5 5 3.3 5 10 4.0 11 21 4.7 16 37 5.4 6 43 6.1 5 48 6.8 2 50

Tabla 1. Distribucin de frecuencias y frecuencias acumuladas ejemplo1

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

A continuacin se presentan cada una de las grficas solicitadas a partir de los datos de la tabla anterior
Histograma 20 18 16 14 Frecuencia 12 10 8 6 4 2 0

Histograma del ejemplo 2


Poligono de frecuencias 20 18 16 14 12 frecuencia 10 8 6 4 2 0

Grfica del polgono de frecuencias del ejemplo 2

Las grficas anteriores representan a la distribucin de frecuencias, por lo que pueden ser representadas juntas como se observa a continuacin.

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

Histograma y Polgono de frecuencias 20 18 16 14 Frecuencia 12 10 8 6 4 2 0

Histograma y polgono de frecuencias del ejemplo 2

Ojiva 50 45 Frecuencia acumulada 40 35 30 25 20 15 10 5 0

Ojiva o grfica de las frecuencias acumuladas del problema 2

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

Histograma de frecuencias relativas


Si se dividen las frecuencias obtenidas en la tabla de distribucin de frecuencias entre el total de datos se obtiene la llamada LA TABLA DE DISTRIBUCIN DE FRECUENCIA RELATIVA, y su respectiva grfica se llama HISTOGRAMA DE FRECUENCIAS RELATIVAS. Lo anterior se puede aplicar tambin a la tabla de frecuencias acumuladas obtenindose LA TABLA DE FRECUENCIAS ACUMULADAS RELATIVAS y su respectiva grfica se llama OJIVA DE FRECUENCIAS RELATIVAS. La ventaja del uso de las frecuencias relativas es su inmediata relacin con la probabilidad, es decir, la frecuencia relativa de una clase es la probabilidad de que los datos considerados se encuentren en dicho intervalo. (2) A continuacin se muestran algunas de las grficas del problema 2 para el caso de frecuencias relativas.
Histograma de frecuencia relativa 0.4 0.35 0.3 Frecuencia relativa 0.25 0.2

0.15 0.1 0.05 0

Histograma de frecuencias relativas del ejemplo 2

Ojiva de frecuencia relativa 1 Frecuencia relativa acumulada 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 2 3 4 5 6 7

Ojiva de frecuencias relativas acumuladas del ejemplo 2

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

4. Se realiza una investigacin a los vendedores de una cadena nacional de tiendas de departamentos para determinar el patrn de sus ingresos diarios. Se seleccionan una muestra aleatoria de 50 vendedores y se obtienen sus ingresos durante cierto da.

53 63 69 74 77 79 82 85 88 92

57 64 70 74 77 79 82 85 90 93

58 66 71 74 78 81 83 86 90 94

61 67 72 74 81 78 83 87 90 96

61 68 73 77 79 81 84 87 90 97

a) Organice los datos en una tabla. Las clases son 52.5 - 57.5, 57.5 - 62.5, 62.5 - 67.5,.., 92.5 - 97.5 b) Convirtase en frecuencias relativas y relativas acumuladas. Obtngase el Histograma de frecuencias relativas y la ojiva de frecuencias relativas.

SOLUCION A partir de los datos y las clases propuestas se determina la siguiente tabla.

Clases

52.5 -57.5 57.5 - 62.5 62.5- 67.5 67.5 -72.5 72.5 - 77.5 77.5 - 82.5 82.5 - 87.5 87.5 - 92.5 92.5 - 97.5

Marca de Frecuencia Frecuencia Frecuencia Frecuencia Clase FR(X) acumulada relativa relativa FR(X) acumulada 55 2 2 0.0400 0.0400 60 65 70 75 80 85 90 95 3 4 5 8 10 8 6 4 5 9 14 22 32 40 46 50 0.0600 0.0800 0.1000 0.1600 0.2000 0.1600 0.1200 0.0800 0.1000 0.1800 0.2800 0.4400 0.6400 0.8000 0.9200 1.0000

Tabla 2. Distribucin de frecuencias, frecuencias acumuladas y relativas de ejemplo 4

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

Histograma de frecuencia relativa

0.25

0.2 Frecuencia relativa

0.15

0.1

0.05

50

55

60

65

70

75

80

85

90

95

100

Histograma de frecuencias relativas del ejemplo 4

Ojiva de frecuencia relativa 1 0.9 Frecuencia relativa acumulada 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 50 55 60 65 70 75 80 85 90 95 100

Ojiva de frecuencias relativas acumuladas del ejemplo 4

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

MEDIDAS DE TENDENCIA CENTRAL


Las MEDIDAS TENDENCIA CENTRAL DE CENTRALIZACION de tienen como objetivo es tratar de localizar ( encontrar) el centro de la distribucin. Las ms conocidas son la MEDIA ARITMETICA MEDIANA y MODA. Es costumbre representar algunas propiedades y definiciones mediante la notacin sigma:
N

ai
i 1

a1

a2

a3

... a N

Como se puede observar es utilizada para representar la suma de de elementos tambin conocida como serie. A continuacin se presentan algunas de las propiedades ms importantes, las cuales se utilizarn posteriormente. Propiedades de la notacin sigma
N N

Sean
i 1

a1 y
i 1

b1 dos sumatorias y c una constante, entonces:


N N

a)
i 1
N

(ai

bi )
i 1
N

ai
i 1

bi

b)
i 1

cai

c
i 1

ai

MEDIA ARITMTICA, PROMEDIO X


La media aritmtica, promedio o simplemente media es denotada por: X , es simplemente la suma de todas las observaciones X1,X2, X3,,XN, dividida entre el nmero N total de datos, esto es:
N

Xi X
i 1

(1.1)

Es posible dar una justificacin matemtica a la definicin anterior. Para tal fin, supongamos que se define la funcin S(X) como a continuacin se indica
N

S (a)
i 1

(Xi

a)

Donde Xi son los datos y a es una constante, el menor valor de la funcin es S ( a )


N

0 , entonces

S (a)
i 1

(X i

a)

Aplicando las propiedades de la notacin sigma

10

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

Xi
i 1
N

a
i 1

Xi
i 1

Na

Despejando a a
N

Xi a
i 1

La cual corresponde a la definicin del promedio. Para datos agrupados se calcula la media mediante la ecuacin.
N

f ( xi ) xi X
x 1 n

(1.2)

f ( xi )
1

La suma de las frecuencias individuales es igual al nmero total de datos, esto es


n

N
i 1

f i ( xi )

Entonces
n

f ( xi ) xi X
MEDIANA X
i 1

(1.3)

~ ~

Para el caso de datos no agrupados, la mediana X , es el nmero que divide el conjunto de datos en dos partes iguales

N . 2

En el caso de datos agrupados, la mediana se define como el valor X que divide al histograma correspondiente en dos partes con reas iguales. Para datos agrupados la mediana se pude obtener mediante

~ X
Donde

N Li ( x m )

CF ( x m 1 ) F ( xm )

(1.4)

Li ( x m )

Lmite inferior de la clase que contiene a la mediana.

11

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

2 CF ( x m 1 ) F ( xm ) w

Mitad de los datos. Frecuencia acumulada hasta la clase anterior a la que contiene a la mediana. Frecuencia de la clase que contiene a la mediana. Ancho de la clase.

MODA X es el valor que ms veces aparece en un conjunto de datos. La moda X


EJEMPLO 5. Determine media, mediana y moda para la distribucin de frecuencias siguiente y localice sobre el histograma cada una de ellas sobre el histograma correspondiente. Clases 52.5 -57.5 57.5 - 62.5 62.5- 67.5 67.5 -72.5 72.5 - 77.5 77.5 - 82.5 82.5 - 87.5 87.5 - 92.5 92.5 - 97.5 TOTAL SOLUCION Es recomendable construir la tabla siguiente a partir de los datos dados: Clases 52.5 -57.5 57.5 - 62.5 62.5- 67.5 67.5 -72.5 72.5 - 77.5 77.5 - 82.5 82.5 - 87.5 87.5 - 92.5 92.5 - 97.5 TOTAL X 55 60 65 70 75 80 85 90 95 F(x) 2 3 4 5 8 10 8 6 4 50 X F(X) 110 180 260 350 600 800 680 540 380 3900 X 55 60 65 70 75 80 85 90 95 F(x) 2 3 4 5 8 10 8 6 4 50

La media se obtiene a partir de la definicin de datos agrupados


n

f ( xi ) xi X
i 1

3900 50

78

12

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

La clase que contiene a la mediana se ha sombreado en la tabla anterior. La mediana se obtiene aplicando la ecuacin para datos agrupados

~ X

N Li ( x m )

CF ( x m 1 ) F ( xm )

50 w 77.5

2 10

22 5 79

La moda es simplemente X

80

La grfica siguiente muestra que las tres medidas de centralizacin, las cuales son muy cercanas entre si y se localizan como debe ser en el centro del histograma.
Histograma de frecuencia relativa

0.25

Frecuencia relativa

0.2

0.15

0.1

0.05

~ X

50

55

60

65

70

75

80

85

90

95

100

MEDIDA DE DISPERSIN DESVIACIN TPICA ESTNDAR


La desviacin tpica estndar: es la medida de dispersin ms representativa de un conjunto de datos. .Se define utilizando como
N 1 2

xi SN
i 1

(1.5)

La frmula anterior es conocida como desviacin tpica estndar sesgada Para datos agrupados la frmula anterior se escribe como

13

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

f ( xi )( xi SN
i 1

x)2

1 2

(1.6)

VARIANZA
El valor de la desviacin estndar al cuadrado es conocido como la Varianza, esto es Varianza = S
2

Una forma alternativa par el clculo de la varianza y/o de la desviacin estndar sesgada se obtiene desarrollando la definicin dada, esto es
2

SN

( xi N

x)2
2

1 N

xi

2 xi x

x2

1 N 1 N 1 N 1 N
Entonces

xi xi

2 xi x 2x xi x2

x2 1

xi
xi

2x N x
x2

Nx 2

SN
Notacin

1 N

xi

x2

(1.7)

Normalmente las letras latinas x , S , S , etc., representan los estadsticos de una muestra y las letras griegas

, ,

, etc., representan los estadsticos de una poblacin.


2

Existe una forma para la varianza muestral S que proporciona una estimacin ms precisa de la varianza de la poblacin, en particular, cuando la muestra es pequea (N 36); es conocida como varianza insesgada de la poblacin y se calcula mediante
2 SN

( xi
1

x) 2

N 1

(1.8)

14

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

De aqu se calcula mediante la raz cuadrada la desviacin estndar insesgada


2 1 2

SN

( xi
1

x)

N 1

(1.9)

Procediendo de manera similar al caso sesgado se puede obtener una frmula directa para calcular la varianza y/o desviacin estndar insesgada
2 N 1

( xi

x)2
2

1 N 1

N 1

xi

2 xi x

x2

1 N 1 1 N 1
1 N 1

xi
xi

2 xi x
2x xi
xi N

x2
x2 1
xi N
2

xi

xi
2

1 N 1
Por lo tanto

xi

xi N

2 N 1

1 N 1

xi

xi N

(1.10)

La desviacin estndar como se ha indicado anteriormente es una medida de la dispersin de los datos, est dispersin se mide a partir de la media de la distribucin de datos; por ejemplo, supngase que se comparan dos conjuntos de datos obtenidos a partir de la misma poblacin, los cuales tienen el mismo nmero de datos ( N 1 N 2 ),el mismo promedio ( x1 x 2 ), entonces, si la desviacin del primer conjunto es menor que la del segundo conjunto, ( s1 s 2 ), es posible afirmar que los datos del primer conjunto se encuentran ms concentrados que los de la segundo y la altura del primer conjunto de datos es mayor que la del segundo. La figura siguiente compara dos distribuciones continuas con las caractersticas descritas anteriormente.

15

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

0.4 0.35 0.3 Frecuencia 0.25 0.2

s1

0.15 0.1 0.05 0 -6

s2 x1
-4 -2 0

x2
2 4 6

Comparacin de dos distribuciones de frecuencia con diferentes desviaciones estndar s1

s2

La desviacin estndar se puede emplear tambin para medir las variaciones con respecto a la media de los valores. Un valor pequeo de la desviacin tpica estndar indica una mayor probabilidad de obtener un valor ms cercano a la media. Esta idea se expresa en un teorema enunciado por el matemtico ruso Tchebycheff.

Teorema de Tchebycheff La proporcin de cualquier conjunto de valores que caer dentro k desviaciones tpicas a partir de la media es al menos 1 - 1/k2, donde k es cualquier nmero mayor que 1. Por ejemplo, para el caso de k = 2, el teorema anterior garantiza que sin importar como es la distribucin de frecuencias, existe 1 - 1/22 = 0.75 de los datos se encuentran dentro del intervalo comprendido por x 2 s, x 2 s . En la figura 1, se muestra la idea del teorema de Tchebycheff para k = 2.

Regla de la Normal En muchas ocasiones el histograma que representa la distribucin de frecuencia tiene una forma de campana simtrica, este tipo de distribucin puede ser comparada con una distribucin terica continua llamada curva normal. Es posible aplicar las caractersticas de la curva normal a este tipo de distribuciones muestrales para determinar la proporcin de datos contenidos dentro de una, dos y tres desviaciones estndar. A continuacin se enuncia la regla de la normal. Para distribuciones de frecuencia simtricas en forma de campana, aproximadamente el 68 % de los datos caern en el intervalo x s, x s , el 95 % de los datos caern en el intervalo x 2 s, x 2 s , y casi el 100 % de los datos caern en el intervalo x

3s , x 3s .

16

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

Histograma de frecuencia relativa

0.25 Frecuencia relativa

Al menos 3/4
0.2

0.15

0.1

0.05

50

55

60

65

70

75

80

85

90

95

100

2s

2s

Figura 1, Teorema de Tchebycheff proporcin de datos 1-1/k2 para el caso k = 2.

35 30 25 20 15 10
Aproximadamente 68% casi 100%

Aproximadamente 95%

5 0 -200

-150

-100

-50

50

100

150

200

250

300

3s

2s

2s

3s

Figura 2, Regla de Normal. 68 % de los datos en el intervalo x casi el 100 % en x

s, x s , el 95 % en x 2 s, x 2 s , y

3s , x 3s .

17

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

EJEMPLOS 6. Determine la desviacin estndar sesgada e insesgada para el conjunto de datos siguientes. X 55 60 65 70 75 80 85 90 95 SOLUCION Es recomendable construir la tabla siguiente a partir de los datos dados: X 55 60 65 70 75 80 85 90 95 F(x) 2 3 4 5 8 10 8 6 4 50 X F(X) 110 180 260 350 600 800 680 540 380 3900 X2 F(X) 6050 10800 16900 24500 45000 64000 57800 48600 36100 309750 F(x) 2 3 4 5 8 10 8 6 4 50

Utilizando los resultados de la tabla en las ecuaciones respectivas


2

SN
SN

1 N

f ( xi ) xi

1 309750 50

3900 50

111

111 10.54
2 1

SN
SN

1 N 1
113.27

f ( xi ) xi
10.64

f ( xi ) xi N

1 309750 50 1

3900 50

113.27

18

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

7. Obtenga la mediana para el conjunto de datos siguiente 53 63 69 74 77 79 82 85 88 92 SOLUCION La mediana debe dividir los datos en la mitad, esto es en 25 datos a la izquierda y 25 a la derecha. Puesto que los datos se encuentran acomodados en orden ascendente, se puede observar el dato X25 = 79 y el dato X26 = 79, por lo tanto 57 64 70 74 77 79 82 85 90 93 58 66 71 74 78 81 83 86 90 94 61 67 72 74 81 78 83 87 90 96 61 68 73 77 79 81 84 87 90 97

~ X

X 25 2

X 26

79 79 2

79

8. Cierta tarde del sbado 30 estudiantes universitarios de primer semestre trabajaron. A continuacin se muestra la distribucin de frecuencias de sus ganancias. a) Obtenga la media, mediana y moda b) Obtenga la desviacin estndar S N , S N 1 Ganancia x 10 15 20 25 30 35 SOLUCION Primero se realiza la siguiente tabla a partir de la anterior xi 10 15 20 25 30 35 f(xi) 2 5 9 6 3 5 30 xi f(xi) 20 75 180 150 90 175 690 f(xi) xi2 200 1125 3600 3750 2700 6125 17500 Frecuencia f(x) 2 5 9 6 3 5 30

19

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

Promedio

f ( xi ) xi N

690 30

23

Mediana De los datos de la tabla Lmite inferior de la clase Frecuencia acumulada hasta antes de la clase m Frecuencia de la clase donde est la mediana Ancho de la clase Li(xm) = 17.5 CF ( x m 1 ) =7

F (x m ) = 9 w 5
30 7 2 5 9

N ~ x Li ( x m )

CF ( x m 1 ) F ( xm )

17.5

22.22

Moda El valor con mayor frecuencia es x Desviacin estndar sesgada

20

SN

1 N

f ( xi ) xi
SN

x2
54.33

1 (17500) (23) 2 30
7.37

54.33

Entonces

Desviacin estndar insesgada


2

S 2n

1
1

N 1
SN

f ( xi ) xi

f ( x) xi N
7.50

690 17500 30 30 1

56.21

Por lo tanto

56.21

9. Las mediciones en la escala de Richter correspondientes a los 50 terremotos ms recientes en el mundo son dadas en la tabla. a) Constryanse una distribucin de frecuencias con lmites de clase de 2.25 a 2.75, 2.75 a 3.25, etc. b) Trcense el histograma y polgono de frecuencias (c) Obtenga la media, mediana y moda (d) Obtenga la desviacin estndar S N , S N 1

20

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

2.3 2.3 2.4 2.6 2.8 3.0 3.4 3.5 3.5 3.6 SOLUCION

3.7 3.8 3.8 3.9 3.9 4.0 4.0 4.1 4.1 4.3

4.3 4.4 4.4 4.4 4.5 4.5 4.6 4.6 4.6 4.6

4.7 4.8 4.8 4.9 4.9 5.0 5.0 5.1 5.1 5.3

5.4 5.5 5.6 5.7 5.8 5.9 6.0 6.4 6.5 7.1

(a) Utilizando las clases sugeridas se determinan las respectivas marcas de clase, frecuencias y se evalan de x f(x) y x2 f(x), acomodando los resultados en la siguiente tabla clase 2.25-2.95 2.95-3.65 3.65-4.35 4.35-5.05 5.05-5.75 5.75-6.45 6.45-7.15 x 2.6 3.3 4.0 4.7 5.4 6.1 6.8 f(x) 5 5 11 16 7 4 2 50 x(f(x)) 13 16.5 44 75.2 37.8 24.4 13.6 224.5 x2(f(x)) 33.8 54.45 17.6 353.44 204.12 148.84 92.48 1106.313

(b) Histograma y polgono de frecuencias.


Histograma y Poligono de frecuencias 20 18 16 14 12 frecuencia 10 8 6 4 2 0

21

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

(c) A partir de los datos de la tabla de frecuencia se puede determinar los estadsticos solicitados Media

x
Moda

( f i )( xi ) N
x

2245 50
4 .7

44.9 16

4.49

Mediana Para los datos no agrupados

dato ~ x

N 2

dato 2

N 2

4.5 4.5 2

4.5

Para los datos agrupados

~ X

N Li ( x m )

CF ( x m 1 ) F ( xm )

4.35

50 21 2 0 .7 16

4.54

(d) Desviacin estndar sesgada

SN

1 N

f i ( x i ) xi
i 1

x2

1 (1063.13) (4.49) 2 50

1.1025

Entonces

SN

1.1025

1.05

Desviacin estndar insesgada

SN

2 1

1 N 1

f ( xi ) xi

f i ( x)( xi ) N

1 1063.13 50 1

224.5 50

1.125

Por lo tanto

SN

1.125

1.0606

10. Supngase que cierto conjunto de observaciones tiene una x 100 y una S2 = 225 Conteste las siguientes preguntas, de acuerdo al teorema de Tchebycheff. a) Al menos qu porcentaje de todas las observaciones caer entre 70 y 130? b) A menos que porcentaje de las observaciones caer entre 25 y 175? SOLUCION a) De los datos se obtiene

x 100 S

15

22

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

En general el valor de k correspondiente a un valor X cualquiera se puede determinar a partir de la ecuacin

X S

Los valores de k correspondientes a 70 y a 130 son

k1

70 100 15

2 y k2

130 100 15

Es un intervalo simtrico a partir de la media con k =2. De acuerdo al teorema de Tchebycheff Proporcin al menos = 1

1 100 k2 175 100 15 1 100 k2

1 100 = 75 % 22

(b) Procediendo de manera similar al inciso anterior, los valores de k correspondientes a 25 y a 175 son

k1

25 100 15

5 y k2

Es un intervalo simtrico a partir de la media con k =5. De acuerdo al teorema de Tchebycheff Proporcin al menos = 1

1 100 = 96 % 52

11. De acuerdo con la regla normal Cul es la proporcin aproximada de un conjunto de observaciones que caer por debajo de x 2 S SOLUCION De acuerdo a la regla de la Normal dentro del intervalo x

2 S , x 2 S hay aproximadamente el 95 % de los datos, quedando fuera el 5 %, pero como solo se consideran los que estn por debajo de x 2 S
esto corresponde a la mitad, o sea al 2.5% equivalentemente a 0.0250 de los datos.

12. Una muestra de 100 trabajadores tiene una produccin promedio por hora de 60 unidades y una desviacin tpica de 10 unidades. De acuerdo con la regla de la normal, aproximadamente cuntos trabajadores tienen una produccin entre 40 y 80 unidades? SOLUCION El nmero de desviaciones estndar a partir de la media se puede determinar con k Del problema x

X S

60 y S

10 entonces, para los valores de 40 y 80 se tiene que

k1

40 60 10

2 y k2

80 60 10

Lo cual corresponde a dos desviaciones a la izquierda y a la derecha del promedio, que de acuerdo a la regla de la normal corresponde al 95 % de los datos al 0.95 del total de datos, por lo tanto Nmero de trabajadores = Total x Fraccin N = 100 x 0.95 = 95

23

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

Unidad II Probabilidad
CONJUNTOS Y LGEBRA DE CONJUNTOS DEFINICIN DE CONJUNTO.
Conceptos bsicos de la teora de conjuntos: CONJUNTO: es una coleccin de objetos, datos, que pueden cumplir una o varias condiciones. Notacin de conjunto: comnmente se representa a los conjuntos mediante letras maysculas A, B, C, U, Z W, ELEMENTO: en un nico objeto o dato que es parte de un conjunto Notacin de elemento: los elementos se denotan con letras minsculas a, b, c, , v, w,

Los conjuntos pueden describirse de dos maneras, de forma explcita y /o implcita. La forma explcita corresponde cuando los elementos del conjunto son mostrados directamente EJEMPLO A = {a, e, i, o, u} B = {1, 2, 3, 4, 5, 6,.} C = {-4, -2 ,0 , 2, 4, 6,.} La forma implcita corresponde cuando los elementos del conjunto no son mostrados directamente y son definidos mediante una condicin o condiciones. A = {x.| x es una vocal del abecedario} B = {x.| x es un nmero natural} C = {x.| x es un nmero par}

El CONJUNTO UNIVERSO denotado generalmente por U es el conjunto ms grande que es utilizado en un problema particular y contiene a todos los elementos. En el mbito de la Estadstica se relaciona directamente el conjunto universo con la poblacin y el caso de la Probabilidad con el llamado espacio muestral. Se dice que un elemento x pertenece a un conjunto A si x es parte del conjunto A. Notacin:

En forma grfica la condicin se representa mediante el diagrama siguiente

24

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

U
A x

Si x no pertenece a un conjunto A, entonces x no es parte del conjunto A. Notacin:

U A x

Un conjunto es finito si se pueden contar sus elementos, esto es, existe un nmero total de elementos.

#A=n
Si el # A = entonces el conjunto es infinito.

Se dice que un conjunto B est CONTENIDO en un conjunto A es SUBCONJUNTO de A si y solo s todo elemento x B x tambin x A. Notacin:

A.
U
A B

25

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

Para facilitar la escritura de algunas expresiones matemticas a continuacin se presentan algunos smbolos y su significado Para todo. Si y solo si. Entonces. Existe. Por lo tanto. La definicin de CONTENIDO o CONTENCION anterior se puede escribir como:

B, x

A
no es

Si algn x B pero x A entonces se dir que B NO ESTA CONTENIDO A que B SUBCONJUNTO de A. En forma compacta: x B x A B A. Notacin: B A.

U
A B x

LGEBRA DE CONJUNTOS (OPERACIONES BSICAS)


Las operaciones entre conjuntos permiten obtener nuevos conjuntos a partir de conjuntos ms simples representar conjuntos complejos mediante conjuntos ms simples. Todas las operaciones que se define a continuacin son de gran importancia para el desarrollo de la probabilidad, por lo que se recomienda aprenderlas y aplicarlas correctamente cada una de ellas. Cabe mencionar que estas operaciones no se deben comparar con las operaciones algebraicas entre nmeros como son la suma, resta y multiplicacin-

UNIN DE CONJUNTOS

x x

A x

Notacin:

B
A

26

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

EJEMPLO

A B C

a , b, c , d a , b, c , d , f , g , h A B a , b, c , d , f , g , h

INTERSECCIN DE CONJUNTOS

x x

Notacin:

B
U
A B

EJEMPLO

A B A

a , b, c , d a , b, c , d , f , g , h B a , b, c , d

COMPLEMENTO

Ac

x x

x U

Notacin:

Ac
U
A

Ac

27

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

COMPLEMENTO RELATIVO:

B/ A

x|x

Notacin: B / A

B/ A

EJEMPLO Utilizando los conjuntos anteriores

B/ A A/ B
Siendo

g, f , h
conjunto vaco

A partir de las operaciones anteriores entre conjuntos se pueden definir y obtener nuevas propiedades entre conjuntos, las cuales sern utilizadas en secciones posteriores y en particular en el tema de probabilidad.

Se dice que dos conjuntos A y B son AJENOS si solo si A

U
A B

28

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

PROPIEDADES BSICASDE LOS CONJUNTOS


Sean A, B dos conjuntos siguientes condiciones a) b) c) d) A A A A A=A A=A Ac = U Ac = generales dentro de un conjunto universo U entonces se cumplen las

e) f)
g) h) i) Si B j) k)

U c=
c

=U =
= B) (A Bc)

A A A=(A

A. entonces: A A B=A B=B

Leyes conmutativas l) m) A A B=B B=B A A

Leyes distributivas n) o) A A (B (B C) = (A C) = (A B) B) C) C)

Leyes de Morgan p) q) (A (A B) c = Ac B) c = Ac Bc Bc

29

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

EXPERIMENTOS PROBABILSTICOS Y DETERMINSTICOS


Como ya se ha mencionado en la unidad anterior: Un EXPERIMENTO ES DETERMINSTICO si al realizarse bajo las mismas condiciones se obtiene invariablemente en mismo resultado o dato, en el caso de que se obtenga resultados o datos diferentes se dir que el es un EXPERIMENTO PROBABILISTICO ALEATORIO.

POBLACIN MUESTRA, EVENTOS


A continuacin se dan nuevamente las definiciones de poblacin, muestra y eventos. La POBLACION es el conjunto total de datos que se obtienen al realizar un experimento. La MUESTRA es una parte subconjunto de la poblacin. Los EVENTOS estn formados generalmente por muestras a las cuales se les pide que cumplan con alguna condicin o condiciones.

Teora elemental del muestreo La toma de datos muestras de un experimento aleatorio en general se debe realizar de tal manera que todos los posibles resultados del experimento tenga la misma oportunidad probabilidad de se elegidos, lo anterior constituye el PRINCIPIO FUNDAMENTAL DEL MUESTREO. El principio anterior es conocido tambin como MUESTREO AL AZAR y tiene la finalidad de obtener una muestra lo ms representativa del experimento. El muestreo al azar se puede realizar de dos maneras CON REEMPLAZO y SIN REEMPLAZO. En el caso de reemplazo una vez elegido un objeto este es regresado de nuevo al conjunto y por lo tanto puede ser nuevamente seleccionado, por otra parte si el muestreo se lleva a cabo sin reemplazo el objeto que es seleccionado no se regresa al conjunto y por lo tanto nunca ms podr se seleccionado. En aplicaciones prcticas aparecen ambos tipos de muestreo. Para efectuar un muestreo adecuado se debe evitar posibles tendencias al realizar un experimento, por ejemplo, para la eleccin de muestras de un lote se puede recurrir a tablas programas que generan nmeros aleatorios para evitar tendencias y realizar una correcta seleccin de las muestras El muestreo de datos se puede realizar al azar con o sin reemplazo El estudio de la Probabilidad permite dar una respuesta a problema de la eleccin adecuada de cuando una muestra es representativa de un experimento aleatorio o poblacin.

ESPACIO MUESTRAL
El ESPACIO MUESTRAL es el conjunto de todos los resultados posibles de un evento aleatorio probabilstico. Normalmente el espacio muestral se representa por la letra S y en trminos de conjuntos es el equivalente al conjunto universo. Un EVENTO O SUCESO es un subconjunto del espacio muestral.

30

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

DEFINICIN DE PROBABILIDAD
La PROBABILIDAD DE UN EVENTO se puede definir en el caso de conjuntos finitos como:

P( E )

N. E N. S

N (E):= nmero de elementos independientes de E. N (S). = nmero total de elementos independientes. En algunos casos sencillos es posible conocer fcilmente el nmero total de elementos que conforman cada uno de los conjuntos, sin embargo, esto no es posible para la mayora de los dems caso, por lo que es conveniente recurrir en principio a las tcnicas de conteo para determinar las probabilidad.

TCNICAS DE CONTEO PRINCIPIO FUNDAMENTAL DEL CONTEO.


Si un evento n1 se puede realizar de N1 formas y otro evento se puede realizar de N2 formas, entonces el evento conjunto se puede realizar de N1.N2 formas. N = N1.N2 (2.1)

El principio fundamental del conteo se puede representar grficamente mediante el llamado diagrama de rbol. Cada trayectoria en el diagrama de rbol representa un posible resultado o forma de realizarse el experimento. En la figura 1 se muestra el diagrama de rbol para el caso de N1=4 y N2 = 2, con lo que se obtienen N1*N2=4*2= 8 trayectorias formas Por otra parte el principio fundamental del conteo se puede generalizar a k eventos, esto es, si el evento i puede ocurrir de Ni formas, entonces el evento total conjunto de los k eventos, se puede realizar de N1.N2. NiNk formas.

N2 N1

Figura 1. Diagrama de rbol que representa el principio fundamental del conteo N1*N2=4*2= 8

31

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

EJEMPLOS 1. Determine el nmero total de combinaciones de un candado formado por formado por 3 discos giratorios y cada uno de los cuales puede ser colocado en los nmeros 0, 1, 2, 3, 4, 5, 6, 7, 8, 9. SOLUCION De acuerdo a los indicado en el problema cada uno de los discos pude ser colocado en 10 formas, esto es N1=10; N2=10, y N3=10. Aplicando el principio fundamental del conteo se obtiene: 10 10 10 = 103 =1000 combinaciones

2. Una moneda es arrojada 2 veces consecutivas. Obtenga el espacio muestral del conjunto. SOLUCION Una moneda tiene dos resultados posibles, guila (A) Sol (S), si la moneda es arrojada dos veces entonces N = N1*N2 = 2*2 = 4 eventos independientes Cada uno de los eventos individuales se muestran a continuacin: S={ (A,A), (A,S), (S,A), (S,S)}

3. Un experimento consiste en arrojar una moneda 4 veces, lstense todas las posibilidades: SOLUCION El nmero total de posibles eventos independientes es N=(2, 2, 2, 2)= 24=16 Puede utilizarse un diagrama de rbol para listar correctamente todas las posibilidades, estas son:

A, A, A, A, A, A, A, A

A, A, A, A, S, S, S, S,

A, A, S, S, A, A, S, S,

A S A S A S A S

S, S, S, S, S, S, S, S,

A, A, A, A, S, S, S, S,

A, A, S, S, A, A, S, S,

A S A S A S A S

32

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

4. Obtenga el nmero total de eventos independientes que se obtiene al arrojar una moneda 5 veces consecutivas. SOLUCION En cada uno de los 5 casos de arrojar una moneda est puede tener solamente dos resultados posibles, guila (A). Sol (S), entonces:

= 25

= 32 posibles

5. Obtenga el espacio muestral que se genera al arrojar un dado 2 veces SOLUCION El dado tiene 6 caras y por lo tanto existen 6 posibilidades para cada vez que es arrojado, entonces como es arrojado 2 veces: 6 6 =62 =36 resultados

Los eventos independientes pueden obtenerse fcilmente mediante un diagrama de rbol. S = { (1,1), (1,2), (1,3), (1,4), (1,5), (1,6), (2,1), (2,2), (2,3), (2,4), (2,5), (2,6), (3,1), (3,2), (3,3), (3,4), (3,5), (3,6), (4,1), (4,2), (4,3), (4,4), (4,5), (4,6), (5,1), (5,2), (5,3), (5,4), (5,5), (5,6), (6,1), (6,2), (6,3), (6,4), (6,5), (6,6) }

6. Determine el nmero posible de combinacin de placas vlidas si la placa esta formada por 3 nmeros consecutivos y 3 letras del abecedario. SOLUCION Existen 10 posibilidades para cada uno de los nmeros y 26 posibilidades para cada una de las letras (no se incluyen letras dobles RR, CH, LL y la letra ), entonces:

METODO I Nmeros 10 10 10 Letras 26 26 26 Placas =(103) (263)

En el clculo anterior se han incluido placas que no existen para fines prcticos, por ejemplo: La placa 0 0 0 A A A No existe

En general las placas no pueden tener un cero o ceros antes que un nmero diferente de cero.

33

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

Por otra parte no existen las placas 0 1 num 9 num 10 letra 26 letra 26 letra 26 No existen = (90)(263)

0 1

0 1

num 9

letra 26

letra 26

letra 26

No existen =(9)(263)

0 1

0 1

0 1

letra 26

letra 26

letra 26

No existen =263

Nmero de placas no validas = (90)(263)+ (9)(263)+ 263=(102)(263)=(100) (263) Entonces Nmero de placas validad =Nmero total - Nmero de placas no validas. = (103) (263)- (100) (263) = (900)( 263)= 15 818 400 placas. METODO II La primer casilla de nmero no puede ser cero, por lo tanto se reduce sus posibles valores a N1=9 Mantenindose los dems valores iguales al mtodo I Nmeros 9 10 10 Letras 26 26 26 Placas =(900) (263)

Nmero de placas no validas = (900) (263) = 15 818 400 placas.

El principio fundamental del conteo permite obtener frmulas matemticas para algunos casos generales que ocurren comnmente en aplicaciones prcticas, como son, las permutaciones y las combinaciones

PERMUTACIONES
La permutacin aparece cuando se tienen n objetos DISTINGUIBLES SIN REEMPLAZO y estos pueden ocupar r lugares o posiciones. Lo anterior se representa grficamente como Lugar 1 Lugar 2 Lugar 1 Lugar 1 Lugar r

34

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

Aplicando el principio fundamental del conteo y recordando que en el primer lugar pude ser ocupado por los n objetos, el segundo lugar por los n-1 restantes y as sucesivamente hasta el lugar r donde solamente puede ser ocupado por n-r objetos

n-1

n-2

n-3

n-r + 1

Permutaciones = n(n-1)(n-2)(n-3)(n - r +1)


Existe un caso particular en el cual en nmero de objetos n es igual al nmero de posiciones que pueden ocupar, esto es, r = n. por lo tanto el producto anterior se convierte en el producto de los enteros consecutivos del 1 al n.

n-1

n-2

n-3

Permutaciones = n(n-1)(n-2)(n-3)(n.-r)1
Este producto particular es conocido como el FACTORIAL

n! = n(n-1)(n-2)(n-3)(n.-r)..1
Propiedades elementales del factorial (a) n! (n+1) =(n+1)! (b) 0!=1

(2.2)

Las permutaciones para n objetos ocupando r lugares casillas pueden definirse en trminos del factorial y sus propiedades anteriores como;

nP r
EJEMPLOS

n! n r!

(2.3)

7. Mostrar que la definicin de las permutaciones en trminos de factoriales es correcta SOLUCION Partiendo de la definicin dada

nP r

n! n r!

n(n 1)(n 2) (n r 1)(n r ) 3 2 1 (n r )(n r 1) 3 2 1

Simplificando trminos

nP r

n! n r!

n(n 1)(n 2)

(n r 1)

para el caso particular de n = r

35

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

nP n

n! n n!

n! 0!

n!

8. Determinar cuantas formas hay de acomodar las letra A,B,C sin reemplazo en tres lugares consecutivos. Muestre explcitamente cuales son estas posibilidades. Para el problema n =3 y r =3,
3

3! 1 2 3

Explcitamente las permutaciones se pueden obtener a partir del diagrama de rbol siguiente

B A C A B C C A B
(A,B,C), (A,C,B), (B,A,C), (B,C,A), (C,A,B ) y (C,B,A)

C B C A B C

9. Utilizando el problema anterior determine en cuntos casos las letra A y B permanecen juntas en todo momento? SOLUCION MTODO I Directamente del problema anterior se pueden observar directamente que los casos que cumplen que A y B estn siempre juntas son: (A,B,C), (B,A,C), (C,A,B ) y (C,B,A), esto es, solo hay 4 casos

MTODO II (formacin de bloques) Si las letras A y B deben permanecer juntas, entonces ambas forman un bloque, con lo cual el bloque en conjunto se pude considerar como un elemento, en trminos de permutaciones n =2, r =2 Bloque A 2 B letra C 1 = 2!

36

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

Pero en el bloque formado por las letras A, B estas puede permutarse y mantenerse juntas entre si, por los que hay que tomar en cuenta est posibilidad donde tambin n =2, r =2 B 2 A C 1 = 2!

Sumando las posibilidades anteriores se tiene TOTAL = 2! + 2! = 2+ 2 =4 permutaciones En trminos de notacin de permutaciones: TOTAL = 2P2* 2P2= 2! + 2! = 2+ 2 =4 permutaciones

10. De cuntas formas se pueden acomodar 10 libros distintos en un estante SOLUCION Aplicando el principio fundamental del conteo 10 9 8 7 6 5 4 3 2 1 = 10!=3 628 800

Mediante permutaciones n =10 y r =10, entonces


10

10

10! 3 628 800 Formas

11. Se tienen 8 libros 3 de matemticas, 3 de fsica y 2 de biologa. De cuntas maneras se pueden acomodar de tal manera que los libros de cada materia queden siempre juntos? SOLUCION Los tipos de libros para mantenerse juntos forman bloques de cada tipo, por lo que hay tres bloques, los cuales se pueden acomodar de las siguientes N1 = 3P3 =3! 3 Bloque 1 2 bloque 2 1 bloque e = 3!

Supngase ahora que se tiene por ejemplo el siguiente acomodo particular de los bloques 3 2 1 3 2 Fsica 1 2 1 Biologa = 3! 3! 2!

Matemticas

Dentro de cada bloque se pueden permutar los libros de cada seccin y tal como se observa se tendran N2= (3P3)( 3P3)(2P1) = 3! 3! 2! Permutaciones Aplicando el principio fundamental de conteo en nmero total es

N = N1 * N2= 3! (3! 3! 2!) = 432 formas.

37

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

12. Diez personas se encuentran esperando ser atendidas en una oficina de gobierno, pero la secretaria les informa que solo se atendern a seis personas, cul es la cantidad de posibles opciones para atender a las personas? SOLUCION Para este problema se tienen n = 10 personas y solo se cuenta con r = 6 lugares, entonces

N = nPr = 10P6 =

10! (10 6)!

10! = 151 200 opciones 4!

COMBINACIONES
Para entender las como se obtienen las combinaciones primero hay que observar lo que sucede cuando los objetos que son considerados distinguibles se transforman en indistinguibles. Como ejemplo considere las permutaciones de las letras A, B, C y posteriormente hagamos que A = B A, B, C diferentes A, A, B, B, C, C, B, C, C, A, A, B, C B A C B A A = B, C diferente A, A, A, A, C, C, A, C, C, A, A, A, C A A C A A A, A, C, A, C, A, C A A reduccin

Las permutaciones se reducen a 3 casos nicamente. Si ahora se las tres letras son indistinguibles entre si equivalentemente A = B = C A, B, C diferentes A, A, B, B, C, C, B, C, C, A, A, B, C B A C B A A=B=C A, A, A, A, A, A, A, A, A, A, A, A, A A A A A A A, A A reduccin

Las permutaciones se reducen a 1 caso nicamente. Utilizando los ejemplos anteriores es posible deducir una frmula simple. S se tienen n objetos que pueden ocupar r lugares y entre ellos hay l1 objetos indistinguibles, l2 objetos indistinguibles,, lk,

38

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

objetos indistinguibles, que cumplen l1 + l2 +.+ lk = n, entonces en nmero total de permutaciones se reduce a:

nPr l1!l 2 ! l k ! N N 3! 1.2.3 2! 1.2 3! 1 3! 3

(2.4)

Para el primer caso n = r, l1= 2 Para el segundo caso n = r, l1= 3

EJEMPLO 13. Se tienen 8 libros, 3 de matemticas, 3 de fsica y 2 de biologa. Si los 3 libros de matemticas son iguales y los 2 de biologa son iguales Cuntas formas posibles existen de acomodarlos en un librero? SOLUCION De acuerdo a los datos del problema, n = 8 libros , l1 = 3 libros de matemticas iguales, l2 = 2 libros de biologa iguales, entonces

8! 3! 2!

1.2.3.4.5.6.7.8 1.2.3.1.2

3360 formas.

Las COMBINACIONES de n objetos en r lugares se obtiene cuando en una permutacin de estos objetos la posicin relativa no importa a pesar de ser diferentes entre ellos, por ejemplo todas las permutaciones (A,B,C), (A,C,B), (B,A,C), (B,C,A), (C,A,B ) y (C,B,A) son equivalentes a (A,B,C), en este caso se puede considerar que existe un conjunto con l = r objetos iguales por lo tanto utilizando la frmula (2.4)

nCr

nPr r!

n! (n r )! r!

(2.5)

Las combinaciones pueden escribirse tambin como

n r
EJEMPLOS

n! (n r )! r!

14. Un contratista de construccin ofrece casas con cinco distintos tipos de distribucin, tres tipos de techo y dos tipos de alfombrado. De cuntas formas diferentes puede un comprador elegir una casa? SOLUCION Hay N1= 5 distribuciones N2= 3 tipos de techos y N3= 2 tipos de alfombra, entonces, aplicando el principio fundamental del conteo N= N1 N2 N3 = 5 3 2 = 30 elecciones de casa diferentes

39

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

15. Se tiran seis dados. De cuntas formas diferentes pueden quedar las caras hacia arriba? SOLUCION Hay 6 posibles resultados de cara para cada uno de los 6 dados, entonces, aplicando el principio fundamental del conteo N= 6 6 6 6 6 6 = 66 = 46656 formas diferentes

16. Las placas de matrcula de automviles emitidas por cierto estado tienen dos letras seguidas por tres dgitos. Cuntas placas diferentes pueden emitirse si no hay restricciones? SOLUCION Para las letras hay 26 posibles resultados y para los nmeros hay 10 posibles valores, por lo tanto mediante el principio fundamental del conteo Letra letra Num N = 26 26 10 Num 10 Num 10

= 262.103=676000

17. Una clase consiste en diez estudiantes. De cuntas formas puede seleccionarse un comit de tres estudiantes SOLUCION Este problema corresponde a un caso clsico de combinaciones donde n =10 estudiantes, r = 3 estudiantes, entonces

10! (10 3)!3!

120 Comits.

18. Un club consta de 30 miembros. 15 blancos, 10 negros y 5 de otras razas. Debe formarse un comit de 6 miembros. Si los 3 grupos deben estar representados, con proporciones iguales, de cuntas formas puede hacerse esto? SOLUCION Los 30 miembros son divididos en 3 clases:15 blancos, 10 negros, 5 de otros Como las proporciones deben de ser iguales y el comit est formado por 6 miembros a cada clase le corresponden 2 miembros para el comit

Se pueden elegir

15 2 10 2 5 2

15! 105 Comits de blancos (15 2)! 2! 10! (10 2)! 2! 45 Comits de blancos

5! 10 Comits de otros (3 2)! 2!

Un posible caso de de comit es 2 blancos 2 negros 2 de otros N= 105 45 10 = 47 250 comits

40

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

19. En una clase de 30 estudiantes, hay 20 hombres y 10 mujeres. a. De cuntas formas puede seleccionarse un comit de tres hombres y dos mujeres? b De cuntas formas puede seleccionarse un comit de cinco estudiantes? c. De cuntas formas puede seleccionarse un comit de cinco estudiantes si los cinco deben de ser del mismo sexo? SOLUCION a. Procediendo como en el problema anterior 3 hombres de 20 2 mujeres de 10

N=

20 3

10 2

= (1140)(45)= 51 300 comits

b. Hay n = 30 estudiantes para ocupar r = 5 lugares

n r

30 5

30! = 142 506 comits. (30 5)! 5!

c. Puede haber un comit formado por 5 hombres un comit formado por 5 mujeres, entonces el resultado es la suma de cada uno de los casos 5 hombres de 20 5 mujeres de 10

N=

20 3

10 2

= 15 504+ 45= 15 549 comits

20. Una "mano de pker" consiste en 5 naipes sacados de una baraja ordinaria 52 naipes. Cuntas manos diferentes pueden formarse a partir de la baraja completa? SOLUCION Se tiene n = 52 naipes para seleccionar una combinacin r = 5, entonces

nCr

52! = 2 598.960 manos (52 5)! 5!

La probabilidad de un evento se defini en prrafos anteriores como:

P( E )

N E N S

N (E):= nmero de elementos independientes de E. N (S) = nmero total de elementos independientes.

41

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

Es de mencionar que la definicin anterior est dada particularmente para conjuntos finitos y existen otras definiciones para conjuntos infinitos, por ejemplo par el caso de conjuntos representados mediante reas, la probabilidad se puede definir como el cociente de el rea que representa al evento E entre el rea total que representa al espacio muestral. La probabilidad se puede interpretar como la medida de la ocurrencia de un evento que es parte de un evento E que es parte de un espacio muestral experimento aleatorio.

EJEMPLOS 21. En una votacin preliminar simulada para determinar la probabilidad de cierto candidato para la presidencia de los E.U.A., se encontr que 495 de 1000 votantes seleccionados aleatriamente estn a favor de dicho candidato. Cul es la probabilidad de que cualquiera de los votantes favorezca a este candidato? SOLUCION

N (S) = 1000 y N (E) = 495 entonces aplicando la definicin directa de la probabilidad 495 P 0.495 1000
22. Supngase que estadsticas recopiladas por la oficina meteorolgica de Los ngeles muestran que ha llovido durante el desfile de las Rosas en Pasadena 14 veces durante los ltimos 80 aos. a. Cul es la probabilidad de que llueva durante el desfile de las Rosas el prximo da de ao nuevo? b. Cul es la probabilidad de que no llueva? SOLUCION Si E = { x | x es un ao lluvioso el da del desfile de las Rosas}, entonces Ec= { x | x es un ao no lluvioso el da del desfile de las Rosas}, Como N (E) =14, entonces N (E ) = 80-14= 66 a)
c

P( E )
P( E )
c

N (E) N (S )
N (E c ) N (S )

14 80
66 80

7 40
33 40

b)

23. Un club tiene 30 miembros: 25 hombres y 5 mujeres. Va a constituirse un comit de 5 miembros. Cul es la probabilidad de que las 5 mujeres se incluyan en el comit, si los miembros de ste se seleccionan aleatriamente? SOLUCION El nmero total de comits con r = 5 miembros que se pueden formar con n = 30 miembros es

N(S) = 30C5= 142 506


El nmero de comits con r =5 mujeres que se pueden formar con n = 5 mujeres es

42

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

N(E) = 5C5= 1
Por lo tanto

P( E )

N (E) N (S )

1 142506

24. Sea el espacio muestral S = {arrojan una moneda legal 8 veces} y sea el evento E = {Salen 5 guilas exactamente}. Determine la probabilidad P (E). SOLUCION El nmero de elementos que forman el espacio muestral es:

N(S) =

= 28 = 256

Un esquema de un elemento del evento E es mostrado a continuacin A A A A A S S S

Para determinar el nmero total de elementos que forman el evento E se puede aplicar la ecuacin 4, en la cual se considera que n = 8, r =8, l1=5 y l2=3.

N (E)
Entonces

nPr l1!l 2 !
N E N S

8! 5!3!
56 256

56

P( E )

7 32

25. Una tienda de aparatos de sonido acaba de recibir un embarque de diez nuevos aparatos, siete de modelo X y tres de modelo Y. Si se venden aleatriamente cuatro aparatos, cul es la probabilidad de que se vendan dos de cada modelo? SOLUCION Hay nx = 7 aparatos tipo X, ny = 3 aparatos tipo Y, se seleccionan r = 4 aparatos, n = nx + ny = 7. Sea E el es evento de que se vendan dos de cada modelo equivalentemente dos aparatos del modelo X y dos aparatos del modelo Y, el evento puede representarse como: [X, X, Y, Y] Se deben de elegir r entonces,
x

= 2 aparatos tipo X de 7 existentes y r

= 2 aparatos tipo Y de 3 existentes,

N (E)
y

nx rx
n r

ny ry
10 4

7 3 2 2

7! 3! = (21)(3 )= 63 7 2 ! 2! 3 2 ! 2!

N (S )

10! = 210 10 4 ! 4!

43

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

por lo tanto

P( E )

N E N S

63 210

3 10

26. Debe seleccionarse un comit de tres personas del consejo directivo de una compaa. El consejo consta de quince miembros, un tercio de los cuales son mujeres y dos tercios hombres. Cul es la probabilidad de que las tres personas del comit sean todas del mismo sexo? SOLUCION De acuerdo a los datos n =15 personas, nH = 10 hombres y nM = 5 mujeres, se debe selecciona un comit r = 3 personas Sean los conjuntos A = {comit de 3 mujeres} y B = {comit de 3 hombres} , entonces C = {en comit de personas del mismo sexo} = {las tres personas sean mujeres o sean hombres } C=A B B= se tiene que N(C) = N(A) + N(B)

Puesto que A

N (C )
y

nH r

nM r

10! 10 3 ! 3!

5! =120 + 10 =130 comits 5 3 ! 3!

N (S )

n r N E N S

15 3 130 455

10! = 455 comits 10 3 ! 4! 2 7

Finalmente

P( E )

27. Una "mano de pker consta de cinco naipes. Cul es la probabilidad de que los cinco naipes sean del mismo palo? SOLUCION En un problema previo se sabe que n = 52 cartas, r = 5 cartas y

N (S )

n r

52 5

52! = 2 598 960 manos 52 5 ! 5!


y trboles

El mazo de cartas es esta formado por 4 figuras diamantes , corazones , picas por lo que cada tipo de figuras est conformado por nP = 13 cartas. Sea el conjunto

B = {5 cartas del mismo palo} y Ai = {5 cartas del mismo palo tipo i}, para i = 1,2,3 y 4.

44

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

Entonces resulta que

B =A1

A2 A3 A4 , y adems A1

A2 A3 A4 =

, por lo tanto se cumple que

N(B ) = N(A1) + N(A2) + N(A3) + N(A4) Utilizando los datos se pede determinar el nmero de elementos para cada uno de los conjuntos Ai, i= 1,2,3 y 4 como las combinaciones de nP = 13 cartas tomadas de r = 5 cartas.

N ( Ai )
por lo tanto

nP r

13 5

13! =1 287 13 5 ! 5!

N ( B)

13 5

4 1287

5148

P( B)

5148 2598960

33 16660

28. Se estn formando grupos de cuatro letras empleando las letras A E I O U X Y. a. Cuntos grupos pueden formarse si no deben repetirse las letras? b. Cuntos grupos pueden formarse si cualquier letra puede repetirse tan veces como se desee? AEIOUXY SOLUCION a) Este caso corresponde a una permutacin puesto que todas las letras son diferentes con n =7, r =4, N=

P4

7! 840 7 4 ! 4!

b) El caso corresponde a un caso de eleccin con reemplazo donde en cada eleccin se puede seleccionar cualquiera de las 7 letras para ocupar los 4 lugares, entonces

N = (7) (7) (7) (7)= 74 = 2 401


29. Un vendedor de automviles acaba de recibir un embarque de ocho automvil nuevos, cinco de los cuales son compactos y tres modelos de lujo. Si se venden aleatriamente cuatro automviles, obtngase la probabilidad de que se hayan vendido dos de cada modelo. SOLUCION n = 8 automviles 5 compactos, 3 de lujo, se venden r = 4 S = {vender 4 modelos de 8 disponibles} E = {2 de cada modelo} = {2 modelos compactos y 2 modelos de lujo}

N (S )

8 4

8! 4!4!

70 Total de posibles ventas

45

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

N E
Entonces

5 2

3 2

5! 3! 3!2! 1! 3!

P( E )

N E N S

30 70

3 7

0.128

30. Si en una estacin televisora se debe seleccionar cuatro de entre diez programas de media hora para emitirlos cada maana de 8:30 a 10:30, de cuntas formas posibles puede arreglarse la programacin? SOLUCION De 8:30 a 10:30 solo se pueden acomodar r = 4 programas de media hora, de n = 10 disponibles, como en la programacin hay orden, entonces el nmero de formas posibles de acomodar la programacin es: N=

10

P4

10! 5040 10 4 ! 4!

31. Supngase que una compaa que fabrica relojes y una compaa que fabrica mquinas de escribir deben elegir para embarcar sus productos entre tren (T), camin (C) y avin (A). Ninguno de los fabricantes tiene preferencia en cuanto a la forma de envo, de manera que cada resultado es equiprobable. a. Mustrese el espacio muestral en un plano bidimensional, sealando las selecciones del fabricante de relojes en el eje horizontal y las del fabricante de mquinas de escribir en el eje vertical. b. Cul es la probabilidad de que solamente uno de los fabricantes seleccione avin para el embarque de sus productos? SOLUCION (a) R = FABRICANTE DE RELOJES = { T, C, A} M = FABRICANTE DE MAQUINAS = { T, C, A} S = M x R ={ (x, y) | x M y y R |} = {(T, T), (T, C), (T, A), (C, T), (C, C), (C, A), (A, T), (A, C), (A, A),} (b) E = {solamente uno de los fabricantes seleccione avin} = { (T, A), (C, A), (A, T), (A, C)}

32. Un comprador de un automvil nuevo puede elegir entre cinco estilos de carrocera, con o sin transmisin automtica, con o sin aire acondicionado, con o sin asientos individuales y entre diez colores. De cuntas formas puede realizar su eleccin el comprador? SOLUCION Aplicando directamente el principio fundamental del conteo N1=5 N2=2 N3=2 N4=2 N5=10 carrozas (carroceras) transmisin automtica aire acondicionado asientos individuales colores

N = N1 N2 N3 N4 N5 =(5).(2).(2).(2).(10)=400

46

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

33. De cuntas formas puede elegirse un cuarteto (grupo de cuatro jugadores) de entre doce miembros de un club de golf? SOLUCION El problema corresponde directamente a el caso tpico de combinaciones donde n =12 y r = 4, entonces
12

C4

12! (12 4)!4!

495

34. Si 20 estaciones de servicio constituyen una poblacin, cul es la probabilidad de que se seleccione como muestra aleatoria una combinacin de cuatro estaciones en particular? SOLUCION Para el problema n =20 y r = 4, entonces
20 C 4

20! (20 4)!4!

2.432902008 x1018 2.092278989 x10 3 (24)

4845

y por lo tanto la probabilidad de que se seleccione una estacin de servicio es:

#A #S

1 4845

2.06 x10

AXIOMAS BSICOS DE LA PROBABILIDAD


Aunque la definicin dada anteriormente de la PROBABILIDAD permite calcularla a partir del conteo de los conjuntos, es necesario definir nuevas propiedades que permitan calcularla para los casos en que no sea posible aplicar dicha definicin. Sean S el espacio muestral y E un evento cualquiera, entonces a) P (S)=1 b) P ( c) 0 )=0 P (E) 1 evento seguro evento imposible

Es importante resaltar la propiedad c) ya que seala que ningn evento puede de ninguna manera tener una probabilidad negativa ni nunca puede ser mayor que la unidad. Por lo tanto, si al resolver algn problema se obtiene una probabilidad que no cumpla la propiedad c) se pude afirmar que el problema est mal resuelto.

REGLA DE LA ADICIN DE PROBABILIDAD PARA EVENTOS AJENOS


(d) Si A B= es decir A y B son conjuntos ajenos, entonces P(A B)=P(A)+P(B) (e) Si Ei Ej = para i j i, j =1,2,3,.,n, entonces E2 . En)= P(E1) + P(E2) ++ P(En) (2.7) (2.6)

P(E1

47

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

(f) como S =A

Ac y A

A c=

entonces

P(S)=P(A

A c)=P(A) +P(A c)

Por otra parte P(S)=1 por lo tanto Despejando a P(A)

1= P(A) +P(A c) P(A) = 1 - P(A c)

(2.8)

REGLA GENERAL DE LA ADICIN DE PROBABILIDAD.


(g) Si A B entonces P (A B) =P(A) + P(B) - P(A B) (2.9)

Nota: La regla (g) se reduce a la regla (d) en el caso de conjuntos ajenos. La regla es difcil de generalizar para un nmero grande de conjuntos. Por ejemplo, a continuacin se muestra la regla de adicin para el caso de tres conjuntos A, B, C cualquiera, no necesariamente ajenos. P(A B C)= P(A (B C)) = P(A) + P(B C) - P(A (B C)) = P(A) + P(B) + P(C) - P(B C) - P((A B) (A C)) = P(A) + P(B) + P(C) - P(B C) - (P(A B)- P(A C) + P(A B A C)) = P(A) + P(B) + P(C) - P(A B) - P(A C) - P(B C) + P(A B C)) C) = P(A) + P(B) + P(C) - P(A B) - P(A C) - P(B C) + P(A B C)) (2.10)

P(A

CALCULO DE PROBABILIDADES APLICANDO LAS REGLAS BSICAS.


EJEMPLOS 35. En el experimento de arrojar tres monedas, se considera que los ocho posibles resultados son equiprobables. Si E1 denota al evento de que ocurran dos soles y E2 al evento de que ocurran tres soles, cul es la probabilidad de que ocurra ya sea E1 E2? Esto es, cul es P(E1U E2)? SOLUCION El espacio muestral del problema y cada uno de los eventos E1 y E2 son mostrados a continuacin S = {arrojar 3 monedas} = {SSS, SSA, SAS, SAA, ASS, ASA, AAS, AAA} E1= {dos soles} = {SSA, SAS, ASS} E2= {3 soles} = {SSS } Entonces se tiene que P(E1) = 3/8 y P(E2) =1/8, E1 E2= {dos soles tres soles}=}={SSA, SAS, ASS, SSS} E2 =

Adems E1 P(E1

E2)=P(E1) +P (E2) =3/8 + 1/8 = 4/8 =1/2

48

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

36. En el problema anterior, si A denota al evento de que ocurran dos o ms soles y B denota al evento de que ocurran dos o menos soles, cul es la probabilidad de que ocurra ya sea A B? Esto es cunto vale P(A B)?. SOLUCION Del espacio muestral del problema anterior se tiene que A = {2 ms soles} ={ASS, SAS, SSA, SSS} B = {2 menos soles} ={ASS, SAS, SSA, AAS, ASA, SAA, AAA} A B = {ASS, SAS, SSA}

Debido a que los conjuntos no son ajenos, se debe aplicar la ecuacin (8) P(A B) = P(A) + P(B) - P(A B) = 4/8 + 7/8 - 3/8 = 1

37. Supngase que una bolsa contiene 10 esferas marcadas 1, 2, 3,. . ., 10. Sea E el evento de extraer una esfera marcada con un nmero par y F el evento de extraer una esfera marcada con un nmero 5 mayor. Son E y F ajenos? Obtngase P(E F). SOLUCION El espacio muestral y cada uno de los eventos se describen a continuacin S = {extraer una esfera marcada del 1 al 10} = {1, 2, 3, 4, 5, 6, 7, 8, 9, 10} E = {par} = {2, 4, 6, 8, 10} F = {5 mayor} = {5, 6, 7, 8, 9, 10} Para que los eventos sena excluyente se debe tener que P(E Como E F = {6, 8, 10} F) se tiene que P (E F) = 3/10 F)=P(E) P(F)

Y puesto que P (E

F , entonces los conjuntos E y F no son ajenos.

Aplicando la regla general de la adicin P(E F) = P(E) + P(F) - P(E F) = 5/10 + 6/10 - 3/10 = 8/10 = 4/3

38. Si se extrae aleatriamente un naipe de una baraja ordinaria de 52 naipes bien barajados, (a) cul es la probabilidad de extraer un trbol o un corazn o un diamante? (b) Cul es la probabilidad de extraer un diamante o un as? SOLUCION Hay que recordar que la baraja est formada por 4 conjuntos de 13 cartas, y que cada uno de los conjuntos est corresponde a las figuras de trboles, corazones, diamantes y picas.

49

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

El conveniente definir los siguientes conjuntos: A = {la carta elegida es un trbol} B = {la carta elegida es un corazn} C = {la carta elegida es un diamante} D = {la carta elegida es una pica} E = {la carta elegida es un as Los eventos A, B, C y D son mutuamente ajenos. Por lo tanto: (a) P(A B C) = P(A) + P(B) + P(C) =13/52 + 13/52 + 13/52 = . E = {as de diamantes}, o sea los eventos no son ajenos, por lo que: E) = 13/52 + 4/52 - 1/52 = 4/13

(b) En este C P(C

E) = P(C) + P(E) - P(C

39. Supngase que el 80% de todos los estadounidenses que vacacionan en el lejano oriente visitan Tokio, 80% visitan Hong Kong y 70% visitan tanto Tokio como Hong Kong. Cul es la probabilidad de que un turista estadounidense vacacionando en el Lejano Oriente visite o Tokio o Hong Kong? Cul es la probabilidad de que el turista no visite ninguna de estas ciudades? SOLUCION Sean A = {visitan Tokio} B = {visitan Hong Kong} A B = {visitan Tokio y Hong Kong} P(A) = 0.8 P(B) = 0.8 P(A B) = 0.7

La probabilidad de la unin se obtiene utilizando P(A P(A P(A C = (A B) = P(A) + P(B) - P(A B) B) = 0.8 + 0.8 - 0.7 = 0.9 B) = 0.9

B) c representa a el conjunto de los turistas que no visitan a Tokio Hong Kong

La probabilidad P(C) puede ser calculada mediante P(C) = 1 - P(C c) P(C) = 1 - P(A B) P(C) = 1 - 0.9 = 0.10

40. Las probabilidades de que un vendedor de automviles venda en una semana cero, uno, dos, tres, cuatro o cinco o ms automviles son 0.05, 0.10, 0.18, 0.25, 0.20 y 0.22, respectivamente. a. Cul es la probabilidad de que venda tres o ms automviles en una semana? b. Cul es la probabilidad de que venda tres o menos automviles en una semana? SOLUCION

50

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

Los datos para la probabilidad de venta en una semana son: Venda Prob. 0 0.05 1 0.10 2 0.18 3 0.25 4 0.20 5 0.22

(a) Sean lo eventos E1= {venda 3 automviles} E2= {venda 4 automviles} E3= {venda 5 automviles} Los cuales cumplen Ei nEj =

0.25 0.20 0.22 para i, j = 1,2,3., entonces E2 E3, as se tiene que

A = {venda 3 mas automviles}= E1 P (A) = P(E1 E2

E3 )= P(E1) +P(E2) + P(E3 ) = 0.25+0.20+0.22 = 0.67 0.05 0.10 0.18 0.25 Fj = para i, j =1,2,3, 4., entonces F2 F3 F4 as se tiene que

(b) Sean lo eventos F1= {no venda} F2= {venda 1 auto} F3= {venda 2 autos} F4= {venda 3 autos} Los cuales cumplen Fi

B = {venda 3 menos automviles}= F1 P (B)= P(F1 F2 F3

F4 ) = P(F1) + P(F2) + P(F3 ) + P(F4 ) = 0.05 + 0.10 + 0.18 + 0.25 = 0.58

51

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

Unidad III Probabilidad condicional y variables aleatorias


PROBABILIDAD CONDICIONAL
Eventos independientes y dependientes Se dice que dos eventos A y B son EVENTOS INDEPENDIENTES si y solo si la ocurrencia de uno de ellos no afecta la ocurrencia del otro. Si A y B son EVENTOS INDEPENDIENTES entonces, la probabilidad de que ocurran tanto A como B es igual al producto de sus probabilidades respectivas, esto es: P(A B) = P(A) P(B) (3.1)

En el caso de que la ocurrencia de un evento A afecte la ocurrencia del evento B entonces se tiene el caso de EVENTOS DEPENDIENTES de la PROBABILIDAD CONDICIONAL, la cual se denota por: P(B A) La probabilidad de B dado que ha ocurrido A

En general la probabilidad de la interseccin de los eventos A B, cuando son dependientes se obtiene mediante la expresin: P(A Despejando a P(B A). B) = P(A) P(B A). (3.2)

P( B | A)
EJEMPLOS

P A B P A

(3.3)

1. Determine si los eventos A = {sol en la primera tirada} B = {sol en la segunda tirada} son independientes en el experimento de arrojar una moneda dos veces. SOLUCION El espacio muestral del problema es S ={(S,S), (S,A), (A,S), (A,A)} Para la parte izquierda de la ecuacin (10) E = {dos soles al arrojar una moneda dos veces} = A P(A B) = N(E)/N(S) = 1/4 P{A} = 1/2 P{B} = 1/2 B = = {(S,S)}

Para la parte derecha de la ecuacin (10) P(A).P(B) = (1/2)(1/2) = 1/4 Entonces se cumple que P(A

B) = P(A) P(B), por lo que los eventos son independientes.

52

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

2. Una caja contiene diez esferas. Cinco de ellas son blancas, tres rojas y dos negras. Se selecciona aleatriamente una esfera .sin reemplazo. a. Cul es la probabilidad de extraer dos esferas blancas una despus de otra? b. Cul es la probabilidad de extraer una esfera roja y despus una negra? c. Cul es la probabilidad de extraer tres esferas rojas, una despus de otra? d. Cul es la probabilidad de extraer una esfera negra, despus un roja y finalmente un blanca? SOLUCION Los datos del problema son: total de esferas n =10 repartidas en 5 blancas, 3 rojas y 2 negras. El experimento se realiza sin reemplazo, por lo que los eventos son dependientes Definiendo los siguientes conjuntos B1 = {Sacar bola blanca en la 1 extraccin} B2 = {Sacar bola blanca en la 2 extraccin} B3 = {Sacar bola blanca en la 3 extraccin} R1 = {Sacar bola roja en la 1 extraccin} R2 = {Sacar bola roja en la 2 extraccin} R3 = {Sacar bola roja en la 3 extraccin} N1 = {Sacar bola negra en la 1 extraccin} N2 = {Sacar bola negra en la 2 extraccin} (a) (b) (c) (d) P({2 blancas una despus de la otra}) = P(B1 B2) = P(B1) P(B2 B1) = (5/10)(4/9) = 2/9 P({Una roja y una negra})= P(R1 N2) = P(R1) P(N2 R1) = (3/10)(2/9) = 1/15 P({Tres rojas despus de otra}) = P(R1).P(R2 R1).P(R3 R2nR1) = (3/10) (2/9)(1/8) = 1/120 P({ Negra, despus roja, y finalmente blanca}) = P(R1).P(R2 R1).P(R3 R2 R1) = (3/10) (2/9)(5/8) = 1/24

3. El Sr. Huerta y su esposa tienen 55 y 50 aos de edad, respectivamente. Si la probabilidad de que un hombre de 55 aos de edad viva al menos otros 15 aos es de 0.70, y la probabilidad de que una mujer de 50 aos de edad viva al menos otros 15 aos es de 0.85, cul es la probabilidad de que tanto el Sr. Huerta como su esposa continen vivos dentro de 15 aos? (Considrese que las longevidades del esposo y esposa son independientes.) SOLUCION Se definen los eventos: A = {el seor viva ms de 15 aos}, entonces, P(A) = 0.70 B = {la seora viva ms de 15 aos}, entonces P(B) = 0.85 Entonces C = A B = {El seor y la seora vivan ms 15 de aos} B) = P(A) P(B) = (0.70)(0.85) = 0.595

Considerando los eventos independientes se tiene que P(A P(C) = P(A B) = P(A) + P(B) - P(A

B) = 0.70 + 0.85 - 0.595 = 9.995

4. Se dispone de dos mquinas contra incendios para casos de emergencia. La probabilidad de que cualesquier de las dos mquinas est lista cuando se necesite es de 90%. Se considera que la disponibilidad de una mquina es independiente de la otra. a. En el caso de una alarma por incendio, cul es la probabilidad de que ambas mquinas estn listas? b. Cules la probabilidad de que ambas mquinas no estn listas? c. Cul es la probabilidad de que solamente una mquina est lista?

53

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

SOLUCION Es conveniente definir los eventos A = {la mquina 1 est lista}, entonces P(A) = 0.9 B = {la mquina 2 est lista }, por lo tanto P(B) = 0.9 Entonces, cada uno de los incisos se puede resolver como se indica a continuacin a) b) c) P(A B) = P(A).P(B) = (0.9)(0.9) = 0.81 P(Ac Bc) = P(Ac).P(Bc) = (1 - P(A))(1 - P(B)) = (0.1)(0.1) = 0.01 El evento de que al menos una de las mquinas est disponible es C = (A Bc) P(C) = P((A Bc) (Ac B))= P(A Bc) + P(Ac B) - P(A B) (Ac B) =P(A).P(Bc) + P(Ac)P(B) = (0.9)(1 - 0.9) + (1 - 0.9)(0.9) = 0.09 + 0.09 = 0.18

(Ac

B)

5. A continuacin se encuentra una tabla probabilstica acerca del sexo y el estado civil de los empleados de una gran institucin. Estado civil
Casados (M) Solteros (M) Total

Mujeres F
0.42 0.28 0.70

Hombres F
0.18 0.12 0.30

Total
0.60 0.40 1.0

a. Son independientes el sexo y estado civil? Por qu si o por qu no? b. Obtngase P(M I F), P(M I F) y P(M). (La barra vertical "I " significa "dado que".) c. Obtngase P(F I M), P(F I M') y P(F). d .Obtngase P(M' I F), P(M' I F), y P(M' ). e. Obtngase P(FI M), P(FI M' ), y P(F'). SOLUCION (a) Para contestar esta pregunta hay que aplicar la ecuacin (12) para determinar la probabilidad condicional en cada una de las combinaciones sealadas en los incisos siguientes (b) P (M I F) = P(M P (M I F) =P(M P (M) = 0.6 Entonces (c) P (F I M) = P(F P (F I M) = P(F P (F) = 0.7 Entonces (d) F)/P(F)=0.42/0.70=0.6 F)/P(F)=0.18/0.30=0.6

P (M I F)= P (M I F) = P (M) M)/P(M)=0.42/0.60=0.7 M)/P(M)=0.28/0.4=0.7

P (F I M)= P(F I M)= P(F)

P (M I F)=P(M F)/P(F)=0.28/0.70=0.4 P(M I F)= P(M F)/P(F)=0.12/0.30=0.4 P(M)=0.4 Entonces P (M I F) = P(M I F) = P(M) = 0.4

54

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

(e)

P (F I M) = P(F P (F I M) = P(F P (F) = 0.3 Entonces

M)/P(M) = 0.18/0.60 = 0.3 M)/P(M) = 0.12/0.4 = 0.3

P (F I M) = P (F I M) = P (F) = 0.3

Como se observa de cada uno de los incisos anteriores, los eventos de sexo y estado civil son independientes uno del otro.

6. Se extraen naipes de una baraja ordinaria. Si los naipes que se han extrado no se reemplazan antes de extraer el siguiente, cul es la probabilidad de extraer a. Cuatro ases y despus cualesquier de los otros naipes; b. Tres ases y despus dos reyes; c. Cinco naipes del mismo palo? SOLUCION a) Un caso posible se muestra a continuacin A Definiendo los eventos: A1 = {As en la primera eleccin} A2 = {As en la segunda eleccin } A3 = {As en la tercera eleccin} A4 ={As en la cuarta eleccin} B = {cualquiera en la quinta eleccin } Entonces: P(A1 A2 A A A B

A3

A4

B)=P(A1).P(A2 I A1).P(A3 I A1 A2)P(A4 I A1 A2 A3).P(B I A1 A2 = (4/52)(3/51)(2/50)(1/49)(48/48) = 1152/3118752000 = 1/270725

A3

A4)

b) El caso es mostrado A Utilizando lo eventos anteriores y K4= {Rey en la cuarta eleccin} K5= {Rey en la quinta eleccin} P(A1 A2 A3 K4 K5) = = P(A1).P(A2 I A1).P(A3 I A1 A A K K

A2)P(K4 I A1

A2

A3).P(K5 I A1

A2

A3

K4)

= (4/52)(3/51)(2/50)(4/49)(3/48) = 288 / 311875200 = 9.23446e-7 c) Hay 4 palos y 13 figuras por palo, para cada uno de los palos, por ejemplo, corazones sean los eventos: C1 = {Corazn en la primera eleccin} C2 = {Corazn en la segunda eleccin} C3 = {Corazn en la tercera eleccin} C4 = {Corazn en la cuarta eleccin} C5 = {Corazn en la quinta eleccin}

55

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

P(C1

C4 C5) = = P(C1).P(C2 I C1).P(C3 I C1 A2)P(C4 I C1 C2 C3).P(C5 I C1 C2 C3 C4) =(13/52)(12/51)(11/50)(10/49)(9/48)=154440/311875200 = 4.95198e-4 Finalmente multiplicando por 4 P({5 naipes del mismo palo}) = (4)( 4.95198e-4) =0.0019808

C2

C3

7. Un cartn contiene 20 huevos, 5 de los cuales estn descompuestos. Si se seleccionan aleatriamente tres huevos sin reemplazo, cul es la probabilidad de que los tres estn descompuestos? SOLUCION De acuerdo a la informacin de n = 20 hay 5 descompuestos y hay que elegir 3 sin reemplazo, entonces, definiendo los eventos Di = {Huevo defectuoso en la eleccin i} para i =1, 2, 3. P({3 huevos descompuestos}) = P(D1 D2 D3) = P(D1)P(D2 I D1)P(D3 I D1 = (5/20)(4/19)(3/18) = 1/114 D2)

8. Supngase que la poltica de cierta compaa de seguros es que sus vendedores realicen visitas de casa en casa. De acuerdo a la experiencia anterior, el 20 % de las visitas dan como resultado una venta (S), o P(S) = 0.20, y 80% de las visitas no (S') o P(S') = 0.80. De las familias que han adquirido plizas de seguros el 30% viven en casas unifamiliares de dos pisos (T) o P( T | .S) = 0.30. Los restantes compradores (70%) viven en otros tipos de edificios (T) o P(T|,S) = 0.70. De aquellas familias que no adquirieron una pliza, el 60% vivan en casas unifamiliares de dos pisos o P(T| S') = 0.60 y el 40% vivan en otros tipos de casas o P(T' |S') = 0.40. a. Cul es la probabilidad de que la siguiente visita d como resultado una venta si los posibles clientes viven en una casa unifamiliar de dos pisos? Es decir, cunto vale P(S|T)? b. Cul es la probabilidad de que la siguiente visita no d como resultado una venta si la familia vive en cualquier otro tipo de edificio? Es decir, cunto vale P(S'| T)? (Sugerencia: calclense las probabilidades conjuntas) SOLUCION La informacin se puede resumir como: P(S) = 0.20 P(T | S) = 0.30 P(S') = 0.80 P(T | S') = 0.60

P(T| S) = 0.70 P(T| S') = 0.40

La cual puede ser utilizada para calcular las probabilidades conjuntas P(S P(S P(S P(S T) = P(S) P(T | S) = (0.20)( 0.30) =0.06 T) = P(S) P(T| S) = (0.20)( 0.70) =0.14 T) = P(S) P(T | S) = (0.80)( 0.60) =0.48 T) = P(S) P(T| S) = (0.80)( 0.40) =0.32

El resultado anterior puede ser representado grficamente con un diagrama de rbol

56

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

P(T|S)=0.3

P(S

T)=0.06

P(S)=0.2 P(T|S)=0.7 P(S T)=0.14

P(T|S)=0.6 P(S)=0.8

P(S

T)=0.48

P(T|S)=0.4

P(S

T)=0.32

Por otra parte T = (S T = (S T) (S T) T) (S T)

Entonces P(T) = P(S P(T) = P(S T) + P(S T) = 0.06+0.48 = 0.54 T) + P(S T) = 0.14 +0.32 = 0.46

Con la informacin anterior (a) P ( S | T )

PS T PT P S' T ' P T'

0.06 0.54 0.32 0.46

1 9 16 23

(b) P ( S ' | T ' )

9. En una encuesta aplicada a los estudiantes que se gradan en el colegio de cierta comunidad, se determin que el 40% de los estudiantes continuarn estudiando alguna especializacin en otra universidad (T) y el 60% no lo harn (T'). Dadas estas dos categoras de estudiantes, la proporcin de estudiantes que han obtenido calificaciones promedio de A, B y C o menos se muestran a continuacin, Calificaciones promedio A B C o menos 0.10 0.30 0 60 0.05 0.40 0.55

Estudiantes T T

TOTAL 1 1

a. Se selecciona aleatriamente un estudiante y su calificacin promedio es A. Cul es la probabilidad de que contine estudiando? b. Cul es la probabilidad de que no contine su educacin si la calificacin promedio es de B? SOLUCION De la informacin dada en el problema P(T)=0.4, P(T)=0.6 y de la tabla se puede calcular la probabilidad conjunta

57

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

P(T A) = P(T) P(A | T) = (0.40)( 0.10) = 0.04 P(T A) = P(T) P(A | T) = (0.60)( 0.05) = 0.03 P(T B) = P(T) P(A | T) = (0.40)( 0.30) = 0.12 P(T B) = P(T) P(B | T) = (0.60)( 0.40) =0.24 P(T C) = P(T) P(C | T) = (0.40)( 0.60) =0.24 P(T C) = P(T) P(C | T) = (0.60)( 0.55) =0.33 Adems

P(A) = P(A P(B) = P(B Por lo tanto (a) P (T | A)

T) + P(A T) + P(B

T) = 0.04 + 0.03 = 0.07 T) = 0.14 + 0.24 = 0.38

PT A P A P T' B PB

0.04 0.07 0.24 0.38

4 7 12 19

(b) P (T ' | B )

Regla de Bayes o teorema de Bayes Algunos de los problemas resueltos en la seccin anterior son problemas que pueden ser resueltos mediante el Teorema de Bayes, el cual se detalla a continuacin. Sean los conjuntos A1, A2, A3,An, conjuntos mutuamente excluyentes, esto es, AinAj=
n

Y que adems
l i

Ai

Por lo tanto cualquier conjunto B puede ser representado por los A1, A2, A3,An de la forma:
n

B
l i

( Ai

B)

( A1

B)

( A2

B) ... ( An

B)

Entonces

P(B)= P(A1
Adems como

B)+P(A2

B)++P(An

B)

P(Ai

B) = P(Ai).P(B | Ai), para i =1, 2,3,, n

As se tiene que

P(B) = = P A1).P(B | A1)+ P(A2).P(B | A2)++P(An).P(B |An)


Por otra parte adecuando la ecuacin (12) al problema

58

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

P ( Ai | B)

P Ai B PB

P B Ai PB P( Ai ) P B | Ai P( A1 ) P B | A1 P( A2 ) P B | A2

(3.4)

P( An ) P B | An

La ecuacin anterior establece un forma para invertir la probabilidad condicional, esto es se puede pasar de P(B | A1) a P(A1 | B). EJEMPLOS 10. Una gran caja contiene transistores fabricados en tres mquinas. La mquina A es el doble de rpida que la mquina B o C. La tasa de defectos para la mquina A es 0.02 para B es 0.04 y para C es 0. 02. Se selecciona al azar un transistor de la caja y resulta defectuoso. Cul es la probabilidad de que la haya producido la mquina C? SOLUCION El uso de un diagrama de rbol es til para representar los datos y calcular la probabilidad conjunta

P(D|A)=0.02

P(A

D)=0.01

P(A)=0.50 P(D|B)=0.04 P(B)=0.25 P(B D)=0.01

P(C D)=0.005 P(D|C)=0.02 P(C)=0.25

Utilizando la frmula (3.4), tenemos que:

P (C | D)

P( A) P D | A

P(C ) P D | C P( B) P D | B

P(C ) P D | C 1 5 0.20

P (C | D)

(0.25)(0.02) (0.50)(0.02) (0.25)(0.04) (0.25)(0.02)

59

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

11. Una vendedora realiza su trabajo haciendo visitas domiciliarias. Durante los aos de experiencia ha acumulado los siguientes datos: de todas las visitas realizadas el 15% dieron como resultado lo que ella considera como grandes ventas (L), 30% ventas pequeas (S) y 55% no fueron ventas (N). Adems, de aquellos que hicieron grandes compras, el 75% viven en casas unifamiliares de dos pisos (T); de los que realizaron pequeas compras, el 50% viven en casas de este tipo; entre quienes no realizaron compras el 30% viven en casas de este tipo. Si la siguiente casa que visita es una casa unifamiliar de dos pisos, cul es la probabilidad de que d como resultado una gran venta? Una venta pequea? Ninguna venta? SOLUCION Representando los resultados en un diagrama de rbol
P(T|L)=0.75 P(L T)=0.1125

P(L)=0.15 P(T|S)=0.50 P(S)=0.30 P(S T)=0.150

P(N T)=0.165 P(T|N)=0.30 P(N)=0.55

Utilizando la frmula (3.4)

P( L | T )

P ( L) P T | L

P ( L) P T | L P( S ) P T | S

P( N ) P T | N

0.1125 0.1125 0.150 0.165

0.1125 0.4275

5 19

P(S | T ) P( N | T )

P ( L) P T | L P( L) P T | L

P( S ) P T | S P( S ) P T | S P( N ) P T | N P( N ) P T | N P( S ) P T | S P( N ) P T | N

0.150 0.150 20 0.1125 0.150 0.165 0.4275 57 0.165 0.165 22 0.1125 0.150 0.165 0.4275 57

12. Como muchos saben la hepatitis se detecta comnmente realizando pruebas sanguneas. Supngase que en un cierto grupo de personas, el 3% realmente tiene hepatitis (H) y el 97% no (H'). Supngase adems que si una persona tiene la enfermedad, el 95% de las pruebas sanguneas la detectan (P), pero el 5% no la detectan (N). Para las personas que no tienen la enfermedad, el 6% de las pruebas muestran resultados positivos y el 94% muestran resultados negativos. Si la prueba sangunea de una persona es negativa, cul es la probabilidad de que en realidad tenga la enfermedad? SOLUCION Representando los resultados en un diagrama de rbol

60

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

P(P|H)=0.95

P(H

P)=0.0285

P(H)=0.03 P(N|H)=0.05 P(P|H)=0.06 P(H)=0.97

P(H

N)=0.0015

P(H

P)=0.0582

P(N|H)=0.94

P(H

N)=0.9118

Entonces

P( H | N )

P( H ) P N | H P( H ) P N | H P( H ' ) P N | H '

0.0015 0.0015 0.9118

0.0015 0.9133

1.6451 10

61

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

VARIABLES ALEATORIAS
Una funcin es una asociacin tal que a cada elemento X de un conjunto llamado dominio le asocia un nico elemento Y de otro conjunto llamado rango. La variable X se les conoce como variable independiente y la variable Y como variable dependiente. La variable aleatoria es una funcin que asigna valores numricos a los resultados de un experimento aleatorio. La variable aleatoria se denota normalmente con letras maysculas X, Y, Z,, etc.

TIPOS VARIABLES ALEATORIAS


Una variable aleatoria que toma que toma un nmero finito o infinito contable de valores se denomina variable aleatoria discreta, mientras que la que toma un nmero infinito continuo de valores se llama variable aleatoria continua

DISTRIBUCIONES DE PROBABILIDAD DE LAS VARIABLES DISCRETAS Y CONTINUAS


Si X es una variable aleatoria discreta la cual tiene un conjunto de valores x1, x2, x3,., ordenados de forma creciente y adems la probabilidad de la variable aleatoria tome cada uno de los valores xk es

P( X

xk )

1, 2, 3,

Es posible entonces definir una funcin de distribucin de probabilidad para la variable aleatoria discreta como:

f ( xk )

P( X

xk )

1, 2, 3,

(3.5)

y para el caso de una variable continua como:

f ( x)

P( X

x)

a, b

(3.6)

En general se dice que una funcin f ( x ) es una distribucin de probabilidad si satisface las siguientes propiedades Para el caso discreto (a) (b)
k

f ( x k ) 1 para k f ( x k ) 1 para k

1, 2, 3,

1, 2, 3,

Para el caso continuo (a) (b)

0
b a

f ( x) 1 para x
f ( x) dx 1 para x

a, b

a, b

62

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

La funcin de distribucin acumulada para una variable aleatoria X se define como

F ( x)

P X

Lo cual se traduce para el caso discreto en

F ( x)
j k

f (x j )

Y para el caso continuo

F x

x a

f ( x) dx

Las ideas anteriores pueden generalizarse para el caso de ms variables aleatorias, por ejemplo, para el caso de dos variables aleatorias X y Y, se define la funcin de probabilidad conjunta como

f ( x, y )

P( X

x, Y

y)

(3.7)

Donde la funcin f ( x, y ) satisface para el caso discreto (a) (b)


j k

f ( x j , y k ) 1 para j

1, 2, 3,

,y k

1, 2, 3,

f ( x k ) 1 para j 1, 2, 3,

,y k

1, 2, 3,

Para el caso continuo (a) (b)

0
d c b a

f ( x, y ) 1 para x

a, b y y

c, d
c, d

f ( x, y ) dx dy 1 para x

a, b y y

Se dice que dos variables aleatorias Y y Y discretas son variables aleatorias independientes si y solo si los eventos X=x y Y=y son independientes para todo x ,y. Para este caso se dice que la distribucin conjunta de probabilidad satisface

P( X f ( x, y )

x, Y

y)

P( X

x) P(Y

y)

o de igual forma

f ( x) f ( y )

VALOR ESPERADO DE LA DISTRIBUCIN DE PROBABILIDAD


Un concepto importante para las distribuciones de probabilidad es el valor esperado esperanza matemtica la cual se define como:
n

Para el caso discreto

E( X )
i 1

f ( xi ) xi

(3.8)

63

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

Y para el caso continuo

E( X )
a

x f ( x) dx

(3.9)

La esperanza matemtica E ( X ) se pude considerar como el promedio probabilidad, la cual se denota por la letra griega . Propiedades de la esperanza matemtica (a) (b) (c) Si c es una constante, entonces Si X, Y son variables aleatorias, entonces Si X, Y son dos variables aleatorias independiente, entonces

de la distribucin de

E (cX ) cE ( X ) E ( X Y ) E ( X ) E (Y ) E ( XY ) E ( X ) E (Y )

VARIANZA Y DESVIACIN TPICA DE UNA DISTRIBUCIN DE PROBABILIDAD


Otra estadstico importante en la probabilidad y la estadstica es la Varianza la cual se denota por se define para el caso de distribuciones de probabilidad como
2

Var X

E (X

)2
X

(3.10) mediante

La varianza Var X se relaciona con la desviacin tpica de una variable aleatoria


2 X

Var X . Por lo que la varianza puede ser representada mediante cualquiera de las notaciones

anteriores. Por su definicin la varianza nunca puede tomar valores negativos, y su interpretacin es idntica a la que se dio para la distribuciones de frecuencia en la seccin de la estadstica descriptiva. Desarrollando la definicin anterior y aplicando las propiedades de la esperanza matemtica
2 X

E (X E X2

)2 2

E X2
2 2

2X E X2

2
2

E X2

2 E X

E1

esto es
2 X

E X2

(3.11)

Para una distribucin discreta la varianza se calcula mediante


n 2 X i k

xk f ( xk )
b a

(3.12)

y para el continuo
2 X

x 2 f x dx

(3.13)

64

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

Propiedades de la Varianza (a) (b) (c) Si c es una constante, entonces Var (cX )
2

cVar ( X )

La cantidad E X a es mnima cuando a Si X, Y son dos variables aleatorias independientes, entonces

Var ( X
EJEMPLOS

Y ) Var ( X ) Var (Y )

X Y

13. Se dice que un juego es legal si al jugar el juego el valor esperado de ganar perder es cero. Diga usted si el juego de los volados con una moneda balanceada es un juego legal. SOLUCION El juego consiste en lo siguiente: - Se tira la moneda, la persona pide sol y cae sol, gana 1 peso. - Se tira la moneda, la persona pide guila y cae guila, gana 1 peso. - Se tira la moneda, la persona pide sol y cae guila, pierde 1 peso. - Se tira la moneda, la persona pide guila y cae sol, pierde 1 peso. La variable aleatoria del experimento se puede definir como X = {-1, 1} Definiendo los eventos S1={la persona pide sol}, S2=={cae sol} A1={la persona pide guila}, A2={cae guila} Entonces las respectivas probabilidades de cada valor de la variable aleatoria son: f(1)= P(X=1)=P(S1nS2)+P(A1nA2)=P(S1).P(S2)+P(A1).P(A2)=(1/2) (1/2) +(1/2) (1/2)= (1/2) f(-1)= P(X=-1)=P(S1nA2)+P(A1nS2)=P(S1).P(A2)+P(A1).P(S2)=(1/2) (1/2) +(1/2) (1/2)= (1/2) Los resultados generalmente se pueden acomodar para las variables discretas en una tabla

-1

f(x)

De la tabla anterior se puede calcular la esperanza matemtica del experimento


n

E( X )
i 1

xi f ( xi ) = (-1) (1/2)+(1) (1/2)=-1/2+1/2=0

El resultado indica que el juego es legal. 14. Dentese mediante X al nmero de caras obtenidas en la tirada de dos monedas Cul es la media y la varianza de X? SOLUCION La tabla de la distribucin de probabilidad se da a continuacin

65

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

x 0 1 2 f(x) 1/4 1/2 1/4 Entonces


n

E ( x)
i 1 n

x i f ( xi )
2

0(1/4) + 1(1/2 + 2(1/4) = 1

E(x 2 )
i 1

xi f ( xi ) 02(1/4) + 12(1/2) + 22(1/4) = 1/2 + 1 = 3/2

2 X

E(x 2 )

E ( x) = (3/2)2 - 12 = 3/4

15. En un estudio acerca de las actitudes de los consumidores hacia cierto producto nuevo, se pregunta lo siguiente: "Le agrada el nuevo producto?" Para esta pregunta hay solamente dos posibles respuestas, "s" y "no", a las cuales se les asignan los valores de 1 y 0, respectivamente. Sea p la probabilidad de que ocurra el evento de una respuesta "s". (a) Cul es la distribucin probabilstica de W, variable aleatoria de este experimento?, (b) su Valor esperado y (c) su desviacin tpica. SOLUCION (a) De acuerdo a los datos del problema, la variable aleatoria W toma los valores W = {0, 1} y f(1) = P(X = 1) = p Como
k

la distribucin de probabilidad de la variable aleatoria

W debe cumplir la propiedad

f ( x k ) 1 , entonces
f(0) + f(1) = 1 f(0) = 1 - f(1) =1 - p

Entonces la tabal de distribucin de probabilidad de W es

1 p

f(W) 1-p
n

(b) E ( X )
i 1

xi f ( xi ) = (0) (1-p) + (1) (p)= p


n 2

(c)

2 X i k

xk f ( xk )

= (0)2 (1-p) + (1)2 (p) p2 = p - p2 =p (1-p)

entonces

p (1 p )

16. Sea X la variable aleatoria correspondiente al nmero de soles obtenidas en la tirada de cuatro monedas balanceadas. Obtngase la distribucin probabilstica de X. y su valor esperado. SOLUCION De la definicin de la variable aleatoria se tiene que X = {0, 1, 2, 3, 4}

66

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

En general para un evento cualquiera de arrojar una moneda balanceada n veces la probabilidad de cada evento simple es: P ( E )

1 2n

Por otra parte, si en el evento se lanzar n monedas y aparecen r soles, entonces aparecern n-r guilas y el nmero de eventos simples que contienen r soles se determina utilizando las tcnicas de conteo:

n! r ! (n r )!
Entonces la probabilidad de que ocurran en n tiradas r soles es

P (r soles)

n! 1 r ! (n r )! 2 n

Aplicando el resultado anterior para cada uno de los valores de la variable aleaoria

4! 1 1 4 0 ! (4 0)! 2 16 4! 1 4 f (1) P( X 1) 4 1 ! (4 1)! 2 16 4! 1 6 f (2) P( X 2) 4 2 ! (4 2)! 2 16 4! 1 4 f (3) P( X 3) 4 3 ! (4 3)! 2 16 4! 1 1 f (4) P( X 4) 4 4 ! (4 4)! 2 16 f (0) P( X 0)

1 4
3 8 1 4

Acomodando los resultados en la tabla siguiente

1 1/4

2 3/8

3 1/4

4 1/16

f(x) 1/16

Utilizando la tabla anterior


n

E( X )
i 1

xi f ( xi ) = (0) (1/16) + (1) (1/4) +(2) (3/8) + (3) (1/4)+ (4) (1/16)= (4) (1/16) = 2.

17. Sea X la variable aleatoria correspondiente a la suma de las caras de los puntos de dos dados . a. Obtngase la distribucin probabilstica de X. b. La media de la distribucin. c. La desviacin tpica. SOLUCION (a) El espacio muestral del experimento es S = { (1,1), (1,2), (1,3), (1,4), (1,5), (1,6), (2,1), (2,2), (2,3), (2,4), (2,5), (2,6), (3,1), (3,2), (3,3), (3,4), (3,5), (3,6), (4,1), (4,2), (4,3), (4,4), (4,5), (4,6), (5,1), (5,2), (5,3), (5,4), (5,5), (5,6), (6,1), (6,2), (6,3), (6,4), (6,5), (6,6) }

67

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

Entonces los valores posibles de la variable aleatoria son X = {2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12} y sus respectivas probabilidades se pueden calcular directamente del espacio muestral

f (2)

P( X

2)

1 36
4 36 5 36 1 9

f (3)

P( X

3)

2 36
5 36 4 36

1 18

f (4)

P( X

4)

3 36
6 36 3 36

1 12
1 6 1 12

f (5)

P( X

5)

f (6)

P( X

6)

f (7) 1 9

P( X

7)

f (8)

P( X

6)

f (9)

P( X

9)

f (10)

P( X

10)

f (11)

P( X

11)

2 36

1 18

f (12)

P( X

12)

1 36

Colocando los resultados en una tabla. x f(x) 2 1/36 3 1/18 4 1/12 5 1/9 6 5/36 7 1/6 8 5/36 9 1/9 10 1/12 11 1/18 12 1/36

(b)
i 1

xi f ( xi ) = (2) (1/36) + (3) (1/18)+ (4) (1/12) + (5) (1/9)+ (6) (5/36) + (7) (1/6)+
+ (8) (5/36) + (9) (1/9)+ (10) (1/12) + (11) (1/18)+ (12) (1/36) = 7.
n

(c)

2 X i k

xk f ( xk )

= (2)2 (1/36) + (3)2 (1/18)+ (4)2 (1/12) + (5)2 (1/9)+ (6)2 (5/36) + (7)2 (1/6)+ (8)2 (5/36) +

(9)2 (1/9)+ (10)2 (1/12) + (11)2 (1/18)+ (12)2 (1/36) -72= .35/6 = 5.83333
entonces
X

=2.4152

18. Un juego llamado CHICOS Y GRANDES consiste primero en arrojar dos dados y se suman los puntos de sus caras. Los resultados de la suma son divididos en CHICOS si su valor es menor que siete, CASA si cae siete y GRANDES si valor es mayor que siete, tal como se muestra en la higiene figura

2, 3, 4, 5, 6 chicos

7 Casa

8, 9, 10, 11, 12 grande

Las condiciones de juego son las siguientes: a. b. c. d. e. f. Si apuesta 1 peso a chicos y sale chicos, gana 1 peso. Si apuesta 1 peso a grandes y sale grandes, gana 1 peso. Si apuesta 1 peso a chicos y sale grandes casa, pierde 1 peso Si apuesta 1 peso a grandes y sale chico casa, pierde 1 peso Si apuesta 1 peso a la casa y sale casa gana 2 pesos. Si apuesta 1 peso a la casa y sale chicos grandes, pierde 1 peso.

68

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

Diga usted si el juego es legal o no. SOLUCION La variable aleatoria adecuada al juego es X = {-1, 1, 2} La distribucin de probabilidad para la suma de los puntos de las caras de un dado son y f(y) 2 1/36 3 1/18 4 1/12 5 1/9 6 5/36 7 1/6 8 5/36 9 1/9 10 1/12 11 1/18 12 1/36

Definiendo los siguientes eventos CH = {CHICOS} CA = {CASA} y G = {GRANDES}, utilizando las condiciones de juego y tabla anterior f(-1)=P(x =-1)=P(CHnCH)+P(GnG)+P(CAnCA) =P(CH)P(CH)+P(G)P(G)+P(C)+P(CA)P(CHUG)= = (15/36)(21/36)+(15/36)(21/36)+(6/36)(30/36)=35/144+35/144+5/36=5/8 f(1)=P(x = 1)=P(CHnCH)+P(GnG)=P(CH)P(CH)+P(G)P(G)= = (15/36)(15/36)+(15/36)+(15/36)=25/72 f(2)=P(x = 2)=P(CAnCA)=P(CA)P(CA)=(6/36)(6/36)=1/36 Por lo tanto se tiene la tabla x Entonces
n

-1

f(x) 5/8 25/72 1/36

xi f ( xi ) -1(5/8)+1(25/72)+2(1/36)=-5/18+1/8=-2/9= -0.222
i 1

Como el resultado es negativo el juego no solamente no es legal sino que es desfavorable al jugador. 19. Un vendedor ofrece dos modelos distintos de receptores de estreo, H y T. Considrese que los dos modelos son igualmente populares: el 50% de todos los posibles compradores prefieren el Modelo H y el 50% prefieren el Modelo T. Adems, considrese que el vendedor tiene en existencia tres receptores de cada modelo y que en un solo da se venden tres receptores. a. Defnase la variable aleatoria de este experimento. b. Cul es la distribucin probabilstica de la variable aleatoria? SOLUCION En total hay n = 6 receptores, 3 modelo H y 3 modelo T y la venta o seleccin consiste en r =3 aparatos (a) La variable aleatoria X del experimento es el nmero de aparatos tipo H vendidos, entonces si la venta consiste solamente de 3 aparatos X puede tomar los siguientes valores: X = {0, 1, 2, 3},

69

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

(b) Las probabidades de la variable aleatoria X se determinan mediante las tcnicas de conteo

f ( 0)

C3 6 C3
3 3

1 20 3 3 20 9 20

f ( 0)

C 2 3 C1 6 C3 1 20

3 3 20

9 20

f ( 2)

C1 3 C 2 6 C3

f (3)

C3 6 C3
3

La respectiva distribucin de probabilidad se resume en la tabla siguiente x 0 1 2 3

f(x) 1/20 9/20 9/20 1/20

20. La inversin realizada por el Sr. Aranda podran dar como resulta siguientes beneficios, con las probabilidades indicadas: Beneficio $1 milln 2 millones 3 millones 4 millones 5 millones Total Probabilidad 0.2 0.3 0.2 0.2 0.1 1.0

Sea X el beneficio de su inversin. Obtnganse la varianza y desviacin tpica de X. SOLUCION


n

xi f ( xi ) = (1) (0.2) + (2) (0.3)+ (3) (0.2) + (4) (0.2)+ (5) (0.1) = 2.7 millones
i 1
n

E(x 2 )
i 1

X i f ( xi ) 12(0.2)+22(0.3)+32(0.4)+42(0.2)+52(0.1)=8.9 millones
2

2 x
x

E(x 2 )

8.9-2.72 = 1.61.

1.61 = 1.27 millones

21. Supngase que un aparato de televisin tiene ocho bulbos, dos de los cuales dos son defectuosos. Se seleccionan sucesivamente dos bulbos y se quitan del aparato para inspeccionarlos. Sea X el nmero de bulbos defectuosos en la muestra de dos bulbos. Cul es el valor esperado de X y su respectiva desviacin tpica? SOLUCION El nmero total de bulbos es n = 8 tubos, 2 defectuosos 6 sin defecto. La muestra a considerar es r =2. La variable aleatoria es X = {No. de defectuosos en la muestra} = {0, 1, 2}

70

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

f(0) = P(X = 0)=

C2 8 C2
6

15 28

f(1)=P(X =1)=

C1 ( 6 C1 ) 8 C2 C2 8 C2
2

12 28 1 28
x 0 1 2

f(2) = P(X = 2)=

Entonces la tabla de la distribucin de frecuencia es

f(x) 15/28 12/28 1/28 por lo tanto

E ( x)

xi f ( xi ) =0(15/28)+1(12/28)+2(1/28) = 1/2

E(x 2 )
2 x

xi f ( xi ) =02(15/28)+12(12/28)+22(1/28) = 4/7
2

E(x 2 )
9 / 28

4/7- (1/2)2 = 9/28

3 28

0.5666

22. Un jugador arroja tres monedas ideales. Gana $3 si ocurren tres caras, $2 ocurren dos caras y $1 si ocurre una cara. Si el juego es justo, cunto debera pagar si no aparece ninguna cara? SOLUCION La distribucin de probabilidad del experimento de arrojar tres monedas legales es x 0 1 2 3

f(x) 1/8 3/8 3/8 1/8 La variable aleatoria del experimento es Y ={ y1, 1, 2, 3}, donde y1 representa el valor que debe pagar el jugador si en el resultado de arrojar las monedas no sale ninguna cara y los dems valores representan la ganancia igual al nmero de caras que aparecen. La distribucin de probabilidad de la variable aleatoria Y es la siguiente Ganancia y y1 1 2 3

f(y) 1/8 3/8 3/8 1/8

Para que un juego sea legal se requiere que E(y)=0 , entonces (1/8)(y1)+1(3/8)+2(3/8)+3(1/8)=0 despejando y1=-12

71

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

23. Supngase que se van a vender 10 000 boletos a $1 cada uno en una lotera realizada para ayudar en las investigaciones contra el cncer. El premio es un automvil con valor de $ 4000. Si usted compr cinco boletos, cul es su contribucin esperada a la investigacin en contra del cncer? SOLUCION Debido a que solamente se compran 5 de los 1000 boletos la probabilidad de ganar es y la de perder P(ganar)=5/10000 P(perder)=9995/10000

El premio es 4000 pesos pero, se resta 5 porque se ha pagado por el boleto 4000-5=3995 y la perdida es 5. La variable aleatoria del experimento Y es la ganancia y/o prdida, Y ={-5 3995 }, entonces la correspondiente distribucin de probabilidad de Y es y f(y) -5 9995/10000 3995 5/10000

El valor esperado de la variable aleatoria es E(Y)=3995(3/10000)+(-5)(9995/10000)=1.9975-4.9475 =-31

Distribucin de la media muestral X Considrese una poblacin compuesta por los siguientes elementos P = {1, 3, 5, 7}, los cuales tiene una distribucin de probabilidad uniforme, esto es, todos los elementos tienen la misma probabilidad de ser seleccionados), lo anterior es mostrado en la siguiente tabla de distribucin de probabilidad

3 1/4

5 1/4

7 1/4

P(x) 1/4 Su respectiva media y su varianza son


X
2 X

E( X )
E ( xi ) 2

xi f ( xi ) 1(1/4)+3(1/4)+5(1/4)+7(1/4)=16/4=4
E ( x) 2
2 X

xi2 f ( x)

12

1 4

32

1 4

52

1 4

72

1 4

42

Supngase ahora que se realiza el experimento de seleccionar una muestra de dos nmeros (X1, X2) de la poblacin anterior con reemplazo y adems se define la variable aleatoria X

X1 2

X2

(el

promedio de los valores resultantes). Se pueden obtener un nmero infinito de muestras, pero muchas

72

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

de la muestra obtenidas sern idnticas, es decir tendrn el mismo resultado, aplicando las tcnicas de conteo se sabe que hay solamente 4 4 =16 Diferentes muestras.

Explcitamente las muestras son: S = { (1,1), (1,3), (1,5), (1,7), (3,1), (3,3), (3,5), (3,7), (5,1), (5,3), (5,5), (5,7), (7,1), (7,3), (7,5), (7,7)} Aplicando la definicin de la variable aleatoria X se obtienen siguientes valores

X = {1, 2, 3, 4, 5, 6,7}
Con los resultados anteriores es posible construir una distribucin de probabilidad para la variable aleatoria X a partir de todas las muestras posibles del mismo tamao de una poblacin dada, lo anterior se denomina distribucin muestral de la media. La distribucin muestral de la media se puede obtener a partir de la siguiente tabla:

muestra 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

X1 1 1 1 1 3 3 3 3 5 5 5 5 7 7 7 7

X2 1 3 5 7 1 3 5 7 1 3 5 7 1 3 5 7

Total 2 4 6 8 4 6 8 10 6 8 10 12 8 10 12 14

Promedio 1 2 3 4 2 3 4 5 3 4 5 6 4 5 6 7

x
1 2 3 4 5 6 7

f (x)
1/36 2/36 3/36 4/36 3/36 2/36 1/36

Las distribuciones probabilsticas de todos los diferentes valores de un estadstico muestral El valor esperado de la media muestral y su varianza son.

E( X )

xi f ( x i ) 1

1 16

2 16

3 16

4 16

3 16

2 16

1 16

2 X

E( X 2 ) E( X ) 2

73

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

2 X

E( X ) 2

E( X ) 2
X

xi2 f ( x) 5 2

12

1 16

22

2 16

32

3 16

42

4 16

52

3 16

62

2 16

72

1 16

42

distribucion muestral

0.25

0.2

probabilidad

0.15

0.1

0.05

3 4 5 promedio de las muestras

Distribucin muestral de X con n = 2 muestras

Como se puede apreciar en la grfica anterior, la distribucin muestral de la media X tiene una forma totalmente simtrica. Si el experimento se realiza con una poblacin y muestras ms grandes se observara el mismo comportamiento, es ms, en el caso lmite de una poblacin y muestras infinitas la distribucin se transformara en una distribucin normal con media detalles de esta distribucin ver la siguiente seccin. Unas preguntas interesantes son Cul es la relacin entre la media muestral relacin entre la media muestral
2 X
X

.y varianza

2 X

, para ms

?, y Cul es la

2 X

?
2 X

De el problema anterior so observa que

2 X

Aunque el problema anterior es un ejemplo de muchos posibles, las relaciones anteriores se cumplen en el todos los casos de muestreo con reemplazo, esto es,

74

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

X 2 X

(27)

2 X

(28)

Donde n = tamao de la muestra

EJEMPLOS 24. Supngase que una variable aleatoria X tiene la siguiente distribucin probabilstica x 1 2 3

f(x) 1/3 1/3 1/3

a. Obtngase la media varianza de la poblacin de X . b. Sea X la media de una muestra aleatoria de dos observaciones tomadas con reemplazo a partir de esta poblacin. Obtngase la distribucin muestral de X y presntese grficamente. c. Obtngase la media y la varianza de X con base a la distribucin muestral y verifquese las ecuaciones (27)y (28). SOLUCION Los valores de la media y varianza de la poblacin son
n

a)

E ( x)
i 1

xi f ( xi ) 1(1/3)+2(1/3)+3(1/3) = 2

2 X

E ( X 2 ) E ( X ) 2 12(1/3)+22(1/3)+32(1/3)-22=1/3+4/3+9/3 =14/3-(2)2 = 2/3


x1 2 x2
de dos observaciones (n=2) son X ={1 3/2, 2 5/2 3}

b) los valores posibles del promedio x

Explcitamente las muestras son S = {(1,1), (1,2), (1,3), (2,1), (2,2), (2,3), (3,1), (3,2), (3,3} Entonces

f (1) f (5 2)

P( X P( X

1) 1 9 5 2) 29

f (3 2) f (3)

P( X P( X

3 2) 3) 1 9

29

f ( 2)

P( X

2)

39

Por lo tanto la distribucin de probabilidad para la media muestral X es

x
f x

3/2

5/2

1/9 2/9 3/9 2/9 1/9

Su grfica respectiva se muestra a continuacin

75

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

distribucion muestral

0.3

0.25

probabilidad

0.2

0.15

0.1

0.05

0.5

1.5 2 2.5 promedio de las muestras

3.5

c)
n X

E( X )
i 1

xi f ( xi ) 1(1/9)+(3/2)(2/9)+2(3/9)+(5/2)(2/9)+3(1/9) = 2

2 X

E ( X ) E ( X ) 2 = 12(1/9)+(3/2)2(2/9)+22(3/9)+(5/2)2(2/9)+32(1/9) - 22= 13/3-4 = 1/3


= =2 y
2 X 2 X

Comparando los resultados

= (2/3)/2=1/3

Lo cual verifica las ecuaciones (27) y (28)

25. Se sabe que la varianza de una variable aleatoria Y es 225. Si Y es la media de una muestra aleatoria de 36 observaciones para , obtngase el error tpico de Y . SOLUCION Se sabe que
2 Y 2 Y

=225 y n=36 observaciones, entonces utilizando la ecuacin 28

2 Y

n
2 Y

2 Y

225 36

15 / 6

76

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

26. Sea X la duracin en millas de cierta marca de neumticos para automvil. Supnganse que la media y desviacin tpica de X son, respectivamente, 30 000 y 200 mi. Si se selecciona una muestra aleatoria de 16 neumticos, cules sern el valor esperado y error tpico de la media muestral? SOLUCION Tenemos una variable X, tiene media muestra es n =16 Entonces de las ecuaciones (27) y (28)
X X
X

= 30,000 , desviacin tpica

= 200 y el tamao de la

=30,000 mi

X X

200 16

200 4

50 mi

26. Cierta poblacin tiene una media de 36 y una desviacin tpica de 5. Se extrae de esta poblacin una muestra de 1000 y se calcula la media de la muestra. a. Obtngase el valor esperado de la media muestral. b. Obtngase el error tpico de la media muestral. SOLUCION Tenemos una variable X, tiene media =1000 Entonces de las ecuaciones (27) y (28)
X X
X

=36, desviacin tpica

=5 y el tamao de la muestra es n

=36

X X

5 1000

0.158

77

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

Unidad IV Distribuciones paramtricas


DISTRIBUCIONES DISCRETAS DE PROBABILIDAD ENSAYO DE BERNOULLI
Un Ensayo de Bernoulli: es un experimento con dos resultados posibles uno llamado XITO y el otro FRACASO. La variable aleatoria es X es tal que X(EXITO)=1y. X(FRACASO)=0, por otra parte, la probabilidad P(X =1)=p y por lo tanto P(X=0 = q =1-p La distribucin de probabilidad del ensayo de Bernoulli se representa en la siguiente tabla x 0 1 p

f(x) q

MEDIA Y VARIANZA DEL MODELO DE BERNOULLI


A partir de la distribucin de probabilidad se puede obtener su respectiva media y desviacin tpica

xi f ( xi )
entonces

0 q

1 p

E( X 2 )
2

xi2 f ( x)
E(X 2)
2

1
p2

p
p1

p
p pq

p
pq

por lo tanto

DISTRIBUCION BINOMIAL
El experimento binomial consiste en n ensayos independientes de Bernoulli. Para cada ensayo probabilidad de xitos P(E) =p y por lo tanto de fracaso es P(F)=q = 1-p. La variable aleatoria del experimento es X = {el nmero de xitos en n ensayos} la

Para el clculo de la probabilidad e un caso general de el experimento binomial obsrvese el caso mostrado en la figura siguiente, donde se muestran k EXITOS y por lo tanto (n k) FRACASOS. k n-k

.. n

78

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

Se muestra solamente un resultado posible de el total de eventos que tienen k xitos, En nmero de eventos que contienen k xitos se puede determinar utilizando las tcnicas de conteo, esto es

N (k

EXITOS )

n! n k !k !

La probabilidad del evento individual mostrado se obtiene aplicando la condicin de que cada ensayo de Bernoulli es independiente y por lo tanto su probabilidad es el producto de las probabilidades individuales

P( E E E .....E F F F .....F )

P E P E P E .....P E P F P F P F .....P F

p p p ..... p q q q ..... q
As pues la probabilidad de obtener X =k xitos en n ensayos es

pk qn

P( X

k)

n! pk qn k!(n k )!

Escribiendo el resultado anterior de otra forma

f (k )

n k

pk qn k .

(4.1)

Por otra parte es conocido que el BINOMIO DE NEWTON tiene la forma:


n

( a b) n
k 0

n k

akbn

de donde se observa inmediatamente que si se realiza el cambio de variable a p y b q se tiene que el trmino dado en la sumatoria es igual al obtenido en la ecuacin (29), de ah el nombre de la distribucin binomial. Por otra parte se puede verificar inmediatamente que (4.1) cumple con la propiedad
n

( p q) n
k 0 n

n k

pk qn
k

1n
k 0 n k 0

n k

pk qn

n k

pk qn

79

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

MEDIA Y VARIANZA DE LA DISTRIBUCIN BINOMIAL


No es fcil determinar la media y desviacin tpica de la distribucin binomial directamente, pero se puede n obtener aplicando las propiedades del valor esperado y la varianza para la suma de eventos independientes. La variable aleatoria se puede representar mediante la sumas de las variables aleatorias individuales de cada uno de los ensayos de Bernoulli

X = X1+ X2 + X3 + + Xn
Entonces para la media

E( X 1 p p
Por lo que

X2
p

Xn) np

E( X 1 ) E( X 2 )

E( X n )

np
Y para la desviacin tpica

(4.2)

Var ( X 1 X 2 pq pq
Entonces

X n ) Var ( X 1 ) Var ( X 2 ) pq n pq

Var ( X n )

n pq

(4.3)

Los coeficientes binomiales dados por la ecuacin (4.1) se pueden calcular mediante el uso de una calculadora o recurrir a las tablas donde se encuentran previamente evaluados. Para el caso particular de n = 10 y p =0.5 se tienen la siguiente distribucin de probabilidad
x f(x) 0 0.00098 1 0.00977 2 0.04395 3 0.11719 4 0.20508 5 0.24609 6 0.20508 7 0.11719 8 0.04395 9 0.00977 10 0.00098

El histograma correspondiente muestra una distribucin simtrica


Distribucin de probabilidad binomial para p=0.5 n=10 0.25

0.2

Probabilidad

0.15

0.1

0.05

10

Distribucin binomial para n = 10 y p = 0.5

80

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

Para n = 10 y p = 0.2 se obtiene la siguiente distribucin de probabilidad


x f(x) 0 0.10737 1 0.26843 2 0.30198 3 0.20133 4 0.0880 5 0.02642 6 0.00550 7 0.00079 8 0.00007 9 0.0000 10 0.0000

Distribucin de probabilidad binomial para p=0.2 n=10


0.3

Distribucin binomial para n = 10 y p = 0.2

0.25

Probabilidad

0.2

0.15

0.1

0.05

10

Distribucin binomial para n = 10 y p = 0.2

APLICACIONES DE LA DISTRIBUCIN BINOMIAL


EJEMPLOS 1. Obtnganse los valores de las siguientes expresiones. a. C 31 (0.4)1(0.6)2 b. C 42 (0.7)2(0.3)2 SOLUCION a) b)

C13 (0.4)1 (0.6) 2


5 C2 ( 0 .6 ) 2 ( 0 .4 ) 3

3! = (0.4)1(0.6)2=0.2492 1!(3 1)! 5! = (0.6)2(0.4)2=0.2304 2!(5 2)!

2. Obtnganse los valores de las siguientes expresiones.


1

a.
x 0 2

3 Cx 0.5 0.5

3 x

b.
x 0

5 Cx 0.5 0.5

5 x

c.

P X

2|n

0 .5

SOLUCION

81

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

b)
x 0

5 Cx (0.5) x (0.5) 5

5 C0 (0.5) 0 (0.5) 5

5 C15 (0.5)(0.5) 4 C 2 (0.5) 2 (0.5) 3

= 0.03125 + 0.15625 + 0.3125 = 0.5000


2

c) P( X

2, n

5y P

(0.5))
x 0

5 Cx (0.5) x (0.5) 5

0.5000

3. Supngase que en una prueba se incluyen diez preguntas de opcin mltiple, con cinco respuestas para cada pregunta, de las cuales una es correcta. Si una estudiante responde las preguntas simplemente adivinando, cul es la probabilidad de que a. conteste correctamente cinco preguntas; b. conteste correctamente tres o menos preguntas; c. conteste correctamente cinco o ms preguntas? SOLUCION Puesto que son diez preguntas n = 10 y debido a que se contesta al azar y cada pregunta contiene cinco posibles respuestas de las cuales solo una es correcta la probabilidad de XITO es p =1/5 = 0.2 y por lo tanto la de FRACASO q =1-1/5=4/5 = 0.8 Para obtener la evaluacin de cada una de las precuentas se puede recurrir a las tablas correspondientes de la distribucin binomial

a) b)

10 P(X = 5, n = 10, p = 0.2)= C 5 (0.2)5(0.8)5 = 0.02642

P(X 3, n = 10, p = 0.2=


x 0

x n C 10 x (0.2) (0.2)

0.87913

Distribucin Binomial p=0.2, n=10 0.35

0.3

0.25 Probabilidad

0.2

0.15

0.1

0.05

10

82

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

c)

P(5

X, n = 10, p = 0.2)=1-P(X<5, n = 10, p = 0.2) = 1x 0

5 Cx (0.2) x (0.8)10

=1 - 0.96721=0.03279
Distribuin Binomial p=0.2, n=10 0.35

0.3

0.25 Probabilidad

0.2

0.15

0.1

0.05

10

4. Supngase que diez aparatos de radar estn operando independientemente uno del otro, y que la probabilidad de que uno solo de los aparatos detecte un cohete enemigo es de 0.80. Cul es la probabilidad de que nueve aparatos de radar detecten el cohete? SOLUCION De los datos proporcionados por el problema n =10 y la probabilidad de XITO es p = 0.8 y la de FRACASO q =1-p =1 - 0.80= 0.20 La pregunta se refiere a que nueve de los aparatos exactamente tengan xito en detectar el cohete enemigo esto es k = 9, entonces
10 P(k = 9, n = 10, p = 0.8) = C 9 (0.8)9((0.20)1 = 0.26844

5. Si se sabe que el 90% de los estudiantes que tornan un curso elemental de economa aprueban, cul es la probabilidad de que al menos 3 estudiantes en una clase de 15 no aprueben el curso? SOLUCION Para este problema n = 15 la probabilidad de xito es p = 0.9 y de fracaso q = 1 p = 1-0.9= 0.1 La pregunta se puede traducir al lenguaje simblico como
15

P (3

k, n = 15, p = 0.8) =
k 3

k n C 15 x (0.9) (0.2)

Puesto que las tablas de distribucin binomial acumulada dan la sumatoria empiezan en cero, se puede transformar la expresin anterior al complemento

83

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

P (3

k, n = 15, p = 0.8) = I - P (0

k< 3, n = 15, p = 0.8) = 1k 0

k n C 15 x (0.9) (0.2)

=1-0.81594=0.18406
6. De la clase del ltimo semestre, 60% son muchachas. Cul es la probabilidad de que en un grupo de 10 estudiantes seleccionados aleatriamente de esta clase haya a. cinco muchachas; b. al menos 5 muchachas; c. cuando ms 5 muchachas; d. entre 4 y 6 muchachas, inclusive? SOLUCION La clase corresponde a n =10 estudiantes con muchachos q =1-p =1 - 0.60= 0.40 probabilidad de ser muchachas p = 0.6 y la de

Traduciendo correctamente cada una de las preguntas al lenguaje matemtico

a) b) c) d)

P(X = 5,n = 10, p = 0.6) = 0.20066 P(5 X, n = 10, p = 0.6) = 1-P(X 4, n = 10, p = 0.6)=1-0.16624 = 0.83376 P(X 5, n = 10, p = 0.6) = 0.36690 P(4 X 6, n = 10, p = 0.6) = P(X 6, n = 10, p = 0.6)-P(X 3, ,n = 10, p = 0.6) = 0.61772 - 0.05476 = 0.56296
Distribucin Binomial p=0.6, n=10 0.3

0.25

0.2 Probabilidad

0.15

0.1

0.05

10

Figura. La figura muestra la interpretacin grfica del inciso d)

84

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

7. Supngase que la probabilidad de que al tirar un dado quede hacia arriba un nmero non de puntos es 0.4: Cul es la probabilidad de que en cinco tiradas del dado el nmero de veces que aparezca un nmero non de puntos sea a. menos de dos; b. ms de dos; c. entre dos y cuatro, inclusive? SOLUCION El nmero de tiradas es n = 5 y la probabilidad de que quede un nmero non es p =0.4, entonces la probabilidad de que quede un nmero par es q =1 p =1 .0.4 =0.6

a) b) c)

P(X <2, n = 5, p = 0.4) = P(X 2, n = 5, p = 0.4) = 0.33696 P(X >2, n = 5, p = 0.4)=1- P(X 2, n = 5, p = 0.4) =1-0.68256=0.31744 P(2 X 4, n = 5, p = 0.4) = P(0 X 4, n = 5, p = 0.4) - P(X 1, n = 5, p = 0.4) = 0.98976 - 0.33696 = 0.6528
Distribucin Binomial p = 0.4, n = 5 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0

Probabilidad

-1

Figura. La figura muestra la interpretacin grfica del inciso c) 8. Considrese que el 50% de todos los empleados de una gran compaa estn casados. Sea X el nmero de empleados casados en una muestra aleatoria de empleados. Obtnganse la media y desviacin tpica de X. SOLUCION La probabilidad de estar casado es p = 0.5 y el nmero de empleados es n=100 Aplicando directamente las ecuaciones (30) y (31)

= np =100(0.5) = 50
2

= npq = 100(0.5)(1-0.5) = 25

= 25 = 5

85

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

9. De acuerdo con los registros de produccin de cierta compaa, el 10% de tornillos producidos por cierta mquina son defectuosos. Obtnganse la media y la desviacin tpica para X si sta es el nmero de tornillos defectuosos en cualquier muestra aleatoria de tamao 100. SOLUCION Como la variable aleatoria es el nmero de tornillos defectuosos en la muestra n = 100, la probabilidad xito en este caso es p = 0.1 Aplicando directamente las ecuaciones (30) y (31)

=np =100(0.1)=10
2

= npq = 100(0.1)(1-0.1)=9

= 9 =3 DISTRIBUCIN CONTINA DE PROBABILIDAD DISTRIBUCIN NORMAL


Es una distribucin continua descrita por la siguiente funcin de probabilidad

p( X

x)

1 e 2

1 x 2

Se aplica a MEDICIONES de cantidades fsicas continuas como longitud, masa, tiempo, voltaje corriente, energa, temperatura, etc. Es la aproximacin de TEOREMA DE LIMITE CENTRAL Es una aproximacin de la distribucin binomial para n 35 y p 0.5 La distribucin Normal depende de dos parmetros el valor esperado o media y la desviacin tpica , Por lo que para cada uno de los valores de estos parmetros se tiene una grfica diferente, pero todas estas

N( , )

1 e 2

1 x 2

(4.4)

La variacin del parmetro ocasiona un desplazamiento de la grfica a la izquierda para valores negativos y a la derecha para valores positivos. La Figura siguiente muestra el efecto descrito para las 2 0y graficas de la distribucin normal con desviacin tpica 1 , y tres diferentes medias

2.

86

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 -6

-4

-2

Figura. Efecto de desplazamiento para

2,

0y

Por otra parte la variacin del parmetro hace que la altura y la anchura de la distribucin de probabilidad cambien, esto es, si es grande la distribucin ser ms ancha (ms dispersa) y su altura disminuir, pero si es pequea su anchura disminuir (ms concentrada) y su altura ser ms grande. La siguiente figura muestra el efecto de modificar la desviacin tpica para una media dada tres diferentes desviaciones

0, y

1,

4 y

1 . 2

0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 -20

-15

-10

-5

10

15

20

Figura. Efecto de estiramiento o estrechamiento para

0,

1,

4 y

2 87

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

La probabilidad de que la variable aleatoria X tome un conjunto de valores en un intervalo a, b se obtiene a partir de la siguiente integral
b

P (a

b)
a

1 e 2

1 x 2

dy

(4.5)

La figura siguiente muestra la grfica del rea bajo la distribucin normal en un intervalo a, b
0.5 0.45 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 -4

-3

-2

-1

Figura. rea bajo la curva normal en un intervalo a, b Resulta que la integral anterior no es tiene primitiva, esto es, no existe una funcin cuya derivada de cmo resultado la funcin de distribucin normal dada por la ecuacin (32). Por lo que la integral anterior se obtiene mediante integracin numrica series. El problema anterior de determinar la probabilidad en un intervalo conduce a la eleccin de una distribucin normal representativa la cual es conocida como distribucin normal estndar.

Distribucin normal estndar La distribucin normal estndar es aquella en la cual se tiene que (4.4) y (4.5) se transforman en

0,

1 , por lo que la ecuacin

N(0,1) =
b

1 2

1 2 x 2

(4.6)

N (0,1)dx
a

1 2

e
a

1 2 x 2

dx

(4.7)

Cualquier distribucin normal con media y desviacin tpica distribucin normal mediante el cambio de variable

puede ser relacionada con la

88

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

(4.8)

La variable Z es conocida con variable tipificada El rea bajo la curva normal estndar se puede consultan en tablas respetivas para los valores ms comnmente utilizados. Las tablas disponibles en general solo abarcan un rango para la variable tipificada de -3.4 Z 3.4, esto es debido a que la probabilidad de valores de Z mayores que 3.4 y menores que 3.4 tienen una probabilidad muy baja, y la probabilidad el rea o bajo la curva normal estndar es prcticamente 1.

0.5 0.45 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 -4

-3

-2

-1

El rea bajo la distribucin normal estndar en el intervalo -3.4 Z 3.4 es prcticamente 1.

APLICACIONES DE LA DISTRIBUCIN NORMAL


EJEMPLOS 10. Obtnganse las siguientes probabilidades. a. P(Z < 2.0) b. P(Z < 1.45) c. P(Z > -1.76) d. P(Z > -1.65) e. P(1.0 < Z < 1.89) f. P(-1.4<Z< 1.75) g. P(-2.15 < Z < -0.55) SOLUCION Lo valores de los incisos a) y b) se obtiene directamente de la tabla del rea bajo la curva de la distribucin normal. a) b) P(Z < 2.00) = 0.9772 P(Z < 1.45) = 0.9265

Para los incisos c) y d) se procede como se indica a continuacin. El rea para valores de Z mayores que un nmero negativo es equivalente al rea por debajo del valor absoluto de Z, en la cual se utiliza la simetra de la distribucin normal. Lo anterior es mostrado en la figura siguiente.

89

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

0.5 0.45 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 -4

0.5 0.45 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 -4

-3

-2

-1

-3

-2

-1

Z=-1.76

Z=1.76

c) d)

P(Z>-1.76) = P(Z<1.76)=0.9608 P(Z>-1.65) = P(Z<1.65)=0.9505

En el inciso e) la probabilidad solicitada es igual al rea entre los valores Z1=1.00 y Z2=1.89, que de acuerdo a la figura y a la tabla se puede obtener mediante la diferencia de reas
0.5 0.45 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 -4

-3

-2

-1

e) f)

P(1.0< Z <1.89) = P(z<1.89) - P(Z<1) = 0.9706 - 0.8413 = 0.1293 El rea buscada es mostrada en la figura siguiente:
0.5 0.45 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 -4

-3

-2

-1

Se puede descomponer en la suma de dos reas, el rea comprendida de-1.40 a 0 mas el rea de 0 a 1.75. Para calcular la primera rea se utiliza la simetra de la distribucin normal esto es

90

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

P(-1.40 < Z

0) = P(0 Z <1.40)= P(Z <1.40) - 0.50

Para la segunda rea se procede de manera semejante P(0 Z < 1.75)= P(Z < 1.75) - 0.50

Entonces sumando las reas P(-1.40 < Z < 1.75) = P(Z < 1.40) - 0.50 + P(Z < 1.75) - 0.50 = P(Z < 1.40)+ P(Z < 1.75) 1 = 0.9192 + 0.9599 1.0000= 0.8792 g) Utilizando la simetra de la normal el problema es equivalente a

P(-2.15 < Z < -0.55) = P(0.55 < Z < 2.15) = P(Z < 2.15) - P(Z < 0.55) = 0.9842 - 0.7088 = 0.2754
0.5 0.45 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 -4

0.5 0.45 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05
-3 -2 -1 0 1 2 3 4

0 -4

-3

-2

-1

11. Obtngase el valor de Z para cada una de las siguientes reas bajo la curva normal estndar. a) A la izquierda de Z el rea es 0.9949 b) A la izquierda de Z el rea es de 0.9951 c) A la derecha de Z el rea es de 0.005. d) A la izquierda de Z el rea es de 0.9412. e) A la izquierda de Z el rea es de 0.0582. f) A la derecha de Z el rea es de 0.2810. g) A la derecha de z el rea es de 0.0228. SOLUCION a) Se busca en la tabla el valor del rea respectiva a = 0.9949 que corresponde a Z = 2.57. b) procediendo de igual que el inciso anterior para a = 0.9951 Z = 2.58. c) Se requiere el valor de rea a la izquierda, por complemento este valor es a = 1-0.005=0.9950 En la tabla no existen el valor exacto de Z que conduzca al rea = 0.9950, los valores ms aproximados de Z son Z1 = 2.57 que conduce a a1= 0.9949 y Z2 = 2.58 que a2 = 0.9951, entonces el valor de Z buscado se encuentra entre estos dos valores de Z ya que el rea solicitada se encuentra entre las dos reas a = 0.9950.

91

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

Como los valores son muy cercanos se puede aproximar el resultado pensando que la relacin es lineal, esto es

y1

y2 x2 Z2 a2

y1 (x x1

x1 )

donde x1=a1 = rea 1 correspondiente a y1= Z1 y x2= a2= rea 2 correspondiente a y2= Z2, entonces

Z1 a a1 a1 Despejando a y y sustituyendo a x =a Z Z1 Z Z2 a2 Z1 a a1 a1 Z1 2.58 2.57 0.9950 0.9949 0.9951 0.9949 2.57 = 2.575

d) Buscando en la tabla los valores ms cercanos a el rea a = 0.9412 son Z1 = 1.56 con a1= 0.9406 y Z2 = 1.57 con a2 = 0.9418. Utilizando el resultado anterior

Z2 a2

Z1 a a1 a1

Z1

1.57 1.56 0.9412 0.9406 0.9418 0.9406

1.56 = 1.565

e) Los valores de reas menores que 0.5 en la tabla corresponden a valores negativos de Z, el problema se pude cambiar por el valor positivo pero para el rea =1- 0.0582 =0.9418 que buscando en la tabla corresponde a Z = 1.57, por lo tanto el resultado es Z = -1.57. f) Aplicando el complemento a = 1-0.2810 = 0.7190, buscando en las tablas el valor correspondiente es Z = 0.58 g) Aplicando el complemento a = 1-0.0228= 0.9772, buscando en las tablas el valor correspondiente es Z = 2.00

12. Una variable aleatoria (X) se distribuye normalmente, con una media de 100 y una desviacin tpica de 15. Obtngase la probabilidad de que a. X sea menor de 80.5; b. X sea mayor de 116.5; c. X sea menor de 112; d. X est entre 91 y 109; e. X est entre 85 y 97. SOLUCION Para el problema = 100 y s =15 a) b) c)

80.5 100 =P(Z < -1.30) = 1- P(Z < 1.30) = 1- 0.9032 = 0.0968 15 116.5 100 P(X > 116.5) = P Z = P(Z > 1.1) = 1 - P(Z < 1.1) = 1 - 0.8643 = 0.1357 15 112 100 P(X < 112) = P Z = P(Z < 0.8) = 0.7881 15
P(X < 80.5) = P Z

92

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

d)

P(91 < X < 109) = P

91 100 15

109 100 = P(-0.6 < Z < 0.6) 15 97 100 = P(-1 < Z < -0.2) 15

= 2* (0.7257) - 1 = 0.4515 e) p(85 < X <97) = P

85 100 15

= P(Z < 1) - P(Z < 0.2) = 0.8413 - 0.5793 = 0.2620

13. Una variable aleatoria (X) se distribuye normalmente con media 70 y desviacin tpica de 5. Obtngase la probabilidad de que a. X sea mayor de 66; b. X sea mayor de 63; c. X sea mayor de 71 y menor de 75; d. X sea mayor de 79 o menor de 61. SOLUCION Para todos los incisos =70, =5 y el cambio de variable a la variable tipificada se realiza mediante

a) b) c)

66 70 =P(Z > -0.8)= P(Z < 0.8) = 0.7881 5 63 70 P(X > 63)= P Z = P(Z > -1.4) = P(Z < 1.4) = 0.9192 5 71 70 75 70 P(71 < X < 75) = P Z = P(0.2 < Z <1)= P(Z < 1) - P(Z < 0.2) 5 5
P(X > 66)=

P Z

= 0.8413 0.5793 =0.2620 d) P(X > 79) + P(X < 61) = P Z

79 70 + P Z 5

61 70 = P(Z>1.8) + P(Z<-1.8) 5

=2 (1-P(Z < 1.8) = 2(1 - 0.9641) = 0.0718

14. Un profesor de ingls ha determinado que el tiempo necesario para que los estudiantes concluyan un examen final se distribuye normalmente con media de 110 min y desviacin tpica de 10 min. a. Cul es la probabilidad de que un estudiante de ingls elegido aleatriamente concluya el examen en menos de dos horas? b. Cul es la probabilidad de que un estudiante de ingls seleccionado aleatriamente concluya el examen en 125 min o ms? e. Si hay 50 estudiantes en la clase, cuntos de ellos concluirn el examen antes de una hora y 50 minutos? SOLUCION La media y la desviacin tpica son = 110 y = 10

a) Dos horas representan 120 minutos, entonces

93

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

P(X < 120) = P(Z < (120-110)/10 =P(Z < 1) =0.8413 b) Si el estudiante debe resolver el examen en 125 o ms P(125 X )= P(Z<(125-110)/10 = P (1.5 < Z) = 1- P(Z < 1.5) =1 - 0.9332 = 0.0668 c) Primero se debe determinar la probabilidad de que los alumnos terminen antes de 110 min. P(X 110) = P(X < (110-110)/10 = P (X 0) = 0.5 Entonces el nmero de alumnos que terminen antes de 110 min es n = N. P(X 110) =(50)(0.5)=25

15. Supngase que la longitud promedio de la estancia de los pacientes en cierto hospital es de diez das y la desviacin tpica es de dos das. Considrese que tales duraciones se distribuyen normalmente. a. Cul es la probabilidad de que el siguiente paciente que se reciba permanezca ms de nueve das? b. Si el da de hoy se admitieron 200 pacientes, cuntos continuarn en el hospital dentro de dos semanas? SOLUCION La media y la desviacin tpica son a) b) P(X =10, =2 0.5) = 0.6915

P(X 9) = P(Z (9-10)/2 = P(Z 0.5) = P(Z N = 200, X = 2 semanas = 14 das 14) =P(Z (14-10)/2) = P(Z

2)=1- P(Z < 2) = 1 - 0.9772 = 0.0228

Entonces el nmero de pacientes despus de dos semanas es n =N. P(X 14) =(200)(0.0228)=4.56 pacientes

16. Supngase que las calificaciones de prueba de un examen estndar se distribuyan normalmente, Cul es el valor aproximado correspondiente al percentil 75 -simo? SOLUCION El percentil corresponde a el porcentaje del rea total, entonces P(Z Z0)=0.75 Buscando en la tabla los valores ms cercanos a el rea a = 0.75 son Z1 = 0.67con a1= 0.7486y Z2 = 0.68 con a2 = 0.7517. la aproximacin lineal

Z2 a2

Z1 a a1 a1

Z1

0.68 0.67 0.7500 0.7486 0.7517 0.7486

0.67 = 0.6745

TEOREMA DEL LMITE CENTRAL El teorema del lmite central establece que si X es cualquier variable aleatoria con media y desviacin tpica la distribucin de la media muestral X ser aproximadamente normal con media
X X

y desviacin tpica

X X

sin importar la forma de la distribucin de

probabilidad de X siempre y cuando el tamao de la muestra sea grande n >30

94

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

Por lo anterior la variable tipificada para determinar la probabilidad de la variable aleatoria X es

Z
EJEMPLOS

X n

(4.9)

17. Supngase que la distribucin de las edades de los empleados de una gran compaa tiene una meda de 35 aos y una desviacin tpica de 6 aos. Se considera que la distribucin no es normal. Si se selecciona una muestra aleatoria de 36 empleados, y se calcula su edad promedio, cul es la probabilidad de que la edad promedio de la muestra sea a. de ms de 37.5 aos; b. de menos de 33 aos; c. de entre 34.25 y 34.75 aos; d. de entre 36 y 37.75 aos? SOLUCION La media y desviacin tpica de la poblacin es =35, =6 y el tamao de la muestra n = 36

a) P(37.5 <

x )= P

37.5 35 6 36

Z = P( Z > 2.5) = 1 - P(Z < 2.5) = 1 - 0.9958 = 0.0042

b) P( x < 33)= P

33 35 6 36

Z = P( Z < -2) =1 - P(Z < 2)=1-0.9772 = 0.0228

c) P (34.25 < x < 34.75) = P

34.25 35 6 36

34.75 35 = P(-0.75 < Z < -0.25) 6 36

= P (0.25 < Z < 0.75) = P(Z < 0.75) - P(Z < 0.25) = 0.7734- 0.5987 = 0.1747

d) P (36 <

x < 37.75) = P

36 35 6 36

37.75 35 = P(1 < Z < 2.75) 6 36

=P(2 < Z < 2.75) = P(Z < 2.75) - P(Z < 1) = 0.9970 - 0.8413 = 0.1557

18. La distribucin de los 10 dgitos aleatorios 0, 1, 2,. . ., y 9 se considera como uniforme, ya que la probabilidad de que aparezca cada dgito es de 0.1. Supngase que se selecciona una muestra aleatoria de 100 dgitos, ya sea utilizando la tabla de dgitos aleatorios o mediante el mtodo de la urna con reemplazo, y se calcula una media muestral. Obtnganse las siguientes probabilidades. a. P( x < 4.84) b. P( x > 4.79) c. P(4.18< x < 4.87) d. P(4.00 < x < 4.90) SOLUCION Para la distribucin uniforme x f(x) 0 1/10 1 1/10 2 1/10 3 1/10 4 1/10 5 1/10 6 1/10 7 1/10 8 1/10 9 1/10

Por lo tanto la media

y la desviacin tpica

poblacionales son

95

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

E ( x)

xi f ( xi ) = 0(1/10) + 1(1/10) + 2 (1/10) + 3(1/10) + 4(1/10) + 5(1/10) + 6(1/10) + 7(1/10) +

8(1/10) + 9(1/10) = 4.5

E(x 2 )

xi f ( xi ) = 02 (1/10) + 12 (1/10) + 22 (1/10) + 32 (1/10) + 42 (1/10) + 52 (1/10) + 62 (1/10) + 72

(1/10) + 82 (1/10) + 92 (1/10) = 28.5


2

E(x 2 )

28.5- (4.5)2 = 8.25

8.25

2.87

Entonces para una muestra n = 100

a) P( x < 4.84)= P Z

4.84 4.5 = P(Z < 1.19) = 0.8830 2.87 100


Z = P(1.01 < Z ) =1-P(Z 1.01)=1 - 0.8438 = 0.1562

b) P( x > 4.79)= P

4.79 4.5 2.87 100

c) P (4.18 <

x < 4.57) = P

4.18 - 4.5 2.87 100

4.87 - 4.5 = P(-1.11 < Z < 1.29) 2.87 100

= P(Z < 1.11) + P(Z < 1.29) - 1 = 0.8665 + 0.9015-1 = 0.7680

d) P (4.00< x < 4.90) = P

4.00 - 4.5 2.87 100

4.90 - 4.5 = P(-1.74 < Z < 1.39) 2.87 100

= P(Z < 1.74) + P(Z < 1.39) - 1 = 0.9591 + 0.9177 -1 = 0.8768

19. Supngase que a fin de mes los saldos de las cuentas de cheques en bancos se distribuyen normalmente con media $250 y desviacin tpica $15. a. Cul es la probabilidad de que una cuenta seleccionada aleatriamente tenga un saldo de ms de $272.50? b. Cul es la probabilidad de que el promedio de una muestra aleatoria de 25 cuentas sea de ms de $257.50? SOLUCION De el problema se obtiene que a) P(272.5 < x)= P =250, = 15 y n = 25

272.5 250 15

Z = P(1.5 < 1) = 1 - P(Z 1.5) = 1- 0.9332 = 0.0668

b)

P(257.5 < x )= P Z

257.5 250 = P(2.5 < Z)=1 - P(Z 2.5) =1 - 0.9938 = 0.0062 15 25

96

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

Aproximacin de la distribucin binomial mediante la distribucin normal. La distribucin binomial con variable aleatoria X que representa el nmero de xitos con probabilidad p puede ser aproximada mediante una distribucin normal si cumple que el nmero de muestras es grande, esto es, n 30 y con probabilidad p 0.5 . Si la probabilidad p est alejada de 0.5, entonces es posible que se requiera un mayor nmero de datos para obtener una mejor aproximacin. La media a utilizar por parte de la normal

np
y la desviacin tpica o estndar

(4.10)

npq

(4.11)

La aproximacin se puede llevar a cabo para un numero n menor siempre y cuando el producto de y

np

n 1 p sea mayores a 5, por ejemplo para el caso n 15 y p 0.4 se tiene que n p = 6 y n 1 p = 9.6, entonces el posible aproximar la distribucin binomial mediante la distribucin normal

para este caso. La figura siguiente muestra la distribucin binomial y la normal para n = 15 y p = 0.4.

0.2

probabilidad

0.15

0.1

0.05

6 8 10 numero de exitos

12

14

16

Figura. Aproximacin de la binomial mediante la distribucin normal, n =15 y p =0.4

97

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

Si ahora n 15 y p 0.3 se tiene que n p = 4.5 y n 1 p = 10.5, entonces, para este caso no es adecuado aproximar la distribucin binomial mediante la distribucin normal La figura siguiente muestra la distribucin binomial y la normal para n = 15 y p = 0.3.

0.25

0.2

probabilidad

0.15

0.1

0.05

6 8 10 numero de exitos

12

14

16

Figura. La aproximacin de la binomial mediante la distribucin normal no es aconsejable para este caso n =15 y p =0.3 Como se puede deducir de los dos caso anteriores si la probabilidad de xito se aleja de 0.5 entonces para obtener una buena aproximacin normal se requerir un n mucho mayor, por ejemplo, para n 30 y p 0.3 se tiene que n p = 9 y n 1 p = 21, y entonces si es posible aproximar la distribucin binomial mediante la normal. La siguiente figura muestra la aproximacin para n = 30 y p =0.3

0.18 0.16 0.14 0.12 probabilidad 0.1 0.08 0.06 0.04 0.02 0

10

15 20 numero de exitos

25

30

Figura. Aproximacin de la distribucin binomial a la normal para n = 30 y p =0.3

98

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

EJEMPLOS

20. Supngase que cierta medicina tiene un 80% de efectividad para curar cierto tipo de enfermedad. Es decir, en promedio de cada 100 pacientes que contraen la enfermedad y reciben la medicina, se espera que 80 se recuperen. Sea X el nmero de pacientes en una muestra aleatoria de 100 que se recuperan despus del tratamiento. Obtnganse las siguientes probabilidades mediante la aproximacin normal. a. ms de 80 se recuperarn o P(X =80); b. P(80 < X < 90); c. P(70 < X < 75). SOLUCION La probabilidad de xito es p = 0.8 y el tamao de la muestra es n = 100 La media y la desviacin tpica son

n p = (0.8)(100)=80
npq
Entonces a) P(X > 80) = P(Z > (80-80)/4) = P(Z >0) = 1 - P(Z <0) = 1 - 0.5 = 0.5 b) P(80 < X <90) = P((80-80)/4 < Z< (90-80)/4) = P(0< Z < 2.5) = P(Z < 2.5)- P(Z = 0.9938 - 0.5 = 0.4938 0)

100(0.8)(1 0.8) = 4

c) P(70 < X < 75)=P((70-80)/4 < Z < (75-80)/4) = P(2.5< Z < -1.25) = P(1.25 < Z< 2.5) = P(Z < 2.5) - P(Z < 1.25) = 0.9938 -0.8944 = 0.0994 21. Se tira diez veces una moneda balanceada. Obtngase la probabilidad de que ocurran ya sea el seis, siete u ocho caras mediante a. la distribucin binomial; b. el mtodo de la aproximacin normal con correccin por continuidad. SOLUCION a) Puesto que la moneda es balanceada p = 0.5 y n = 10, aplicando la distribucin binomial

P(6

8) =

10 0

(0.5) 6 (0.5) 4

10 7

(0.5) 7 (0.5) 3

10 8

(0.5) 8 (0.5) 2

= 0.205078 + 0.11718 + 0.043945 = 0.366203 b) Aplicando la distribucin binomial y la correccin por continuidad

n p = 10(0.5) = 5
npq
P(6 X

10(0.5)(0.5)

2 .5

1.5811

8) = P((5.5 X 8.5) = P((5.5 - 5)/1.5811 Z (8.5 - 5)/1.5811) = P(0.3162 Z 2.2136) = P(Z < 2.21) - P(Z 0.32) = 0.9864 - 0.6255 = 0.3609

99

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

Probabilidad

0.25

0.2

0.15

0.1

0.05

4 6 Nmero de xitos

10

Figura representando la aproximacin binomial a la normal para el ejemplo 2 n =10 y p =0.5.

100

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

UNIDAD V Inferencia estadstica


INFERENCIA ESTADSTICA
Los conceptos bsicos de probabilidad y distribuciones muestrales sirven de base para el mtodo de inferencia estadstica, la cual tiene como objetivo obtener informacin de las poblaciones a partir de las muestras obtenidas. En general se avoca a las dos siguientes reas prueba de hiptesis y estimacin.

PRUEBA DE HIPTESIS Y ESTIMACIN.


Una explicacin concisa de cada una de estas reas se da a continuacin: prueba de hiptesis: aceptar o rechazar declaraciones acerca de los parmetros de la poblacin. estimacin: estimar valores de los parmetros de la poblacin.

PLANTEAMIENTO DE LA HIPTESIS NULA Y ALTERNATIVA


Una hiptesis estadstica consiste en realizar una declaracin afirmativa o negativa acerca del valor de un parmetro o parmetros de una poblacin. La aceptacin o rechazo de la hiptesis estadstica requiere de informacin obtenida a partir de la muestras de la poblacin. Si la informacin obtenida es suficiente, la hiptesis estadstica puede ser apoyada o no. Los pasos esenciales para realizar una prueba de hiptesis se indicas a continuacin: identificacin del patrn de distribucin de la variable aleatoria (binomial, normal) Un procedimiento estadstico que requiere la identificacin de la distribucin probabilstica se denomina enfoque paramtrico. Si no se especifica la distribucin de probabilidad entonces se tiene un enfoque no paramtrico. planteamiento de la hiptesis. En general se proponen 2 hiptesis, una denominada hiptesis nula denotada por Ho, la cual se propone con el objetivo de ver si puede ser rechazada y la hiptesis alternativa la cual se denota por H1 y es vlida si la hiptesis nula es rechazada. Comnmente la hiptesis nula Ho, implica la idea de que no hay diferencia entre los parmetros, de ah su nombre de nula. Por ejemplo se puede proponer que el promedio no es diferente de un valor particular, esto es Ho: =
0

Las hiptesis alternativas H1, que pueden establecerse como complementaria para la hiptesis nula Ho anterior, puede tomar alguna y solo una de las siguientes opciones: PRUEBA DE DOS COLAS Ho: = H1:
0 0

Debido a que no se especifica la direccin de la diferencia entre prueba de dos colas.

0,

la prueba se le denomina

101

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

0.5 0.45 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 -4

-3

-2

-1

Figura. Esquema utilizando la distribucin normal para mostrar la prueba de dos colas, la regin sombreada representa la regin de rechazo de la hiptesis nula Ho

PRUEBA DE UNA COLA DERECHA Ho: = H1: > Como


0 0

>

0,

la prueba es llamada de una cola derecha


0.5 0.45 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 -4

-3

-2

-1

Figura. Esquema utilizando la distribucin normal para mostrar la prueba de cola derecha, la regin sombreada representa la regin de rechazo de la hiptesis nula Ho

PRUEBA DE UNA COLA IZQUIERDA: Ho: = H1: < Como


0 0

<

0,

la prueba es llamada de una cola izquierda

102

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

0.5 0.45 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 -4

-3

-2

-1

Figura. Esquema utilizando la distribucin normal para mostrar la prueba de cola izquierda, la regin sombreada representa la regin de rechazo de la hiptesis nula Ho

ESPECIFICACION DEL NIVEL DE SIGNIFICACION a


Normalmente las muestras extradas de una poblacin en general no son idnticas y presentan diferentes medias y desviaciones tpicas, etc., estas diferencias pueden deberse a la naturaleza aleatoria del problema, por ejemplo si se considera la prueba de hiptesis Ho: = H1: >
0 0

La pregunta seria Qu tan grande debe ser la media muestra para rechazar la hiptesis nula? De otra manera, Qu tan grande debe ser la media muestral para que se considere significativamente mayor? La respuesta a la pregunta depende directamente del nivel de significacin elegido para realizar la prueba de hiptesis, normalmente se denota como , por ejemplo si = 5%, la hiptesis nula no se rechazar en 5 de 100 muestras lo suficientemente grandes. Los valores comnmente elegidos como niveles de significacin son =10%, =5%, =2.5%, =1.0%, =0.5%

El nivel de significacin: se puede entender tambin como la probabilidad de rechazar una hiptesis nula verdadera o la probabilidad de cometer un error tipo I que anteriormente se denot por . Por otra parte el error de no rechazar la hiptesis nula cuando es falsa se denomina error tipo II, denotado por . Los dos tipos de errores se resumen a continuacin
TIPO DE ERROR PROBABILIDAD

Rechazar Ho cuando es verdadera No rechazar a Ho cuando es falsa La relacin entre los tipos de error y

I II

se muestra en la siguiente grfica para la .Ho: =

y H1: >

103

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

>

Figura. Relacin entre los errores tipo I representado por el rea sombreada representado por el rea sombreada

y el error

tipo II

Las reas oscuras representan la probabilidades y , si se disminuye la probabilidad al desplazar la lnea vertical a la derecha el valor de aumenta, y viceversa, si la lnea vertical se mueve a la izquierda aumenta y disminuye .

PLANTEAMIENTO DE LA REGLA DE DECISIN


Elegir el estadstico de prueba el cual es una variable aleatoria cuyo valor se utiliza para aceptar o rechazar la hiptesis nula. Puedes ser un estadstico muestral tal como la media muestral, desviacin tpica, proporcin de defectos, etc. Especificar el nivel de significancia de .

Los valores del estadstico de prueba se dividen en 2 categoras: regin de rechazo y regin de aceptacin, tambin se conoce la regin de rechazo como regin crtica.

TOMA DE LA DECISIN:
El valor que separa las dos regiones es llamado el valor crtico. Se toma la decisin dependiendo en que regin cae el valor del estadstico de prueba. Si el valor del estadstico de prueba cae el la regin de rechazo, la hiptesis nula se rechaza, en caso contrario se acepta. TABLA DE DECISIONES Decisin Se rechaza H0 No se rechaza H0 H0 es verdadera Error tipo I Decisin correcta 1H0 es falsa Decisin correcta 1Error tipo II

104

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

Las siguientes figuras muestran el valor crtico, las regiones de aceptacin y rechazo, para el caso de que se utilice a Z como estadstico de prueba, para cada una de los tres tipos de prueba de hiptesis. Prueba de dos colas
0.5 0.45 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 -4

H1:

1-a
-3 -2

a/2

-1

a/22

Regin de aceptacin Regin de rechazo Regin de rechazo Valor crtico Valor crtico Za/2 Za/2 Prueba de cola derecha
0.5 0.45 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 -4

H1: > 0

1-a a
-3 -2 -1 0 1 2 3 4

Regin de aceptacin Prueba de cola izquierda


0.5 0.45 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 -4

Regin de rechazo Valor crtico Za

H1: < 0

1-a a
-3 -2 -1 0 1 2 3 4

Regin de rechazo Valor crtico Za

Regin de aceptacin

105

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

EJEMPLOS 1. En la prueba de la hiptesis nula = 100, la hiptesis alternativa puede ser cualquiera de las siguientes. a. =110 b. = 90 c. > 100 d. < 100 e. 100 Cules de estas cinco pruebas son de una cola? Cules son de dos colas? SOLUCION a) Como =110 y se encuentra a la derecha, es una prueba de cola derecha. b) En este caso = 90 es menor a 100, por lo que es una prueba de cola izquierda. c) > 100 es una prueba de cola derecha. d) < 100 es una prueba de cola izquierda. e) 10 representa a una prueba de dos colas.

2. Supngase que la produccin promedio por hora de los trabajadores de cierta fbrica es de 60 unidades. El director de personal de la fbrica afirma que el programa de entrenamiento implantado hace algn tiempo ha aumentarlo la productividad de los trabajadores. Plantense las hiptesis nula y alternativa. SOLUCION La Hiptesis nula en general se relaciona con que el estimador no cambia, por lo tanto H0: =60 y como se seala que el programa de entrenamiento ha mejorado la productividad la hiptesis alternativa se propone de cola derecha, esto es H1: >60 3. Cierto proceso de produccin est diseado para dar como resultado tornillos con una longitud media de 3 plg. Plantese la regla de decisin para cada una de las siguientes situaciones: a. El gerente de produccin desea determinar si la longitud promedio ha disminuido. b. Desea determinar si la longitud promedio ha aumentado. c. Desea determinar si la longitud promedio ha cambiado. SOLUCION Para el problema se debe seleccionar a) H0: =3 b) H0: =3 c) H0: =3 H1: < 3 H1: > 3 H1: 3
0=

3 pulgadas y de acuerdo a cada uno de los incisos

Ha disminuido Ha aumentado Ha cambiado

4. Supngase que el gasto anual en libros por parte de los estudiantes universitarios de los EUA se distribuye normalmente con media de $ 200. Formlese, para cada una de las siguientes pruebas, la hiptesis alternativa y plantese la regla de decisin. a. Prubese si los estudiantes en la universidad a la que usted asiste han gastado ms que el promedio nacional. b. Prubese si el gasto anual por parte de los estudiantes de la universidad a la que usted asiste es diferente del promedio nacional.

106

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

SOLUCION En este caso se elige


0

= 200 y la hiptesis nula es para ambos inciso H0:

= 200.

a) La hiptesis alternativa es H1: < 200, y se rechaza H0 para algn valor de X lo suficientemente grande. b) La hiptesis alternativa es H1: 200 y se rechaza H0 si X lo suficientemente grande o suficientemente pequeo.

HIPOTESIS INEXACTA Las hiptesis se pueden clasificar como exactas e inexactas. Una hiptesis es exacta si se especifica en la prueba un nico valor, por ejemplo, H0 : = o, mientras que si especifica un conjunto de valores como H0 : > o ser una hiptesis inexacta. Las siguientes figuras muestran los casos de o H0 : la Hiptesis exacta e inexacta de manera grfica.
0.1 0.09 0.08 0.07 0.06 0.05 0.04 0.03 0.02 0.01 0

a
70 75 80 85 90 95 100 105 110 115 120

H0 :

Figura. Sucesin de grficas con media menor a 100 que muestran el caso H0 :
0.1 0.09 0.08 0.07 0.06 0.05 0.04 0.03 0.02 0.01 0 80

a
85 90 95 100 105 110 115 120 125 130

H0 :

>

Figura. Sucesin de grficas con media mayor a 100 que muestran el caso H0 :

>

El rea sombreada para cada una de las grficas de las dos figuras anteriores es cada vez ms pequea conforme la media se vuelve ms pequea ( ms grande), lo anterior implica que si se rechaza la hiptesis exacta = o con probabilidad a entonces para todos los casos > o) se rechazara o ( la hiptesis nula con una probabilidad menor a a. Por lo que los casos de hiptesis inexactas se trabajarn como hiptesis exactas = o con probabilidad de rechazo a.

107

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

PRUEBAS DE HIPTESIS PARA MUESTRAS GRANDES PRUEBA PARA LA MEDIA DE LA POBLACION


Se utiliza la media muestral X como variable aleatoria la cual es obtenida a partir de una muestra de tamao n de una poblacin con distribucin normal con media y desviacin tpica s. Si la muestra es grande (teorema del limite central n > 30) l la poblacin tiene una distribucin normal. Entonces, la muestra tendr una distribucin normal. Como ha sido mostrado anteriormente (distribucin muestral de la media teorema del limite central) y

El estadstico de prueba Z para la prueba de una media con distribucin normal es

X
X

(5.1)

X n

(5.2)

EJEMPLOS 5. Se supone que los C.I. de los alumnos de cierto grupo tnico est en promedio ocho puntos por encima que el promedio de todos los alumnos en el pas. Se sabe que para todos los alumnos la media es 100 y la desviacin tpica es 15. Pruebas aplicadas a una muestra de 25 alumnos seleccionados aleatriamente entre el grupo tnico en cuestin proporcionan un C.I. medio de 104. Considerando que los C.I. Tienen una distribucin normal, prubese la hiptesis H0 : = 100 en contra de la hiptesis alternativa H1: = 108 en = 0.05. Determnese tambin el valor de . SOLUCION Los datos del problema son La media y desviacin estndar son = 100, =15, el nivel de significacin es muestra es n = 25 y la media muestral es X 104 Las Hiptesis correspondientes nula y alternativa son respectivamente H0: H1: = 100 1 > 100

= 0.05, el tamao de la

La prueba es de una cola derecha. A partir del nivel de significancia = 0.05, se determina el rea a la izquierda como A =1-0.05 =.95, entonces el valor crtico Z se obtiene de la puntuacin cuya rea bajo la curva normal es igual a 0.95 este valor corresponde a Z = 1.645 Calculando el estadstico de prueba correspondiente a partir de la tipificacin de la media muestral x

108

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

Z=

104 100 15 25

4/3 = 1.333

Puesto que 1.333 < 1.645 (Z < Z ) rechaza H0, ver grafica.
0.5 0.45 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 -4

el valor cae dentro de la regin de aceptacin por lo que no se

H1: > 0

1-a Z=1.333 a
-3 -2 -1 0 1 2 3 4

Regin de aceptacin Za=1.645

Regin de rechazo

b) Para determinar el error tipo II , se requiere determinar primero x despejando de la relacin Z

la cual se puede obtener

X n
100 =1.645(3) + 100 = 104.935

1.645 15

25

La figura siguiente muestra la idea general para determinar el error tipo .

= 100

X a =104.9

=108
Idea general para determinar el error tipo .

109

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

Entonces el error tipo

es igual de acuerdo a la figura anterior

= P(X

104.9, =108, =3) = P Z

104.9 108 = P(Z < -1.02166)=1-0.8461 = 0.1539 3

6. Una compaa que procesa fibras naturales afirma que sus fibras tienen una resistencia media a la ruptura de 40 lb y una desviacin tpica de 8 lb. Un comprador sospecha que la resistencia media a la ruptura es de solamente 37 lb, Una muestra aleatoria de 64 fibras proporciona una media de 38 lb. Deber rechazar el comprador H0: =40 en favor de H1: = 37 si el nivel de significacin es 0.01? SOLUCION Los datos del problema son Los parmetros poblacionales son = 40, = 8 promedio probables 64 nivel de significacin = 0.01, media muestral x 38 Las Hiptesis correspondientes nula y alternativa son respectivamente H0: H1: = 40 40
1

= 37, tamao de la muestra n =

1<

La prueba es de una cola izquierda, entonces, el rea a la izquierda de la distribucin debe ser A = 1- a = 1 - 0.01 = 0.99 lo cual corresponde a Z = - 2.3226 El valor del estadstico de prueba es Z

X n

38 40 8 64

El cual es mayor que Z . Por lo tanto no se rechaza H0


0.5 0.45 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 -4

Z=-2 a
-3 -2 -1

1-a

Regin de rechazo Za=-2.3226

Regin de aceptacin

110

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

7. Un fabricante de medias est considerando reemplazar una vieja mquina de coser por una nueva. La vieja mquina produce cuando ms, un promedio de 300 pares de medias por hora, con una desviacin tpica de 30 pares. Se considera que la produccin por hora de tales mquinas de coser tiene una distribucin normal. El vendedor de la nueva mquina afirma que su produccin promedio por hora es de ms de 300 pares. La nueva mquina se prueba durante un periodo de 25 h y se determina su produccin promedio por hora como 310 pares. si el nivel de significacin es de 0.05, debera rechazarse la hiptesis nula = 300? SOLUCION Los datos proporcionados por el problema son Media = 300, desviacin muestral X = 310 = 30, tamao de la muestra n = 25, nivel de significancia = 0.05, media

La prueba de hiptesis se puede plantear como: H0: H1: = 300 > 300

Corresponde a una prueba de una cola derecha Utilizando la el nivel de significacin a=0.05, se determina el rea a la izquierda de la distribucin normal A = 1- a = 1 - 0.05 = 0.95, el cual corresponde a una valor de puntuacin crtico Z = 1.645 El valor del estadstico de prueba Z es

X n

310 300 = 1.6666 30 25

En este caso Z < Z, la hiptesis nula se rechaza. Por lo tanto se rechaza H0 a favor de de la hiptesis H1

0.5 0.45 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 -4

Z=1.6666 1-a

a
-3 -2 -1 0 1 2 3 4

Regin de aceptacin Za=1.645

Regin de rechazo

111

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

8. Una compaa de servicio pblico desea determinar si su nuevo horario de Trabajo ha reducido de manera importante el tiempo de espera de los clientes para servicio. El tiempo de espera fue de al menos 30 min en el pasado y se sabia que la desviacin tpica era de 12 min. Se selecciona aleatriamente una muestra de 144 observaciones. Se obtiene una media de 28 min. Debera rechazarse la hiptesis nula 30 en favor de la hiptesis alternativa < 30 para = 0.05? SOLUCION Los datos proporcionados por el problema son Media =30 min, desviacin media muestral x 28 min = 12 min, tamao de la muestra n = 144, nivel de significancia = 0.05,

La prueba de hiptesis nula es inexacta se puede plantear como: H0: H1: = 30 < 30

Corresponde a una prueba de una cola izquierda Utilizando la el nivel de significacin a = 0.05, se determina el rea a la izquierda de la distribucin normal A =1- a=1-0.05=0.95, el cual corresponde a una valor de puntuacin crtico Z = -1.645 El valor del estadstico de prueba Z es

X n

28 30 = -2.000 12 144

En este caso Z < Z , la hiptesis nula se rechaza. Por lo tanto se rechaza H0 a favor de de la hiptesis H1 Lo que se traduce en que el servicio al cliente ha mejorado.

0.5 0.45 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 -4

Z=-2 a
-3 -2 -1

1-a

Regin de rechazo Za=-1.645

Regin de aceptacin

112

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

9. Los empleados que contraen cierta enfermedad y reciben tratamiento mdico normal para ella permanecen ausentes del trabajo durante un promedio de 15 das. Un equipo mdico de investigacin afirma que se ha desarrollado un nuevo tratamiento que reducira el periodo promedio de ausencia del trabajo. Considrese que el periodo de ausencia del trabajo tiene una distribucin normal y una desviacin tpica de tres das. Debera rechazarse la hiptesis nula = 15 para = 0.1 si una muestra de 16 pacientes que han recibido el nuevo tratamiento tiene una ausencia promedio del trabajo de exactamente 13 das? SOLUCION Los datos proporcionados por el problema son = 15 das, = 3 das, n = 16, X 13 y = 0.1 La prueba de hiptesis corresponde a una prueba de una cola izquierda con A = 1- a = 1 - 0.1 = 0.9 correspondiente a Z = -1.282 El valor del estadstico de prueba Z es

X n

13 15 = -2.666 3 16

En este caso Z < Z , la hiptesis nula se rechaza. Por lo tanto se rechaza H0 a favor de de la hiptesis H1, el tratamiento es mejor.

PRUEBA DE LA DIFERENCIA DE MEDIAS


En ocasiones se requiere indicar por parte de la estadstica si la diferencia entre dos medias muestrales es lo suficientemente grande para asegurar que esas diferencias no se deben a efectos del azar, sino que las muestras tomadas provienen de dos poblaciones distintas. La siguiente figura muestra el caso de dos distribuciones normales con desviacin tpica s = 10 y medias 1 = 100 y 2 = 120

0.04 0.035 0.03 0.025 0.02 0.015 0.01 0.005 0

60

80

100

120

140

160

= 100

= 120
1

Figura. Representacin de dos poblaciones con desviacin tpica s = 10 y medias

= 100 y

= 120

113

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

Para probar la hiptesis acerca de la diferencia de medias se introduce la variable aleatoria

D
Donde X 1

X1

X2
1

(5.3) y desviacin tpica


1

es una muestra tomada de una poblacin con media

y X2

procede otra poblacin con media 2 y desviacin tpica 2 . Los parmetros para variable aleatoria D se puede determinar aplicando las propiedades del valor esperado y varianza para muestras independientes

E ( D)
y la varianza
2 D

E( X 1

X 2)

E( X 1 )

E( X 2 )

(5.4)

VAR ( X 1

X 2 ) VAR ( X 1 ) VAR ( X 1 )

2 1

2 2

n1

n2

(5.5)

Entonces, la desviacin tpica es


2 D 1 2 2

n1

n2

(5.6)

a la que se denomina error tpico de la diferencia entre dos medias muestrales. Si las muestras X 1 y X 2 provienen de distribuciones que son normales o si las muestras son grandes, esto es n1 y n2 >30 la distribucin de la variable aleatoria D es normal. La prueba de hiptesis acerca de la diferencia de medias se puede llevar acabo bajo dos condiciones diferentes: 1) Cuando se conoce las varianzas poblacionales 1 y 2 2) Cuando no se conocen las varianzas poblacionales y tienen que estimarse a partir de las varianzas muestrales s1 y s 2 . Primeramente los problemas que se desarrollan continuacin suponen conocidas las varianzas poblacionales
2 1 2 2 2 2

2 2

. es

La hiptesis nula para la prueba de la diferencia de medias denotada por H0: =0


1

Para la hiptesis alternativa puede tomar cualquiera de las siguientes posibilidades H1: < 0 Cola izquierda > 0 Cola derecha 0 Dos colas < 1 >
1 1 2 2 2

El estadstico de prueba es

X1

X2
D

(5.7)

114

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

Recordando la hiptesis nula

y la definicin de

X1
2 1

X2
2 2

(5.8)

n1

n2

La prueba se realiza de manera semejante a la realizada anteriormente para la media, solamente que ahora para la prueba de dos medias se utiliza un estadstico diferente.

EJEMPLOS 10. Se realiz un estudio para determinar si los alumnos pertenecientes a dos grupos tnicos, I y ll, tienen distintos CI., promedio. Se considera que las varianzas de los CI en los grupos I y ll son respectivamente,
2 1

= 225 y

2 2

= 196. Se toma una muestra de 25 alumnos del grupo l (n1 = 25) y otra

de 28 del grupo II (n2 = 28). En base a la diferencia entre las dos medias muestrales, X 1 = 102 y X 2 = 98. Prubese la hiptesis nula de que los alumnos de los dos grupos tnicos tienen CI promedio idnticos con respecto a la hiptesis alternativa de que los dos promedios son diferentes en = 0.05. SOLUCION La lista de datos proporcionados por el problema se resume a continuacin

X1 X2

102

98

2 1 2 2

225 196

n1 = 25 n2 = 28

Las hiptesis nulas y alternativas asociadas al problema son H0: H1:


1 1

2 2

La prueba es de dos colas por lo tanto Za/2 = Z0.05/2 = Z0.025 El valor del rea para la prueba es A = 1 - 0.025 = 0.975 Correspondiente de acuerdo a las tablas Z0.025 = 1.960 La regla de decisin es: Rechazar H0 si Z = 1.960 Z El estadstico de prueba Z es 1.960

X1
2 1

X2
2 2

102 98 225 196 25 28

4 4

n1

n2

115

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

Como es mayor a -1.960 y menor a 1.960 no se rechaza H0.


0.5 0.45 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 -4

1-a Z =1 a/2
-3 -2 -1 0 1 2

a/2
3 4

Regin de rechazo Za/2 =-1.960

Regin de aceptacin

Regin de rechazo Za/2 =1.960

11. Cierta gran compaa emplea tanto hombres como mujeres para realizar el mismo tipo de trabajo. Se tiene la hiptesis de que la produccin promedio de los hombres es menor que la de las mujeres. Supngase que el equipo de investigacin de la compaa proporciona la siguiente informacin. Hombres Mujeres Tamao de la muestra n1 = 36 n2 = 36 Media muestral en unidades X 1 = 150 y X 2 =153 2 2 Varianza 1 = 70 2 =74 Es significativamente menor la produccin promedio por hora de los hombre que la de las mujeres para = 0.05? (Considrese que las dos muestras son independientes.) SOLUCION Las hiptesis nulas y alternativas son H0: H1: = 1 <
1 2 2

De acuerdo al nivel de significacin A=1-

=0.05,

= 1 - 0.05 = 0.95 correspondiente al valor crtico Z = -1.645

El estadstico de prueba Z es

X1
2 1

X2
2 2

150 153 70 36 74 36

3 2

1 .5

n1

n2

116

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

Como Z es mayor a Z =-1.645 no se rechaza H0.

0.5 0.45 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 -4

1-a Z=-1.5 a
-3 -2 -1 0 1 2 3 4

Regin de rechazo Za=-1.645

Regin de aceptacin

12.Un fabricante afirma que el cordn nylon que su compaa produce es ms fuerte que el cordn de algodn. Dada la siguiente informacin: Cordn de nylon n1 = 36 X 1 = 105 lb
2 1

Tamao de la muestra Resistencia promedio a la ruptura Varianzas

Cordn de algodn n2 = 36 X 2 = 101 lb


2 2

= 74

= 70

Podra llegarse a la conclusin de que en realidad el cordn de nylon es ms fuerte que el de algodn para = 0.01? SOLUCION Las hiptesis nulas y alternativas son H0: H1:
1 1

= >

2 2

De acuerdo al nivel de significacin A=1-

=0.01,

= 1 - 0.01 = 0.99 correspondiente al valor crtico Z = 2.326

El estadstico de prueba Z es

X1
2 1

X2
2 2

n1

n2

105 101 70 74 36 36

4 2

2 .0

Como Z es menor a 2.326 no se rechaza H0.

117

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

0.5 0.45 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 -4

Z=2 1-a a
-3 -2 -1 0 1 2 3 4

Regin de aceptacin

Regin de rechazo Za=2.326

PUEBAS PARA LA PROPORCION DE EN LA POBLACION


En ocasiones se requiere decidir si la proporcin en la poblacin denotada por p es igual a una proporcin dada po, en donde, la proporcin de la muestra o el nmero de xitos en n ensayos, se utiliza para realizar la inferencia. Si el evento ha ocurrido X veces en n intentos, la proporcin de la muestra es estimada es p

X , fraccin que puede utilizarse para estimar la proporcin de la n

poblacin o la probabilidad de xito. Para probar a hiptesis con respecto a la proporcin p resulta ms conveniente utilizar la variable aleatoria binomial X que la misma proporcin p. Para valores pequeos de n (< 30) se puede utilizar las tablas binomiales acumuladas y para n grande se utilizar la aproximacin normal a la binomial. EJEMPLOS 13. Un fabricante de drogas afirma que una medicina recientemente desarrollada tiene una efectividad de ms del 90% en el alivio de dolores musculares. En una muestra de 100 personas que sufren de dolores musculares, la medicina proporcion alivio a 95. Prubese la hiptesis nula de que la medicina tiene una efectividad de 90% contra la hiptesis alternativa de que la medicina tiene una efectividad de ms del 90% para a = 0.05. SOLUCION Debido a que el tamao de la muestra es grande n = 100, es recomendable utilizar la aproximacin normal a la binomial. Utilizando la proporcin como la probabilidad de xito, que de acuerdo a los datos proporcionados la proporcin p0 = 0.90, entonces el promedio es

np =100(0.9)=90

118

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

y la desviacin tpica de la poblacin es

npq

(100)(0.9)(0.1)

Para p = 0.95, el promedio estimado es entonces

np = (0.95) (100) = 95

Las hiptesis nulas y alternativas del problema son H0: p = 0.9 H1: p > 0.9 o o = 90 > 90

Para el nivel de significancia =0.05 y la prueba de cola derecha el rea a la izquierda es A = 1 - a = 1 - 0.05 = 0.95, correspondiente a una valor crtico para la distribucin normal

El valor del estadstico de prueba Z es

95 - 90 =1.6666 3

como Z > Z , se rechaza la hiptesis nula H0 a favor de H1, esto es, la medicina tiene una efectividad mayor que el 90 %.

14. Un investigador de mercado desea determinar si las amas de casa prefieren el aceite de cocina I o el aceite de cocina II. Se entrevista a 30 amas de casa y 18 de ellas indican que prefieren el aceite I. Puede llegarse a la conclusin de que las amas de casa en general prefieren el aceite I, si el nivel de significacin es de 0.04937? SOLUCION Debido a que el tamao de la muestra es pequea n = 30, se debe utilizar preferentemente las tablas de la distribucin binomial correspondientes. Como no existe preferencia previa con respecto a la eleccin de los tipos de aceite, se tiene una proporcin p0 = 0.50, entonces el nmero de xitos esperado para esta proporcin es

np = (30) (0.5)=15
Las hiptesis nulas y alternativas en competencia son H0: p = 0.5 H1: p > 0.5 o o = 15 > 15

Para el nivel de significancia =0.04937 y considerando la prueba de cola derecha el rea a la izquierda e la distribucin binomial es A =1 - a = 1 - 0.04937 = 0.95063, buscando el la tabla para la distribucin binomial acumulada para n =30 y p =0.5 se encuentra que el nmero de xitos crtico correspondiente es X

119

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

=18, De acuerdo a los datos proporcionados la cantidad de xitos preferencias por el aceite I es X < X y no debe rechazarse la hiptesis nula. entonces, X
BINOMIAL 0.16 0.14 0.12 0.1 0.08 0.06 0.04 0.02 0

1-a

=18 X

10

15

20

25

30

Regin de aceptacin

Xa=19

Regin de rechazo

15. Considrese p, la verdadera proporcin de los votantes registrados que estn en contra de la pena capital. Supngase que en el pasado p ha sido igual a 50% menos. Actualmente existen razones para creer que p ha aumentado. Una muestra aleatoria de 20 votantes de una proporcin en la muestra del 55 %, Puede llegarse a la conclusin de que la verdadera proporcin permanece sin cambio, es decir sin haber aumentado, para = 0.0207? SOLUCION Por el tamao de la muestra es pequea n = 20, se debe utilizar las tablas de la distribucin binomial correspondientes. La proporcin previa en contra de la pena capital es p0 = 0.50 lo cual corresponde a una media

np = (20)(0.5)=10
Las hiptesis nulas y alternativas en competencia son H0: p = 0.5 H1: p > 0.5 o o = 10 > 10

Para el nivel de significancia =0.0207 y considerando la prueba de cola derecha el rea a la izquierda e la distribucin binomial es A = 1- a = 1 - 0.0207 =.9793, buscando el la tabla para la distribucin binomial l acumulada para n = 20 y p = 0.5 se encuentra que el nmero de xitos crtico correspondiente es X De acuerdo a los datos la nueva proporcin de votantes en contra de la pena capital es p =0.55 por lo que el valor esperado correspondiente a la cantidad de xitos es

120

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

= np X = (20) (0.55) = 11 < X y no debe rechazarse la hiptesis nula. Como X

BINOMIAL 0.2 0.18 0.16 0.14 0.12 0.1 0.08 0.06 0.04

1-a

a
0.02 0 0 2 4 6 8 10 12 14 16 18 20

Regin de aceptacin

=11 X

Xa=14

Regin de rechazo

16. Se ha insinuado que los profesores se han vuelto ms despreocupados al calificar a sus estudiantes. En el pasado, 80% de todos los estudiantes universitarios de primer ao obtenan C o calificaciones superiores. Una encuesta de la clase ms reciente de estudiantes universitarios de primer arto muestra que 8100 de los 10 000 estudiantes universitarios de primer ao de la muestra recibieron calificaciones de C o mayores. Es verdadero que los profesores se han vuelto ms despreocupados, si el nivel de significacin se especifica en 0.01? SOLUCION La proporcin previa de acuerdo a loa datos es p0 = 0.80 El tamao de la muestra es n = 1000, Debido al tamao de la muestra se utilizar la aproximacin normal a la binomial. Utilizando los datos anteriores se tiene que el promedio es

np = 10000(0.80)=8000 estudiantes
y la desviacin tpica de la poblacin es

npq

(10000)(0.8)(0.2) =40

= 8100 estudiantes El promedio obtenido del experimento es X


Las hiptesis nulas y alternativas del problema son H0: p = 0.80 H1: p > 0.80 o o = 8000 > 8000

121

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

Para el nivel de significancia =0.01 y la prueba de cola derecha el rea a la izquierda es A = 1 - a = 1 - 0.01 = 0.99, correspondiente a una valor crtico para la distribucin normal 2.326 El valor del estadstico de prueba Z es

8100 8000 40

2 .5

como Z > Z , se rechaza la hiptesis nula H0 a favor de H1, esto es, los profesores se han vuelto ms despreocupados
0.5 0.45 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 -4

1-a

Z=2.5

a
-3 -2 -1 0 1 2 3 4

Regin de aceptacin

Regin de rechazo Za =2.326

ESTIMACION MATEMATICA
El procedimiento para determinar un intervalo de valores entre los cuales se encuentre el de un parmetro de la poblacin con una probabilidad 1-a se conoce como estimacin del intervalo. El parmetro a se interpreta como la probabilidad de cometer un error en la estimacin, por lo que 1-a es la medida de la confianza para la media poblacional, equivalente a la probabilidad de que el parmetro poblacional estimado se encuentre dentro de intervalo adecuado.

ESTIMACION DE LA MEDIA POBLACIONAL


Para mostrar como se obtiene el intervalo de confianza considrese a la media muestral X para estimar a la media poblacional . Como ha sido mostrado anteriormente, la distribucin de la media muestral puede aproximar mediante la distribucin normal para el caso de muestras grandes, entonces una proporcin 1-a del rea bajo la curva normal se encuentra entre el intervalo -Za/2 < Z < Za/2 (ver figura siguiente).
0.5 0.45 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 -4

1-a a/2 -Za/2 < Z < Za/2


-3 -2 -1 0 1 2

a/2
3 4

- Za/2

Za/2

122

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

Garantizado as que Z se encuentra en el intervalo -Za/2 < Z < Za/2 con una probabilidad 1 - . Utilizando el hecho de que Z

X
X

, se tiene que

X
/2 X

/2

Multiplicando por -1

X
/2 X

/2

Cambiando el orden de la desigualdad:

X
/2 X

Z
:

/2

Multiplicando por

/2

/2

Sumando

X
X Z
/2 X

/2

(5.9)

Utilizando finalmente el resultado

n X Z
(5.10)

/2

/2

ESTIMACION DE LA DIFIERENCIA ENTRE DOS MEDIAS


Para obtener
1 2

un intervalo de confianza de la verdadera diferencia entre dos medias poblacionales se utiliza el estadstico D X1 X 2 .

Si se considera que X 1 y X 2 son independientes y el tamao de sus respectivas muestras es grande ( n1 , n 2 > 30), entonces D se distribuye normalmente, por otra parte su media y desviacin tpica son respectivamente
2 1 D 2 2

n1

n2

Considerando que D se distribuye normalmente, el intervalo de confianza se puede obtener utilizado la ecuacin (42) simplemente sustituyendo , X D y X D

123

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

D Z

2 1 /2

2 2

n1

n2

D Z

2 1 /2

2 2

n1

n2

(5.11)

ESTIMACION DE LA PROPORCION DE LA POBLACION


Como se ha mencionado anteriormente la proporcin p tiene una distribucin binomial, pero cuando se cumple las condiciones de la aproximacin normal ( np = 5 y nq = 5) se puede aplicar la ecuacin (42) para obtener el intervalo de confianza para la proporcin de la poblacin, simplemente realizando los siguientes cambios partir de una muestra y s Entonces

np , X

np , y

np es la proporcin estimada a (1 p ) donde p

np (1 p ) es la desviacin tpica estimada de la variable aleatoria X.

/2

X
np 1 p

Z
np

/2

np Z

/2

np

/2

np 1 p

Dividiendo entre n:

p Z

/2

np(1 p ) n

p Z

/2

np(1 p ) n p (1 p ) n

Finalmente

p Z

/2

p(1 p ) n

p Z

/2

(5.12)

EJEMPLOS 17. Supngase que un psiclogo desea realizar una estimacin de intervalo de la media verdadera de los C.I. de alumno, de cierto grupo tnico. Se sabe que los C.I. se distribuyen normalmente con desviacin tpica de 15. Constryase un intervalo de confianza del 95% para la media verdadera ( ) con base en una muestra de 25 alumnos con una media muestral de 105 SOLUCION Los datos proporcionados por le problema son Desviacin tpica =15, media muestral 1- =0.95

105, tamao de la muestra n = 25 y intervalo de confianza

A partir del intervalo de confianza =1-0.95=0.05, entonces /2=0.025 El rea a la izquierda de la distribucin normal es A = 1-( /2)=0.975, buscando en la tabla se obtiene que Z /2=1.960 Sustituyendo en la ecuacin 5.10

124

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

/2

105 1.960
99.12 <

n 15 25

/2

n 15 25

105 1.960

< 110.88

18. Una compaa fabricante de harina la empaca en bolsas de papel. Se desea estimar el verdadero peso medio de las bolsas. Una muestra de 36 bolsas da media muestral de 24.5 lb. La desviacin tpica es de 15 lb. Obtngase el intervalo de confianza del 99 % para su verdadero peso medio de las bolsas de harina. SOLUCION Los datos proporcionados por le problema son Desviacin tpica =15, media muestral X 1- =0.99 24.5, tamao de la muestra n = 36 y intervalo de confianza

A partir del intervalo de confianza =1-0.99=0.01, entonces /2=0.005 El rea a la izquierda de la distribucin normal es A = 1-( /2)=0.995, buscando en la tabla se obtiene que Z /2=2.575 Sustituyendo en la ecuacin 5.10

/2

n 15 36

/2

n 15 36

24.5 2.575
18.0625<

24.5 2.575

< 30.9375

19. Se seleccionaron aleatriamente dos grupos de empleados de una fbrica para entrenarlos a fin de que realicen cierta operacin. Cada grupo se entren empleando un mtodo diferente. El tiempo promedio para que cada grupo realice la operacin despus del entrenamiento y otros datos importantes se proporcionan a continuacin. Mtodo 1 n1 = 24 X 1 = 45
2 1 =

Mtodo 2 n2 = 36 X 2 = 55
2 2=

200

276

Determnese el intervalo de confianza del 98% para la verdadera diferencia en la efectividad de los dos mtodos de entrenamiento. SOLUCION A partir del intervalo de confianza = 1 - 0.98 = 0.02, por lo tanto /2 = 0.01 El rea a la izquierda de la distribucin normal es A = 1 -( /2) = 0.99, buscando en la tabla se obtiene que Z /2 = 2.326

125

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

Utilizando los datos proporcionados se calcula

D = X 1 - X 2 = 45 - 55= -10
2 1 D 2 2

n1

n2

200 24

276 =4 36

Sustituyendo en la ecuacin 44
2 1 /2 2 2 2 1 /2 2 2

n1

n2

n1

n2

-10-2.326(4) d -10+2.326(4) -19.304 -0.696

20. Se realiza un experimento para estimar la verdadera diferencia en la duracin promedio de dos marcas de bateras para automviles. Con la siguiente informacin determnese el intervalo de confianza del 95% para la verdadera diferencia en la duracin de las dos marcas de bateras para automviles. Marca I Tamao de la muestra n1 = 36 Duracin promedio (meses) X 1 = 38 2 Varianza 1 = 41 SOLUCION El intervalo de confianza es = 1 - 0.95 = 0.05, por lo tanto /2 = 0.025 El rea a la izquierda de la distribucin normal es A = 1 - ( /2) = 1-0.025 = 0.975, buscando en la tabla se obtiene que Z /2 = 1.960 Utilizando los datos proporcionados se calcula Marca II n2 = 36 X 2 = 35 2 2 = 40

D = X 1 - X 2 = 38 - 35=3
2 1 D 2 2

n1

n2

41 36

40 = 1.5 36

Sustituyendo en la ecuacin 5.11


2 1 /2 2 2 2 1 /2 2 2

D Z

n1

n2

D Z

n1

n2

3-1.960 (1.5) 0.0.06 5.94

3+1.960 (1.5)

126

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

21 Se realiz una investigacin de tele audiencia. En una muestra de 900 espectadores, el nmero de ellos que vean un programa en particular fue de 180. Determnese el intervalo de confianza del 99% para la verdadera proporcin de espectadores que ven este programa en particular. SOLUCION Tamao de la muestra n = 900, nmero de espectadores que ven el programa X = 180, intervalo de confianza es 1- = 0.99 Como el tamao de la muestra es grande se utiliza la aproximacin normal a la binomial. A partir del intervalo de confianza = 1- 0.99 =0.01 entonces /2 = 0.005 y l rea a la izquierda de la distribucin normal es A = 1 - 0.005 = .995, buscando en la tabla correspondiente se obtiene que Z /2 = 2.575 La proporcin estimada por los datos

180 X = = 0.2 n 900

Sustituyendo los datos en la frmula (5.12)

p Z

/2

p(1 p ) n

p Z

/2

p (1 p ) n
0.2(1 0.2) 900

0.2 2.575

0.2(1 0.2) 900

0.2 2.575

0.1656 < p < 0.2343


22. En una muestra seleccionada aleatriamente de 64 muchachas universitarias de primer ao, 32 de ellas resultan ser casadas. Determnese el intervalo de confianza del 95% para p, verdadera proporcin de todas las mujeres universitarias de primer ao que estn casadas. SOLUCION Tamao de la muestra n = 64, nmero de casadas X = 32, intervalo de confianza es 1Como el tamao de la muestra es grande se utiliza la aproximacin normal a la binomial. A partir del intervalo de confianza = 1- 0.95 = 0.05 entonces /2 = 0.025 y l rea a la izquierda de la distribucin normal es A = 1 - 0.025 = 0.975, buscando en la tabla correspondiente se obtiene que Z /2= 1.960 La proporcin estimada por los datos = 0.95

X 32 = = 0.5 n 64

Sustituyendo los datos en la frmula (5.12)

127

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

p(1 p ) p n 0.5(1 0.5) 0.5 1.960 64 p Z


/2

p Z
p

p (1 p ) n 0.5(1 0.5) 0.5 1.960 = 64


/2

0.3775 < p < 0.6225 DISTRIBUCIN DE PROBABILIDAD PARA MUESTRAS PEQUEAS


En los problemas de hiptesis anteriores se supuso conocida la varianza poblacional, situacin que en la mayora de los casos no se tiene. La desviacin tpica de una poblacin se puede estimar a partir de la desviacin tpica de una muestral, de tal forma que la razn

X s n

(5.13)

Se utiliza como estadstico de prueba. Sin embargo si la muestra es pequea se tiene que la desviacin tpica muestra s es bastante distinta a la poblacional s. Por lo anterior no es posible utilizar la distribucin normal para el caso de muestras pequeas. La solucin del problema anterior de la inferencia estadstica acerca de un parmetro de la poblacin utilizando muestras pequeas y desconociendo la varianza poblacional fue resuelto por W. S: Gosset en 1908 al publicar una distribucin de probabilidad la cual describe el comportamiento del estadstico dado por la ecuacin (5.13), siempre y cuando la muestra sea obtenida a partir de una poblacin con distribucin de probabilidad normal.

DISTRIBUCION T-STUDENT
La distribucin t-Student se obtiene a partir de considerar que la muestra pequea se obtiene a partir de una poblacin con distribucin normal, si la hiptesis anterior no se cumple ser necesario utilizar los mtodos no paramtricos para la prueba de hiptesis. La distribucin t-student o simplemente distribucin t es al igual que la distribucin normal una distribucin continua en forma de campana simtrica, cuyo estadstico de prueba es

X s n

(5.14)

La probabilidad acumulada para la distribucin para la distribucin t-student es

1 x

P(

x) =

2 2

t2

dt

(5.15)

donde

t n 1e t dt es la llamada funcin gamma.

128

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

Como se puede observar de la distribucin t-student tiene una expresin matemtica complicada, y al igual que con la distribucin normal recurriremos a las tablas respectivas para la solucin de los problemas. Por otra parte la distribucin t-student tiene ms variabilidad que la distribucin normal ya que depende del nmero de datos n. Esto es, a diferencia de la distribucin normal en la cual el estadstico Z depende de de y que son constantes e independientes del tamao de la muestra n, en el estadstico T la desviacin tpica muestral s depende de el tamao de la muestra n. en consecuencia T es ms variable que Z. La variabilidad de la distribucin t-student se asocia con el concepto de grados de libertad, es cual es simplemente se define como

n 1

(5.16)

As se tiene que para cada grado de libertad se tendra que utilizar una tabla para la distribucin tstudent, pero en general para las pruebas de hiptesis respetivas solo son necesarios los valores crticos correspondientes a los valores de significacin a ms utilizados (10%, 5%, 2.5%, 1%, etc) los cuales son reportados en una sola tabla. Por otra parte la distribucin T-student converge o se aproxima a la normal cuando el nmero de datos tiende a infinito. Las siguientes figuras muestran una distribucin t student para =4 y su comparacin con la distribucin normal.
T STUDENT 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 -5

-4

-3

-2

-1

Figura Grfica de la funcin t student con


0.5 0.45 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 -4 -3 -2 -1 0 1

=4

Figura Comparacin de la distribucin t-student con respectiva (lnea discontinua).

= 4 (lnea continua) y la distribucin normal

129

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

EJEMPLOS 23. Para una distribucin con 10 grados de libertad, obtngase el valor crtico t que corta cada una de las siguientes reas bajo la curva. a. El 2.5% superior b. El 5% inferior c. El 0.005 superior d. El 0.01 inferior SOLUCION Recurriendo directamente a la tabla correspondiente de la distribucin t-student a) b) c) d) Superior = 0.025 El 5% inferior El 0.005 superior El 0.01 inferior T 10, 0.05 = 2.228 T 10, 0.05 = -1.812 T 10,0.005 = 3.169 T 10, 0.01 = -2.764

24. Supngase que cierta prueba implica un nivel de significacin de 0.10 y una muestra de 25 observaciones. Obtngase el valor crtico t bajo cada una de las siguientes condiciones y mustrese grficamente cada respuesta. a. Una prueba de una cola con la regin de rechazo en el rea de la cola superior. b. Una prueba de una cola con la regin de rechazo en el rea de la cola inferior. c. Una prueba de dos colas. SOLUCION a) Recurriendo a la tabla de la distribucin t-student para =n-1=25-1=24 y 0.1 se tiene T0.1, 24 = 1.318

T STUDENT 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 -5

-4

-3

-2

-1

b) El valor para el caso de cola inferior es igual al anterior pero negativo T 24, 0.1= - 1.318

T STUDENT 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 -5

-4

-3

-2

-1

c) En el caso de dos colas se tiene que a/2 = 0.1/2=0.05 lo cual corresponde a T0.1, 24 = 1.711

130

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

T STUDENT 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 -5

-4

-3

-2

-1

25. Sea X el salario por hora de cualquier minero seleccionado al azar y considrese que X se distribuye normalmente. Si los valores crticos t fueran 2.624, 2.492 y 2.423 para = 0.01 con H1 : > 1, qu tan grande debera ser el tamao de la muestra para una prueba de una cola? SOLUCION La prueba corresponde a una prueba de cola derecha o superior Ho: H1:
1 1

Buscando en la tabla para la t student, para

0.01 y los valores de t se obtienen directamente

T = 2.624, entonces v1 = 14 por lo tanto n = v + 1 = 15 T = 2.492, entonces v2 = 24 por lo tanto n = 24 + 1 = 25 T = 2.423, entonces v3 = 40 por lo tanto n = 40 + 1 = 41

PRUEBAS PARA LA MEDIA DE LA POBLACION CON MUESTRAS PEQUEAS


Cuando la muestra es pequea la varianza muestral s2 puede diferir demasiado de la poblacional s 2, y no es adecuado ni recomendable utilizar a la puntuacin Z como estadstico de prueba, en este caso se debe utilizar a T como estadstico de prueba, esto es para obtener las frmulas correspondientes a las pruebas de hiptesis y estimacin simplemente se puede sustituir a Z por T en las frmulas correspondientes y utilizar a la distribucin t- student en lugar de la normal, siempre y cuando la distribucin original de la variable aleatoria X sea normal. Siguiendo la idea anterior, el estadstico de prueba de la media poblacional es dado por la ecuacin (5.14)

X s n

Para la estimacin de un intervalo para la verdadera media poblacin , con una confianza 1- a para muestras pequeas se tiene

/2

s n

/2

s n

(5.17)

131

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

EJEMPLOS 26. La Federal Food and Drug Administration est realizando una prueba para determinar si una nueva medicina tiene el indeseable efecto lateral de elevar la temperatura del cuerpo. Se entiende que la temperatura del cuerpo humano se distribuye normalmente con una media de 98.6 F. Se administra la nueva medicina a nueve pacientes, se toman las temperaturas y se obtiene una media muestral de 99F y una desviacin tpica de 0.36 F. Debera permitirse a la compaa poner a la venta la nueva droga si el nivel de significacin se especifica en 0.01? SOLUCION La hiptesis nula y alternativa de problema son Ho: H1: 98.6 98.6

El nmero de datos es n = 9, por lo que los grados de libertad es = n - 1 = 8. Para el nivel de significancia 0.01 y T = T8, 0.01= 2.896 La media muestral y su respectiva desviacin tpica es X = 99, s = 0.36, entonces

X s n

99 98.6 = 3.333 0.36 9

Como T > T Se rechaza Ho ya que efectivamente aumenta la temperatura, por lo que no debe salir al mercado

0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 -5

1-a

T=3.333

a
-4 -3 -2 -1 0 1 2 3 4 5

Regin de aceptacin

Regin de rechazo Ta =2.896

27. Se considera que un proceso de produccin est funcionando en forma adecuada cuando la cantidad promedio de caf instantneo que se empaca en un frasco es de 6 oz. Se selecciona una muestra aleatoria de 16 frascos; se determina el promedio muestral como 6.1 oz, con una desviacin tpica de 0.2 oz. El nivel de significacin se especifica en 0.05. Considrese que la cantidad de caf en cada frasco tiene una distribucin normal. a. Est funcionando adecuadamente el proceso? b. Cules son los lmites de confianza del 95% para su promedio verdadero en vista de la informacin muestral? SOLUCION

132

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

a) Los datos obtenidos del problema son n = 16,

6,

X = 6.1, s = 0.2 y

0.05

El problema se puede plantear como una prueba de dos colas, con las siguientes hiptesis nula y alternativa. Ho: H1: 6 6

Los grados de libertad es = n - 1 = 16 -1 =15. Para el nivel de significancia 0.05 y prueba de dos colas T /2 = T 15, 0.025 = 2.131. A partir de la media muestral y su respectiva desviacin tpica se tiene que

X s n

6.1 6 =2 0.2 16
/2

Como -T

/2

<T<T

No se rechaza Ho, La maquinaria funciona adecuadamente.

0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 -5

-Ta/2=-2.131 a/2

1-a

Ta/2=2.131 a/2 T=2

-4

-3

-2

-1

Regin de rechazo

Regin de aceptacin

Regin de rechazo =2.131

b) A partir del intervalo de confianza 1- = 0.95,

=0.05 por lo tanto para dos colas T

/2

s n 0 .2 6.1 2.131 16 X T
/2

/2

s n 0 .2 16

6.1 2.131

5.99345 <

< 6.20655

133

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

28. Se considera que el peso promedio de los reclutas del ejrcito se distribuye normalmente con una media de 160 lb. En una muestra aleatoria de 25 reclutas, la media es 150 lb y la desviacin tpica es 20 lb. a. Prubese la hiptesis nula contra la hiptesis alternativa de que el peso promedio de los reclutas ms recientes del ejrcito es diferente de 160 lb para = 0.02. b. Obtngase el intervalo de confianza del 98% para la media verdadera. SOLUCION a) Para este problema n = 25, 160,

X = 150, s = 20 y

0.02

El problema plantea una prueba de dos colas, con las siguientes hiptesis nula y alternativa. Ho: H1: 160 160

Los grados de libertad es = n - 1 = 25 -1 = 24. Para el nivel de significancia 0.02 y prueba de dos colas T /2 = T 0.01, 24 = 2.492. Utilizando los valores de la media muestral y su respectiva desviacin tpica se tiene

X s n

150 160 = -2.5 20 25

Como T < -T /2, se rechaza Ho, el peso de los reclutas es diferente.

0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 -5

-Ta/2=-2.492 T = -2.5 a/2


-4 -3 -2 -1

1-a

Ta/2=2.492

a/2
0 1 2 3 4 5

Regin de rechazo

Regin de aceptacin

Regin de rechazo

b) A partir del intervalo de confianza 1- = 0.98,

=0.02 por lo tanto para dos colas T

/2

= 2.492

/2

s n 20 25

/2

s n 20 25

150 2.492
140.032 <

150 2.492

< 159.986

134

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

29. Supngase que en una lnea area se desea determinar si el peso promedio de las maletas llevadas por los pasajeros entre Los Angeles y New York es de ms de 40 lb. Se selecciona aleatriamente una muestra de 16 pasajeros y se obtiene una media de 42 lb y una desviacin tpica de 4 lb. Puede llegarse a la conclusin de que el peso promedio es de ms de 40 lb con = 0.01, considerando que los pesos de las maletas se distribuyen normalmente? a) Los datos obtenidos del problema son n = 16, 6,

X = 42, s = 4 y

0.01

El problema se puede plantear como una prueba una cola derecha, con las siguientes hiptesis nula y alternativa. Ho: H1: 40 > 40

Los grados de libertad es = n - 1 = 16 -1 =15. Para el nivel de significancia 0.01 y prueba una cola T = T 15, 0.01 = 2.602. La media muestral y su respectiva desviacin tpica es X = 42, s = 4, entonces

X s n

42 40 =2 4 16

Como T < T No se rechaza Ho.

0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 -5

1-a

T=2

a
-4 -3 -2 -1 0 1 2 3 4 5

Regin de aceptacin

Regin de rechazo Ta =2.602

PRUEBA PARA LA DIFERENCIA ENTRE DOS MEDIAS PARA MUESTRAS PEQUEAS.


Cuando los patrones de distribucin de las poblaciones se distribuyen normalmente o de manera casi normal, y se tiene que las muestras son pequeas (n<30), se utiliza la prueba t de la distribucin tstudent para tomar las decisiones. Pero el proceso es diferente para muestras que se consideren independientes y/o dependientes.

135

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

En el caso de muestras independientes de tal manera que ninguna se relacione con la otra, se deber hacer la consideracin adicional de que las muestras provienen de poblaciones con idntica desviacin tpica con el fin de facilitar el procedimiento, esto es, . Como se mencion anteriormente la varianza de la diferencia muestral D = X 1 - X 2 es
2 D 1 2 2

n1

n2
se transforma en

considerando que
2 D 2

1 n1

1 n2
2 D

La mejor estimacin que se puede hacer de

es S D

y el mejor estadstico para estimar

es s ,

por lo tanto la expresin anterior se transforma en


2

sD

s2

1 n1

1 n2
2

La mejor estimacin de s se puede obtener al considerar que se mezclan los datos de ambas muestras, en tal caso se obtiene que

s2

n1 1 s1 n2 1 s 2 n1 n2 2

por lo que el error tpico de la diferencia entre dos medias para muestras pequeas es
2 (n1 1) s12 (n 2 1) s 2 (n1 n2 2)

sD

1 n1

1 n2
es

(5.18)

La hiptesis nula para la prueba de la diferencia de medias denotada por H0: =0


1

Para la hiptesis alternativa puede tomar cualquiera de las siguientes posibilidades H1: < 0 Cola izquierda > 0 Cola derecha 0 Dos colas
1 1 1

< >

2 2 2

El estadstico de prueba es

X1

X2
D

(5.19)

136

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

Recordando la hiptesis nula

y la definicin de

dada por la ecuacin (5.18)

X1

X2 1 n1 1 n2

(5.20)

2 (n1 1) s12 (n2 1) s 2 (n1 n2 2)

El valor crtico T se determina a partir del nivel

de significancia, los grados de libertad

= n1 + n 2 2
Y buscando en la tabla de la distribucin t-student, se realiza la comparacin con T y se concluye si se acepta o rechaza la hiptesis nula H0.

INTERVALO DE CONFIANZA PARA LA DIFERENCIA DE MEDIAS PARA MUESTRAS PEQUEAS


El respectivo intervalo de confianza 1para el caso de la diferencia de medias en muestras pequeas independientes se puede determinar como

D T

/2

sD

D T

/2

sD

o utilizando la expresin (48)


2 (n1 1) s12 (n 2 1) s 2 (n1 n 2 2)

D T

/2

1 n1

1 n2

D T

(n 2
/2

2 1) s12 (n 2 1) s 2 (n1 n 2 2)

1 n1

1 n2

(5.21)

EJEMPLOS 30. Se prueban dos motores distintos de automvil para determinar si presentan diferencias en cuanto a control de contaminacin. En una prueba de 16 das del Motor I, las medidas indican un ndice promedio de contaminacin de 60 y una desviacin tpica (s1) de 9; en una prueba de 16 das del Motor II, las mediciones indican un ndice promedio de contaminacin de 55 y una desviacin tpica (s2) de 9. Se cree que las mediciones tienen una distribucin normal y varianza idntica, y que las dos muestras son independientes. Existe suficiente evidencia de que el Motor I y el Motor II tienen distinto control de contaminacin para = 0.05? SOLUCION Los respectivos datos del problema son Tamao de muestra 1 n1= 36 Promedio 1 X 1 =60, Desviacin tpica 1 s1=9 Tamao de muestra 2 n2 =36 promedio 2 X 2 =55 Desviacin tpica 2 s2=9 nivel de significancia = n1 + n2 2 =16 + 16 2 = 30

0.05

Los grados de libertad para el estadstico de prueba son

La hiptesis nula y alternativa del problema son respectivamente Ho:


1 2

137

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

H1:

Para el nivel de significancia 2.042

0.05 y los grados de libertad

30 y una prueba de dos colas T

/2

Sustituyendo los datos en la ecuacin

X1

X2 1 n1
1 16

2 (n1 1) s12 (n2 1) s 2 (n1 n2 2)

1 n2
=1.5713

60 55 (16 1)9 2
< T <T

(16 )9 2

(16 16 2)
Como T
/2 /2

1 16

, no se rechaza H0.

0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 -5

-Ta/2=-2.042

1-a T = 1.5713

Ta/2=2.042

a/2
-4 -3 -2 -1 0 1 2

a/2
3 4 5

Regin de rechazo

Regin de aceptacin

Regin de rechazo

31. Se desea determinar si los promedios de puntos de calificacin (PPC) son diferentes para nios y nias. Se considera que el PPC se distribuye normalmente con varianza idntica para ambos sexos. Dos muestras independientes de cinco estudiantes cada una proporcionan lo siguiente: PPC para nios: 2.9 3.1 2.7 3.3 3.0 PPC para nias: 3.6 2.8 3.6 3.2 2.8 a. Utilizando = 0.05, prubese la hiptesis de que el PPC medio para nios es el mismo que el PPC medio para nias, contra la hiptesis alternativa de que las dos medias son diferentes. b. Obtnganse los lmites de confianza del 95% para la verdadera diferencia entre las dos medias poblaciones. SOLUCION. a) Para la solucin de problema primero es necesario calcular la media y la desviacin tpica insesgada para cada uno de los conjuntos de datos dados. Para los nios la media y la varianza son

2.9 3.1 2.7 3.3 3.0 =3 5 2 2 2.9 3 3.1 3 2.7 3 2 s1 = 5 1


X1 =

3.3 3

3 3

= 0.05

138

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

para las nias

3.6 2.8 3.6 3.2 2.8 = 3.2 5 2 2 3.6 3.2 2.8 3.2 3.6 3.2 2 s2 = 5 1
X2 =

3.2 3.2

2.8 3.2

= 0.16

Los grados de libertad para el estadstico de prueba son

=n1 + n2-2=5+5-2=8

La hiptesis nula y alternativa del problema son respectivamente Ho: 1 2 H1: 1 2 Para el nivel de significancia 0.05 y los grados de libertad 8 y una prueba de dos colas T /2= 2.306

Sustituyendo los datos en la ecuacin

X1
2 1

X2 1 n1 1 n2
=

2 (n1 1) s (n2 1) s 2 (n1 n2 2)

3 3 .2 5 1 (0.05) 5 1 (0.4) 1 (5 5 2) 5 1 5

0.2 = -0.9760 0.2049

Como T

/2

< T <T

/2

, no se rechaza H0. 0.95 y una prueba de dos colas con = 0.05 y 8, se tiene

b) Para el nivel de significancia 1que T /2 = 2.306 Conviene primero conviene evaluar

sD =

5 1 (0.05) 5 1 (0.16) 1 (5 5 2) 5
D T

1 = 0.2049 5

Finalmente evaluado la expresin

D T

-0.2 - (2.306)( 0.2049) < -0.67273< <0.27273

< -0.2 + (2.306)( 0.2049)

0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 -5

-Ta/2=-2.306 a/2
-4 -3 -2 -1

1-a T = 0.6666
0 1

Ta/2= 2.306 a/2


2 3 4 5

Regin de rechazo

Regin de aceptacin

Regin de rechazo

139

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

32. Supngase que se desea determinar si una dieta completada con una hormona de crecimiento puede aumentar significativamente la ganancia en peso de los cerditos. Con este fin, se seleccionan aleatriamente dos grupos independientes de cerditos. A un grupo se le alimenta con la dieta acostumbrada y al otro con una dieta con la hormona de crecimiento. Las ganancias de peso para los dos grupos se registran un mes despus de que se han estado utilizando las dietas respectivas. a continuacin se muestran los datos de importancia.
Grupo 1 (Dieta acostumbrada) n1 = 21 X 1 = 16 Grupo 11 (Dieta con hormonas) n2 = 21 X 2 = 19

Tamao de la muestra Media muestral (en libras) Varianza

s12 = 35

s22 = 45

Es posible que la dieta completada con una hormona de crecimiento aumente la ganancia en peso de los cerditos para = 0.05? (Considrese que las ganancias en peso se distribuyen normalmente.) SOLUCION Las hiptesis respectivas del problema son: Ho: H1:
1 2

2> 1

El nmero de grados de libertad es =n1 + n2-2 = 21 + 21 - 2 =40 Para el nivel de significancia = 0.05 y y una prueba de cola izquierda T

=-1.684

sD

(n1 1) s1 (n 2 1) s 2 n1 n 2 2

1 n1

1 n2

sD

(21 1)35 (21 1)45 21 21 2


X1 sD X2

1 21

1 = 21

700 900 40

2 = 1.9518 21

El estadstico de prueba es

16 19 =-1.5370 1.9518

Puesto que T < T no se rechaza Ho


0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 -5

1-a T=-1.5370 a
-4 -3 -2 -1 0 1 2 3 4 5

Regin de rechazo Ta =1.684

Regin de aceptacin

140

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

APROXIMACIN NORMAL A LA DISTRIBUCIN T-STUEDENT


En general en la mayora de los casos no se conoce la desviacin tpica de la poblacin. Una forma de solventar esta carencia es observar que la distribucin t-student tiende a la distribucin normal cuando n es grande, la aproximacin se puede aplicar a partir de que n 30, La aproximacin se realiza simplemente sustituyendo en los estadsticos de prueba de las pruebas de hiptesis la desviacin tpica o desviaciones tpicas por sus correspondientes desviaciones tpicas muestrales. Para la prueba de una media

X s/ n

Y para la de la diferencia de medias

X1 s1 n1
2

X2 s2 n2
2

EJEMPLOS 33. Sea Y una variable aleatoria que se sabe tiene una media de 500. Una muestra aleatoria de 900 observaciones para Y proporciona una media Y = 550 y una varianza s2 = 562 500. a. Prubese la hiptesis de que la media de Y permanece siendo 500 contra la hiptesis alternativa de que es diferente de 500 con = 0.01. b. Determnese el intervalo de confianza del 99% para la verdadera media. SOLUCION a) Los datos que se tienen del problema son Media poblacional 500, nmero de datos n = 900, media muestral X =550, varianza muestral s2 = 562500 y nivel de significancia 0.01 La hiptesis nula y alternativa es Ho: H1: = 500 500

Para la prueba de dos colas con =0.01se tiene que /2=0.005 y A =1- /2= 0.995 lo que corresponde de acuerdo a la tabla respectiva de la distribucin normal Z /2 = 2.575 El estadstico de prueba es

X 550 500 = =2 s / n 750 / 900


/2

Puesto que -Z

<Z<Z

/2

No se rechaza H0. = 0.01, y /2 = 0.005 por lo

b) A partir del intervalo de confianza solicitado 1- = 0.99, se tiene que, que A =1- /2= 0.995 lo que corresponde Z /2 = 2.575

141

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

Utilizando la expresin siguiente

/2

s n 750 900

/2

s n 750 900

550 2.575

550 2.575

485.625 < < 614.375


34. Un productor de azcar la empaca en bolsas de papel, cada una de las cuales debe contener 10 lb 160 oz. Algunos clientes se han quejado de que las bolsas contienen solamente 9.5 lb 152 oz. Se realiza una prueba para determinar si la queja es razonable. Una muestra aleatoria de 49 bolsas proporciona una media de 156 oz y una desviacin tpica (s) de 10.5 oz. Deber rechazarse la hiptesis nula de que el peso promedio es de 160 oz en oposicin a la hiptesis alternativa a de que es de 152 oz para = 0.01? SOLUCION Los datos que se tienen del problema son los siguientes Media poblacional 160, nmero de datos n = 49, media muestral X =156, varianza muestral s2 = 10.5 y nivel de significancia 0.01 La hiptesis nula y alternativa es Ho: H1: = 160 < 160 = 0.01 se tiene que A = 1 = 0.99, por lo que Z = -2.326

La prueba es de cola izquierda, para El estadstico de prueba es

X 156 160 = = -2.666 s / n 10.5 / 49

Puesto que Z < Z se rechaza H0. 35. Un nutrilogo desea comparar la efectividad de dos dietas para reducir de peso. Los siguientes datos se obtienen a partir de dos muestras independientes. Con = 0.10, existe suficiente evidencia de que la Dicta I produce una prdida menor de peso que la Dieta II? Dieta I Dieta II Tamao de la muestra n1=40 n2=60 Prdida promedio de peso en libras X 1 =9 X 2 =11 Varianza muestral s12=20 s22=30 SOLUCION La hiptesis nula y alternativa del problema son Ho: H1: 1< 2 Correspondiendo a una prueba de una cola izquierda

142

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

Para el nivel de significancia

0.10, se tiene que A = 1 -

= 0.90 por lo que Z =- 1.282

El estadstico de prueba es en este caso

X1 s1 n1
2

X2 s2 n2
2

9 11 20 40 30 60

9 11 1

= -2

Puesto que Z < Z se rechaza Ho, la dieta I produce una perdida de peso que la dieta II

DISTRIBUCION
La distribucin

(chi cuadrada)
(chi cuadrada) tambin es conocida como Ji cuadrada y surge como distribucin
2

reprobabilidad de la variable aleatoria

(n 1) s 2
2

la cual es utilizada como estadstico de prueba

para algunas pruebas de hiptesis, por ejemplo para la prueba de una sola varianza de la poblacin. La probabilidad acumulada para la distribucin es
x 0 2

P (0

x) = 2

1
/2

t/2

dt

(5.22)

De manera semejante a la distribucin t-student, la distribucin depende solamente de un parmetro, que es el nmero de grados de libertad ( =n-1), La grfica de para algunos grados de libertad es mostrada a continuacin,
0.5 0.45 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0

Funcin

=1

=5 =10 =15

10

15

20

25

30

Figura. Grfica de algunas funciones

con

=1,

=5,

=10 y

=15

143

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

Observndose que la distribucin no tiene simetra para valores pequeos de tendiendo a la simetra respecto a una recta perpendicular que pasa por su valor mximo para valores grandes de adems, el valor de nunca es negativo pudiendo tomar solamente valores positivos o cero. Al igual que para las anteriores distribuciones existen tablas de probabilidad acumulada para los valores de significacin ms utilizados en la prctica que permiten localizar los valores crticos de denotados en ocasiones como el primer subndice ndica los grados de libertad y el segundo la , significancia, como la distribucin no tiene valores negativos los valores de para una prueba de cola izquierda es totalmente diferente que el requerido de cola derecha, por ejemplo, para una distribucin chi cuadrado con grados de libertad para una significancia = 0.05 de cola izquierda se localiza en la tabla respectiva el valor de =10 y = 0.95, esto es debido a que el rea bajo la curva reportada en la tabla para la distribucin chi cuadrada se calcula de manera inversa a la reportada en las anteriores distribuciones de probabilidad, obtenindose un valor crtico
2 10, 0.95 2

3.9403 y correspondiente valor


2

para una significancia = 0.95 de cola derecha se localiza directamente 10, 0.05 18.307. La figura siguiente muestra los valores crticos anteriores para la distribucin chi cuadrada con =10.

0.1 0.09 0.08 0.07 0.06 0.05 0.04 0.03 0.02 0.01 0

10

15

20

25

30

35

40

10 , 0.95

=3.9403

10 , 0.05

=18.307 =10 y =

Figura. Representacin grfica de los valores crticos para la distribucin chi cuadrada para 0.95, para una prueba de cola izquierda y cola derecha.

PRUEBA PARA UNA SOLA VARIANZA


Esta prueba permite comparar la varianza de una poblacin que tiene una distribucin normal, con tales condiciones se puede mostrar que el estadstico
2

(n 1) s 2
2

(5.23)

tiene una distribucin con = n-1 grados de libertad. En la prueba de la varianza se considera que y n son constantes para cada problema particular, por lo que la distribucin de s2 de acuerdo a la ecuacin (53) tiene una distribucin . Por lo tanto se puede utilizar la expresin (53) como el estadstico de prueba para realizar la prueba de hiptesis para una sola varianza poblacional. Como en todos los casos de prueba de hiptesis la hiptesis nula se define como

144

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

Ho:

2 o

Y las correspondientes hiptesis alternativas H1:


2 2 2

>

<

2 o 2 o 2 o

Dependiendo de la eleccin del la hiptesis alternativa y el nivel de significancia se tomar la decisin, 2 por ejemplo, si H1: > o2, la hiptesis nula se rechazar solamente cuando DETERMINACION DEL INTERVALO DE CONFIANZA PARA POBLACIONAL LA VERDADERA VARIANZA

Para obtener el respectivo intervalo de confianza 1para la varianza poblacional se procede como en los casos anteriores utilizando el estadstico de prueba y los respectivos valores crticos inf y
sup

Esto es
2

n 1 s2
, / 2 inf 2

, / 2 sup

Invirtiendo la desigualdad

1
2 , / 2 inf

1
2 2 , / 2 sup

n 1 s

Multiplicando por n

1 s2 n 1 s2
2 , / 2 sup

n 1 s2
2 , / 2 inf

Finalmente

n 1 s2
2 , / 2 sup

n 1 s2
2 , / 2 inf

(5.24)

EJEMPLOS 36. Dada una distribucin con 20 grados de libertad, obtngase el valor siguientes reas bajo la curva. a) 2.5 superior d) 5% interior SOLUCION Buscando en la tabla = 20 y los correspondientes puntos porcentuales o noveles de significacin b) e) 10% superior 1% interior c) 90% superior que corta cada una de las

145

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

a) b) c) d) e)

= 34.1696 = 28.4120 = 12.4426 10.8508 se busca el 0.95 ya que el rea a la izquierda es 0.05. 8.2604 procediendo como en el inciso anterior el rea a la izquierda es 0.99

37. Obtnganse los puntos porcentuales bajo la cola superior de la distribucin con 16 grados de libertad, que estn cortados por los siguientes valores chi cuadrada a. 23.5418 b. 26.2962 c. 31.9999 SOLUCION Buscando en la tabla de la y en el nmero de grados de libertad rea se tiene directamente que a) b) c) 23.5418 26.2962 31.999 0.10 0.05 0.01 10% 5% 1% =16 los respectivos valores de

38. En una muestra de 10 observaciones tornadas a partir, de una poblacin normal, se encuentra que la varianza s2 es 15. Cules son los lmites de confianza del 90% para la varianza de la poblacin? SOLUCION Los datos proporcionados en el problema son Varianza muestral s2 =15 nmero de datos n = 10

1 - = 0.9

A partir de los datos e tiene que el nmero de grados de libertad es =10 - 1 = 9 Del intervalo de confianza 1 - = 0.9, el rea a la derecha /2 0.05, y para el rea a la izquierda de la distribucin chi -cuadrado 1 - 0.05 = 0.95, buscando estos valores en la tabla correspondiente para = 10 se tiene inf = 3.32511 sup = 16.9190 Sustituyendo en la ecuacin (54)

10 1 15 3.32511

10 1 15 16.9190

39. Cuando un proceso de produccin est funcionando adecuadamente, la varianza de las partes producidas es cuatro. Las medidas de las partes se distribuyen normalmente. Se sugiere que el proceso de produccin en la actualidad se encuentra fuera de control. Se selecciona aleatriamente una muestra de nueve partes producidas y se obtienen las siguientes medidas. 9 10 12 13 12 8 6 11 9

a. Obtngase la varianza s2 b. Prubese la hiptesis de que el proceso de produccin sigue funcionando adecuadamente, con = 0.10. c. Establzcase el intervalo de confianza del 90% para la verdadera varianza (s2, con base en la informacin muestral.

146

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

SOLUCION

a) se puede determinar la varianza muestral insesgada a partir de la ecuacin s

xi

xi n n 1

total x x2 9 81 10 100 12 144 13 169 12 144 8 64 6 36 11 121 9 81

xi = 90 xi2 =940

Sustituyendo

s2

940

90 9 1

9 =5
=9-1=8

El nmero de muestras es n = 9, por lo tanto el numero de grados de libertad es b) La varianza poblacional es libertad son = 9 -1 = 8
2

= 4 y el nmero total de datos es n = 9, entonces los grados de

Debido a que el proceso no funciona adecuadamente si la varianza es muy grande a pequea, la prueba de hiptesis es de dos colas, con las hiptesis nula y alternativa Ho: Hi:
2 2

=4 4

Para el nivel de significancia =0.10 se tiene para el rea a la derecha /2=0.05 y el rea a la izquierda 1- /2=1- 0.05 = 0.95, por lo que los valores crticos correspondientes para estos valores con = 8, son inf = 2.73264 sup = 15.5073 Evaluando el estadstico de prueba
2

(n 1) s 2
2

9 1 5 = 10 4

puesto que 15.5073, no se rechaza H0, el sistema funciona adecuadamente.


0.12

0.1

0.08

0.06

1-a a/2 a/2


0 5 10 15 20 25 30 35 40

0.04

0.02

Regin de rechazo Regin de aceptacin 8, 0.05=15.5073 8, 0.95=2.73264

Regin de rechazo

147

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

c) Evaluando la ecuacin

n 1 s2
2 , / 2 sup

n 1 s2
2 , / 2 inf

9 1 5 2.73264
2.5794 <
2

9 1 5 15.5073

< 14.6378

40. Se sugiere que despus de firmar un contrato laboral, la produccin por hora de los trabajadores mostrar una variacin mayor que antes de firmar el contrato. Se sabe que la varianza de las producciones por hora antes del contrato laboral era de 2 = 80. Considrese que las producciones por hora se distribuyen normalmente. Se selecciona una muestra aleatoria de 30 trabajadores y se obtienen sus producciones por hora despus de la firma del contrato. Se encuentra que la varianza de la muestra es 90 (s2 = 90). Debe llegarse a la conclusin de que la dispersin de las producciones por hora ha aumentado significativamente, con = 0.05? SOLUCION La varianza poblacional es 2 = 80, la varianza muestral es s2 = 90, el tamao de muestra es 30 y el nivel de significancia es = 0.05, entonces los grados de libertad son =30 - 1 = 29. Las hiptesis de la prueba son Ho: Hi:
2 2

= 80 > 80

Situacin correspondiente a una de cola derecha. Para estas condiciones el valor crtico es 29, 0.05 = 42.5570 y en valor del estadstico de prueba
2

(n 1) s 2
2

30 1 90 = 32.6250 80

Como

32.6250 < 32.6250 no se rechaza H0.

0.06

0.05

0.04

0.03

1-a

0.02

0.01

a
0 10 20 30 40 50 60

Regin de aceptacin

Regin de rechazo 8, 0.05=42.5570

148

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

PRUEBA DE BONDAD DE AJUSTE


Mediante esta prueba se puede verificar si los datos obtenidos de un experimento particular siguen alguna distribucin particular, por ejemplo, una distribucin uniforme, distribucin binomial, distribucin normal, etc. La prueba necesita la clasificacin de los datos muestrales en una tabla de distribucin de frecuencia denominada frecuencias observadas y esta se compara con las frecuencias esperadas obtenidas utilizando alguna distribucin elegida, las frecuencias observadas se denotan por la letra O y las correspondientes esperadas con la letra E tal como se muestra a continuacin. I II E1 O1 E2 O2 . . Ek Ok . EJ OJ

El estadstico de prueba

est definido como


J 2 k 1

Ok

Ek Ek

(5.25)

Donde la sumatoria se lleva a cabo sobre todas las frecuencias clases (J) en que han sido dividido los datos. Cuando el tamao de la muestra es grande de tal manera que ninguna frecuencia esperada es menor a 5, se distribuye aproximadamente siguiendo un distribucin chi cuadrada con = J 1, grados de libertad. Por la definicin dada al estadstico de prueba en la ecuacin (55), la prueba de hiptesis es de una cola derecha, que indica que el ajuste o comparacin con la distribucin esperada es bueno si la diferencia entre los valores observados son muy parecidos a los esperados dando por resultado un valor de pequeo, pero cuando el valor de es ms grande que un valor especificado (valor crtico ), la hiptesis nula se rechaza indicando que no existe suficiente evidencia para decir que los datos propuestos tienen la distribucin propuesta. EJEMPLOS 41. Se supone que una tabla de dgitos aleatorios es no sesgada; esto es, cada uno de los 10 dgitos debe tener la misma probabilidad de aparecer. Para probar si ste es o no en realidad el caso, se selecciona una muestra de 100 dgitos y se obtienen los siguientes resultados. Dgito: 0 1 2 3 4 5 6 7 8 9 Total Nmero de veces: que aparece 8 11 10 14 7 12 6 9 13 10 100 Debera rechazarse la hiptesis de que los dgitos de la tabla estn arreglados aleatriamente, con 0.05? SOLUCION El nmero de clases es J = 10, por lo tanto, los grados de libertad son = J 1 = 10 -9 = 9. Para el nivel de significancia = 0.05 y 9 grados de libertad el valor crtico es v, = 9, 0.05=16.9190 Considerando la distribucin uniforme, se tiene que el valor esperado correspondiente es Dgito: Frecuencia esperada 0 1 2 3 10 10 10 10 4 5 10 10 6 10 7 10 8 9 10 10 Total 100

149

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

A partir de las tablas anteriores se calcula el estadstico de prueba


J 2 k 1
2

Ok

Ek Ek

= (8-2)2/10 + (11-10)2/10 + (10-10)2/10 + (14-10)2/10 + (7-10)2/10 + (8-10)2/10 +

+ (6-10) /10 + (9-10)2/10 + (13-10)2/10 + (10-10)2/10 = 6 Como 6 < 16.9190 no se rechaza Ho, La distribucin si es uniforme.

0.12

0.1

0.08

0.06

1-a

0.04

0.02

a
0 5 10 15 20 25 30

Regin de aceptacin

Regin de rechazo
9, 0.05=16.9190

42. Se arrojan simultneamente cuatro monedas balanceadas 160 veces. A continuacin se muestran los resultados. Nmero de caras: Frecuencia observada: 0 16 1 35 2 55 3 48 4 6 Total 160

Con = 0.05, prubese la hiptesis nula de que las cuatro monedas estn todas bien balanceadas y fueron arrojadas aleatriamente. SOLUCION La distribucin de probabilidad para el experimento de arrojar cuatro monedas balaceadas se muestra a continuacin x f(x) 0 1/16 1 4/16 2 6/16 3 4/16 4 1/16

Por lo que el las frecuencias esperadas para el experimento Nmero de caras: Frecuencia esperada: 0 10 1 40 2 60 3 40 4 10 Total 160 =

El nmero de clases es J = 5, por o que 0.05 es v, = 4, 0.05 = 9.48773.

= J 1 = 4, el valor crtico es para el nivel de significancia

150

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

El estadstico de prueba es
J 2 k 1

Ok

Ek Ek

16 10 10

35 40 40

55 60 60

48 40 40

6 10 10

= 7.8417

Como 7.8417 < 9.48773 no se rechaza Ho, las monedas se encuentran bien balanceadas.
0.2 0.18 0.16 0.14 0.12 0.1 0.08 0.06 0.04 0.02 0

1-a a
0 2 4 6 8 10 12 14 16 18 20

Regin de aceptacin

Regin de rechazo
9, 0.05=9.48773

43. En un experimento con chcharos, un bilogo observa 186 plantas altas y coloridas, 66 altas y sin color, 54 bajas y coloridas, y 14 bajas y sin color. De acuerdo a la teora de la herencia de Mendel, sera de esperarse que las diferentes categoras tuvieran las siguientes proporciones: 9:3:3:1. Existe suficiente evidencia para apoyar la teora de Mendel, al nivel de significacin del 0.01? SOLUCION La informacin de la frecuencia observada del experimento se resume en la siguiente tabla Clases Frecuencia observada Altas y color 186 Altas sin color 66 Bajas con color 54 Bajas sin color 14 Total 320

Las proporciones del problema son 9:3:3:1, lo cual se puede traducir en trminos de la probabilidad en 9x + 3x + 3x +x = 1, de donde x = 1/16, por lo que las frecuencias esperadas son 9/16x320=180 Clases Frecuencia esperada 3/16x320=60 Altas y color 180 3/16x320=60 1/16x320=20 Bajas con color 60 Bajas sin color 20 Total 320

Altas sin color 60

El nmero de clases es J = 4, por o que 0.01 es v, = 3, 0.01 = 11.3449.

= J 1 = 3, el valor crtico es para el nivel de significancia

151

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

El estadstico de prueba es
J 2 k 1

Ok

Ek Ek

186 180 180

66 60 60

54 60 60

14 20 20

= 3.2

Como 3.2 < 11.3449, no se rechaza Ho el experimento cumple las leyes de Mendel.

0.25

0.2

0.15

1-a
0.1

0.05

a
0 2 4 6 8 10 12 14 16 18 20

Regin de aceptacin

Regin de rechazo =11.3449 3, 0.01

PRUEBA DE INDEPENDENCIA
Otro tipo de prueba donde se puede aplicar la distribucin chi cuadrado en la prueba de independencia donde se toma la decisin acerca de si una variable es independiente de la otra de otra variable. La hiptesis nula se establece suponiendo que son independientes. Los datos se acomodan en una tabla llamada tabla de contingencia, en la cual existe N clases o categoras de rengln y M clases o categoras de columna. Al final de cada una de las filas o columnas se escriben los totales marginales de fila Rj o columna Ck. La interseccin de cada columna y fila da una celda Cjk que es la frecuencia observada. A continuacin se muestra una tabla de contingencia general.

C11 C12 --- C1k --- --- C1M C21 C22 --- C2k --- --- C2M C31 --------------Cjk ------- ----- ----- ------CjM --CNM CM R1 R2 --Rj --RN

Cj1 Cj2 -----

CN1 CN2 --- CNk --C1 C2 --Ci --- Ck

El estadstico de prueba es una generalizacin del utilizado el la prueba de bondad de ajuste, por lo que es necesario calcular primero los valores esperados Ejk, los cuales se pueden obtener a partir de los

152

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

totales marginales de fila Rj, los totales marginales de columna Ck y el nmero total de datos n, mediante la siguiente ecuacin.

E jk

R j Ck n

(5.26)

El estadstico de prueba para probar la independencia de dos variables es:


N 2 j 1 k 1 M

(C jk

E jk ) 2 E jk

(5.27)

La cual tiene una distribucin chi cuadrado con

= (N 1)(M - 1) nmero de grados de libertad.

La prueba es una prueba de cola derecha, y se rechazar la hiptesis nula H0 si el valor del estadstico de prueba es lo suficientemente grande para superar el valor crtico establecido a partir de la significancia y de el nmero de grados de libertad El rechazo de la hiptesis nula implicar que las variables son dependientes, en caso contrario sern independientes. EJEMPLOS 44. Supngase que la siguiente es la distribucin de frecuencias observada de 1000 votantes clasificados segn el partido al que estn afiliados y su preferencia al votar con respecto a cierto asunto. Pref. al votar En contra A favor Total Demcratas Republicanos 250 400 650 200 150 350 Total 450 550 1000

Prubese la hiptesis de que la preferencia al votar no esta relacionada con la afiliacin de partido, con = 0.05. SOLUCION A partir de los totales marginales y el total de datos se obtienen los valores esperados Eij utilizando la ecuacin E jk

R j Ck n

. Los resultados esperados son acomodados en la siguiente tabla Pref. al votar En contra A favor Total Demcratas Republicanos 292.5 357.5 650 157.5 192.5 350 Total 450 550 1000

A partir de las dos tablas anteriores se calcula el estadstico de prueba

153

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

N 2

(C jk

E jk ) 2 E jk

j 1 k 1

250 292.5 292.5

200 157.5 157.5

400 357.5 357.5

150 192.5.5 192.5

= 32.079 El nmero de grados de libertad para el problema es v, = 1, 0.05=3.84146 = (2 1)(2 - 1) = 1, Por lo que el valor crtico es

Puesto que 3.84146< 32.079 se rechaza Ho, por lo que si hay dependencia en las variables, 45. Se realiza una investigacin para determinar si la calificacin de desempeo en el trabajo es independiente de los logros acadmicos en universidad. Se selecciona aleatriamente una muestra de 100 empleados y su clasificacin en una tabla de 3 por 3 se muestra a continuacin.
Nivel acadmico en universidad Calificacin de desempeo Excelente Promedio Malo Total A 10 20 20 50 B 5 12 13 30 C o menos 5 8 7 20 Total 20 40 40 100

Especificando el nivel de significacin en 0.01, debe llegarse a la conclusin de que la calificacin de desempeo en el trabajo no est relacionada con los logros acadmicos en universidad? SOLUCION Primero se construye la tabla de continencia de los valores esperados utilizando la ecuacin

E jk

R j Ck n
Nivel acadmico en universidad Calificacin de desempeo Excelente Promedio Malo Total A 10 20 20 50 B 6 12 12 30 C o menos 4 8 8 20 Total 20 40 40 100

Procediendo a calcular el estadstico de prueba


N 2 j 1 k 1 M

(C jk

E jk ) 2 E jk

10 10 10

20 20 20

20 20 20

5 6 6

12 12 12

154

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

13 12 12

5 4 4

8 8 8

8 7 8

= 0.54166

El nmero de grados de libertad para el problema es y = 0.01es v, = 4, 0.01 = 13.2767

= (3 1)(3 - 1) = 4, Por lo que el valor crtico para

Puesto que 0.54166< 13.2767 no se rechaza Ho, por lo que las variables son independencia. 46. Un psiclogo realiz un experimento para determinar si el desempeo de los estudiantes est relacionado con el mtodo utilizado en cierto tema. Se estn considerando tres mtodos de enseanza: 1, 11, y 111, y el desempeo de los estudiantes se clasifica como A, B o C. Los resultados fueron los siguientes. METODOS DE ENSEANZA III III 20 5 15 10 15 10 50 25

Desempeo A B C Total

I 5 15 5 25

Total 30 40 30 100

Prubese la hiptesis nula de que el desempeo de los estudiantes no est relacionado con el mtodo de enseanza, con = 0.01. SOLUCION Construyendo primero la tabla de continencia de los valores esperados utilizando la ecuacin

E jk

R j Ck n
Desempeo A B C Total METODOS DE ENSEANZA I III III 7.5 15 7.5 10 20 10 7.5 15 7.5 25 50 25 Total 30 40 30 100

Calculando el estadstico de prueba


N 2 j 1 k 1 M

(C jk

E jk ) 2 E jk

5 7.5 = 7.5
2

15 10 10
2

5 7.5 7.5

20 15 15
= 8.73

15 20 20

15 15 15

5 7 .5 7 .5

10 10 10

10 7.5 7.5

El nmero de grados de libertad para el problema es


v,

= (3 1)(3 - 1) = 4, Por lo que el valor crtico es

4,0.01 =

13.2767

Puesto que 8.73< 13.2767 no se rechaza Ho, por lo que no hay dependencia en las variables,

155

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

PRUEBA DE FISHER
R. A. Fisher, quien fue el primero en obtener la distribucin y desarrollar la prueba, de ah el nombre de la distribucin. La prueba F se utiliza principalmente para probar la igualdad entre dos varianzas poblacionales que provienen de poblaciones que tiene una distribucin normal, tambin se ha desarrollado un procedimiento basado en esta prueba para investigar la igualdad entre tres ms medias poblacionales, procedimiento que comnmente se denomina anlisis de varianza (ANOVA). El estadstico de prueba para la prueba F es la razn de los estimadores insesgados de dos varianzas poblacionales

s1 s2

2 2

(5.28)

Se debe cumplir siempre que s12>s22 para que la razn sea mayor que uno (F =1). La probabilidad acumulada para la distribucin Fisher se obtiene de la siguiente ecuacin
1 2
1

/2 2

/2 x 0

P (0

x) =

2
1

/2 1 2 1

/2

dt

(5.29)

La distribucin F tiene 2 variables y que son los grados de libertad de cada una de las poblaciones. = n1 - 1 grados de libertad de la poblacin 1 grados de libertad de la poblacin 2 2= n2 - 1 Entonces, para cada pareja de valores y se tendr una tabla correspondiente a los valores porcentuales de ms utilizados. En general los valores crticos F , 1, 2 es diferente de F , 2, 1, esto es, si se intercambian los valores de y no se obtiene el mismo valor crtico, por lo que hay que tener cuidado al utilizar las tablas y recordar que se asocia la poblacin que tiene la mayor varianza y .a la que tiene la menor varianza. Algunas grficas de la distribucin F se muestran a continuacin. Se observa que la distribucin no tiene simetra en ningn caso mostrado.
1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0

F1,

F8, F3,

0.5

1.5

2.5

3.5

4.5

Figura. Grfica de algunas de distribuciones Fisher, F1, , F3, y F8,

156

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

PRUEBA DE LA DIFERENCIA DE DOS VARIANZAS


Al igual que en las pruebas anteriores, la hiptesis nula H0 se asocia con la igualdad entre los estadsticos de prueba poblacionales y la hiptesis alternativa H1 solamente tiene dos posibles opciones, una prueba de cola derecha y una prueba de dos colas Ho: H1:
2 1 2 1 > 2 1 2 2 2 2 2 2

El estadstico de prueba a utilizar es F

s1 s2

2 2

, el cual cumple con la distribucin Fisher. La hiptesis

nula se rechazar si el valor de F es lo suficientemente grande para que sea mayor que el valor crtico F , 1, 2. EJEMPLOS 47. Supngase que se comparan las materias primas suministradas por dos proveedores. En apariencia los dos proveedores proporcionan materiales distribuidos normalmente con el mismo promedio, pero existe preocupacin en cuanto a la variabilidad de los materiales. Una muestra de 16 lotes del Proveedor I proporciona una varianza de 150 (s12 = 150), mientras que una muestra de 21 lotes provenientes del Proveedor II proporciona una varianza de 225 (s22 = 225). Prubese la hiptesis nula de que sus varianzas verdaderas son iguales contra la hiptesis alternativas de que son diferentes, con = 0.05. SOLUCION Los datos de cada un de los proveedores se resumen a continuacin (reacurdese que s12>s22) Proveedor I s22=150 n2 =16 Proveedor II s12=225 n1=21

La hiptesis nula y alternativa de problema son respectivamente Ho: H1:


2 1 2 1 2 2 2 2

Utilizando el nmero de datos de cada muestra, = 21 1 = 20 y =16 1 = 15. Por otra parte, puesto que la prueba es de dos colas y =0.05, /2=0.025 El valor crtico para la prueba es F0.025, 20, 15 = 2.76. EL estadstico de prueba es

s1 s2

2 2

225 =1.5 150

Como 1.5 < 2.76, no se rechaza Ho, las varianzas son estadsticamente iguales.

157

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0

1-a a/2
0 0.5 1

F a/2
1.5 2 2.5 3 3.5 4 4.5 5

Regin de rechazo

Regin de aceptacin
F0.025, 20, 15 = 2.76

Regin de rechazo

48. Se emplean dos mtodos de enseanza de la lectura a dos grupos seleccionados aleatriamente de nios de nueve aos. Se desea determinar si los resultados de los dos mtodos, en trminos de las puntuaciones obtenidas en una prueba estndar de lectura, tienen la misma variabilidad. Supngase que se obtienen los siguientes datos de las dos poblaciones consideradas como normales: Mtodo I Tamao de la muestra Varianza muestral n1 = 25 s12 = 108 Mtodo II n2 = 30 s22 = 95

Con un nivel de significacin de 0.05, debera llegarse a la conclusin de que las puntuaciones de prueba de los dos grupos tienen la misma varianza poblacional? SOLUCION En este caso la hiptesis nula y alternativa de problema son 2 2 Ho: 1 2 2 2 H1: 1 2 Utilizando el nmero de datos de cada muestra, =25 1 = 24 y =30 1 = 29. La prueba es de dos colas, entonces como =0.05, /2=0.025 El valor crtico para la prueba es F0.025, 24, 29 = 2.15, por otra parte estadstico de prueba es

s1 s2

2 2

108 = 1.1368 95

Como 1.1368 < 2.15, no se rechaza Ho, las varianzas son estadsticamente iguales.

0.8

0.6

1-a

0.4

0.2

a/2
0 0.5

F =
1.1368
1 1.5 2

a/2
2.5 3

Regin de rechazo

Regin de aceptacin

Regin de rechazo
F0.025, 20, 15 = 2.15

158

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

49. Un psiclogo desea determinar si la inteligencia de las nias ms variable que la de los nios. Se sabe que los C.I. tanto de nios como de nias se distribuyen normalmente. Supngase que una muestra aleatoria de los C.I. de 61 nias proporciona una varianza de s12 = 240, y una muestra aleatoria de los C.I. de 61 nios proporciona una varianza de s22 = 200. Con = 0.01, prubese la hiptesis nula de que la variabilidad de los C.I. de las nias es igual que la de los nios, contra la hiptesis alternativa de que la primera es mayor que la segunda. SOLUCION Los datos para el grupo de nios y nias se resumen a continuacin Nias Nios s12 = 240 s22 = 200 n1 = 61 n2 = 61 La hiptesis nula y alternativa de problema son respectivamente Ho: H1:
2 1 2 1 2 2 2 2

>

Los grados de libertad para cada muestra son respectivamente = n1-1 = 61 1 = 60 y = n2-1 = 61 1 = 60 = 0.01.

La prueba de hiptesis es de cola derecha con

El valor crtico para la prueba es F0.01, 60, 60 = 1.84. EL estadstico de prueba es

s1 s2

2 2

240 =1.2 200

Como 1.2 < 1.84, no se rechaza Ho, las varianzas son estadsticamente iguales.

1.8 1.6 1.4 1.2 1 0.8 0.6 0.4 0.2 0

1-a F
0 0.5 1 1.5

a
2 2.5

Regin de aceptacin

Regin de rechazo
F0.01, 60, 60 = 1.84

159

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

50. Se emplean dos mquinas, I y II, para producir pernos idnticos cuyas longitudes se cree que se distribuyen normalmente. Una muestra aleatoria de 41 pernos producidos por la mquina I da una s12=0.5, una muestra de 61 pernos producidos por la mquina II da una s22 =0.3. Pruebe la hiptesis nula de que pernos producidos por las dos mquinas tienen variabilidad idntica, contra la hiptesis alternativa de que tiene varianza diferente, con =0.10. SOLUCION Las varianzas y nmero de datos se resumen a continuacin para cada mquina Maquina I s12=0.5 n1=41 Maquina II s22=0.3 n2=61

Para este problema la hiptesis nula y alternativa de problema son 2 2 Ho: 1 2 2 2 H1: 1 2 A partir del nmero de datos de cada muestra se determina los grados de libertad = 41 1 = 40 y = 61 1 = 60.

Como =0.1 y la prueba es de dos colas, se tiene que /2 = 0.05 El valor crtico para la prueba es F0.05, 40, 60 = 1.59, El estadstico de prueba es

s1 s2

2 2

108 =1.66 95

Como 1.59 < 1.66, se rechaza Ho, las varianzas son estadsticamente diferentes.
1.8 1.6 1.4 1.2 1 0.8 0.6 0.4 0.2 0

1-a F = 1.66 a/2


0 0.5 1 1.5 2

a/2
2.5

Regin de rechazo

Regin de aceptacin
F0.05, 40, 60 = 1.59

Regin de rechazo

160

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

ANALISIS DE VARIANZA (ANOVA)


El anlisis realizado mediante la distribucin t-student permite entre otras cosas realizar la comparacin entre dos medias muestrales que provienen de poblaciones con distribucin normal y tiene la misma varianza, pero si se desea generalizar el problema anterior, esto es, comparar entre tres o ms medias muestrales provenientes de poblaciones con distribucin normal y varianza idntica, la distribucin tstudent no sera el mtodo ms adecuado para llevar a cabo tal comparacin, ya que esta prueba solo se aplica a parejas de medias, afortunadamente se ha desarrollado un mtodo conocido como anlisis de varianza (ANOVA) que permite de una manera directa realizar la comparacin, esta prueba utiliza a la distribucin F o Fisher como base, ya que el estadstico de prueba se define como la razn de dos cantidades positivas que se relacionan con la varianza total de los datos y con la varianza de las medias respecto de las media total, ms adelante se da una descripcin del mtodo utilizando un ejemplo numrico. La prueba ANOVA tiene como hiptesis nula H0 de que todas las medias 1, 2, 3, hiptesis H1 que alguna de ellas es diferente, lo anterior se ndica a continuacin Ho: H1:
1 1 2= 2 3 == 3 k k k

son iguales y la

La descripcin del mtodo se realizar mediante el siguiente ejemplo, en donde cada columna muestra las calificaciones obtenidas al aplicar un mtodo de aprendizaje, hay tres mtodos diferentes, por lo que la hiptesis nula es que los tres mtodos producen resultados idnticos y la hiptesis alternativa es que producen resultados diferentes. Ho: H1:
1 1 2= 2 3 3

METODO I 74 78 73 73 72 Total 370

METODO II 84 77 79 79 81 400

METODO III 83 85 86 87 89 470

A partir de la suma total de cada mtodo se determina las medias para cada uno de los mtodos utilizando la frmula para el promedio x clase.

xi , donde n es el nmero de datos en cada mtodo o n

x1 370/5 = 74 x2 400/5 = 80 x3 430/5 = 86


Las respectivas varianzas insesgadas de cada mtodo se pueden calcular aplicando s s1 =
2

xi x n 1

74 74

78 74

73 74 5 1

73 74

72 74

=5.5

161

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

s22= s32=

84 80
83 86

77 80
85 86

79 5 86 5

80 1 86 1

79 80
87 86

81 80
89 86

=7
2

=5

La media de las medias o media total es

x=

370 400 470 = 80 15

La varianza de las medias muestrales se puede calcular como


2

sx

( xi n 1

x)2

74 80

80 80 3 1

86 80

= 36
2 x

s x (varianza de la media muestral) es un estimador de


2 x

(varianza de la media poblacional), esto es

= s x =36
2 2 x

Por otra parte recordando el teorema del lmite central nmero de datos en cada muestra, se tiene que
2

y tomando como n = 5 ya que es el

2 x

5(36) 180

Lo anterior muestra como la varianza para las medias se transforma en un estimador de la varianza de una poblacin. Como 2 se obtiene a partir de las 3 medias que representan a cada uno de los mtodos, por lo que sus grados de libertad son = 3 -1 = 2. Para un coso ms general donde existan K clase se tendr que los grados de libertad para general. =K-1 La estimacin de 2 mejora si se utiliza toda la informacin disponible de las muestras, por lo que un mejor estimador sera el promedio de cada de las varianzas individuales s12, s22 y s32,
2

son

sW

K i 1

si K 1

5.5 7 5 = 5.83 3 1
2

Los grados de libertad de sW


2=

para un caso general se puede obtener mediante

n 1 + n 2+ n k K = N - k

Donde nk, es el nmero de datos en la clase k y N es el nmero total de datos. Para el presente ejemplo
2=

5 + 5 + 5 3 = 12

162

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

El estadstico de prueba se define como

2 sx 2 sW

por lo tanto, para el ejemplo

180 = 30.9 5.83

Para aceptar o rechazar la hiptesis nula, se requiere de un valor crtico, por ejemplo si =0.05 F
,
1, 2

= F0.05,2,12 = 3.89

Puesto que 3.89 < 30.9 Se rechaza Ho, lo que se traduce en que los mtodos de aprendizaje son diferentes.

Mtodo general En general si se tiene una tabla con K muestras o clases y cada muestra tiene nk datos como se muestra a continuacin
Muestra I Muestra II Muestra K

Tamao de la muestra Total de la muestra

x11 x12 . . x1n n1 T1

x21 x22 . . x2n n2 T2

xk1 xk2 . . xkn nk Tk

Las siguientes definiciones permiten simplificar los resultados


nk

Total de la muestra k

TK
i 1

X i ,k
K nk

Suma total de la muestras

T
j 1 i 1

X i, j
k

Total de las observaciones

N = n1+ n2+nk =
i 1

ni

Recordando que el estadstico de prueba se defini como la razn de la varianza entre las medias muestrales y la varianza dentro de cada una de las muestras. La suma externa de cuadrados se define como
K

SSB
k

Tk 1 nk

T2 N

(5.30)

163

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

La cual tiene

1=

K -1 grados de libertad.

La suma interna de cuadrados calcula la varianza dentro de cada una de las muestras.
K nk 2 K k

SSW
j 1 i 1

xi , j

Tk 1 nk

(5.31)

La cual tiene

2=

N -K grados de libertad.

La suma total de cuadrados se define como la suma

SST

SSB

SSB

(5.32)

Utilizando las definiciones anteriores, la suma total de cuadrados es


K nk

SST
j 1 i 1

xi , j

T2 N

(5.33)

La varianza entre las medias muestrales se determina como


2 SB

SSB K 1

(5.34)

La varianza dentro de cada una de las muestras es


2 SW

SSW N K
2 sB 2 sW

(5.35)

La razn o estadstico de prueba se define como

(5.36)

El procedimiento de anlisis de varianza se resume en la siguiente tabla

Fuentes de variacin Entre grupos Dentro de los grupos Total

Suma de cuadrados
K

Grados de libertad K-1


2

Varianza

Razn F

SSB
k K nk

Tk 1 nk

T2 N
K k

2 B

SSB K 1 SSW N K

2 sB 2 sW

SSW
j 1 i 1
K

xi , j
nk

Tk 1 nk

N-K

2 SW

SST
j 1 i 1

xi , j

T2 N

N-1

164

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

EJEMPLOS 51. Utilizando los datos del ejemplo anterior y las frmulas (60) y (61) obtenga: SB2 y Sw2 y F. SOLUCION Mtodo I X1 74 78 73 73 72 370 Mtodo II X2 84 77 79 79 81 400 K = 3. N = n1+ n2+nk = 5 + 5+ 5 = 15 T1=370 T2=400 T3=430 Mtodo III X3 83 85 86 87 89 470 Mtodo I X12 5476 6084 5329 5329 5184 27402 Mtodo II X22 7056 5929 6241 6241 6561 32028 Mtodo III X32 6889 7225 7396 7589 7921 37000

Total

Numero de clases Nmero total de datos La suma de cada muestra es Total de las observaciones Suma externa de cuadrados
K

T = 370 + 400 + 430=1200

SSB
k

Tk 1 nk

T 2 370 2 = N 5
1=

400 2 5

430 2 5

1200 2 = 360 15

Grados de libertad
2 SB

K -1 = 3 -1 =2

SSB 360 = =180 K 1 3 1

Suma interna de cuadrados


K nk 2 K k

SSW
j 1 i 1

xi , j

Tk = 27402 32028 37000 1 nk


2=

370 2 5

400 2 5

430 2 = 70 5

Grados de libertad
2 SW

N -K = 15 -3 =12

SSW 70 = = 5.833 N K 15 3
2 sB 180 = = 30.86 2 sW 5.833

El estadstico de prueba es

165

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

Obtenindose los mismos resultados descritos en el ejemplo anterior. 52. A tres grupos de pollos seleccionados aleatriamente se les alimenta con tres dietas diferentes. Cada grupo consta de cinco pollos. Sus aumentos de peso durante un periodo especfico de tiempo son los siguientes: Dieta I 4 4 7 7 8 Dieta II 3 4 5 6 7 Dicta III 6 7 7 7 8

Utilcese =0.05 para probar la hiptesis nula de que las tres dietas tienen el mismo efecto en el aumento de peso de los pollos, contra la hiptesis alternativa de que tienen distintos efectos. SOLUCION Un resultado interesante es que la suma externa de cuadrados y la suma interna de cuadrados no se ven alteradas si a cada dato de la tabla se le suma o resta un nmero fijo. Haciendo uso de la idea anterior conviene restarle a cada dato el nmero 7 Dieta I X1 -3 -3 0 0 1 -5 Dieta II X2 -4 -3 -2 -1 0 -10 Dieta III X3 -1 0 0 0 1 0 Dieta I X12 9 9 0 0 1 19 Dieta II X22 16 9 4 1 0 30 Dieta III X32 1 0 0 0 1 2

Total

El nmero de clases es K = 3 y el nmero total de datos es N =15 La hiptesis nula y alternativa del problema es Ho: H1:
1 1 2 2 3 3

Los respectivos grados de libertad son v1= K-1 = 3 -1 = 2 Como =0.05 el valor crtico para la prueba es F T1= -5
, 1, 2=

v2 =N K = 15 - 3=12

F0.05,2,12 = 3.89 T3=0

La suma de cada muestra es Suma total de las observaciones

T2= -10

T = -5 - 10 + 0=-15

Calculando la suma externa de cuadrados

166

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

SSB
k

Tk 1 nk

T2 = N

5 5

10 5

02 5

15 15

= 10

por lo tanto
2 SB

SSB 10 = =5 K 1 3 1

La suma interna de cuadrados es


K nk K k

SSW
j 1 i 1

xi , j

Tk = 19 30 2 1 nk

5 5

10 5

02 = 26 5

2 SW

SSW 26 = = 13/6 = 2.1667 N K 15 3

El estadstico de prueba es

2 sB 5 = = 2.307 2 sW 2.1667

Como 2.307 < 3.89, no se rechaza Ho, las dietas son igualmente efectivas. 53. Una compaa manufacturera tiene cuatro mquinas idnticas en un proceso especifico de produccin. Cada mquina es operada por un trabajador distinto. Se toma de cada mquina una muestra de los productos obtenidos durante un periodo de cinco horas y se obtiene el nmero de partes defectuosas producidas cada hora. Los resultados son los siguientes: Mquina I 10 9 9 9 8 Mquina II 7 7 8 8 5 Mquina III 2 3 3 3 4 Mquina IV 3 3 6 6 7

Utilizando = 0.01, prubese la hiptesis nula de que las mquinas producen el mismo promedio de partes defectuosas por hora, contra la hiptesis alternativa de que los cuatro promedios son diferentes. SOLUCION Restando el numero 6 a cada elemento de tabla MI X1 4 3 3 3 2 15 M II X2 1 1 2 2 -1 5 M III X3 -4 -3 -3 -3 -2 -15 M IV X4 -3 -3 0 0 1 -5 MI X12 16 9 9 9 4 47 M II X22 1 1 4 4 1 11 M III X32 16 9 9 9 4 47 M IV X42 9 9 0 0 1 19

Total

167

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

El nmero de clases es K = 4 y el nmero total de datos es N =20 La hiptesis nula y alternativa del problema es Ho: H1:
1 1 2 2 3 3

Los respectivos grados de libertad son v1= K-1 = 4 -1 = 3 Como =0.01 el valor crtico para la prueba es f T1= 15 T = 15 + 5 - 15 -5 = 0
, 1,

v2 =N K = 20 - 4=16 = 5.29 T3=15 T4=47

2 = f0.01,3,16

La suma de cada muestra es Total de las observaciones

T2= 7

Calculando la suma externa de cuadrados


K

SSB
k

Tk 1 nk

T 2 15 = N 5

5 5

15 5

5 5

0 = 100 20

por lo tanto
2 SB

SSB 100 = = 33.3333 K 1 4 1

La suma interna de cuadrados es


K nk 2 K k

SSW
j 1 i 1

xi , j

Tk = 47 11 47 19 1 nk

15 5

5 5

15 5

5 5

= 24

2 SW

SSW 24 = = 1.5 N K 20 4

El estadstico de prueba es

2 sB 33.3333 = = 22.222 2 1.5 sW

Como 5.29 < 22.222, se rechaza Ho, los promedios de produccin son diferentes.

168

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

UNIDAD VI Regresin y correlacin


REGRESIN
Existen problemas experimentales en los cuales se trata de establecer si existe un relacin entre dos conjuntos de datos X y Y, por ejemplo se desea establecer la cantidad de lluvia (X) se relaciona con la produccin de trigo (Y), o si la experiencia en aos (X) se relaciona con las ventas obtenidas (Y), etc. Si la relacin existe entonces se puede estimar que tan fuerte es esta relacin o dependencia, adems es posible determinar el valor posible de una variable a partir del valor de la otra. Dependiendo del problema es posible determinar la relacin entre las variables X y Y, mediante la tcnica de regresin. La fuerza de la relacin entre las variables X y Y se determina mediante el coeficiente de correlacin. Si en un problema se tienen solamente dos variables, se dice que la tcnica es una regresin o correlacin simple. Cuando existen ms variables involucradas se dice que el problema es de regresin o correlacin mltiple. En caso de regresin simple la variable que es utilizada para estimar a la otra se llama variable independiente y se denota por X, mientras que la otra es conocida como variable dependiente y se denota por la letra Y. La regresin mltiple involucra dos o ms variables independientes y una variable dependiente.

REGRESION LINEAL
La regresin lineal se refiere a determinar la mejor ecuacin lineal de la forma:

m x b que es

posible establecer entre las variables X y Y. En muchas ocasiones la relacin entre las variables es no lineal lo cual complica el problema, pero en muchos casos es posible determinar una relacin entre las variables de la forma: y = f(x), donde f(x) puede ser una relacin polinomial, potencial, exponencial. etc. El trabajo de aplicar la regresin lineal a un problema consiste en determinar los valores parmetros m y b de la recta y m x b a partir del conjunto de datos X y Y

DIAGRAMA DE DISPERSIN
Como primer paso para la obtencin de una regresin se grafican los datos, lo cual es conocido como diagrama de dispersin. En la figura A siguiente se muestran una tabla de datos y su respectivo diagrama de dispersin.

169

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

DIAGRAMA DE DISPERSION

TABLA DE DATOS

35

30

X
x1 x2 . . . xn

Y
y1 y2 . . . yn

25

20 Y 15 10 5 0 0

5 X

10

15

MTODO DE MNIMOS CUADRADOS


Como se puede observar del diagrama de dispersin anterior los datos no se encuentran exactamente en una lnea recta. El criterio que ms se utiliza para determinar la mejor recta de ajuste se conoce como mtodo de mnimos cuadrados, consiste en buscar los parmetros m y b de la recta y m x b de tal manera que las suma de los cuadrados de las distancias verticales entre los puntos de la recta y del diagrama de dispersin sea lo ms pequea posible. La figura siguiente muestra la idea general del mtodo de mnimos cuadrados, cada uno de los 15 puntos graficados muestra representa a cada uno de los pares ordenados (Xi ,Yi) donde i =1, 2, 3,,n. Al sustituir el valor de la abscisa Xi de cada uno de los puntos en la ecuacin de la recta y m x b se obtienen un conjunto de valores Yri sobre la recta.
35

m Xi

b , donde i =1, 2, 3,, n., los cuales se encuentran

30

25

20 Y

Yi
15

mx b

Yri
10

5 X

10

15

170

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

La diferencia Di = Yi

Yri se denomina desviacin, por lo que la idea bsica del mtodo de mnimos

cuadrados se puede expresar matemticamente como:


n

S (m, b)
i 1

Di

(Yi
i 1

Yri ) 2

(6.1)

Para el caso de la lnea recta la ecuacin anterior toma la forma siguiente


n

S (m, b)
i 1

Di

(Yi
i 1

mX i

b) 2

(6.2)

La funcin debe S(m, b) se considera como una funcin de dos variables m y b para la cual debe de existir al menos un par de valores (m, b) tales que sean un mnimo de la funcin. La condicin que debe de cumplir la funcin S(m, b) para tener un mnimo (o mximo) es que sus derivadas parciales con respecto a los parmetros m y b sean cero, esto es:

S m
S b

(6.3)

(6.4)

Aplicando la condicin dada por la ecuacin (6.3)

S m

(Yi
i 1

mX i

b) 2
i 1

2(Yi

mX i

b)( X i )

Utilizando las propiedades de la sumatoria se tiene que

S m

2
i 1

( X i Yi

mX i

bX i )
i 1

X i Yi

m
i 1

Xi

b
i 1

Xi

Posteriormente igualando a cero


n n

2
i 1

Yi X i

m
i 1

Xi

b
i 1

Xi

Despejando se obtiene la ecuacin


n

m
i 1

Xi

b
i 1

Xi
i 1

Yi X i

(6.5)

Ahora si se aplica la condicin dada por la ecuacin (6.4)

S b

(Yi
i 1

mX i

b) 2
i 1

2(Yi

mX i

b)( 1)

171

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

Aplicando nuevamente las propiedades de la sumatoria


n n n

S (m, b) 2
i 1

( Yi

mX i

b) 2
i 1

Yi

m
i 1

Xi

bn

Igualando a cero
n n

2
i 1

Yi

m
i 1

Xi

bn

Reacomodando trminos se obtiene la ecuacin


n

m
i 1

Xi

b
i 1

Xi
i 1

Yi X i

(6.6)

Las ecuaciones 5.41 y 5.42 forman un sistema de de ecuaciones donde m y b son las incgnitas,
n

m
i 1 n

Xi
Xi
i 1

b
i 1

Xi
i 1
n

X iY i
Yi

bn
i 1

La solucin del sistema de ecuaciones anterior se puede resolver mediante determinantes, a continuacin se evalan los determinantes requeridos para el clculo

Xi Xi

Xi n

Xi

Xi

X i Yi
1

Xi n

Yi
Xi
2

X i Yi

Xi

Yi

X i Yi Yi

Xi

Xi

Yi

Xi

X i Yi

De donde se obtiene las ecuaciones que permiten obtener los parmetros para la mejor recta de mnimos cuadrados.
1

n n

X i Yi Xi
2
2

Xi Xi
2

Yi

(6.7)

Xi n

Yi Xi
2

Xi Xi
2

X i Yi

(6.8)

172

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

Como se puede observarse de las ecuaciones anteriores, para obtener los parmetros m y b es necesario realizar las sumatorias indicadas a partir de los datos (Xi ,Yi) donde i =1, 2, 3,,n. EJEMPLOS

1. En una compaa de seguros se desea determinar la relacin entre la experiencia en ventas y el volumen de las mismas. Se selecciona una muestra aleatoria de nueve vendedores. Se encuentra que sus aos de experiencia (X) y ventas anuales normales (Y) son los siguientes: X 1 2 3 Y: 2 1 3 4 3 5 4 6 5 7 6 8 5 9 7 (en $100 000)

a. Constryase un diagrama de dispersin y trcese la recta de regresin de Y sobre X en el diagrama. b. Estmese el volumen de ventas anuales para un vendedor que tiene una experiencia en ventas de diez aos. SOLUCION a) Es conveniente primero construir la tabla siguiente, con el fin de determinar las sumatorias necesarias para el clculo de m y b X 1 2 3 4 5 6 7 8 9 45 Y 2 1 3 3 4 5 6 5 7 36 X2 1 4 9 16 25 36 49 64 81 285 XY 2 2 9 12 20 30 42 40 63 220

S Evaluando en las expresiones

n n

X i Yi Xi
2
2

Xi Xi
2

Yi

9 220 9 285

45 36 45
2

2 = 0.6667 3
=

Xi n

Yi Xi
2

Xi Xi
2

X i Yi

285 36 9 285

45 220 45
2

2 =0.6667 3

Entonces, la recta de regresin tiene la ecuacin

2 x 3

2 3

El diagrama de dispersin y la recta de regresin se muestran el la siguiente grfica

173

APUNTES DE ESTADISTICA
7

GONZALO GALVEZ COYT

5 X

b) El volumen de ventas anuales para un vendedor que tiene una experiencia en venta de 10 aos se obtiene al evaluar la recta de regresin obtenida para x =10.

2 x 3

2 = y 3

2 10 3

2 = 7.33 3

el resultado anterior se multiplica por 10 000 para obtener el total de ventas. Ventas = 7.33(100000)=$ 733 000.

2. Se tiene un registro de los costos de mantenimiento para seis mquinas idnticas de distintas edades. Por parte de la gerencia se desea determinar si existe una relacin funcional entre la edad de la mquina (X) y el costo de mantenimiento ( Y) Se obtienen los siguientes datos. Mquina 1 2 3 4 5 6 .X 2 1 3 2 1 3 Y $ 70 40 l00 80 30 100

Obtngase la ecuacin de regresin con X como variable independiente y Y como variable dependiente. Cul sera el costo de mantenimiento para una mquina de cuatro aos? SOLUCION La tabla siguiente resume los clculos necesarios para las sumatorias X 2 1 3 2 1 3 12 Y 70 40 100 80 30 100 420 XY 140 40 300 160 30 300 970 X2 4 1 9 4 1 9 28

174

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

Evaluando en las expresiones para calcular m y b

n n

X i Yi Xi
2
2

Xi Xi
2

Yi

6 970 6 28

12 420 12
2

= 32.5

Xi n

Yi Xi
2

Xi Xi
2

X i Yi

28 420 6 28

12 970 12
2

=5

As se tiene la recta de regresin y

32.5 x 5 , evaluado para x = 4

32.5 4

5 =135

Por lo que el costo de reparacin de la maquina de 4 aos es $135.

CORRELACIN
Como ya se ha sealado anteriormente, la correlacin es la fuerza de la relacin entre las variables X y Y, y se determina mediante el coeficiente de correlacin.

COEFICIENTE DE CORRELACIN
A partir de la ecuacin de mnimos cuadrados se puede realizar una prediccin de el valor de Y sustituyendo el valor respectivo X, pero el grado de exactitud de la prediccin depende de el grado de correlacin entre las variables X y Y. Cuando la correlacin es pequea se tiene poca precisin en la determinacin del valor Y, pero cuando la correlacin es grande se tiene una gran exactitud en la determinacin del valor Y. La medida del grado de correlacin utilizando los n pares de datos (Xi ,Yi) es llamado coeficiente de correlacin, normalmente denotado por r. Para determinar a r se considera primero que Y es una variable aleatoria cuya desviacin respecto de la recta de mnimos cuadrados es la menor posible, esto quiere decir que la variabilidad se divide en dos partes, la primera es la eliminada por la recta de mnimos cuadrados y la cantidad que permanece a pesar de la recta de regresin. Si Yr m X b (valor calculado a partir de la recta de regresin) y Y separar de la forma.

1 n

Yi , entonces la variacin total se puede


i 1

(Yi
Variacin total

Y )2

(Yr Y ) 2
Variacin eliminado por regresin

(Yi

Yr ) 2

(6.9)

Variacin restante

Mientras ms variacin se elimine mediante la recta de regresin ms cercana ser la relacin entre X y Y y se volver ms precisa la estimacin del valor Y. Dividiendo ambos lados de la ecuacin 68 entre

Yi

se obtiene

(Yi (Yi

Y )2 Y )2

(Yr Y ) 2 (Yi Y )2

(Yi (Yi

Yr ) 2 Y )2

175

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

Entonces, la expresin anterior se puede escribir como.


2

1 r

(Yi (Yi

Yr ) 2 Y )2

Donde r es el coeficiente de correlacin, as se tiene que

(Yi (Yi

Yr ) 2 Y )2

(6.10)

En lugar de usar la ecuacin anterior para determinar el coeficiente de correlacin se utiliza para el caso de la lnea recta la frmula siguiente

r n Xi

n
2

X i Yi Xi
2

Xi n Yi

Yi
2

Yi

(6.11)

Si la correlacin entre las variables X y Y es fuerte, la mayor parte de la variabilidad de Y puede atribuirse a la relacin con X y r ser cercana a 1 o -1, en particular se r = 1 o -1 se dir que hay un ajuste perfecto a la recta. En general el valor de r vara de -1 a 1, y cuando la correlacin es dbil su valor es cercano a 0. Si r = 0, se dice que no existe correlacin entre X y Y. Cuando r se encuentra entre 0 y 1 existe correlacin positiva y cuando est entre -1 y 0 hay correlacin negativa.

PRUEBA DE HIPTESIS PARA EL COEFICIENTE DE CORRELACIN


Existe una prueba de hiptesis para determinar si el un coeficiente de correlacin (r) es lo suficientemente grande para afirmar que hay correlacin entre los pares de valores X y Y. o si el valor r corresponde al azar. Dicho de otra manera, se desea probar la hiptesis de que el coeficiente de correlacin poblacional es igual a cero contra la hiptesis alternativa de que no lo es. Si la distribucin de las dos variables involucradas es normal entonces, el estadstico de prueba T empleado se define como

n 2 1 r2

(6.12)

El cual se distribuye de acuerdo a una distribucin T-Student con = n - 2 grados de libertad. Si no es clara la idea de que las variables se distribuyan normalmente se pueden aplicar mtodos no paramtricos a la prueba de hiptesis como la prueba de correlacin de rangos. EJEMPLOS 4. Por parte de una compaa de seguros se desea determinar la relacin entre los aos de experiencia en ventas de sus vendedores y su volumen de ventas. Se selecciona una muestra aleatoria de nueve vendedores y se encuentra que sus aos de experiencia (X) y ventas anuales actuales (Y) son los siguientes:

176

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

X Y

1 2 3 2 1 3

4 5 4 3

6 5

7 6

8 7

9 5 (en $100 000)

a. Obtngase el coeficiente de correlacin r. b. Prubese la hiptesis de que el coeficiente de correlacin de la poblacin es cero con SOLUCION

= 0.05.

a) La siguiente tabla muestra los clculos requeridos para determinar las sumatorias que permiten determinar el coeficiente de correlacin X
1 2 3 4 5 6 7 8 9 45

Y
2 1 3 4 3 5 6 7 5 36

X2
1 4 9 16 25 36 49 64 81 285

Y2
4 1 9 16 9 25 36 49 25 174

XY
2 2 9 16 15 30 42 56 45 217

r n Xi

n
2

X i Yi Xi
2

Xi n Yi

Yi
2

9(217) (45)(36)
Yi
2

9(285) (45) 2 9(174) (36) 2


0 H1: 0

= 0.8721

b) La prueba de hiptesis del problema se plantea como Ho: El estadstico de prueba es

n 2 1 r2

0.8721

9 2 1 (0.8721) 2

4.7153

El cual tiene una distribucin como T-student con v =n-2 = 9 2 = 7 grados de libertad. El planteamiento de la Hiptesis conduce a una prueba de dos colas, como Ta/2,7 = 2.365 Se rechaza Ho, s hay correlacin
Distribucion T-Student 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 -5

0.05 entonces

Comparando el valor crtico con el estadstico de prueba se tiene que T > Ta/2,7 (4.7153 >2.365).

1-a

T a/2, 7= 2.365 a

T = 4.7153

-4

-3

-2

-1

Regin de aceptacin

Regin de rechazo

177

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

5. Se realiza un experimento para determinar la relacin entre la precipitacin pluvial y el rendimiento del trigo. Supngase que se obtienen los siguientes datos. Precipitacin pluvial en pulgadas: Rendimiento de trigo en bushel: X 1 2 3 4 5 5 6 7 8 9 Y 1 3 2 5 5 4 7 6 9 8

a. Ajstese una recta de mnimos cuadrados a los datos con X como variable independiente y grafquese despus la recta sobre un diagrama de dispersin. b. Estmese el rendimiento de trigo si la precipitacin pluvial es de 10 pulg. c. Obtngase el coeficiente de correlacin r. d. Prubese la hiptesis nula de que no existe relacin entre la precipitacin pluvial y el rendimiento del trigo, con = 0.05. SOLUCION a) La siguiente tabla muestra los clculos requeridos para determinar las sumatorias X 1 2 3 4 5 5 6 7 8 9 50 Y 1 3 2 5 5 4 7 6 9 8 50 XY 1 6 6 20 25 20 42 42 72 72 306 X2 1 4 9 16 25 25 36 49 64 81 310 Y2 1 9 4 25 25 16 49 36 81 64 310

Evaluando en las expresiones para calcular m y b

n n

X i Yi Xi
2

Xi Xi
Xi Xi
2

Yi
2

10 306 10 310
X i Yi

50 50 50
2

= 0.9333

Xi n

Yi Xi

310 50 6 28

50 306 12
2

= 0.3333

As se tiene la recta de regresin y dispersin y la recta de regresin.

0.9333 x 0.3333 , la grfica siguiente muestra el diagrama de

b) Evaluado en la ecuacin de regresin el valor de x = 10 pulg se obtiene

0.9333 10

0.3333 =9.6667 bushel:

c) El coeficiente de correlacin es

r n

n Xi
2

X i Yi Xi
2

Xi n Yi

Yi
2

10 306 Yi
2

50 50
2

10 310

50

10 310

50

= 0.9333

178

APUNTES DE ESTADISTICA

GONZALO GALVEZ COYT

9 8 7 6 Y 5 4 3 2 1

5 X

Diagrama de dispersin y recta de mnimos cuadrados del problema d) La prueba de hiptesis del problema se plantea como Ho: El estadstico de prueba es 0 H1: 0

n 2 1 r2

0.9333

10 2 = 7.3532 1 (0.9333) 2

El cual tiene una distribucin como T-student con v =n-2 = 10 2 = 8 grados de libertad. El planteamiento de la Hiptesis conduce a una prueba de dos colas, como Ta/2,7 = 2.306 0.05 entonces

Comparando el valor crtico con el estadstico de prueba se tiene que T > Ta/2,8 (7.3532>2.306). Se rechaza Ho, s hay correlacin

0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0

1-a

T a/2, 8= 2.306 a

T = 7.3532

-4

-2

Regin de aceptacin

Regin de rechazo

179

This document was created with Win2PDF available at http://www.win2pdf.com. The unregistered version of Win2PDF is for evaluation or non-commercial use only. This page will not be added after purchasing Win2PDF.

Anda mungkin juga menyukai