Anda di halaman 1dari 36

1

EJERCICIOS DE METODOS ESTADISTICOS PARA LA INVESTIGACION 2011



MUESTREO SISTEMTICO

Ejemplo: Se desea elegir una muestra de 20 consultorios de una lista de 500 consultorios.

25
20
500

n
N
k 20 n 500 = = = = = N


Se elige el primer consultorio en forma aleatoria entre el 1 y el 25. Supongamos que sea el
consultorio nmero 12, entonces los consultorios seleccionados sern el:

12, , , , , , , ... 487(completar)

Sol.
12, 37, 62, 87, 112, 137, 162, 187, 212, 237, 262, 287, 312, 337, 362, 387, 412, 437, 462, 487

EJEMPLO 1
Variable Cualitativa o Atributo : Estado Civil
Modalidades del Atributo : Casado, Soltero y Viudo
Nmero de personas =
i
n = frecuencia absoluta de la categora o clase i

DISTRIBUCIN DE 9000 PERSONAS DE UNA
POBLACIN X DE ACUERDO A SU ESTADO CIVIL
ESTADO CIVIL NMERO DE PERSONAS
SOLTERO
CASADO
VIUDO
4500
3000
1500
9000


EJEMPLO 2
Variable Cuantitativa Discreta
Experimento Aleatorio: Se lanza un dado 100 veces
i
x = Nmero i que aparece en la cara superior del dado
i
n = Nmero de veces que se repite el nmeroi que aparece en la cara superior del dado

NMERO QUE APARECE EN LA
CARA SUPERIOR DEL DADO
NMERO DE VECES QUE
SE REPITE
1
2
3
4
5
6
21
18
15
20
16
10
100

2

i
x
i
n
i
N
i
f
i
F %
i
f %
i
F
1
2
3
4
5
6
21
18
15
20
16
10
21
39
54
74
90
100
0,21
0,18
0,15
0,20
0,16
0,10
0,21
0,39
0,54
0,74
0,90
1,00
21
18
15
20
16
10
21
39
54
74
90
100
100 1,00 100

El nmero asociado a cada categora o clase lo llamaremos frecuencia absoluta.
i
n = frecuencia absoluta de la clase i n n
k
i
i
=

=1

clases de nmero = k


EJEMPLO 3
Variable Cuantitativa Continua X = estatura, en metros, de alumno de un curso Z
1,72 1,67 1,69 1,58 1,81 1,47 1,62 1,47 1,72 1,77
1,55 1,53 1,38 1,37 1,64 1,65 1,85 1,65 1,64 1,63
1,64 1,49 1,68 1,57 1,80 1,60 1,83 1,65 1,66 1,73
1,59 1,62 1,68 1,57 1,65 1,64 1,78 1,58 1,71 1,59

1. Ordenar y completar la tabla de abajo

1.37 1.38 1.47 1.47 1.49 1.53 1.55 1.57 1.57 1.58
1.58 1.59 1.59 1.6 1.62 1.62 1.63 1.64 1.64 1.64
1.64 1.65 1.65 1.65 1.65 1.66 1.67 1.68 1.68 1.69
1.71 1.72 1.72 1.73 1.77 1.78 1.8 1.81 1.83 1.85


REGLAS GENERALES PARA FORMAR LOS INTERVALOS DE CLASE

) 1
o
Se determina el recorrido o rango de la variable ( )
e
R

menor e
X R X variable la de r menor valo y mayor el entre diferencia
mayor
= =

e
R = 1,85 - 1,37 = 0,48

) 2
o
Se divide el Recorrido por el nmero de intervalos deseados. (entre 5 y 20 intervalos)
(a) Suponga que se desean 5 intervalos de clase

e
R : 5 = 0,48 : 5 = 0,096 ~ 0,10 = amplitud de cada intervalo de clase.
Se aproxima aumentando y dejando con el mismo nmero de decimales de los datos.
INTERVALOS DE CLASE FRECUENCIA
1,37 1,46
1,47 1,56
2
5

3
1,57 1,66
1,67 1,76
1,77 1,86
19
8
6
40


DISTRIBUCIN DE 40 ALUMNOS DE UN CURSO Z
DE ACUERDO A SU ESTATURA
ESTATURAS NMERO DE ALUMNOS
1,365 - 1,435
1,435 - 1,505
1,505 - 1,575
1,575 - 1,645
1,645 - 1,715
1,715 - 1,785
1,785 - 1,855
2
3
4
12
10
5
4
40


AMPLITUD O LONGITUD DEL INTERVALO DE CLASE: es la diferencia entre el
lmite superior e inferior del intervalo de clase =
i i i
l L a =
MARCA DE CLASE: es el punto medio del intervalo de clase, se obtiene sacando el
promedio entre los registros o los lmites del intervalo de clase =
2 2
i i i i
i
l L r R
x
+
=
+
=

ESTATURAS NMERO DE ALUMNOS
i
x
1,365 - 1,435
1,435 - 1,505
1,505 - 1,575
1,575 - 1,645
1,645 - 1,715
1,715 - 1,785
1,785 - 1,855
2
3
4
12
10
5
4
1,4
1,47
1,54
1,61
1,68
1,75
1,82
40


REPRESENTACIN GRFICA DE UNA DISTRIBUCIN DE FRECUENCIAS

El verdadero objetivo de dichas representaciones es facilitar en forma rpida la captacin
de los datos estadsticos.


4
EJEMPLO 4
Dibujar el Diagrama de Barras de la distribucin de frecuencias del Ejemplo 1



GRFICO SECTORIAL O DE SECTORES O PIE O PASTEL
Consiste en un crculo que se divide en sectores. Los 360 se reparten proporcionalmente.
No se utiliza para variables ordinales
EJEMPLO 5
Grfico Sectorial de la distribucin de frecuencias del Ejemplo 1

ESTADO
CIVIL
NMERO DE
PERSONAS
NGULO EN
GRADOS
%
SOLTERO
CASADO
VIUDO
4500
3000
1500
180
120
60
50
33
17
9000 360 100





4500
3000
1500
0
1000
2000
3000
4000
5000
SOLTERO CASADO VIUDO
N
u
m
e
r
o

d
e

P
e
r
s
o
n
a
s

Estado Civil
50%
33%
17%
DISTRIBUCIN DE 9000 PERSONAS DE UNA
POBLACIN X DE ACUERDO A SU ESTADO CIVIL
SOLTERO
CASADO
VIUDO

5
EJEMPLO 6
Dibujar el Histograma de la distribucin de frecuencias del Ejemplo 3 (con 7 intervalos de
clase)


IV POLGONO DE FRECUENCIA

EJEMPLO 7
Polgono de frecuencias de la distribucin de frecuencias del Ejemplo 3









2
3
4
12
10
5
4
0
2
4
6
8
10
12
14
N
u
m
e
r
o

d
e

A
l
u
m
n
o
s

Intervalos de Clase
0
2
4
6
8
10
12
14
1.33 1.40 1.47 1.54 1.61 1.68 1.75 1.82 1.89 N

M
E
R
O

D
E

A
L
U
M
N
O
S

ESTATURAS (METROS)
DISTRIBUCIN DE 40 ALUMNOS DE UN CURSO Z
DE ACUERDO A SU ESTATURA

6
ESTADISTICO

ESTADSTICO: expresin que permite cuantificar una caracterstica de la poblacin o de
la muestra.

DISPERSIN DE OS ESTADGRAF (II)


CENTRAL TENDENCIA ) (

DE OS ESTADGRAF I
OS ESTADGRAF

(I) ESTADSTICOS O MEDIDAS DE TENDENCIA CENTRAL
Es el valor que da una idea del centro de una distribucin de frecuencias.


(a) (i) MEDIA ARITMTICA
Es muy importante, corrientemente se le llama promedio y corresponde a la suma de todos
los valores de la variable dividida por el nmero total de ellos.

En los siguientes ejemplos se calcular la media aritmtica.

EJEMPLO 9
Sea { } 8,9 , 7 , 3 , 1 = A una muestra. 6 , 5
5
9 8 7 3 1
5
5
1
=
+ + + +
= =

= i
i
x
x
El promedio de los datos es de 5,6 unidades.

Calcular la media aritmtica de los siguientes nmeros

13,15,14, 17,19, 20, 24,22,13,21

Media= 17,8


EJEMPLO 10
Sea { } 5 , 5 , 4 , 4 , 3 , 2 , 2 , 2 , 1 , 1 = B una muestra

i
x
i
n i i
n x
1
2
3
4
5
2
3
1
2
2
2
6
3
8
10
10 29
9 , 2
10
29
10
10 8 3 6 2
10
5
1
= =
+ + + +
=

= i
i i
n x
x

7

El promedio de los datos es de 2,9 unidades.


EJEMPLO 11
Estaturas, en metros, de 40 alumnos de un curso Z

ESTATURAS N DE ALUMNOS
i
x
i i
n x
1,365 - 1,435
1,435 - 1,505
1,505 - 1,575
1,575 - 1,645
1,645 - 1,715
1,715 - 1,785
1,785 - 1,855
2
3
4
12
10
5
4
1,40
1,47
1,54
1,61
1,68
1,75
1,82
2.8
4.41
6.16
19.32
16.8
8.75
7.28
40 65,52

Si los datos son de una muestra
metros 638 , 1
40
65,52

40
7,28 8,75 16,80 19,32 6,16 4,41 2,80

40

7
1
= =
+ + + + + +
= =

= i
i i
n x
x

El promedio de estatura de los 40 alumnos del curso Z es de 1,638 metros.

EJEMPLO 12
La siguiente distribucin de frecuencia indica el contenido de albmina total circulante (en
gramos) de 30 varones normales de edad comprendida entre 20 aos y 29 aos. Determine
el contenido de albmina media.

Contenido de Albmina N de varones
i
x
i i
n x
99,5 - 109,5
109,5 - 119,5
119,5 - 129,5
129,5 - 139,5
139,5 - 149,5
149,5 - 159,5
2
6
6
7
8
1
104.5
114.5
124.5
134.5
144.5
154.5
209
687
747
941,5
1156
154,5
30 3895

Si los datos son de una muestra
gramos 833 , 129
30
3895

30
154,5 1156 941,5 747 687 209

30

6
1
= =
+ + + + +
= =

= i
i i
n x
x



8
(b) MEDIANA
Es un estadstico que divide la distribucin en dos grupos con igual nmero de
observaciones.

(i) Si la serie tiene un nmero impar de trminos, la mediana es el valor central.
EJEMPLO 14
{ } { } 7 M 13 , 10 , 7 , 5 , 2 7 , 5 , 13 , 10 , 2
e
=
ORDENAR


(ii) Si la serie tiene un nmero par de trminos, la mediana es la media aritmtica de los
dos trminos centrales.
EJEMPLO 15 { } 6
2
7 5
M 13 , 10 , 7 , 5 , 2 , 1
e
=
+
=



(c) MODA
Moda, Modo o valor modal de la variable es el valor que ms veces se repite y en
consecuencia en una distribucin de frecuencias es el valor de la variable que viene
afectado por la mxima frecuencia. La moda no es una medida muy utilizada.

En los siguientes ejemplos se calcular la moda.

EJEMPLO 18
Sea { } 1 , 2 , 3 , 4 , 2 , 2 , 3 , 5 = A unimodal 2 =
o
M

EJEMPLO 19
B= 2, 4, 4, 5, 6, 7,7,8 bimodal


EJEMPLO 20
Sea { } 3 , 3 , 2 , 2 , 1 , 1 = B
o
M existe No


CUANTILAS O FRACTILAS

(a) CUARTILES: estadgrafo que divide la serie en cuatro partes iguales.
Se tienen tres cuartiles
3. 2 1
Q , y Q Q
(b) DECILES: estadgrafo que divide la serie en 10 partes iguales.
Se tienen 9 deciles
9 3 2 1
..... D , , D D D .
(c) PERCENTILES: estadgrafo que divide la serie en cien partes iguales.
Se tienen noventa y nueve percentiles . ..... P , P ,
99 3 2 1
P P
El uso de los percentiles slo se justifica si existen muchos
valores de la variable.


9
EJEMPLO 21
Sea { } 26 , 25 , 25 , 24 , 22 , 22 , 15 , 12 , 10 , 9 , 8 , 7 , 7 = A

9 Q datos 3 a supera 3 25 , 3
4
13
4
1
= ~ = =
n

e
M
n
= = ~ = = 15 Q datos 6 a supera 6 5 , 6
2
13
2
2

24 Q datos 9 a supera 9 75 , 9
4
13 3
4
3
3
= ~ =

=
n


(II) ESTADISTICOS DE DISPERSIN

Consideremos los dos conjuntos de datos siguientes:

{ } 6 , 5 , 5 , 5 , 4 = A { } 9 , 9 , 9 , 1 , 1 , 1 = B 5 = =
eA
A M x 5 = =
eB
B M x

Los dos conjuntos tienen media aritmtica y mediana igual a cinco, sin embargo, ellos son
absolutamente diferentes. Mientras en A la mayora de los datos tiene el valor cinco, en
cambio en B los datos estn alejados de este valor.
Por lo tanto, se hace necesario encontrar una forma de expresar lo que ocurre en ambos
casos. Para esto definimos un cierto tipo de estadgrafo que mide el grado de alejamiento o
dispersin de los valores de las observaciones con respecto a un valor central, generalmente
la media.

RANGO
Es la diferencia entre el mayor y el menor valor de la variable.

menor mayor e
X X R =


Es una medida de dispersin bastante imperfecta, aunque en determinadas ocasiones es una
rpida y eficaz ayuda. El recorrido brinda una primera idea acerca de la heterogeneidad,
pero tiene el inconveniente que slo toma en cuenta los dos valores extremos, descuidando
el conjunto de valores intermedios.

1 3 eQ
R Q Q LICO INTERCUART RECORRIDO =
1 9 eD
R D D INTERDECIL RECORRIDO =
1 99 eP
R P P NTIL INTERPERCE RECORRIDO =

DESVIACIN ESTANDAR (D.E.)

Es la raz cuadrada positiva del promedio de los cuadrados de las desviaciones de los
valores de la variable con respecto a la media aritmtica.


10

( ) ( )
2 1
2
1
2
2 1
2
1
2
L POBLACIONA . .

o =

= =

= =

= = = =
N
n x
N
n x
N
x
N
x
E D
k
i
i i
k
i
i i
N
i
i
N
i
i



( ) ( )
1 1 1 1 1 1
MUESTRAL . .
2
1
2
1
2
2
1
2
1
2

= =

= = = =
n
x n
n
n x
n
n x x
n
x n
n
x
n
x x
s E D
k
i
i i
k
i
i i
n
i
i
n
i
i




EJEMPLO 23

i
x
i
n
i i
n x
i i
n x
2

1
2
3
4
5
6
6
11
6
7
9
11
6
22
18
28
45
66
6
44
54
112
225
396
50 185 837



Si los datos son de una poblacin
746 , 1
50
185
50
837
L POBLACIONA . .
2
2 1
2
=
|
.
|

\
|
= = =

=
o
N
n x
E D
k
i
i i


Si los datos son de una muestra

( )
764 , 1
49
50 / 185 50
49
837
1 1
MUESTRAL . .
2 2
1
2
=

= =

=
n
x n
n
n x
s E D
k
i
i i


EJEMPLO 25

Estaturas, en metros, de 40 alumnos de un curso Z


11
ESTATURAS
i
n
i
x
i i
n x
2

1,365 - 1,435
1,435 - 1,505
1,505 - 1,575
1,575 - 1,645
1,645 - 1,715
1,715 - 1,785
1,785 - 1,855
2
3
4
12
10
5
4
1,40
1,47
1,54
1,61
1,68
1,75
1,82
3,92
6,4827
9,4864
31,1052
28,224
15,3125
13,2496
40 107,7804

Si los datos son de una poblacin

( ) metros 10707 , 0 638 , 1
40
7804 , 107
L POBLACIONA . .
2 2 1
2
= = = =

=
o
N
n x
E D
k
i
i i

Si los datos son de una muestra

( )
metros
n
x n
n
n x
s E D
k
i
i i
10844 , 0
39
638 , 1 40
39
7804 , 107
1 1
MUESTRAL . .
2 2
1
2
=

= =

=


VARIANZA

Es el cuadrado de la desviacin estndar.

Observaciones:
(1) La varianza es mayor o igual a cero.
(2) La desviacin estndar se expresa en las mismas unidades de la variable estudiada,
mientras que la varianza se expresa en el cuadrado de la unidad de medida.

PROPIEDADES DE LA VARIANZA

1.- La varianza de una constante es cero. ( ) 0 = K V
ar


2.- La varianza de una constante por una variable es la constante al cuadrado por la
varianza de la variable. ( ) ( ) X V K KX V
ar ar
2
=

3.- La varianza de una constante ms o menos una variable es la varianza de la variable.
( ) ( ) X V X K V
ar ar
=

( ) ( ) constantes son b a e, variabl es X
2
y X V a b aX V
ar ar
= +

12
INFERENCIA ESTADSTICA


(I) ESTIMACIN
(a) ESTIMACIN PUNTUAL

En la estimacin puntual se usa un solo estadstico muestral.

x =
.


2 1 2 1
x x =



p P =
.

2 1 2 1
p p P P =



2 2
s =
.
o
2
2
2
1
2
2
2
1
s
s
=
o
o


Un estimador es un procedimiento expresado a manera de regla o de frmula por medio
del cual se obtiene un valor numrico denominado estimacin.
Por ejemplo
n
x
x
n
i
i
=
=
1
representa el mtodo por el cual se calcula una media
muestral es un estimador, pero el resultado numrico que se obtiene efectuando la
operacin indicada es una estimacin.

(b) ESTIMACIN POR INTERVALOS
Una estimacin por intervalos consta de dos puntos, definidores de un intervalo, que, segn
nuestras estimaciones contienen el parmetro poblacional que nos interesa.
Una estimacin por intervalos recibe el nombre de Intervalo de Confianza (IC).
INTERVALOS DE CONFIANZA PARA UNA MEDIA POBLACIONAL

(A) Poblacin distribuida Normal y varianza de la poblacin conocida.
X ~ ( )
2
,o N conocida
2
o


0 0
n
z x
n
z x
o o

+ s s

x = estimador
0
z = factor de confiabilidad
n
o
= error tpico del estimador

En trminos generales un intervalo de confianza se puede expresar como

13

( ) ( ) ( ) ESTIMADOR DEL TPICO ERROR DAD CONFIABILI DE FACTOR ESTIMADOR



Si N es conocido

Se usa
1

N
n N
= factor de correccin para poblacin finita (c.p.f.)

1 - N
n - N

1 - N
n - N

0 0
+ s s
n
z x
n
z x
o o



El c.p.f. se ignora si 05 , 0 s
N
n

EJEMPLO 26
Un bilogo desea hacer una estimacin, con un IC del 95%, de la cantidad promedio de
agua que consume diariamente cierta especie animal en condiciones experimentales. El
investigador supone que la poblacin de valores de consumo diario de agua est
normalmente distribuida y, con base en experiencias pasadas que la varianza de la
poblacin es de 4 gramos cuadrados. Una m.a. de 25 animales arroj una media de 16,5 g.

. e
, ,
les xperimenta s condicione
en animal especie cierta e diariament consume que gramos en agua de cantidad X =
X ~ ( )
2
,o N
2 2
g 4 = o
= 95 , 0 1 o 96 , 1
0
= z
25 = n g 5 , 16 = x

n
z x
n
z x
o o

+ s s
0 0


Calcule los intervalos de confianza


284 . 17 716 . 15
25
4
1.96 16.5
25
4
1.96 16.5
> s
+ s s




El bilogo, puede afirmar con un nivel de confianza del 95% que la verdadera cantidad
promedio de agua que consume diariamente la especie animal en condiciones
experimentales est en algn punto comprendido entre 15,716 y 17,284 gramos.


14

(B) Poblacin distribuida Normal y varianza de la poblacin desconocida.
X ~ ( )
2
,o N a desconocid
2
o
1 - N
n - N
t
1 - N
n - N
t
0 0
+ s s
n
s
x
n
s
x



1 1
2
1
2
2

=
n
x n
n
x
s
n
i
i
= varianza muestral
libertad de grados n con student t n distribuci la usa Se 1

EJEMPLO 27
Un psiclogo desea calcular el tiempo medio de respuesta de unos jvenes a un
determinado sonido, selecciona una m.a.s. de 25 universitarios para participar en el
experimento. El tiempo medio de respuesta para la muestra es de 160 milisegundos con una
desviacin tpica de 5 milisegundos. Suponiendo que el tiempo de respuesta de todos los
individuos est normalmente distribuido. Construya el I de C del 99%.

sonido ado eter un a joven un de os milisegund en respuesta de tiempo X min d , , =
X ~ ( )
2
,o N a desconocid
2
o
= 99 , 0 1 o 7969 , 2
0
= t
25 = n os milisegund 160 = x os milisegund 5 = s

n
s
x
n
s
x t t
0 0
+ s s


Calcule los intervalos de confianza:


7969 . 162 2031 . 157

25
5
2.7969 160
25
5
2.7969 160
> s
+ s s




El psiclogo puede afirmar con un 99% de confiabilidad, que el tiempo medio verdadero de
respuesta para todos los individuos similares a los que se emplean en el experimento, est
aproximadamente entre 157 y 163 milisegundos.


TAMAO DE MUESTRA para estimar la MEDIA de la poblacin

En cualquier investigacin es de gran importancia que la muestra que se va a sacar sea
de tamao adecuado. Si se toma una muestra demasiado grande, se pierde dinero y otros
recursos, por otra parte si la muestra es demasiado pequea, produce resultados intiles.
Sabemos que un I de C se construye por medio de la frmula general


15
( ) ( ) ( ) ESTIMADOR DEL TPICO ERROR DAD CONFIABILI DE FACTOR ESTIMADOR

Si la poblacin est normalmente distribuida, con varianza conocida.

0 0
n
z x
n
z x
o o

+ s s
Observamos que =
n
z
o
0
a la mitad de la amplitud del intervalo de confianza.
Si antes de sacar una muestra podemos especificar la amplitud del I. de C. que en
ltimo trmino quisiramos construir, habremos determinado la magnitud deseada de
n
z
o

0
Al determinar amplitud deseada del I de C que buscamos, estamos
determinando qu tan cerca nos gustara que estuviera nuestra estimacin de la media
verdadera
2
|
.
|

\
|
> =
d
z
n
n
z d Si
o
o
o o




= d mitad de la amplitud del intervalo de confianza deseado o qu tan cerca
deseamos que se encuentre nuestra estimacin de la media verdadera.
=
o
z valor de la tabla normal estandarizada correspondiente al nivel de confianza
deseado
= o desviacin tpica de la poblacin de donde se va a sacar la muestra.


Si
2
o es desconocido es necesario hacer una estimacin de
2
o mediante
(i) muestra piloto. (1% del tamao de la poblacin)
(ii) estudios previos



Si hay que sacar la muestra de una poblacin finita

( ) 1 1

2 2 2
2 2
+

>

=
N d z
z N
n
N
n N
n
z d Si
o
o
o
o
o o




16

EJEMPLO 29
Un investigador a cuyo cargo est un departamento de educacin fsica, desea hacer una
estimacin del consumo de oxgeno (en litros por minuto) de los estudiantes normales
que estn entre los 17 y 21 aos de edad, despus de haber hecho un tipo especial de
ejercicio. El investigador desea que su estimacin se encuentre por lo menos a 0,1 litros
de la media verdadera con un nivel de confianza del 95%. Los estudios que se han hecho
indican que la varianza del consumo de oxgeno de ste tipo de sujetos, bajo las
condiciones especificadas, es aproximadamente igual a 0,09 litros por minutos al
cuadrado qu tamao debe tener la muestra que necesita ste investigador?

= X consumo de oxgeno (en litros por minuto) de estudiante normal que est entre los
17 y 21 aos de edad, despus de haber hecho un tipo especial de ejercicio.
3 , 0 0,09 1,96 z 0,95 - 1 10 , 0 = = = = = o o d

Calcule el tamao muestral


(

()



El investigador necesita tomar una muestra de tamao 35 por lo menos.

EJEMPLO 30
Un investigador de un colegio que tiene 2500 alumnos, desea hacer una estimacin del
tiempo promedio que gastan los estudiantes en el viaje entre el colegio y la casa. El
investigador desea un intervalo de confianza del 99% y una estimacin que est
comprendida entre un minuto y la media verdadera. Un pequea muestra piloto dio una
varianza de 25 minutos al cuadrado qu tamao debe tener la muestra que necesita el
investigador?

= X tiempo, en minutos que gasta un estudiante en el viaje entre el colegio y la casa.
2500 N 25 2,575 z 0,99 - 1 1
2 2
= = = = = =
.
s d o o

Calcule el tamao muestral

( ) 1 1

2 2 2
2 2
+

>

=
N d z
z N
n
N
n N
n
z d Si
o
o
o
o
o o



( )

()()

()
()

()

( )



Una muestra de tamao adecuado sera de por lo menos 156 estudiantes.

17
INTERVALO DE CONFIANZA PARA UNA PROPORCIN POBLACIONAL P

30 > n
1 - N
n - N
P
1 - N
n - N

P
P
0 0 P
+ s s
. .
.
. .
.
n
Q P
z
n
Q
z

EJEMPLO 33
En un estudio sobre las razones que dan los alumnos suspendidos en el colegio, un
investigador tom una muestra de 200 estudiantes en una poblacin de 1500 que haban
sido suspendidos. De los 200 estudiantes suspendidos que fueron entrevistados, 140
manifestaron que haban fallado debido a dificultades econmicas en su familia. El
investigador quiere construir un intervalo de confianza del 95% para la verdadera
proporcin de jvenes que haban fallado por esta razn.

familia su
en econmicas es dificultad por fallado han que s suspendido s estudiante de proporcin P

=
o
familia
su en econmicas es dificultad por fallado han que s suspendido s estudiante de nmero X

=

7 , 0
200
140
= = =
.
p P 3 , 0 = =
.
q Q c.p.f. usa se 05 , 0 3 1 , 0
1500
200
> = =
N
n


Calcule P

1 - N
n - N
P
1 - N
n - N

P
P
0 0 P
+ s s
. .
.
. .
.
n
Q P
z
n
Q
z


()()





0,7591 0,6408
P
s s
Tenemos un 95% de confianza de que este intervalo contenga a P, la verdadera proporcin
de estudiantes suspendidos que han fallado por dificultades econmicas en su familia,
puesto que, en un muestreo repetido, aproximadamente el 95% de los intervalos construidos
de esta forma a partir de todas las muestras de tamao 200 que se pueden sacar de la
poblacin de 1500 suspendidos incluiran a P.






18
(II) DOCIMASIA DE HIPTESIS


Hiptesis se define como una afirmacin o suposicin que est sujeta a verificacin o
comprobacin (no un hecho establecido).
Por ejemplo:
1.- Un investigador puede proponer la hiptesis de que para ensear biologa el mtodo
A es superior al mtodo B.
2.- Un fabricante de drogas puede plantear la hiptesis que un determinado medicamento
es ms efectivo que otro que se vena usando normalmente en el tratamiento de cierta
enfermedad.

Las hiptesis establecidas en esta forma proporcionan, con frecuencia, motivos para
realizar una investigacin, la que puede basarse en la experiencia y la observacin, en la
experimentacin o en la intuicin, y se denominan Hiptesis de Investigacin.

Generalmente hay que volver a plantear las hiptesis de investigacin antes de verificarlas
estadsticamente. Cuando ya se han planteado en forma conveniente de tal forma que se
puedan comprobar, por medio de los mtodos estadsticos, las hiptesis se llaman:
Hiptesis Estadsticas.

Las Hiptesis Estadsticas son afirmaciones sobre uno o ms parmetros de una o ms
poblaciones.



( )

) ( ALTERNA


H1
0
HIPTESIS
NULA HIPTESIS
AS ESTADSTIC HIPTESIS
H



H0
es la hiptesis que se debe comprobar, es una afirmacin en la que se dice que no hay
ninguna diferencia entre dos poblaciones, entre dos parmetros poblacionales o entre el
valor verdadero de algn parmetro y su valor hipottico.

Para verificar una hiptesis examinamos los datos de la muestra tomada de la poblacin
pertinente y determinamos si son o no compatibles con la hiptesis nula.

Si los datos de la muestra no son compatibles con
H0

H0
se rechaza.
Si los datos de la muestra son compatibles con
H0

H0
no se rechaza.

Si
H0
no se rechaza, decimos que los datos particulares de la muestra no dan suficiente
evidencia como para que concluyamos que
H0
es falsa. Si
H0
se rechaza, decimos que
los datos particulares de la muestra s dan suficiente evidencia como para hacernos concluir
que la hiptesis nula es falsa y que la hiptesis alterna es verdadera.

19

Las hiptesis en los ejemplos anteriores seran:

1.-
. :
:
1
0
B mtodo el que mayor promedio puntaje un da A mtodo El H
H
B A
B A


>
=


2.-
la a ente favorablem responden que casos de verdadera proporcin La :
:
1
0
B A
B A
P P H
P P H
>
=

ente favorablem responde que prop la es droga nueva orcin que mayor a la droga usual.


PROCEDIMIENTO
(1) Planteamiento de las hiptesis
Generalmente queremos obtener una conclusin rechazando
0
H , es decir preferimos
que los datos de nuestra muestra apoyen a
1
H . En consecuencia, al determinar lo que
debe ser la hiptesis alterna, debemos preguntarnos qu deseo concluir? o qu creo
que es verdadero? La respuesta a estas preguntas constituye la expresin de
1
H . El
planteamiento complementario de
1
H sirve de
0
H .

(2) Seleccin del nivel de significacin
De los resultados que se obtienen en el anlisis de los datos de la muestra,
rechazamos o no la hiptesis nula.

DECISIN ESTADSTICA
CERTEZA DE
0
H
Verdadera Falsa
Rechazo de
0
H
No rechazo de
0
H
Error Tipo I Decisin correcta
Decisin Correcta Error Tipo II

( ) ( ) verdadero es H H de chazo P I Tipo Error cometer P / Re
0 0
= = o

( ) ( ) falsa /
0 0
es H H de Aceptacin P II Tipo Error cometer P = = |

Para la verificacin de una hiptesis determinada preferiramos que alfa y beta fueran
pequeos. En virtud de la relacin entre estas dos probabilidades, encontramos que, para
un tamao de muestra dado, una disminucin de o aumento de | y viceversa.
Siendo esto as, parece prudente que, en una situacin determinada, tratemos de
minimizar la probabilidad de cometer el error ms serio. Desafortunadamente en muchas
reas de investigacin, es difcil o imposible evaluar los dos tipos de error en cuanto a la

20
seriedad de cada uno de ellos. Entonces lo que se hace es seleccionar algn valor
pequeo para o digamos 0,05 0,01 , el que se denomina nivel de significacin.
Cuando se escoge un nivel de significacin igual a o y se rechaza
0
H decimos
que los resultados de la muestra son significativos.
(3) Descripcin de la poblacional que interesa y planteamiento de las suposiciones
necesarias.
Los procedimientos para la verificacin de hiptesis dependen de las caractersticas
de la distribucin muestral (que est implcita) las que dependen en parte de la
naturaleza de la poblacin muestreada. Por esta razn, debemos investigar la naturaleza
de la poblacin muestreada para justificar la seleccin del procedimiento.
Generalmente nos interesamos en conocer el tamao aproximado de la poblacin y
en saber si se puede considerar distribuida aproximadamente normal. Tambin deseamos
establecer el hecho de que sea razonable suponer que la muestra tomada constituye una
m.a.s. de la poblacin de inters.

(4) Especificacin del estadstico de prueba y consideracin de su distribucin
Un estadstico de prueba es una cantidad numrica que se calcula a partir de los datos
de una muestra y que se utiliza para tomar la decisin de rechazar o no una hiptesis
nula.

(5) Especificaciones de las regiones de rechazo y aceptacin
Regin de rechazo: consta de todos aquellos valores del estadstico de prueba que
son de tal magnitud que, de ser el valor observado del estadstico de prueba igual a uno
de ellos, la hiptesis nula se rechaza.
Regin de aceptacin: es el complemento de la regin de rechazo.
Los tamaos de las regiones de rechazo y de aceptacin estn determinados por alfa.

Por ejemplo
Con el propsito de verificar una hiptesis sobre una media poblacional, se extrae una
muestra de una poblacin normalmente distribuida con varianza conocida.


21









Un valor calculado de zeta es significativo si nos lleva a rechazar una hiptesis nula.
Llamamos valores crticos de un estadstico de prueba a aquellos valores que separan una
regin de rechazo de una regin de aceptacin.

22
Un valor " " p es el valor ms pequeo de o con el que se puede rechazar la hiptesis nula.
(6) Recoleccin de datos y clculo de los estadsticos necesarios
Los datos que se necesitan para verificar las hiptesis formuladas y que satisfacen las
suposiciones necesarias de la prueba, se deben recolectar en una forma adecuada. Una vez
que se han recogido, se calcula el estadstico apropiado y el estadstico de prueba.
(7) Decisin estadstica
Se compara el valor real calculado del estadstico de prueba con el valor crtico de ste.
Si el valor calculado est en la regin de rechazo, entonces se rechaza
0
H ; de lo contrario,
no se rechaza.
(8) Conclusin
La decisin se expresa en funcin del estadstico de prueba, y la conclusin, en funcin
del parmetro o la poblacin a que se refiere la prueba.
EJEMPLO 39

En una reunin informativa, el gerente de un hotel Concepcin, indic que el nmero
promedio de habitaciones arrendadas por noche es mayor que 212. Uno de los funcionarios
considera que esta cifra puede estar algo sobreestimada. Una muestra de 150 noches
produce una media de 222,7 habitaciones y una desviacin estndar de 45,5 habitaciones.
Si estos resultados sugieren que el gerente ha inflado su informacin, ser amonestado
severamente. Cul es el destino del gerente?


(1) Planteamiento de la hiptesis
212 :
212 :
1
0
>
s

H
H


(2) Seleccin del nivel de significacin
05 , 0 = o

(3) Descripcin de la poblacional que interesa y planteamiento de las suposiciones
necesarias

nmero X = de es habitacion arrendadas por noche
X ~ ? pero 30 150> = n

(4) Especificacin del estadstico de prueba y consideracin de su distribucin


23
n
x
Z
c
o

=
~ ( ) 1 , 0 N

(5) Especificaciones de las regiones de rechazo y aceptacin


{ } 645 , 1 / > = z z RC DRECHAZO REGIN O CRTICA REGIN RC =
(6) Recoleccin de datos y clculo de los estadsticos necesarios

88 , 2
150
5 , 45
212 7 , 222
0
=

=
n
x
Z
c
o




(7) Decisin estadstica

RECHAZAMOS RC Z
c
e = 88 , 2

0
H



(8) Conclusin

El nmero promedio de habitaciones arrendadas por noche es mayor que 212 con
002 , 0 = p
Parece que el gerente no se ha excedido al estimar su tasa de ocupacin y
aparentemente no recibir una reprimenda.




24

EJEMPLO 40
Un especialista en lectura cree que los estudiantes de clases no programadas obtienen
puntajes superiores en pruebas de comprensin de lectura que los estudiantes de clases
programadas. El puntaje medio obtenido en la prueba de comprensin de lectura por los
estudiantes de clases programadas que entraron a cuarto ao durante los 5 aos anteriores
fue de 4,25; un grupo de 81 estudiantes que asisti a clases no programadas durante sus 3
primeros aos, obtuvo un puntaje en la prueba de comprensin de lectura de 5,30; con una
desviacin tpica de 1,8. Proporcionan estos datos evidencia suficiente como para apoyar
la hiptesis del especialista en lectura?
--------------------
= X puntaje de prueba de comprensin de lectura de estudiante de clase no
programada

25 , 4 :
25 , 4 :
1
0
>
s

H
H


05 , 0 = o

X ~ ? pero 30 81> = n

Calcule valor Z



{ } 645 , 1 / > = z z RC
RECHAZAMOS RC Z
c
e = 25 , 5
0
H

El puntaje promedio obtenido por los estudiantes de clases no programadas es mayor que
4,25 con p aproximadamente 0. Por lo tanto estos datos apoyan al especialista.


25
EJEMPLO 42
Una muestra aleatoria de 225 habitantes de departamentos revel que 18 de ellos posean
perros. Proporcionan estos datos evidencia suficiente como para concluir que menos del
10% de los habitantes de departamentos poseen perros?
--------------------

= X nmero de habitantes de departamentos que poseen perros. O
= P proporcin de habitantes de departamentos que poseen perros.

10 , 0 :
10 , 0 :
1
0
<
>
P H
P H


05 , 0 = o 30 225> = n



{ } 645 , 1 / < = z z RC

Calcule Z


NO RC Z
c
e = 1
RECHAZAMOS
0
H

Los datos de la muestra no dan suficiente evidencia como para concluir que menos del 10%
de los habitantes de departamentos poseen perros.






ALGUNOS USOS DEL CHI-CUADRADO

26

Con alguna frecuencia deseamos verificar la hiptesis nula de que:
(a) los datos observados de una muestra son el resultado del hecho de que dos
caractersticas de una poblacin no tienen relacin entre s.
Por ejemplo podemos plantear la hiptesis de que la actitud de las personas hacia un
determinado grupo no tiene relacin con su nivel de educacin.
(b) En varias poblaciones, la proporcin de sujetos que tienen una determinada
caracterstica, es la misma.
Por ejemplo podemos plantear la hiptesis de que en tres grupos, digamos de
recursos econmicos bajos, medios y altos, la proporcin de personas con cierto
conocimiento, es la misma.

El anlisis se basa en conteos o frecuencias y no medidas. Se definen categoras
mutuamente excluyentes y se registran frecuencias observadas con los elementos se pueden
incluir en estas categoras. Luego se comparan estas frecuencias observadas con las
frecuencias que se esperaran si fueran en realidad verdaderas las condiciones hipotticas
Si la diferencia entre las frecuencias observadas y las esperadas es demasiado grande para
atribuirlas a la casualidad cuando
0
H es verdadera, rechazamos
0
H de que la condicin
particular de inters es verdadera.

Estudiaremos dos tipos de pruebas chi-cuadrado: I)
2
_ de Independencia
II)
2
_ de Homogeneidad

I) PRUEBA
2
_ DE INDEPENDENCIA

Un investigador puede estar interesado en saber, respecto de UNA POBLACIN, si dos
criterios de clasificacin estn probablemente relacionados o no. Si concluimos que dos
criterios de clasificacin no estn relacionados, decimos que son independientes. Dos
criterios de clasificacin son independientes si la distribucin de un criterio no depende
de la distribucin del otro.

. no :
. :
1
0
ntes independie son in clasificac de criterios dos Los H
ntes independie son in clasificac de criterios dos Los H


1) Se extrae una m.a. de sujetos de la poblacin de inters y se escoge a cada sujeto de
acuerdo con cada uno de los dos criterios de clasificacin. (podemos denominar las
diferentes categoras en que se divide un criterio como niveles de ese criterio)

2) Los datos de la muestra se distribuyen en una tabla denominada Tabla de
Contingencia, en la cual los niveles de un criterio de clasificacin forman las filas y los
niveles del otro criterio, las columnas. Las celdas que se encuentran en las intersecciones
de las filas y las columnas contienen conteos o frecuencias de sujetos que se han
clasificado en forma cruzada con base en los dos criterios.

27

PRIMER CRITERIO
NIVELES
SEGUNDO CRITERIO
NIVELES
1 2 3 . . .j . . . c

TOTAL
1
2
3
.



i.


.
F
11
n
12
n
13
n ...
j
n
1

c
n
1

21
n
22
n
23
n
j
n
2

c
n
2

31
n
32
n
33
n
j
n
3

c
n
3




1 i
n
2 i
n
3 i
n
ij
n
ic
n


1 f
n
2 f
n
3 f
n
fj
n
fc
n

. 1
n
. 2
n
. 3
n



. i
n


. f
n

TOTAL


1 .
n
2 .
n
3 .
n
j
n
.

c
n
.


n

3) Se calculan las frecuencias esperadas para cada una de las celdas de la tabla de
contingencia suponiendo que
0
H es verdadera, es decir que los dos criterios de
clasificacin son independientes.
4) Comparamos
( )

= = (
(


=
f
i
c
j ij
ij ij
c
E
E O
1 1
2
2
_ * para su significacin, con los valores
tabulados de
2
_ .
esperada frecuencia E observada frecuencia O
ij ij
= =
0
2 2
Re H chazamo Si
c
> _ _ para los grados de libertad apropiado y el nivel
escogido de significacin o
Para encontrar la frecuencia esperada de una celda determinada, dividimos el producto de
los totales marginales correspondientes por n


( )( )
n
n n
E
1 . . 1
11
= ......
( )( )
n
n n
E
j i
ij
. .
=
( ) ( ) 1 1 = = c f libertad de grados v

Frecuencias esperadas pequeas
A veces descubrimos que las frecuencias esperadas de algunas de las celdas de una tabla de
contingencia son muy pequeas. Cuando esto sucede la distribucin
2
_ puede no
proporcionar una buena aproximacin de la distribucin. Aunque no hay un consenso
general sobre lo que constituye una frecuencia esperada pequea algunos autores

28
recomiendan que para tablas de contingencia con ms de un grado de libertad se puede
permitir una expectativa mnima de una observacin por celda, si no ms del 20% de las
celdas tienen frecuencias esperadas menores que 5. Se pueden combinar celdas adyacentes
para lograr una expectativa mnima.
Tabla de contingencia de ( ) 2 2
Primer criterio de clasificacin Segundo criterio de clasificacin
1 2

1 a b a+b
2 c d c+d
a+c b+d
( ) ( ) 1 1 2 1 2 = = =v libertad de grados

( )
( )( )( )( ) d b c a d c b a
bc ad n
c
+ + + +

=
2
2
_

II) PRUEBA
2
_ DE HOMOGENEIDAD

Podemos verificar
0
H de que dos proporciones poblacionales son iguales por medio de la
prueba chi- cuadrado de Homogeneidad. Se pueden disponer los datos en una tabla de
contingencia de ( ) 2 2 utilizando las dos poblaciones como un criterio de clasificacin y la
caracterstica de inters como el otro, siendo la presencia y la ausencia del criterio los dos
niveles de clasificacin. Calculamos el estadstico de prueba
2
c
_ a partir de los datos con la
ecuacin * y lo comparamos para su significacin, con el valor de
2
_ tabulado con un
grado de libertad.
Observe que la hiptesis nula de que dos proporciones poblacionales sean iguales, que
escribimos en smbolos como
2 1 0
: P P H = puede expresarse en palabras as:
Las dos poblaciones son homogneas respecto de la caracterstica de inters
Podemos establecer las hiptesis nula y alterna simblicamente, de la siguiente manera:
2 1 1
2 1 0
:
:
P P H
P P H
=
=

Es posible ampliar la prueba chi- cuadrado de homogeneidad para verificar hiptesis acerca
de ms de dos poblaciones. Es decir podemos verificar
c
P P P P H ..... :
3 2 1 0
= = donde c es
el nmero de poblaciones que se estn considerando. Sacamos una m.a. de cada poblacin
y observamos en cada muestra el nmero de sujetos con la caracterstica de inters.




29
EJEMPLO 48
Se desea saber si existe una asociacin entre los factores gnero y color de cabello y se
considera una m.a. de 100 personas (50 hombres y 50 mujeres) y se observa en cada caso si
el individuo es rubio o moreno.

GENERO COLOR DE CABELLO
RUBIO CASTAO

MASCULINO
FEMENINO
20(22) 30(28)
24(22) 26(28)
50
50
44 56 100
. es no bello ca de C :
. e) dependient es no (o :
1
0
gnero del nte independie olor H
gnero del nte independie es cabello de Color H



( )( )
22
100
44 50
E 20
11 11
= = = O
( )( )
28
100
56 50
E 30
12 12
= = = O


( )( )
22
100
44 50
E 24
21 21
= = = O
( )( )
28
100
56 50
E 26
22 22
= = = O


( ) ( ) ( ) ( )
64935 , 0
28
28 26
22
22 24
28
28 30
22
22 20
2 2 2 2
2
=

=
c
_

( ) ( ) 1 1 2 1 2 = = =v libertad de grados
{ } 84 , 3 /
2 2
> = _ _ RC con 05 , 0 = o


0
2
H rechazar podemos no RC
c
e _ 0,649 no es significativo al nivel 0,05

Por lo tanto no hemos demostrado que las frecuencias observadas y aquellas calculadas
basadas en una hiptesis de no hay relacinson significativamente distintas.
Conclusin: Color de cabello no est asociado al gnero. En otras palabras los dos factores
parecen ser independientes.


ANALISIS DE REGRESION LINEAL Y DE CORRELACION SIMPLE

A menudo se presentan situaciones en que es de gran inters estudiar la relacin entre dos
variables, por ejemplo un profesor puede estar interesado en conocer de que manera se
puede predecir el rendimiento en Biologa de un estudiante con base en el puntaje obtenido
en una prueba de conocimiento especfica en Biologa. Relaciones de esta naturaleza se
pueden investigar por medio del anlisis de regresin o anlisis de correlacin.
El anlisis de regresin se refiere a la naturaleza de las relaciones entre las variables y el
anlisis de correlacin tiene que ver con la fuerza o intensidad de las relaciones.

30
Los conceptos de regresin y correlacin fueron presentados por el cientfico ingls Sir
Francis Galton (1822-1911) cuando haca sus investigaciones sobre la herencia y otras
reas de la biologa.
Cuando las investigaciones de las relaciones est limitada solamente a dos variables,
denominamos esos mtodos analticos como anlisis de regresin y correlacin simple.
Si consideramos ms de dos variables, denominamos entonces a las tcnicas analticas
como anlisis de regresin y correlacin mltiple.

Modelo de regresin lineal simple
Simbolizamos las variables por las letras X e Y.
X = variable independiente(en muchas situaciones puede ser controlada por el investigador)
Por ejemplo el investigador puede seleccionar slo ciertos valores de X para utilizarlos en
el anlisis.
Y = variable dependiente
Uno de los usos del anlisis de regresin es construir un instrumento llamado ecuacin de
prediccin, que nos permite predecir que valor asume probablemente Y cuando X toma un
valor determinado. Por esta razn a veces llamamos a X variable de prediccin y a Y
variable repuesta.
El estudio de la relacin entre dos variables debe iniciarse con la construccin de un
grfico, denominado diagrama de dispersin que presenta la naturaleza de la relacin.
Se asignan los valores de la variable independiente al eje horizontal y los valores de la
variable dependiente al eje vertical. La grfica consta de puntos colocados en las
intersecciones de lneas imaginarias que se extienden verticalmente desde cada valor de X y
horizontalmente desde los valores correspondientes de Y. Los diagramas de dispersin son
extremadamente tiles en el estudio de la relacin entre dos variables.
Simple Lineal Regresin de Modelo
1 0 i i i
x y c | | + + =
Y respuesta de iable la de general valor y
i
var =
poblacin la de parmetros y
1 0
= | |
in de te cons regres tan
0
= |
regresin
1
de e coeficient = |
X in var i o conocida tan e dependient iable la de general valor te cons x
i
=
error de aleatorio o tr
i
min = c n i , 1 =
valores de nmero n =

A este modelo lo llamamos modelo de regresin lineal, puesto que la variable
independiente est elevada a la primera potencia.
Suposiciones
1.- La variable X puede ser una variable no aleatoria o una variable aleatoria.
2.- La variable Y es una v.a. y para cada valor de X hay una subpoblacin de Y.
3.- Las medias de estas subpoblaciones estn ubicadas todas en la misma lnea recta.
4.- Los valores de Y correspondientes a un valor dado de X se escogen
independientemente de aquellos valores de Y correspondientes a otro valor de Y.
5.- La variable X se mide sin error.

31
Estas cinco suposiciones son las mnimas del modelo. Cuando se hacen son vlidos ciertos
anlisis descriptivos de los datos.

En el anlisis de regresin lineal simple se emplean mtodos inferenciales vlidos
solamente cuando se pueden sostener las siguientes suposiciones adicionales
6.- Las subpoblaciones de los valores Y estn normalmente distribuidas.
7.- Las subpoblaciones de los valores Y tienen todas la misma varianza.

Las suposiciones que apoyan el modelo de regresin lineal simple pueden parecer un poco
irreales. Pero afortunadamente existen muchas situaciones prcticas en las que el modelo

1 0 i i i
x y c | | + + = y las suposiciones que lo apoyan se ajustan a los datos lo
suficientemente bien como para producir resultados tiles.
Qu tanto se ajusta el modelo a una situacin real?, es una decisin que el investigador
debe tomar principalmente con base en el conocimiento que tenga de los datos y de los
procesos por los cuales se generan. Si el modelo que se considera no es una representacin
razonable de la realidad, el investigador puede tener en cuenta otros modelos.
En la mayora de las situaciones, la verdadera lnea de regresin poblacional es
desconocida, sin embargo, se puede obtener una estimacin de la lnea a partir de los datos
de la muestra y llegar a decisiones sobre la utilidad siempre que se hagan las suposiciones
establecidas.
La lnea debe representar los datos de la muestra tanto como sea posible.
Un mtodo que generalmente se emplea es el de los Mnimos Cuadrados la suma de las
distancias verticales al cuadrado de los puntos del diagrama de dispersin respecto de la
lnea de mnimos cuadrados es menor que cualquier otra suma similar calculada en relacin
con una lnea diferente.
El mtodo de mnimos cuadrados proporciona estimaciones de los parmetros
poblacionales
Muestral Simple Lineal Regresin de Ecuacin
1 0
x b b y
c
+ =
ecuacin la en X de valor n a de n sustituci por Y de calculado valor y
c
lg =
Y eje el cruza lnea la cu el en int
0
al punto Y de ercepto b = =
unidad una en a X cuando y a que en cantidad lnea a de pendiente b
c
var var l
1
= =
1 1
b =
.
| donde
( )( )
( ) ( )


=
n
x
x
n
y x
y x
x x
y y x x
b
i
i
i i
i i
i
i i
2
2
2
1

0 0
b =
.
| donde ( ) x b y x b y
n
b
i i 1 1 0
1
= =


Uno de los principales objetivos del anlisis de regresin consiste en obtener una ecuacin
que nos permita predecir el valor que probablemente toma Y dado un valor particular de X.
La ecuacin de mnimos cuadrados es una de las que se emplea con este propsito. Antes
de utilizar la ecuacin de regresin para la prediccin desearamos saber que tan til
podemos esperar que sea esta ecuacin en el logro de estos objetivos. En otras palabras
deseamos saber con que exactitud va a predecir la ecuacin de Y para un valor particular de
X.

32
La evaluacin de la ecuacin de regresin muestral nos permite determinar si la medida de
dispersin de los valores Y respecto de la lnea de los mnimos cuadrados est
suficientemente cerca de cero como para garantizar su uso al predecir el valor probable de
Y correspondiente a un valor dado de X.
Para determinar qu proporcin de la suma total de cuadrados est explicada por la
regresin de Y respecto de X, calculamos una medida conocida como

Coeficiente de Determinacin = razn entre la suma de cuadrados debida a la regresin y
la suma total de cuadrados. 1 0
2
s s r
( )
( ) ( )
( ) ( )
|
|
.
|

\
|

|
|
.
|

\
|

|
|
.
|

\
|

|
|
.
|

\
|

= =

n
y
y
n
x
x
n
y x
y x
n
y
y
n
y x
y x b
y y
y y
SCT
SCR
r
i
i
i
i
i i
i i
i
i
i i
i i
i
c
2
2
2
2
2
2
2
1
2
2
2
0
2
= r No hay relacin lineal entre X e Y.
1
2
= r X e Y estn perfectamente relacionados linealmente.

Podemos interpretar a
2
r como medida de la fuerza de la relacin lineal entre los
valores muestrales observados de X e Y. Sin embargo, nuestro inters primordial est en la
verdadera relacin entre X e Y que existe en la poblacin. Por lo tanto, nos preguntamos si
los datos de la muestra proporcionan evidencia suficiente para indicar la existencia de una
relacin lineal entre X e Y en la poblacin.


e linealment as relacionad estn no Y e X H :
0

e linealment as relacionad estn Y e X H :
1


ANOVA
F.deV. g.l. SC CM
c
F
Regresin
Error
1
n-2
SCR
SCE
CMR
CME
CMR/CME
Total n-1 SCT



33
EJEMPLO 46
Un equipo de investigadores de un hospital psiquitrico realiz un experimento para
estudiar la relacin que existe en pacientes esquizofrnico entre el tiempo de reaccin a un
estmulo particular y el nivel de la dosis de una droga. Los investigadores hicieron el
experimento con dosis de 0,5; 1,0; 1,5; 2,0; 2,5 y 3,0 mg. Seleccionaron una m.a. de 18
pacientes en una poblacin hospitalaria de esquizofrnico y asignaron al azar a cada
paciente una de las dosis. Cada dosis fue administrada a un total de 3 pacientes.
X = dosificacin en mg
Y = tiempo de reaccin en milisegundo.

La dosificacin es una variable fija, puesto que los investigadores seleccionaron,
anticipadamente su valor especfico. La unidad de asociacin es el paciente esquizofrnico
y la muestra consiste en 18 unidades de asociacin.

X 0,5 0,5 0,5 1,0 1,0 1,0 1,5 1,5 1,5 2,0 2,0 2,0 2,5 2,5 2,5 3,0 3,0 3,0
Y 12 22 30 18 32 36 30 34 46 40 44 50 44 60 64 64 68 76

= 5 , 31
i
x

=770
i
y

= 25 , 68
2
i
x

=38508
2
i
y

=1595
i i
y x
Calcule b1

( )
8571 . 18
125 . 13
5 . 247
18
) 5 . 31 (
25 . 68
18
) 770 )( 5 . 31 (
1595
2 2
2
1
= =


n
x
x
n
y x
y x
b
i
i
i i
i i


( )( ) 7779 , 9 75 , 1 8571 , 18 7778 , 42
1 0
= = = x b y b

Muestral Simple Lineal Regresin de Ecuacin 18,8571x 9,7779
1 0
+ = + = x b b y
c


Calcule el valor de R
2

( )
=

|
|
.
|

\
|

== =


n
y
y
n
y x
y x b
SCT
SCR
r
i
i
i i
i i
2
2
1
2
838 . 0
11 . 5569
13 . 4667
18
) 770 (
38508
18
) 770 )( 5 . 31 (
1595 8571 . 18
2
= =

|
.
|

\
|


El 84 % de la variabilidad total presente en nuestros datos, se explica por la regresin.

e linealment as relacionad estn no accin de Tiempo y n Dosificaci H Re :
0

e linealment as relacionad estn accin de Tiempo y n Dosificaci H Re :
1

F.deV. g.l. SC CM
c
F
Regresin
Error
1
16
4667,13
901,98
4667,13
56,37
82,79
Total 17 5569,11

34

{ } 0,005 58 , 10 / = > = o F F RC
0
H Re 79 , 82 chazo RC F
c
e =
El tiempo de reaccin y el nivel de dosificacin estn relacionados linealmente. Por lo tanto
podremos utilizar, con seguridad, nuestra ecuacin de regresin muestral para predecir el
valor que Y probablemente tomar para un valor dado de X.

Modelo Bivariante
Con alguna frecuencia el inters que hay en la relacin entre dos variables X e Y se
concentra en determinar si estn o no relacionadas y en caso afirmativo en averiguar que
tan fuerte es la relacin.
El investigador puede estar o no interesado en la prediccin y en la estimacin. La tcnica
apropiada que se emplea en esta situacin es el anlisis de correlacin. En contraste con el
anlisis de regresin, el anlisis de correlacin requiere que X e Y sean v.a. Recordemos
que en el anlisis de regresin X puede ser aleatoria o fija.
En la situacin usual en que se emplea el anlisis de correlacin, el investigador toma una
m.a. de unidades de asociacin de la poblacin de inters y hace dos mediciones
asociaciones, una de X y una de Y, en cada unidad de asociacin de la muestra. El
investigador toma cualquier valor de X ( y tambin de Y) que est en la muestra. No se
hace ningn intento de limitar el anlisis para los valores preseleccionados de X, como
puede suceder con el anlisis de regresin.
Una poblacin de valores X e Y en la que ambas son variables aleatorias, se denomina
distribucin bivariante.

Modelo de correlacin
Vamos ahora a considerar un modelo de distribucin bivariante. Como ciertas tcnicas de
correlacin resultan apropiadas en el anlisis de los datos de acuerdo con este modelo lo
denominaremos modelo de correlacin. Ms especficamente lo podemos denominar
modelo de correlacin lineal simple puesto que participan dos variables que estn
relacionadas de manera lineal.
No distinguimos las variables X e Y segn sea una independiente y la otra dependiente. En
realidad bajo el modelo de correlacin podemos intercambiar las posiciones de Y y de X en
la ecuacin
1 0 i i i
x y c | | + + =
Suposiciones
1.- La distribucin conjunta de X e Y es normal, llamada Normal Bivariante.
2.- Para cada valor de X hay una subpoblacin de valores de Y normalmente distribuida.
3.- Las subpoblaciones de valores de Y tienen todas la misma varianza.
4.- Las medias de las subpoblaciones de Y estn todas colocadas en la misma lnea recta.
5.- Para cada valor de Y hay una subpoblacin de valores de X que est normalmente
distribuida.
6.- Las subpoblaciones de valores de X tienen todas las mismas varianza.
7.- Las medias de las subpoblaciones de valores X se encuentran todas en la misma lnea
recta
El coeficiente de correlacin es el parmetro que presenta el inters primordial en la
correlacin. Este parmetro es una medida de la correlacin o relacin lineal entre dos

35
variables que existe en una poblacin bivariante. Puede asumir valores entre menos 1 y
uno.
Si es menos -1 la relacin entre dos variable es perfectamente lineal e inversa.
Si es 1 la relacin es perfectamente lineal y directa.
Si es 0 las dos variables no estn correlacionadas.

El coeficiente de correlacin entre dos variables X e Y tendr siempre el mismo signo que
la pendiente de la ecuacin de regresin de Y sobre X. Con base en estos hechos, debemos
suponer que mientras ms cerca est el valor numrico del coeficiente de correlacin a +1 o
1, ms estrecha ser la relacin entre X e Y. Entonces, la magnitud de nos da una
indicacin de la fuerza que tiene la relacin entre las dos variables.

Rara vez conocemos . Sin embargo podemos estimar a a partir de los datos de una
muestra aleatoria de la poblacin de inters.
.
= r


( )( )
( ) ( )
( )( )
( ) ( )




=


=
2
2
2
2
2 2
i i i i
i i i i
i i
i i
y y n x x n
y x y x n
y y x x
y y x x
r

. .
.
=
|
|
.
|

\
|

|
|
.
|

\
|

=


Y X
XY
i i i i
i i i i
n
y
n
y
n
x
n
x
n
y
n
x
n
y x
r
o o
o
2
2
2
2



EJEMPLO 47
En un estudio preparado para investigar la relacin que existe entre la creatividad y otras
variables, un equipo de siclogos administr a una muestra aleatoria de 20 estudiantes una
prueba para medir el nivel de creatividad. Los investigadores solicitaron a cada estudiante
que memorizaran un poema corto. La tabla muestra los puntajes obtenidos por los
estudiantes en la prueba de creatividad y los puntajes que indican su habilidad en la
memorizacin del poema.


n memorizaci de puntaje X =
d creativida de puntaje Y =

X 13 85 27 69 76 30 39 32 13 58 84 27 56 49 88 79 51 37 24 59
Y 11 96 15 88 92 34 44 67 37 38 78 27 71 75 89 60 41 28 56 54

=996
i
x

=1101
i
y

=60972
2
i
x

=73681
2
i
y

=64498
i i
y x

Calcule r

36







() ()()



La creatividad y la capacidad de memorizacin estn correlacionadas.

=
|
|
.
|

\
|

|
|
.
|

\
|

=


2
2
2
2
n
y
n
y
n
x
n
x
n
y
n
x
n
y x
r
i i i i
i i i i

Anda mungkin juga menyukai