Anda di halaman 1dari 155

UNIVERSIDAD NACIONAL

FEDERICO VILLARREAL
Facultad de Ciencias Econmicas

ESTADSTICA INFERENCIAL
JORGE L. PASTOR PAREDES

DEFINICIN DE ESTADSTICA

Es la ciencia de recolectar, organizar, presentar, analizar e


interpretar datos con el propsito de ayudar a una toma de
decisin ms efectiva.
Las tcnicas estadsticas se usan ampliamente por personas en
reas de comercializacin, contabilidad, control de calidad,
consumidores, deportes, administracin de hospitales,
educacin, poltica, medicina, etc.

Jorge L. Pastor Paredes

MTODOS CUANTITATIVOS

PARAMTRICA

DESCRIPTIVA
Dist. de Frecuencias
Med. de Tendencia Central
Med. de Dispersin
Med. de Localizacin

INFERENCIAL
Probabilidad
Distribucin Discreta
Distribucin Normal
Muestreo
Prueba de Hiptesis
ANOVA
Regresin Simple
Regresin Mltiple
Series de Tiempo
ARIMA (Box Jenkins)

NO PARAMTRICA

Contrastes:
Homogeneidad
Chi-X2 de Independencia
de Bondad de Ajuste
Mltiples de Bondad de Medias
Mltiples de Homogeneidad :
Kruskal Wallis

Jorge L. Pastor Paredes

1-4

TIPOS DE ESTADSTICAS
I. ESTADSTICA PARAMTRICA
Se basa en parmetros poblacionales en la que se trabaja con
informacin obtenida con una escala de medida intervalar o de razn.
1. Estadstica Descriptiva: mtodos para organizar, resumir y
presentar datos de manera informativa.
Ejemplo 1: Un sondeo de opinin encontr que 49% de las personas en una
encuesta no saban el nombre del primer libro de Vargas Llosa.
La estadstica 49 describe el nmero de cada 100 personas que no saben la
respuesta.
Ejemplo 2: Segn el Consumer Reports, los dueos de lavadoras de ropa
Whirlpool reportaron 9 problemas por cada 100 mquinas durante el 2012. La
estadstica 9 describe el nmero de problemas por cada 100 mquinas.

Jorge L. Pastor Paredes

1-5

2. Estadstica Inferencial: es el proceso por el cual se deducen


(infieren) propiedades o caractersticas de una poblacin a partir de
una muestra significativa (estimacin de parmetros estadsticos).
Una poblacin es un conjunto de todos los posibles individuos,
objetos o medidas de inters.
Una muestra es una porcin, o parte, de la poblacin de inters.
Ejemplo 1: Las cadenas de TV monitorean la popularidad de sus programas
contratando a CPI y otras organizaciones para muestrear las preferencias de
televidentes.
Ejemplo 2: El departamento de contabilidad de una empresa elegir una muestra
de facturas para verificar la exactitud de todas las facturas de la compaa.

Jorge L. Pastor Paredes UBA,

II. ESTADSTICA NO PARAMTRICA

Estadstica cuya informacin no est basada en parmetros


poblacionales y cuya informacin obtenida no est referida a
una escala de medida de intervalo o razn.

Se basa en propiedades nominales u ordinales, como por


ejemplo, distribucin libre.

Se efectan pruebas para muestras independientes (H de


Kruskal Wallis y Mediana, Chi X2) y pruebas para dos
muestras relacionadas (Signos).

Jorge L. Pastor Paredes

1-7

TIPOS DE VARIABLES
1. Variable Cualitativa o Categrica: expresa una cualidad o
categora de un determinado suceso; no es numrica. Su
medicin es nominal u ordinal. Son mutuamente excluyentes.
Atributos o porcentajes.
Ejemplos: sexo, afiliacin religiosa, tipo de automvil que se
posee, lugar de nacimiento, color de los ojos, V o F, Si o No.
2. Variable Cuantitativa: expresan cantidades numricas de
datos; la variable se puede registrar numricamente.
Ejemplo: saldo en una cuenta de cheques, minutos que faltan
para que termine la clase, nmero de nios en una familia.
Jorge L. Pastor Paredes

1-9

TIPOS DE VARIABLES CUANTITATIVAS


1. Variables Discretas: representan valores numricos.
Provienen de un proceso de conteo. Son nmeros enteros.
Tienen una medicin intervalar o de razn.
Ejemplo: El nmero de alumnos en la EPG
Cantidad de autos en el estacionamiento.
2. Variables Continuas: provienen de un proceso de
medicin, pueden tomar cualquier valor dentro de un
intervalo especfico.
Ejemplo: Peso, talla, tiempo.

Jorge L. Pastor Paredes

NIVELES DE MEDICIN
1. NOMINAL
Referidos a etiquetas o
nombres que se usan
para identificar un
atributo del elemento.
Solamente se pueden
clasificar o contar datos.
No existe algn orden
especfico entre las
clases.
2. ORDINAL.
Es cuando los datos se
organizan de acuerdo a
un orden. Ordena los
datos por jerarquas.
Jorge L. Pastor Paredes

Empresa

Beneficios

Volcan SA

1250,000

Alicorp

1100,000

Telefnica

800,000

Bco. Crdito

650,000

Saga

400,000

TOTAL
Calificacin

4200,000
Frecuencia

Excelente

Bueno

28

Regular

25

Malo

12

Muy malo

Total

74

3. ESCALA DE INTERVALO o INTERVALAR


Si los datos tienen la propiedad de datos ordinales y el
intervalo entre observaciones se expresa en trminos de una
unidad fija de medida. La diferencia de valores tiene un
tamao constante.
Es importante sealar que el cero (0) es un punto en la
escala, no representa la ausencia de la condicin.
Ejemplo: 0 grados no significa que no existe
temperatura, indica que hace fro.
4. ESCALA DE RAZN:
Si los datos tienen las propiedades de intervalo y el cociente
de valores es significativa.
En la prctica todos los datos cuantitativos son de nivel de
razn de la medicin. Es preciso mencionar que el cero (0) si
tiene significado.
Ejemplo: Distancia, altura, peso y tiempo emplean la
Jorge L. Pastor Paredes
escala de medicin la Razn.

BASE DE DATOS
1. Dato Estadstico:
Son las observaciones efectuadas en un momento determinado,
estn asociados al estudio de una o mas variables. Son los
valores que componen las variables. Ejemplo: ventas diarias de
menestras efectuadas por un Supermercado.
2. Datos Transversales
Son aquellos en el cual se rene en el mismo o aproximadamente en
el mismo punto del tiempo. Ejemplo: extraer una muestra de 1.000
empresas de un sector econmico al azar de esa poblacin,
identificar su volumen de ventas y calcular el porcentaje de la
muestra que la clasifica como PYME. Por ejemplo, el 30% de
nuestra muestra fueron clasificados como PYMEs.

3. Datos de Serie de Tiempo


Se recopilan a lo largo de varios periodos de tiempo. Son tambin
longitudinales. Sigue los cambios en el transcurso del tiempo.
Jorge L. Pastor Paredes

FUENTES DE DATOS ESTADSTICOS

Son los datos validados y procesados que se utiliza para realizar


los anlisis correspondientes.
La informacin estadstica se presenta en cuadros estadsticos y en
grficos.
La informacin estadstica se usa para la toma de decisiones.
Para obtener la informacin estadstica existen diferentes tcnicas
que permiten extraer muestras representativas de una serie de
sucesos.
Tcnica censal, encuestas, experimentos
Se pueden encontrar estadsticas relacionadas en artculos
publicados, revistas y peridicos.
No todos los temas disponen de datos publicados. En esos casos, la
informacin deber recolectarse y analizarse.

Jorge L. Pastor Paredes

2-12

GRFICAS PARA LA INFORMACIN


ESTADSTICA
Las tres formas de grficas ms usadas son:

Histogramas

Polgonos de Frecuencia

Distribuciones de Frecuencias Acumuladas (ojivas).

Jorge L. Pastor Paredes

2-13

Histogramas:

Grfica donde las clases se marcan en el eje horizontal y las


frecuencias de clase en el eje vertical.

Las frecuencias de clase se representan por las alturas de las barras y


stas se trazan adyacentes entre s.
Polgonos de Frecuencia:

Consiste en segmentos de lnea que conectan los puntos formados por


el punto medio de la clase y la frecuencia de clase.
Distribucin de Frecuencia Acumulada: (ojivas)

Se usa para determinar cuntos o qu proporcin de los valores de


los datos es menor o mayor que cierto valor.

Jorge L. Pastor Paredes

2-14

Histograma para las horas de estudio

Jorge L. Pastor Paredes

Histograma: Frecuencias y Marcas de Clase

2-15

Polgono de frecuencias
para las horas de estudio

Jorge L. Pastor Paredes

2-16

Distribucin de frecuencias acumuladas


para las horas de estudio

Jorge L. Pastor Paredes

2-19

Grfica de Barras para los datos de desempleados

Jorge L. Pastor Paredes

2-22

Grfica Circular para tipos de zapatos

Jorge L. Pastor Paredes

ESTADSTICA INFERENCIAL

Tamao = N

Poblacin

Muestra

Media

DS

Tamao = n
Media
= X
DS
= s

Distribucin de Probabilidad

Conjunto de todos los posibles resultados de un experimento


asociado a la probabilidad de ocurrencia de cada uno de
ellos.
Para tres tiradas de una moneda, la distribucin de
probabilidad que no salga cara es cero, que salga una, dos y
tres caras.
Px

3/8
2/8
1/8
0

Jorge L. Pastor Paredes UBA, UNFV, UNSA

1
2
3
Nmero de Caras

6-3

Variables Aleatorias

Conjunto de variables cuyos valores dependen del azar, los cuales


pueden tomar diferentes valores, siendo posible establecer una
medida de su probabilidad.
Ejemplo: considere un experimento aleatorio en el que se lanza tres
veces una moneda. Sea X el nmero de caras. Sea C el resultado de
obtener una cara y S el de obtener un sello.

El espacio muestral para este experimento ser:

SSC
SSS CSC
Entonces, los valores posibles
CSS

2, 3.

SCC
SCS CCC
de
CCSX (nmero de caras) son x = 0, 1,

Jorge L. Pastor Paredes UBA, UNFV, UNSA

6-5

Explicacin:

El resultado cero caras ocurri una vez.

El resultado una cara ocurri tres veces.

El resultado dos caras ocurri tres veces.

El resultado tres caras ocurri una vez.

De la definicin de variable aleatoria, la X definida en este


experimento, es una variable aleatoria.
Caracterstica de una Distribucin de Probabilidad:

La probabilidad de un resultado siempre debe estar entre 0 y 1.

La suma de todos los resultados mutuamente excluyentes


siempre es 1.

Jorge L. Pastor Paredes UBA, UNFV, UNSA

6-8

Variable Aleatoria Discreta

Es una variable que solo puede tomar ciertos valores


claramente separados, que son el resultado de la cuenta
de alguna caracterstica de inters.
Toma nicamente un nmero finito o numerable de
valores.
Ejemplo: sea X el nmero de caras obtenidas al lanzar 3
veces una moneda. Aqu los valores de X son x = 0, 1, 2, 3.
Ejemplo: Si hay 40 alumnos en el aula, la cantidad de
ausentes en una clase del Martes puede ser: 0, 1, 2,
3......40.

Jorge L. Pastor Paredes UBA, UNFV, UNSA

6-9

Variable Aleatoria Continua

Es una variable que puede tomar un nmero


infinito de valores.
Puede tomar uno de una cantidad infinitamente
grande de valores, dentro de ciertas limitaciones.
Ejemplos:
La altura de un jugador de
bsquetbol
El tiempo que dura una siesta
La presin de un neumtico

Jorge L. Pastor Paredes UBA, UNFV, UNSA

6-10

Media de una Distribucin Discreta

Indica la ubicacin central de los datos: es el


promedio.

Tambin se conoce como el valor esperado, E(x) de


una distribucin de probabilidad, es un promedio
ponderado.

La media se calcula con la frmula:

donde representa la media y P(x) es la probabilidad


de los diferentes resultados x.

= E ( x) =

Jorge L. Pastor Paredes UBA, UNFV, UNSA

[ x * P( x)]

6-12

Varianza y Desviacin Estndar

La varianza mide la cantidad de dispersin


(variacin) de una distribucin.
La varianza de una distribucin discreta se denota
2
por la letragriega
(sigma cuadrada).
La desviacin estndar se obtiene sacando la raz
cuadrada de sigma.
La varianza de una distribucin de probabilidad
discreta se calcula a partir de la frmula:

[( x ) P( x)]
2

Jorge L. Pastor Paredes UBA, UNFV, UNSA

Ejemplo:
La siguiente distribucin de
probabilidad corresponde a los
autos vendidos con sus
respectivas probabilidades,
encontrar la media y la varianza
de la distribucin
X
0
1
2
3
4

P(x)
0.10
0.20
0.30
0.30
0.10

XP(x)
0
0.20
0.60
0.90
0.40
= 2.10

X-
-2.1
-1.1
-0.1
0.9
1.9

No. Autos
Vendidos
X
0
1
2
3
4

Prob.
P(x)
0.10
0.20
0.30
0.30
0.10

(X-)2 (X-)2 P(x)


4.41
0.441
1.21
0.242
0.01
0.003
0.81
0.243
3.61
0.361
2 = 1.290

6-14

Distribuciones de Probabilidad
Distribucin
Discreta

Binomial
Hipergeomtrica
Poisson

Jorge L. Pastor Paredes UBA, UNFV, UNSA

Distribucin
Continua

Normal
Exponencial
Uniforme

6-18

Distribucin de Probabilidad
Binomial

Es una distribucin de probabilidad discreta en el que solo existe dos


resultados posibles en la ejecucin de un experimento.
La distribucin binomial tiene las siguientes caractersticas:
1. El resultado de un experimento es mutuamente excluyente: xito
(x) o fracaso (1-x) (Bernoulli).
2. Los xitos o fracasos son resultados de una cantidad fija de
ensayos con reemplazo.
3. La probabilidad de xito o fracaso es la misma para cada ensayo.
4. Los ensayos son independientes.

Jorge L. Pastor Paredes UBA, UNFV, UNSA

6-20

La frmula para la distribucin de probabilidad


binomial es:

n!
P( x)
x (1 ) n x
x !(n x )!

n el nmero de ensayos
x el nmero de xitos
observados
la probabilidad de xito en
cada ensayo (no es pi=3.1416)

Media, Varianza y Desviacin Estndar

La media est dada por:

La varianza est dada por:


estndar:
2

n (1 )

Jorge L. Pastor Paredes UBA, UNFV, UNSA

Desviacin

n (1 )

6-21

Ejemplo:
La respuesta a una pregunta de verdadero/falso es correcta o incorrecta.
Considere que 1) un examen consiste en cuatro preguntas de
verdadero/falso, y 2) un estudiante no sabe nada a cerca de la materia. La
probabilidad de que el alumno adivine la respuesta correcta a la primera
pregunta es 0.50, Asimismo, la probabilidad de acertar en cada una de las
preguntas restantes vale 0.50.
Cul es la probabilidad de:
a) No obtener exactamente ninguna de las cuatro en forma correcta.
b) Obtener exactamente una de las cuatro.
c) Encontrar la media y la varianza.

4!
a) P (0)
0.500 (1 0.50) 4 0 0.0625
0!(4 0)!

4!
b) P (1)
0.501 (1 0.50) 4 1 0.2500
1!(4 1)!
Jorge L. Pastor Paredes UBA, UNFV, UNSA

6-22

c) La media, varianza y la desviacin estndar es:


Recuerde que = 0.50 y n = 4
Media =

n 4(0.50) 2

Varianza = 2 = n (1 - ) = (4)(0.50)(1-0.50) =1
Desv. Estndar = 1 1
2

Jorge L. Pastor Paredes UBA, UNFV, UNSA

6-27

Distribucin Hipergeomtrica

Es aplicable a muestreo sin reemplazo de una poblacin finita,


(muestra de una poblacin pequea) en el cul se da una serie de
experimentos tal que el resultado de cualquiera de ellos a partir del
segundo es afectado por el resultado de los anteriores.

Caractersticas:
a)

Existen solo dos resultados posibles.

b)

La probabilidad de un xito no es la misma en cada ensayo.

c)

La distribucin resulta de un conteo del nmero de xitos en


una cantidad fija de ensayos.

(S C x )( N S C n x )
P(x)
N Cn
Jorge L. Pastor Paredes UBA, UNFV, UNSA

Donde:
N es el tamao de la poblacin,
S es la cantidad de xitos en la poblacin,
x es el nmero de xitos de inters,
n es el nmero de ensayos o muestra, y
C es una combinacin.

6-28

Ejemplo:
Durante la semana se fabricaron 50 juegos de PayStation (N=50).
Operaron 40 sin problemas (S=40) y 10 tuvieron al menos un defecto.
Se selecciona una muestra al azar de 5 (n=5). Cul es la probabilidad
de que 4 (x=4) de las 5 funcionen perfectamente? Observe que el
muestreo se hace sin reposicin y que el tamao de la muestra de 5 es
10% de la poblacin (esto es mayor que la condicin de 5%).
Solucin:

( 40 C 4 )(50 40 C5 4 )
P(4)
50 C 5

40! 10!
(
)(
)
4!36! 1!9! (91,390)(10)
P(4)

0.431
50!
2'118,760
5!45!

La probabilidad de seleccionar 5 juegos al azar de 50, y descubrir que 4


de los 5 operan bien, es 0.431 o 43.1%

Jorge L. Pastor Paredes UBA, UNFV, UNSA

6-30

Distribucin de Poisson

Es aplicable a casos en los cuales se desea obtener la probabilidad de un


evento sobre algn intervalo (tiempo o espacio).

Es la forma lmite de la distribucin Binomial donde la probabilidad de


xito es muy pequea y n es grande.

Ejemplo: Nmero de turistas que visitan el Cuzco en un mes; nmero de


asaltos ocurridos en Lima en un ao; nmero de computadoras que
presentan fallas, etc.

e
P( x )
x!
x

Jorge L. Pastor Paredes UBA, UNFV, UNSA

Donde:
es la media aritmtica del nmero de
ocurrencias (xitos) en un intervalo
especfico de tiempo.
e es la constante 2.71828
x es el nmero de ocurrencias (xitos).

Ejemplo:
Una muestra aleatoria de 1000 viajes areos revela un total de 300
maletas perdidas. La media aritmtica del nmero de maletas perdidas
por vuelo es 0.3 (300/1000). Si la cantidad de maletas perdidas por
viaje areo sigue una distribucin de Poisson con = 0.30 Calcular la
probabilidad de no perder ninguna maleta y la probabilidad de perder
una maleta.

x e u
P( x)
x!

Jorge L. Pastor Paredes UBA, UNFV, UNSA

0.30 e 0.30
P ( 0)
0.7408
0!

0.31 e 0.30
P(1)
0.2222
1!

7-3

Distribucin de
Probabilidad Normal

Distribucin de Probalidad Normal

La curva de la DPN tiene forma de campana con


un solo pico justo en el centro de la distribucin.
La media, mediana y moda (Me, Md y Mo) de la
distribucin son iguales y se localizan en el pico.
La mitad del rea bajo la curva est a la derecha del
pico, y la otra mitad est a la izquierda.
La distribucin normal es simtrica respecto a su
media.
La distribucin normal es asinttica la curva se
acerca cada vez ms al eje x pero en realidad nunca
llega a tocarlo.
Jorge L. Pastor Paredes UBA, UNFV, UNSA

Grfico de una Distribucin Normal


La curva
normal es
simtrica

En teora, la curva se
extiende hasta el
infinito.
Cola +

Cola -

Me=Md=Mo
Jorge L. Pastor Paredes UBA, UNFV, UNSA

Familia de Curvas de Distribucin Normal


= 1.6

= 1.6

= 1.6

=283

=310

h
i

h
i

=321

=52

=26

h
i

=41

=283

Y
i

Jorge L. Pastor Paredes UBA, UNFV, UNSA

=310

Y
i

=321

7-6

Distribucin Normal Estndar

Es aquella distribucin normal que tiene media


igual a 0 y desviacin estndar igual a 1.
Valor Normal Z: es la distancia entre un valor
seleccionado, designado como X, y la poblacin
media , dividida entre la desviacin estndar de
la poblacin .
0.4719

X
z

-z
Jorge L. Pastor Paredes UBA, UNFV, UNSA

1.91

+z

7-7
Ejemplo:
La media de un grupo de ingresos semanales con distribucin normal para un gran conjunto de gerentes
de nivel medio, es $1000 cul es el desvo normal o valor z para un ingreso x de 1100? para uno de
900? DS=100
Solucin:
para x = 1100

para x = 900

0.3413

1100 1000
Z
1.00
El desvo Z=1.00
100 indica que

900 1000
Z
1.00
100 de $1100 para
ingreso semanal

un
un gerente de nivel medio est una
desviacin estndar por en cima de la media; asimismo Z=-1 indica que un ingreso de $900 se encuentra
una desviacin estndar por debajo de la media.
El 34.13% de los ingresos semanales estn entre 1100 y 1000 o existe una probabilidad
0 de1 34.13% que el
ingresos especfico se halle entre 1100 y 1000.

1000

1100

7-8

reas bajo la Curva Normal


Cerca de 68% del rea bajo la curva
normal est a menos de una desviacin
estndar respecto a la media. 1
Alrededor de 95% est a menos de dos
desviaciones estndar de la media. 2
99.74% est a menos de tres desviaciones
estndar de la media. 3

2 1

2 3

68.26%
95.44%
99.74%

Jorge L. Pastor Paredes UBA, UNFV, UNSA

Transformacin de las Mediciones a Valores Z


El rea total bajo la curva normal es igual a 1.
El rea bajo la curva normal dentro de +/- una
DS respecto a la media es 0.6826

3
-3

2 1 1
-2

Jorge L. Pastor Paredes UBA, UNFV, UNSA

-1

2 3
2

7-11

Situaciones en las que se quiere encontrar el rea bajo la


curva normal estndar:
1. Si se desea hallar el rea entre 0 y z (o -z), puede buscarse el valor
directamente en la tabla.
2. Si se quiere obtener el rea ms all de z (o -z), localice la
probabilidad de z en la tabla y reste ese valor de 0.50.
3. Para el rea entre dos puntos en diferentes lados de la media,
determine el valor z y sume las reas correspondientes.
4. Para el rea entre dos puntos en el mismo lado de la media,
determine el valor z y reste al rea menor de la mayor.

Jorge L. Pastor Paredes UBA, UNFV, UNSA

Muestreo Probabilstico

8-4

Muestreo Probabilstico

Mtodo Probabilstico:
Es una muestra seleccionada de manera que cada integrante de la poblacin
que se estudia tenga una probabilidad conocida (no igual a cero) de ser
incluida en la muestra.
Caracterstica: el azar determina los integrantes de la muestra.

Mtodo No Probabilstico:
Muestra en que no todos los integrantes de la poblacin tienen probabilidad
de ser incluidos en la muestra.
Los resultados pueden ser sesgados y no representativos de la poblacin.
Ejemplo, muestreo por panel o por accin directa: la seleccin de los
miembros del panel se basa en el juicio del investigacdor, y por lo tanto los
resultados de la muestra pueden no ser representativos de toda la poblacin.

Jorge L. Pastor Paredes UBA, UNFV, UNSA

8-5

Mtodos de Muestreo Aleatorio

Muestra Aleatoria Simple:


Procedimiento de seleccin por el cul todos y cada uno de
los elementos de la poblacin tienen la misma probabilidad
de ser incluidos en la muestra.
Se utiliza la Tabla de nmeros aleatorios

Muestra Aleatoria Sistemtica:


Los artculos o individuos de la poblacin se colocan en
cierto orden. Se elige un punto de partida aleatorio y
despus se selecciona uno cada k-simo elemento de la
poblacin para la muestra.

Jorge L. Pastor Paredes UBA, UNFV, UNSA

8-6

Muestreo Aleatorio Estratificado:


Se divide la poblacin en subgrupos, llamados estratos, y
se selecciona una muestra de cada estrato.
Este muestreo garantiza la representatividad de cada
subgrupo.

Muestreo por Conglomeracin:


Primero se divide la poblacin en subgrupos (estratos), y se
selecciona un estrato.
La muestra se toma del estrato seleccionado.

El error de muestreo:
Es la diferencia entre un estadstico muestral y su
parmetro poblacional.

Jorge L. Pastor Paredes UBA, UNFV, UNSA

Muestreo Aleatorio Simple. Caso Prctico:


Con reemplazo significa que se selecciona una calificacin de la poblacin y
luego sta se regresa a la misma antes de tomar la siguiente; por tanto cada
calificacin puede ser seleccionada ms de una vez en la misma muestra.
Sin reemplazo significa que una vez seleccionada la calificacin, sta ya no se
regresa a la poblacin, y por tanto, cada calificacin puede aparecer solo una
vez.
Una poblacin de 3 calificaciones: 12, 14 y 16. Se toma una muestra de
tamao n=2 con o sin reemplazo.
Con reemplazo: el nmero de muestras a tomar es Nn = 32 = 9 Las muestras
son:
12,12

12,14

12,16

14,12

14,14

14,16

16,12

16,14

16,16

Cada una de estas muestras tiene 1/9 de probabilidad de ser escogida.

Sin reemplazo, se tiene siempre una muestra de tamao n = 2; el nmero


de muestras por tomar es el resultado del desarrollo combinatorio:

N
n

N
N!
=
n!(N-n)!
n

3
3!
3 x 2!

3

2!(3 2)! 2!1!
2

Las muestras son: 2,4; 2,6; 4,6 Cada de estas muestras tienen 1/3 de
probabilidad de ser escogida

Distribucin de Muestreo

Una distribucin muestral es la distribucin de los valores


individuales incluidos en una muestra.
Se refiere a la distribucin de los diferentes valores que un
estadstico muestral o estimador, podra adoptar en muchas
muestras del mismo tamao
Como se trabaja con muestra aleatoria o subgrupos
reconoce que el estadstico muestral (media o mediana) no
es exactamente igual al respectivo parmetro de la
poblacin
El valor de un estadstico muestral variar de una muestra a
otra, a causa de la variabilidad del muestreo aleatorio o
error aleatorio.

Jorge L. Pastor Paredes UBA, UNFV, UNSA

Media

X
j 1

= suma de todos los valores


de la poblacin.
= tamao de la poblacin.

Varianza

2
(
x

j 1

N
N

Desviacin
Estndar

Jorge L. Pastor Paredes UBA, UNFV, UNSA

2
(
x

j 1

Distribucin Muestral de Medias


Es una distribucin probabilstica que consta de todas las medias
muestrales posibles, con o sin reemplazo, de una poblacin y la
probabilidad de ocurrencia asociada a cada media muestral.
Muestreo con Reemplazo:
Sean las siguientes calificaciones de 5 estudiantes: 14, 15, 16, 17, 18
Calcular:
1. La media y la varianza de la poblacin.
2. Las medias de todas la muestra de tamao 2.
3. Transformar la serie de medias en una distribucin muestral de medias.
4. La media de las medias muestrales.
5. El error estndar de la media (DS de la distrib. muestral de medias).
6. Las probabilidades de las medias muestrales.
Jorge L. Pastor Paredes UBA, UNFV, UNSA

8-8

1. Media, varianza y desviacin estndar de la poblacin:


Calificaciones X

X (X-)2

14
15
16
17
18
= 80

-2
-1
0
1
2
0

4
1
0
1
4
10

80
16
5

10
2
5

1.4142

2. Medias de todas la muestras de tamao 2, con reemplazo:


Muestra

14,14
15,14
16,14
17,14
18,14

X
14.0
14.5
15.0
15.5
16.0

Muestra

Muestra

14,15
15,15
16,15
17,15
18,15

14.5
15.0
15.5
16.0
16.5

14,16
15,16
16,16
17,16
18,16

X
15.0
15.5
16.0
16.5
17.0

Muestra

14,17
15,17
16,17
17,17
18,17

X Muestra
15.5 14,18
16.0 15,18
16.5 16,18
17.0 17,18
17.5 18,18

X
16.0
16.5
17.0
17.5
18.0

El nmero de muestras de tamao 2 que se puede obtener de una poblacin de 5


observaciones es: Nn = 52 = 25

8-9

3. Transformar la serie de medias en una distribucin muestral de


medias: Se introduce el concepto de frecuencia (f i), se refiere al
nmero de veces que ocurre un valor determinado, en trmino de
frecuencias la media y la varianza se pueden expresar:

fX

f (X )

4. La serie de medias la transformamos en una distribucin muestral


de medias de la siguiente manera:
E( X )

fX 400

16
f
25

f
(
X

)
5.

X
f

Jorge L. Pastor Paredes UBA, UNFV, UNSA

25
1
25

igual a la media de la poblacin

2
X 1

8-10

Distribucin Muestral de Medias, n=2


f

X
14.0
14.5
15.0
15.5
16.0
16.5
17.0
17.5
18.0

1
2
3
4
5
4
3
2
1
25

Se ha obtenido

2
X

fX
14
29
45
62
80
66
51
35
18
400

(X- ) (X- )2 f(X- )2 Prob.


-2.0
-1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
2.0
0

4.00
2.25
1.00
0.25
0.00
0.25
1.00
2.25
4.00

4.0
4.5
3.0
1.0
0.0
1.0
3.0
4.5
4.0
25.0

1/25
2/25
3/25
4/25
5/25
4/25
3/25
2/25
1/25
25/25

x2 = 1 relacionando este valor con el de 2 se deduce que:

2 2 2
2

; X
X
2
2 n
n
n

Jorge L. Pastor Paredes UBA, UNFV, UNSA

Error Muestral de
la distribucin de
Probabilidad.

8-11

La relacin anterior indica que la desviacin estndar de la distribucin


muestral de medias, es directamente proporcional a la desviacin
estndar poblacional e inversamente proporcional a la raz cuadrada
del tamao de la muestra.
Esta frmula es de gran utilidad para la inferencia estadstica la cual
concuerda con el error estndar de la distribucin muestral de medias
encontrada en el caso anterior:

1.4142
X

1
n
2
Las probabilidades de 25 medias muestrales se presentan en la ltima
columna de la tabla anterior. Cuando las 25 muestras se seleccionan al
azar, cada muestra tendr la probabilidad de 1/25 de ser seleccionada.
Puesto que hay cuatro muestras con 15.5, por ejemplo, y el total de
medias es 25, la probabilidad de que una muestra seleccionada tenga
media de 15.5 ser 4/25.
Jorge L. Pastor Paredes UBA, UNFV, UNSA

Muestreo Sin Reemplazo:


Con las mismas calificaciones de los 5 estudiantes, responder las
mismas preguntas.
1. La media poblacional =16, la varianza 2=2 y la desviacin
estndar = 1.4142
2. El nmero de muestras de tamao 2 sin reemplazo, resulta del
desarrollo combinatorio:
5
N
N
5!


N!
N

10
n
2! 5 2 !
C n n! N n !
n
2

Muestra

Muestra

14,15
14,16
14,17
14,18
15,16

14.5
15.0
15.5
16.0
15.5

15,17
15,18
16,17
16,18
17,18

16.0
16.5
16.5
17.0
17.5

Jorge L. Pastor Paredes UBA, UNFV, UNSA

Tabla de muestras de tamao 2


y sus respectivas medias.

3. Distribucin Muestral de Medias, n=2

4.
5.

14.5
15.0
15.5
16.0
16.5
17.0
17.5

1
1
2
2
2
1
1
10

fX
14.5
15.0
31.0
32.0
33.0
17.0
17.5
160

(X- ) (X- )2 f(X- )2 Prob.


-1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
0

fX 160

16
f
10

f ( X ) 2
7.5

0.866
X
f
10

Jorge L. Pastor Paredes UBA, UNFV, UNSA

2.25
1.00
0.25
0.00
0.25
1.00
2.25

2.25
1.00
0.50
0.00
0.50
1.00
2.25
7.50

1/10
1/10
2/10
2/10
2/10
1/10
1/10
10/10

El mustreo sin reemplazo genera poblaciones finitas, de tal manera que para
calcular la desviacin estndar de la distribucin muestral de medias, es decir
el error estndar de las medias, en muestreo sin reemplazo, se tiene que
introducir el factor de correccin finita:
N n
N 1

La frmula del error estndar quedar:

N n
x
N 1
n

1.4141 5 2
x
0.866
1.4141 5 1

6. Las probabilidades de las 10 medias muestrales figuran en la tabla anterior.


Cuando las 10 muestras se seleccionan al azar, cada muestra tendr la
probabilidad de 1/10 de ser seleccionada. Puesto que hay dos muestras con
medias 15.5, 16.0 y 16.5 la probabilidad de ser seleccionada cada una de ellas
es 2/10, la probabilidad del resto de las medias 1/10 para cada una.

Jorge L. Pastor Paredes UBA, UNFV, UNSA

8-12

Teorema del Lmite Central

Para muestras grandes, n 30


se puede obtener una
aproximacin cercana de la distribucin muestral de la
media con una distribucin
normal.
X error
muestral
ERROR ESTNDAR DE LA MEDIA

X
n

X si
Para muestras aleatorias de poblaciones finitas,
es la
media de una muestra aleatoria de tamao n de una
poblacin finita con la media y la desviacin estndar y
n es grande, entonces:
Es el valor Z de una variable aleatoria que tiene
X
z
aproximadamente
la
distribucin
normal

X
s
n

estndar, cuando se conoce su DS poblacional.

Es el valor Z de una variable aleatoria que tiene


aproximadamente
la
distribucin
normal
estndar, cuando se conoce su DS muestral.
Jorge L. Pastor Paredes UBA, UNFV, UNSA

Ejemplo:
Cul es la probabilidad de que el error sea menor que 5, cuando se
usa una muestra aleatoria de tamao n= 64 para estimar la media de
una poblacin infinita con =20? Solucin:
0.4772 + 0.4772= 0.9544

5
z
2
20
64
z

5
20

0.4772

0.4772

-5
z=-2

+5
z=2

2
64

La probabilidad es aproximadamente 0.95 (95%) de que la media de


una muestra aleatoria de tamao n=64 de la poblacin de referencia
difiera de la poblacin por menos de 5.

Estimacin e Intervalos de Confianza


Una estimacin es un valor especfico observado de una estadstica.
Se hace una estimacin cuando se toma una muestra y se calcula el
valor que toma el estimador de esa muestra.
El estimador es una estadstica de muestra utilizada para estimar un
parmetro de la poblacin.
Por ejemplo, la media de la muestra X puede ser estimado de la
media de la poblacin , y la porcin de la muestra (p) se puede
utilizar como estimador de la porcin de la poblacin ().
Tipos de Estimacin:
1. Estimacin puntual
2. Estimacin por intervalos
3. Estimador Insesgado o Sesgado

La Estimacin Puntual: es solo un estadstico que se utiliza para


estimar un parmetro de una poblacin desconocida. Solo tiene dos
opciones: correcta o incorrecta.

La Estimacin de Intervalo: es un intervalo de valores que se utiliza


para estimar un parmetro de la poblacin. Esta estimacin indica el
error de dos maneras: por la extensin del intervalo o por la
probabilidad de obtener el verdadero parmetro de la poblacin que
se encuentra dentro del intervalo.

El Estimador Insesgado: es un estadstico muestral cuyo valor


esperado es igual al parmetro por estimar. El valor esperado es el
promedio a largo plazo del estadstico muestral.
La eliminacin de todo sesgo est asegurada cuando el estadstico
muestral corresponde a una muestra aleatoria tomada de una
poblacin.

PARMETRO DE LA POBLACIN
Madia:
Diferencias de medias de dos poblaciones: 1 - 2
Proporcin:
Diferencias de proporciones de dos poblaciones: 1 - 2
Varianza: 2
Desviacin Estndar:

ESTIMADOR

X1 -X 2
p

p1-p2
s2
s

Estimadores Puntuales
Error Estndar de la Media:
Cuando se conoce la desviacin
estndar de la poblacin:
Error Estndar de la Media:
Con base en la desviacin estndar
de la muestra, por que en la mayora
de los casos se desconoce la
desviacin estndar de la poblacin:

Intervalo de Confianza para


una Media Poblacional (n30):

Jorge L. Pastor Paredes UBA, UNFV, UNSA

s
sX
n

X z

s
n

Intervalos de confianza de 95% y 99%


para
Los intervalos de confianza (IC) de 95% y 99% para
cuando n 30 se forman como sigue:
1. IC de 95% para la media poblacional est dado por:

s
X 1.96
n

2.

IC de 99% para la media poblacional est dado por:

s
X 2.58
n

Los valores 1.96 y 2.58 son los valores Z correspondientes


al 95% y 99%.

Jorge L. Pastor Paredes UBA, UNFV, UNSA

Caso Prctico:
Una empresa multinacional desea conocer el ingreso promedio de sus
gerentes de mando medio, con un nivel de confianza del 95%. En una
muestra aleatoria de 256 gerentes, la media es $45,420 y la DS es $2,050.
Se pregunta:
a)Cul es la media poblacional?
b)Cul es un intervalo razonable para la media poblacional?
c)Cmo se interpretan los resultados?
Solucin:
a)No se conoce. En este caso la media muestral puede considerarse como
estimador puntual de la media poblacional.
b)Al 95% de nivel de confianza:
s
2, 050
45, 4201.96
45, 420 251
n
256
45, 420 251 45,169
45, 420 251 45, 671
X z

Nivel de Confianza = 95%


Intervalo de Confianza:
45,169-45,671

Intervalo de Confianza
para una Proporcin de la Poblacin
Se obtiene dividiendo el nmero de xitos en la muestra, entre el
nmero total muestrado.
Intervalo de Confianza
para una Proporcin de
la Poblacin:

p z p

Error Estndar
de la Proporcin
Muestral:

Intervalo de Confianza
para una Proporcin
Muestral:

p (1 p)
pz
n

Jorge L. Pastor Paredes UBA, UNFV, UNSA

p(1 p)
n

Factor de Correccin para Poblacin Finita


Error Estndar de la Media
Muestral, con un Factor de
Correccin:

Error Estndar de la Proporcin


Muestral, con un Factor de
Correccin:

Jorge L. Pastor Paredes UBA, UNFV, UNSA

N n
.
n N 1
p (1 p )
n

N n
N 1

Seleccin de un Tamao de Muestra Adecuado


Tamao de la
Muestra para
una Media:
Tamao de la
Muestra para
una Proporcin:
Donde:

z.s
n

z
n p (1 p )

n = tamao de la muestra
z = valor normal estndar segn el NC deseado
s = estimador de la DS de la poblacin
E = mximo error permisible
p = proporcin muestral

Jorge L. Pastor Paredes UBA, UNFV, UNSA

La Prueba de Hiptesis

9-3

Qu es una Hiptesis?
Es un proposicin afirmativa acerca de una poblacin
elaborada con el fin de ponerse a prueba.
Ejemplos:
El crecimiento de la economa permitir reducir la
morosidad bancaria en 20%.
El precio del kg. de limones bajar de 2.00 a 1.50 si las
reas de cultivo se incrementara en 20%.
El mercado de valores en el Per podr ser ms profundo
si se creara una mayor cantidad de instrumentos de
inversin.
La tasa de rentabilidad del mercado de capitales peruano
ha originado un mayor ingresos de dlares ocasionando
una mayor apreciacin del nuevo sol.
Dr.Jorge L. Pastor Paredes-UBA, UNFV, UNSA

Mtodos para la Prueba de Hiptesis


1. Mtodo del Valor Crtico:
Se determinan los valores crticos de los estadsticos de prueba que
ameritaran el rechazo o aceptacin de una hiptesis, tras lo cual el
estadstico calculado se compara con los valores crticos.

2. Mtodo del valor P:


Se basa en la determinacin de la probabilidad condicional de que el
valor observado de un estadstico muestral pueda ocurrir al azar, dado
que en un supuesto particular sobre el valor del parmetro poblacional
asociado sea correcto.

3. Mtodo del Intervalo de Confianza:


Se basa en la observacin de si el valor supuesto de un parmetro
poblacional est incluido en el rango de valores que define a un
intervalo de confianza para ese parmetro.

9-4

La Prueba de Hiptesis
P a s o 1 : p la n t e a r la s h ip t e s is n u la y a lt e r n a

Procedimiento basado en
la evidencia muestral y en
la teora de proba-bilidad.
Se emplea para determinar si la hiptesis es un
enunciado razonable y
debe aceptarse o si no es
razonable y debe ser
rechazado.

P a s o 2 : s e le c c io n a r u n n iv e l d e s ig n if ic a n c ia
P a s o 3 : id e n t i f ic a r e l v a lo r e s t a d s t ic o d e p r u e b a
P a s o 4 : f o r m u la r u n a r e g la d e d e c is i n
P a s o 5 : t o m a r u n a m u e s t r a , lle g a r a u n a d e c is i n
N o r e c h a z a r la
h ip t e s is n u la

Dr.Jorge L. Pastor Paredes-UBA, UNFV, UNSA

R e c h a z a r la h i p t e s is n u la
y a c e p t a r l a a lt e r n a

9-6

Definiciones
1. Hiptesis Nula H0:
Afirmacin acerca del valor de un parmetro
poblacional.
Hiptesis Alterna H1:
Afirmacin que se aceptar si los datos
muestrales proporcionan evidencia de que la
hiptesis nula es falsa.
2. Nivel de Significancia:
Probabilidad de rechazar la hiptesis nula cuando
es verdadera.
Error Tipo I:
Rechazar la hiptesis nula cuando en realidad es
verdadera.
Dr.Jorge L. Pastor Paredes-UBA, UNFV, UNSA

9-7

Error Tipo II:


Aceptar la hiptesis nula
cuando en realidad es falsa.
3. Calcular el valor del
Estadstico de Prueba:
Valor obtenido a partir de la
informacin muestral, se
utiliza para determinar si se
rechaza o no la hiptesis.
4. Valor Crtico:
El punto que divide la regin
de aceptacin y la regin de
rechazo de la hiptesis nula.

Hiptesis
Se acepta
Nula
H0
H0 verdadera Decisin
correcta
H0 falsa

Se rechaza
H0
Error
Tipo I

Error
Tipo II

X
z
/ n

Decisin
correcta
Estadstico de
prueba para la
media poblacional.

Valor
Crtico
No se rechaza
Se acepta
H0

Dr.Jorge L. Pastor Paredes-UBA, UNFV, UNSA

0
Prob. 0.95

Zona de
Rechazo

1.65 escala de Z
Prob. 0.05

9-8

Prueba de Significancia de una Cola


Una prueba es de una cola cuando la hiptesis
alterna, H1, establece una direccin, como:

H0 :
que
H1 :
que

el ingreso medio de las mujeres es menor


o igual al ingreso medio de los hombres.
el ingreso medio de los hombre es mayor
el ingreso medio de las mujeres.
Valor
Crtico
Zona de
Rechazo

Aceptacin
H0

-1.65

Nivel de Significancia 0,05

escala de Z
Dr.Jorge L. Pastor Paredes-UBA,

9-10

Prueba de Significancia de Dos Colas


Una prueba es de dos colas cuando no se
establece una direccin especfica de la hiptesis
alterna H1, como:

H0 : No hay diferencia entre el ingreso medio de


los hombres y el ingreso medio de las mujeres.
H1 : Hay una diferencia entre el ingreso medio
Ver Tabla
0.50 0.025 = 0.4750
= 1.96 de las
de los hombres y el ingreso
medio
Apndice D
mujeres.
Zona de
Rechazo
0.025

-1.96
Valor Crtico
Dr.Jorge L. Pastor Paredes-UBA, UNFV, UNSA

Aceptacin H0
0.95
0

Zona de
Rechazo
0.025

1.96
escala de Z
Valor Crtico

9-12

Prueba para la Media Poblacional con


Cuando se hace una prueba para la media
poblacional de una muestra grande y se conoce la
desviacin estndar, el estadstico de prueba est
dado por:

X
z
/ n

Donde:
X = media muestral
= media poblacional
= desviacin de la poblacin
n = nmero en la muestra

Dr.Jorge L. Pastor Paredes-UBA, UNFV, UNSA

9-14

Caso:
Una empresa fabrica y ensambla escritorios para oficina. La produccin
semanal de escritorios modelo A325 en la planta del Cuzco, se distribuye
normalmente con una media de 200 y una desviacin estndar de 16.
Recientemente, debido a la expansin del mercado, se han introducido
nuevos mtodos de produccin y se han contratado nuevos empleados. El
gerente quiere saber si ha habido un cambio total en la produccin semanal
del citado mueble, es decir si el nmero medio de escritorios producidos en
la planta del Cuzco es diferente de 200 para un nivel de significancia de
0.01 (n=50 semanas y media de escritorios producidos en el ltimo ao es
203.5)
Solucin:
Paso 1: Se establece la hiptesis nula y alterna: no se
visualiza una direccin, es una hiptesis de dos colas:
H 0 : 200
H1 : 200
Paso 2: Se establece la regla de decisin para un nivel de
significancia de 0.01.
Dr.Jorge L. Pastor Paredes-UBA, UNFV, UNSA

Paso 3: Se calcula el valor del estadstico de prueba:


H0 se rechaza si z < - 2.58 o z > 2.58
Paso 4: Decisin sobre H0: se acepta H0 porque 1.55 es menor que
el valor crtico 2.58 por consiguiente se concluye que la media de
la poblacin no es diferente de 200.
203.5 200
z
1.55
16 / 50
0.50

Zona de
Rechazo
0.01/2=0.005

Aceptacin H0
0.4950

-2.58
Valor Crtico

-1.55

Ver Tabla
Apndice D
Zona de
Rechazo
0.01/2=0.005

La evidencia muestral no refleja


que la tasa productiva de la planta
haya cambiado de 200 por
semana. La diferencia de 3.5
unidades se debe al azar.

0.4950
0

1.55

2.58
escala de Z
Valor Crtico
Dr.Jorge L. Pastor Paredes-UBA, UNFV, UNSA

9-17

Prueba para la Media Poblacional con


s
Aqu
es desconocida, as que se estimar con la
desviacin estndar de la muestra s.
Siempre que el tamao de muestra sea grande n 30,

z puede aproximarse con:

Caso:

X
z
s/ n

La cadena de tiendas EL emite su propia credit card. El gerente de


crdito, quiere determinar si la media mensual de saldos no pagados
es mayor que $400. El nivel de significancia es de 0.05. Una revisin
al azar de 172 saldos revel que la media muestral es $407 y la
desviacin estndar muestral es $38. Debe el gerente concluir que la
poblacin media es mayor que $400, o es razonable suponer que la
diferencia de $7 ($407-$400) se debe al azar?
Dr.Jorge L. Pastor Paredes-UBA, UNFV, UNSA

9-18

Solucin:
Paso 1:
Paso 2:
Paso 3:

H0 : 400
H1: 400
H0 se rechaza si z > 1.65
407 400
z
2.42
38 / 172

Paso 4: H0 se rechaza. Debido a que el valor estadstico de


prueba 2.42 es mayor que el valor crtico 1.65. El gerente
puede concluir que la media de saldos no pagados es
mayor que $400.
Zona de
Rechazo
0.05
Valor p
0
Dr.Jorge L. Pastor Paredes-UBA, UNFV, UNSA

1.65 2.42
Valor Crtico

escala de Z

9-20

Comparacin de dos Medias


Muestrales

Suponga que los parmetros para dos


poblaciones son:

1 , 2 , 1 y 2

Para muestras grandes el estadstico de


prueba es:

Dr.Jorge L. Pastor Paredes-UBA, UNFV, UNSA

X1 X 2
2

s1
s2

n1
n2

9-22

Caso:
Una compaa realiz un estudio para comparar los
aos promedio de servicio de las personas que se
jubilaron en 1979 con los que se jubilaron el ao
anterior. Con un nivel de significancia de 0.01 Podra
concluirse que los trabajadores que se retiraron el ao
anterior trabajaron ms aos segn la siguiente
muestra?
Caracterstica

1979

Ao anterior

Media de la muestra
Desviacin estndar
de la muestra
Tamao de la muestra

25.6
2.9

30.4
3.6

40

45

Dr.Jorge L. Pastor Paredes-UBA, UNFV, UNSA

9-23

Paso 1: Establecer la Ho y la H1 alternativa

H0 : 2 1

H1: 2 1

Paso 2: Elegir el nivel de significancia.


Rechace H0 si z > 2.33 (0.50-0.01=0.4900) tabla=2.33
Paso 3:

Paso 4:

30.4 25.6
2

6.80

3.6 2.9

402.33, H0 se rechaza.
Como z =45
6.80 >

Los que se jubilaron el ao anterior tenan ms aos de


servicio.

Dr.Jorge L. Pastor Paredes-UBA, UNFV, UNSA

Distribucin t Student

Distribucin t de Student

Estadstico que vala la incidencia de cada uno de los coeficientes


de regresin individuales en el modelo, permite estimar la media
poblacional a partir de una muestra pequea: n<30.
Se toman todas las muestras posibles de tamao n<30 de una
determinada poblacin con distribucin normal, y se calcula el
estadstico de prueba t.
Para construir un polgono de frecuencias con valores calculados X y
s de cada una de estas muestras, es necesario aplicar la prueba t:

X
t
s
n
Dr.Jorge L. Pastor Paredes-UBA, UNFV, UNSA

donde:

X = media muestral
= media poblacional
s = desviacin estndar muestral
n = nmero de datos

Se utiliza para la estimacin y prueba de hiptesis.


Tiene forma de campana y perfectamente simtrica con respecto a t=0
pero con una dispersin mayor, la cual aumenta a medida que
disminuye el tamao de la muestra.
No existe solo una distribucin t, sino varias distribuciones t.
Cada una de ellas est asociada a grados de libertad (gl).
Distribucin normal
Distribucin t con gl=29
Distribucin t con gl=3
Nivel de confianza 0.99
(t0.005=0.01/2=0.005)

-3 -2.58 -2
-5.84
Dr.Jorge L. Pastor Paredes-UBA, UNFV, UNSA

-1

0
0

2 2.58 3
5.84

Los grados de libertad (gl), se define como el nmero de


observaciones menos uno: gl=n-1, la forma de la distribucin
depender del tamao de la muestra.
En la grfica se han marcado valores crticos de Z y t. Para un nivel
de confianza de 0.99 el valor crtico de z es 2.58 y el valor t para 3
gl es 5.84
El valor crtico de t para 3 gl (t0.005) es 5.84. Indica que el 0.5% del
rea bajo la curva t est a la derecha de +5.84 o a la izquierda -5.84;
en consecuencia, el 99% del rea bajo t est incluida en el intervalo
5.84; es decir hay una probabilidad de 99% de que la variable t est
en el intervalo [-5.84, 5.84]

Dr.Jorge L. Pastor Paredes-UBA, UNFV, UNSA

El valor de 2.76 corresponde al valor crtico de la distribucin t


para 29 gl, indica que el 0.5% del rea bajo la curva est a la
derecha de 2.76 o a la izquierda -2.76, indica que el 99% del rea
bajo la curva t est incluida en el intervalo 2.76, es decir, existe
una probabilidad de 99% de que la variable t est en el intervalo
[-2.76, 2.76]

Se observa que el valor de t ha disminuido al crecer el nmero de


gl. Si el tamao de la muestra hubiese aumentado en forma
infinita, el valor de t tomara el valor de 2.58, que es igual al
valor de Z para la curva normal.

Dr.Jorge L. Pastor Paredes-UBA, UNFV, UNSA

Caso:
La experiencia en la investigacin de demandas por accidente en una
institucin aseguradora revela que en promedio cuesta $60 la realizacin
de todos los trmites. Este costo se consider exorbitante comparado con
el de otras compaas aseguradoras y se instauraron medidas para
reducir los costos. A fin de evaluar el impacto de estas nuevas medidas
se seleccion aleatoriamente una muestra de 26 demandas recientes y se
realiz un estudio de costos. Se encontr que la media muestral X y la
desviacion estndar s, de la muestra fueron $57 y $10, respectivamente.
En el nivel 0.01 de significacion, hay una reduccin en el costo
promedio, o la diferencia de $3(57-60) puede atribuirse al azar?

Dr.Jorge L. Pastor Paredes-UBA, UNFV, UNSA

Solucin:
Paso1: Plantear la hiptesis nula y la hiptesis alternativa. La hiptesis
nula, H0, es que la media poblacional vale $60. Esto se expresa como
sigue:
H0: = $60
H1: < $60
Paso 2: Seleccin del nivel de significacin: Se usar el nivel 0.01
Paso 3: Identificar el estadstico de prueba. Tal estadstico es la
distribucin t estudent, ya que 1) no se conoce la desviacin estndar de
la poblacin, y 2) el tamao de muestra es pequeo (n<30).
Paso 4: Los valores crticos de t se encuentran en la tabla. La columna del
extremo izquierdo de la tabla se titula grados de libertad, gl. Para esta
prueba hay (n-1) grados de libertad. Se recorre hacia abajo esa columna
hasta 25( n-1, o sea 26-1=25). El valor critico para gl=25, una prueba de
una cola, y el nivel 0.01 es 2.485
Dr.Jorge L. Pastor Paredes-UBA, UNFV, UNSA

Parte de la distribucin t
Valores crticos de t
Grados de
libert
ad g.l

Nivel de significacin para una prueba de cola


0.10

0.5

0.025

0.01

0.005

0.0005

Nivel de significacin para una prueba de dos colas


0.20

0.10

0.05

0.02

0.01

0.001

21

1.323

1.721

2.080

2.518

2.831

3.819

22

1.321

1.717

2.074

2.508

2.819

3.792

23

1.319

1.714

2.069

2.500

2.807

3.767

24

1.318

1.711

2.064

2.492

2.797

3.745

25

1.316

1.708

2.060

2.485

2.787

3.725

26

1.315

1.706

2.056

2.479

2.779

3.707

27

1.314

1.703

2.052

2.473

2.771

3.690

28

1.313

1.701

2.048

2.467

2.763

3.674

Dr.Jorge L. Pastor Paredes-UBA, UNFV, UNSA

Paso 5: calcular t:

X 57 60
t

1.53
s
10
n
26

Puesto que -1.53 se encuentra en la regin de aceptacin (a la derecha


de -2.485), la hiptesis nula de que =$60 no se rechaza al nivel de
0.01. Esto indica que no hay una reduccin en el costo promedio en la
investigacin de una demanda por accidente. La media sigue siendo
$60.
H0 : = 60
H0 : 60
NC = 0.01
gl = 26-1=25

Zona
Aceptacin

-2.485
-1.53
Valor crtico t calculado

Dr.Jorge L. Pastor Paredes-UBA, UNFV, UNSA

Caso:
La tasa actual para producir fusibles de 5 amp. en GE Co. es 250 por
hora. Se compr e instal una mquina nueva que, segn el proveedor,
aumentar la tasa de produccin. Una muestra de 10 horas
seleccionadas al azar el mes pasado, indica que la produccin media
por hora en la nueva mquina es 256, con desviacin estndar muestral
de 6 por hora. Con 0.05 de nivel de significancia, Puede la empresa
concluir que la nueva mquina es ms rpida?
Solucin:
H1: 250
Paso 1: H0 : 250
Paso 2: H0 se rechaza si t >1.833, gl = 9
Paso 3:
Paso 4:

t [ 256 250] / [6 / 10 ] 316


.
H0 se rechaza. La nueva mquina es ms rpida.

Dr.Jorge L. Pastor Paredes-UBA, UNFV, UNSA

NC = 0.05
gl = 9

1.83
Valor crtico

3.16
t calculado

En los ejemplos anteriores se proporcionan la media y la


desviacin estndar de la muestra. En los siguientes ejemplos se
necesita calcular estas medias a partir de observaciones
muestrales.
Dr.Jorge L. Pastor Paredes-UBA, UNFV, UNSA

Caso:
La longitud promedio de un tornillo es 43mm. Se cree que los ajustes en
la mquina, que producen los tornillos, hayan cambiando la longitud. La
hiptesis nula, que se probar al nivel 0.02, es que no hay cambios en la
longitud media =43. La hiptesis alternativa es que ha ocurrido un
cambio 43.
Se seleccionaron aleatoriamente doce tornillos (n=12) y se registr su
longitud. Las medidas son (en milimetros) 42, 39, 42, 45, 43, 40, 39, 41,
40, 42, 43 y 42. Ha habido un cambio estadsticamente significativo en
la longitud media de los tornillos?

Dr.Jorge L. Pastor Paredes-UBA, UNFV, UNSA

Solucin:
Las hiptesis nula y alternativa son:
H0 : = 43
H1 : 43
La hiptesis alternativa no indica una direccin, por lo que se trata de
una prueba de dos colas. Hay gl=11, que se obtienen por n-1=12-1=11.
Por lo que, consultando el Apendice F para una prueba de dos colas en
el nivel 0.02, el valor crtico es 2.718. Los valores crticos para el nivel
0.02 se muestran en el diagrama. Por tanto, la regla de decisin es
rechazar la hiptesis nula si el valor t no se encuentra entre +2.718 y
-2.718. De otra manera se acepta H0, que expresa que la longitud
media de los tornillos es 43mm.
Dr.Jorge L. Pastor Paredes-UBA, UNFV, UNSA

La desviacin estndar de la muestra puede determinarse elevando al


cuadrado las desviaciones con respecto a la media, o mediante una
formula de equivalencia que utiliza los cuadrados de los valores reales.
Con las desviaciones cuadrticas respecto a la media

n 1
Con los cuadros de los valores reales

Dr.Jorge L. Pastor Paredes-UBA, UNFV, UNSA

X2

n 1

Los clculos necesarios para estos dos mtodos se muestran en la


tabla. La media es 41.5mm, y la desviacin estndar (s) vale 1.78mm.
Ahora es fcil calcular t

X 41.5 43.0
t

2.92
s
1.78
n
12
La hiptesis nula de que la media poblacional es 43mm se rechaza al
nivel de significacin 0.02(ya que el valor t calculado de -2.92 se
encuentra en el rea de la cola mas all del valor critico de -2.718).
La hiptesis alternativa de que la media no es 43mm se acepta.
Aparentemente la maquina esta desajustada y esto debe informarse al
ingeniero de control de calidad
Dr.Jorge L. Pastor Paredes-UBA, UNFV, UNSA

Clculos necesarios para la desviacin estndar de la muestra:


(X-X)

(X-X)2

X(mm)

X2

42

0.5

0.25

1764

39

-2.5

6.25

1521

42

0.5

0.25

1764

45

3.5

12.25

2025

43

1.5

2.25

1849

40

-1.5

2.25

1600

39

-2.5

6.25

1521

41

-0.5

0.25

1681

40

-1.5

2.25

1600

42

0.5

0.25

1764

43

1.5

2.25

1849

42

0.5

0.25

1764

498

35

20702

Dr.Jorge L. Pastor Paredes-UBA, UNFV, UNSA

498
41.5mm
12

Mtodo de los cuadrados de


desviaciones

X X

n 1

35
1.78
12 1

Cuadrados de valores reales:

X 2

n 1

498 2
20702
12 1

12

1.78

H0: u = 43
H1: u = 43
gl = 11
H1 se acepta
H0 se rechaza

H0 se rechaza

-2.718
Valor
crtico

Dr.Jorge L. Pastor Paredes-UBA, UNFV, UNSA

2.718
Valor
crtico

10-10

Comparacin de dos Medias Poblacionales


Para realizar esta prueba se requieren tres suposiciones:
las poblaciones deben tener una distribucin normal o
normal aproximada
las poblaciones deben ser independientes
las varianzas de las poblaciones deben ser iguales
Varianza Muestral
Combinada

Prueba de dos Muestras


de las Medias

2
2
(
n

1
)
s

(
n

1
)
s
1
2
2
s2p 1
n1 n2 2

X1 X 2

Dr.Jorge L. Pastor Paredes-UBA, UNFV, UNSA

1
1
s

n1 n2
2
p

10-12

Un estudio reciente compara el ahorro de combustible en carretera de los


automviles nacionales e importados. Una muestra de 15 autos nacionales
revel una media de 33.7 km.pg con desviacin estndar de 2.4 km.pg. Una
muestra de 12 autos importados indic una media de 35.7 km.pg con
desviacin estndar de 3.9. Para 0.05 de nivel de significancia, Se puede
concluir que el consumo de km.pg para los autos importados es mayor?
(Asocie el subndice 1 a los autos nacionales.)
Solucin:

H0 : 2 1

H1: 2 1

Paso 1:
Paso 2:

H0 se rechaza si t < 1.708, gl=25

Paso 3:
Paso 4:

t = -1.64 (verifique)
H0 no se rechaza.

La evidencia muestral es insuficiente para asegurar que el consumo de


km.pg es ms alto en los autos importados.
Dr.Jorge L. Pastor Paredes-UBA, UNFV, UNSA

11-3

Anlisis de VarianzaANOVA

El Anlisis de Varianza-ANOVA

Se utiliza para probar si dos muestras proceden de


poblaciones con varianzas iguales y tambin cuando se desea
comparar simultneamente varias medias poblacionales.
La distribucin probabilstica F, es el estadstico que se utiliza
para contrastar la hiptesis de que varias medias son iguales.
Es una extensin de la prueba t para dos muestras.
Adems de determinar que existen diferencias entre las
medias es posible saber tambin que medias difieren.

ANOVA requiere las siguientes condiciones:


La
poblacin que se muestrea tiene una
distribucin normal.
Las
poblaciones tienen desviaciones estndar
iguales.
Las
muestras se seleccionan al azar y son
independientes.
La distribucin F (Fisher) permite determinar la
validez o significancia del modelo de regresin
mltiple, es decir, validar si las variables
independientes, incluidas en el modelo en conjunto,
son significativamente explicativas de la variable
dependiente.

Caractersticas de la Distribucin F

Existe una familia de distribuciones F.


Cada miembro de la familia est determinado
por dos parmetros: los grados de libertad (gl)
en el numerador y los grados de libertad en el
denominador.
El valor de F no puede ser negativo y es una
distribucin continua.
La distribucin F tiene sesgo positivo.
Sus valores varan de 0 a .
Conforme F la curva se aproxima al eje X.

11-4

Prueba para Varianzas Iguales

Para prueba de dos colas, el estadstico de prueba


est dado por:

S12
F 2
S2
son las varianzas muestrales para las dos

2
2
S
y
S
1
2
muestras.

La hiptesis nula se rechaza si el clculo del


estadstico de prueba es mayor que el valor crtico
/con
2 nivel de confianza
(de tablas)
y grados de
libertad para el numerador y el denominador.

Procedimiento para el Anlisis de Varianza

Hiptesis Nula: H0: Las medias de las poblaciones son


iguales.
Hiptesis Alterna: H1:Al menos una de las medias es
diferente.
Estadstico de prueba:
F=(varianza entre muestras)/(varianza dentro de muestras)

Regla de decisin:
Para un nivel de significancia , la hiptesis nula se
rechaza si F (calculada) es mayor que F (en tablas) con
grados de libertad en el numerador y en el denominador.

ANOVAb
Modelo
1

Regresin
Residual
Total

Suma de
cuadrados
5744699.8
1281720.9
7026420.7

gl
6
88
94

Media
cuadrtica
957450.0
14565.010

F
65.736

a. Variables predictoras: (Constante), LAGS(DF,1), D, MS, SS, XS, LS


b. Variable dependiente: DF

Sig.
.000a

11-6

Caso:
Credibolsa SAB en el mercado de valores, report que la tasa media
de rentabilidad de una muestra de 10 acciones del ISBVL fue 12.6%
con una desviacin estndar de 3.9%. La tasa media de retorno en
otra muestra de 8 acciones de compaas de servicios fue 10.9% con
desviacin estndar de 3.5%. Para un 0.05 de nivel de significancia,
puede la sociedad agente de bolsa concluir que hay mayor
variacin en las acciones del ISBVL?
Solucin:

Paso 1:
Paso 2:

H0 : s u

H1: s u

H0 se rechaza si F > 3.68,

gl = (9, 7),
= 0.05
F ( 3.9) 2 / ( 3.5) 2 1.2416

Paso 3:
Paso 4: H0 no se rechaza. No hay evidencia suficiente para
asegurar que hay mayor variacin en las acciones de
servicio.

11-10

NOTA

Si se muestrean k poblaciones, entonces los gl


(numerador) = k - 1
Si hay un total de N puntos en la muestra, entonces
los gl (denominador) = N - k
El
estadstico
de
prueba
se
calcula
con:
F = [(SST) /(k - 1)] /[(SSE) /(N - k)].
SST es la suma de cuadrados de los tratamientos.
SSE es la suma de cuadrados del error.
Sea TC el total de la columna, nc el nmero de
observaciones en cada columna, y X la suma de
todas las observaciones.

Correlacin Mltiple

Coeficiente de Correlacin

Mide el grado en el cual dos variables se relacionan


entre s en forma lineal y est directamente
relacionado con el concepto de regresin, que expresa
la estructura funcional de la relacin existente entre
las variables.

Su valor flucta en un intervalo de +1 a -1

Si el coeficiente es negativo, indicar que existe una relacin lineal


inversa entre las variables dependientes e independientes, significa
que al aumentar el valor de una variable disminuye el valor de la
otra.

Mientras ms fuerte sea la correlacin entre las variables mayor ser


el poder predictivo entre ellas.

La covarianza permite sealar el sentido de la variacin conjunta de


Dr.Jorge L. Pastor Paredes-UBA, UNFV, UNSA
las variables que se est considerando.

Coeficiente de Correlacin (R)

Para una
poblacin

Para una
muestra

ZX

Dr.Jorge L. Pastor Paredes-UBA, UNFV, UNSA

N XY ( X)( Y)
N X 2 ( X)2 N Y 2 ( Y)2

n XY ( X)( Y)
n X 2 ( X)2 n Y 2 ( Y)2

Coeficiente de
Correlacin

AB = +1 perfectamente positiva
AB = 0 no existe correlacin
AB = -1 perfectamente negativa

Matriz de Varianzas y Covarianzas


W2A . 2A

WA.WB. AB A B

WA.WC. AC A C

WB.WA. BA B A

W2B . 2B

WB.WC. BC B C

WC.WA. CA C A

WC.WB. CB C B

W2C . 2C

Dr.Jorge L. Pastor Paredes-UBA, UNFV, UNSA

Coeficientes de Correlacin
RA

RA

RB

AB = +1
perfectamente
positiva

Dr.Jorge L. Pastor Paredes-UBA, UNFV, UNSA



AB = 0
no existe
correlacin

RA

RB

RB

AB = -1
perfectamente
negativa

Correlacin por Rangos de Spearman

Mide el grado de correlacin entre las variables ordinales, cuyos


valores indican rangos en cada una de ellas.

6 d i2
1 3
N N

Coeficiente de Correlacin de Pearson

Coeficiente de mayor utilidad en el anlisis de la informacin


cuantitativa. Se aplica cuando se trata de averiguar la correlacin
de dos variables en escala de intervalo.

n( XY) ( X)( Y)
n( X 2 ) ( X) 2 n( Y 2 ) ( Y) 2

Dr.Jorge L. Pastor Paredes-UBA, UNFV, UNSA

Coeficiente de Determinacin R2

Es el cuadrado del coeficiente correlacin (R2) mide la


bondad de ajuste de la ecuacin de regresin, es
decir, cuantifica el porcentaje de la variacin total en
la variable dependiente Y que es explicada por la
variable independiente X.
El valor del coeficiente de determinacin de la
muestra se define como :(Y Y ) 2
R2 1

(Y Y )
_

En la practica, R2 ( coeficiente de determinacin de


la muestra) se puede calcular mediante
la siguiente
_2
frmula equivalente
b 0 :Y b XY n Y
2
R

Dr.Jorge L. Pastor Paredes-UBA, UNFV, UNSA

_2

Y 2 nY

Resumen del modelob

Modelo
1

R
.904a

R
cuadrado
.818

R
cuadrado
corregida
.805

Error tp.
de la
estimacin
120.6856

Durbin-Watson
2.206

a. Variables predictoras: (Constante), LAGS(DF,1), D, MS, SS, XS, LS


b. Variable dependiente: DF

Correlaciones Bivariadas

Calcula el coeficiente de correlacin de Pearson, la de


Spearman y la tau-b de Kendall, con sus niveles de significacin.
Los coeficientes miden cmo estn relacionadas las variables o
los rdenes de los rangos.

Correlaciones Parciales

Calcula el coeficiente de correlacin que describe la relacin


lineal existente entre dos variables mientras se controlan los
efectos de una o ms variables adicionales.
Dos variables pueden estar perfectamente relacionadas, pero si la
relacin no es lineal, el coeficiente de correlacin no es un
estadstico adecuado para medir su asociacin.

Dr.Jorge L. Pastor Paredes-UBA, UNFV, UNSA

Matriz de Correlacin
La matriz de correlacin se usa para mostrar todos los
posibles coeficientes de correlacin simple entre todas las
variables.
La matriz tambin se til para localizar la correlacin
de las variables independientes.
En
la matriz se muestra qu tan fuerte est
correlacionada la variable independiente con la
variable dependiente.
Correlaciones

Correlacin
de Pearson

Sig.
(unilateral)

DF
D
LS
MS
SS
XS
LAGS(DF,1)
DF
D
LS
MS
SS
XS
LAGS(DF,1)
DF
D
LS
MS
SS
XS
LAGS(DF,1)

DF
1.000
-.108
.808
-.154
-.558
.486
.886
.
.148
.000
.068
.000
.000
.000
95
95
95
95
95
95
95

D
-.108
1.000
-.203
.117
.204
-.324
-.074
.148
.
.024
.130
.023
.001
.239
95
95
95
95
95
95
95

LS
.808
-.203
1.000
-.216
-.748
.593
.799
.000
.024
.
.018
.000
.000
.000
95
95
95
95
95
95
95

MS
-.154
.117
-.216
1.000
-.040
.010
-.171
.068
.130
.018
.
.351
.460
.048
95
95
95
95
95
95
95

SS
-.558
.204
-.748
-.040
1.000
-.546
-.550
.000
.023
.000
.351
.
.000
.000
95
95
95
95
95
95
95

XS
.486
-.324
.593
.010
-.546
1.000
.547
.000
.001
.000
.460
.000
.
.000
95
95
95
95
95
95
95

LAGS(DF,1)
.886
-.074
.799
-.171
-.550
.547
1.000
.000
.239
.000
.048
.000
.000
.
95
95
95
95
95
95
95

13-3

Regresin
Multivariable

13-4

Anlisis de Regresin Multivariable

La ecuacin general de regresin mltivariable con k variables


independientes es:

Y b 0 b1 X 1 b 2 X 2 b3 X 3 i

El criterio de mnimos cuadrados se usa para el desarrollo de


esta ecuacin.
X1 , X2 , X3 son las variables independientes.

b0 es la intercepcin en Y.

b1 , b2, b3 es el cambio neto en Y por cada cambio unitario en X1, manteniendo


X2 , X3 constante. Se denomina coeficiente de regresin.

Como estimar b1, b2, etc. es muy tedioso, existen muchos


programas de cmputo que pueden utilizarse para estimarlos.

Dr.Jorge L. Pastor Paredes-UBA, UNFV, UNSA

13-5

El coeficiente de regresin mide el promedio de cambio en la


variable dependiente por unidad de cambio en la variable
independiente relevante, manteniendo constantes las dems
variables independientes.
Las variables independientes y dependientes tienen una
relacin lineal.
La variable dependiente debe ser continua y al menos con
escala de intervalo.
La variacin en (Y - ) o residuo debe ser la misma para todos
los valores de Y. Cuando ste es el caso, se dice que la
diferencia presenta homoscedasticidad.
Los residuos deben tener distribucin normal con media igual
a 0.
Las observaciones sucesivas de la variable dependiente no
deben estar correlacionadas.
Dr.Jorge L. Pastor Paredes-UBA, UNFV, UNSA

Supuestos del Modelo


1. Existe una relacin lineal entre la variable dependiente y las
variables independientes.
2. La variable dependiente tiene escalizacin de intervalo o de
razn.
3. Las observaciones sucesivas de la variable dependiente no
estn correlacionadas.
4. Las diferencias entre los valores reales y los valores estimados
(residuos) estn distribuidos en forma normal.
5. La variacin en los residuos es la misma para todos los valores
ajustados de es decir la distribucin (Y-) es la misma para
todos los valores de .

Dr.Jorge L. Pastor Paredes-UBA, UNFV, UNSA

Error Estndar de la Estimacin

El error estndar mltiple de la estimacin es la


medida de la eficiencia de la ecuacin de regresin.
Est medida en las mismas unidades que la variable
dependiente.
Es difcil determinar cul es un valor grande y cul es

uno pequeo para el error estndar.


(Y Y ) 2
La frmula es: SY 12 k
n (k 1)

donde n es el nmero de observaciones y k es el


nmero de variables independientes.

Dr.Jorge L. Pastor Paredes-UBA, UNFV, UNSA

13-12

Validacin del Modelo.


1. Cuando el tamao de la fuente es lo suficientemente
grande (30-ms elementos), el teorema del lmite
central proporciona un razonamiento para usar estas
pruebas estadsticas sin la suposicin de normalidad.
2. Si en una situacin dada no hay una varianza
constante, existe heteroscedasticidad.
3. Implica una muestra aleatoria de puntos dados X-Y. A
lo que se llama correlacin en serie.
4. Indica una relacin lineal; sta es una importante
suposicin de que el modelo est correctamente
especificado.

Dr.Jorge L. Pastor Paredes-UBA, UNFV, UNSA

Heteroscedasticidad.
Existe heteroscedasticidad cuando los errores o
residuos no tienen una varianza constante a travs de
un nivel completo de valores.
Y

X
Homoscedasticidad
Heteroscedsticidad
Dr.Jorge L. Pastor Paredes-UBA, UNFV, UNSA

Homoscedasticidad

Dr.Jorge L. Pastor Paredes-UBA, UNFV, UNSA

Heteroscedasticidad

Dr.Jorge L. Pastor Paredes-UBA, UNFV, UNSA

Colinealidad

La colinealidad es la situacin en que las variables


independientes de una ecuacin de regresin mltiple
estn altamente inter-correlacionadas.
En un anlisis, la colinealidad causa problemas en los
siguientes aspectos:
1. Un coeficiente de regresin que tiene signo positivo en una ecuacin de
regresin de dos variables, pudiera cambiar a signo negativo en una
ecuacin de regresin mltiple que contenga otras variables con las que
est altamente relacionado y viceversa.
2. La estimacin de los coeficientes de regresin flucta marcadamente
entre una muestra y otra.
3. Cuando las variables de prediccin estn interrelacionadas, stas explican
la misma varianza en la estimacin de la variable dependiente, lo que
dificulta separar las variables individuales de cada una de las variables
independientes.
Dr.Jorge L. Pastor Paredes-UBA, UNFV, UNSA

Autocorrelacin-DW

Ocurre cuando los trminos de error no son independientes.


La prueba Durbin-Watson-DW permite detectar autocorrelacin, es
decir est correlacionada con s misma.
Se acepta la H0 si el DW se encuentra alrededor de 2.

(et et 1)
d
2
et

Resumen del modelob

Modelo
1

R
.904a

R
cuadrado
.818

R
cuadrado
corregida
.805

Error tp.
de la
estimacin
120.6856

Durbin-Watson
2.206

a. Variables predictoras: (Constante), LAGS(DF,1), D, MS, SS, XS, LS


b. Variable dependiente: DF
Dr.Jorge L. Pastor Paredes-UBA, UNFV, UNSA

Objetivos de la Regresin Multivariable

Los problemas de anlisis de regresin se resuelven utilizando


programas de cmputo de regresin.
El paquete recomendado es el SPSS (Statistical Package for the
Social Sciences) produce una salida que es tpica en comparacin
con las generadas por otros programas como ejemplo: E-view,
Minitab, etc.
No existe un formato estndar para presenta los resultados de un
anlisis de regresin.

Dr.Jorge L. Pastor Paredes-UBA, UNFV, UNSA

Determinar:
1. El coeficiente de correlacin mltiple R, permite evaluar el grado
de asociacin entre la variable dependiente y el conjunto de
variables independientes.
2. El coeficiente de determinacin R2, evala la proporcin
(porcentaje) de la variacin total de la variable dependiente Y que
es explicada por el modelo de regresin utilizado.

3. La prueba F (Fisher), determina la validez o significancia del


modelo de regresin mltiple.

4. La prueba del Durbin-Watson, permite detectar falta de


independencia o autocorrelacin entre las variables independientes.

5. La prueba t de Student, evaluar los coeficientes de regresin


individuales para cada variable independiente.
Dr.Jorge L. Pastor Paredes-UBA, UNFV, UNSA

6. Para detectar posibles casos de multicolinealidad se estudi la


matriz de correlaciones elaborada por el programa SPSS.
7. El anlisis de varianza ANOVA para comparacin de medias.
8. Para contrastar la normalidad o simetra de la distribucin de los
residuos se analiz los grficos probabilsticos de normalidad, el
histograma de frecuencia y el grfico de simetra, para cada
variable independiente.
9. Para detectar problemas de heteroscedasticidad (varianzas no
constantes), error en el anlisis, inadecuacin del modelo por
falta de linealidad y existencia de observaciones atpicas se
analiz el grfico de residuos ei frente a las predicciones ( yi ) .

Dr.Jorge L. Pastor Paredes-UBA, UNFV, UNSA

Coeficientes de Regresin Multivariable


Coeficientesa

Coeficientes no
estandarizados
Modelo
1

(Constante)
LS
SS
D
MS
XS
LAGS(DF,1)

B
-346.192
3.275E-02
57.970
-10.382
.177
-.267
.689

a. Variable dependiente: DF

Dr.Jorge L. Pastor Paredes-UBA, UNFV, UNSA

Error tp.
333.217
.010
114.581
12.894
.201
.199
.080

Coeficient
es
estandari
zados
Beta
.338
.037
-.040
.044
-.083
.686

t
-1.039
3.308
.506
-.805
.880
-1.338
8.657

Sig.
.302
.001
.614
.423
.381
.184
.000

Intervalo de confianza
para B al 95%
Lmite
Lmite
inferior
superior
-1008.391
316.007
.013
.052
-169.735
285.675
-36.005
15.242
-.222
.576
-.663
.129
.531
.847

18-3

Regresin de Series de Tiempo


La Correlacin Serial

Conceptualizacin

Una serie de tiempo es una coleccin de datos obtenidos en un


periodo, como semanas, meses o trimestres.
Se refiere a la relacin lineal entre dos o ms variables.
Se emplea el conocimiento de la variable independiente (X)
para predecir la variable dependiente (Y).
= b0 + bX
La variable independiente es el tiempo (X).
La variable bajo estudio (Y) toma diferentes valores a travs
del tiempo.
Las series de tiempo se utilizan para descubrir patrones pasados
de variabilidad, que puedan emplearse para predecir valores
futuros.
Dr.Jorge L. Pastor Paredes-UBA, UNFV, UNSA

En regresin de series de tiempo el valor de cada perodo comprende


o est relacionado con el perodo anterior, en vez de que sea
independiente de l, por ejemplo, un precio dado de un ao ejerce
influencia sobre el precio del ao siguiente.

Correlacin Serial

Existe, cuando las observaciones sucesivas a travs del tiempo se


encuentran relacionadas entre s.
Puede ser causado por dos motivos: sea por omisin de una variable
importante, o por que los trminos independientes de error estn
interrelacionados en la ecuacin.
La solucin consiste en encontrar las variables claves, denominado
como tcnica de la especificacin del modelo, pero este modelo no
siempre es confiable.
Dr.Jorge L. Pastor Paredes-UBA, UNFV, UNSA

Caractersticas Importantes
Las mediciones de series de tiempo no pueden considerarse muestras probabilsticas por lo que en vez de ello,
estn sujetas a:
1. Tendencias:
Componente a largo plazo que constituye la base del crecimiento (o declinacin) de una serie histrica, se ve
afectada por cambios en la poblacin, inflacin, cambio tecnolgico e incremento en la productividad.
2. Variacin Cclica:
Conjunto de fluctuaciones en forma de ondas o ciclos, producidos por cambios en las condiciones econmicas,
representa la diferencia entre los valores esperados de una variable (tendencia) y los valores reales.

Dr.Jorge L. Pastor Paredes-UBA, UNFV, UNSA

3. Variacin Estacional:
Se refiere a un patrn de cambio regularmente recurrente a travs
del tiempo. Se encuentran tpicamente en los datos clasificados
por trimestre, mes o semana; el movimiento se completa dentro
de la duracin de un ao y se repite a s mismo ao tras ao.
4. Fluctuacin Irregular:
Compuesto por fluctuaciones causadas por sucesos impredecibles
o no peridicos, como un clima poco usual, huelgas, guerras,
elecciones y cambios en las leyes.

Dr.Jorge L. Pastor Paredes-UBA, UNFV, UNSA

18-5

Tendencia lineal
La ecuacin de la tendencia a largo plazo (lineal) se estima con
la ecuacin de mnimos cuadrados para el tiempo t:

Y a bt
tY (Y )(t ) / n
b
t 2 ( t ) 2 / n
Y
t
a
b

n
n
Dr.Jorge L. Pastor Paredes-UBA, UNFV, UNSA

18-8

Mtodo del Promedio Mvil (MA)

El mtodo del promedio mvil se usa para alisar


(suavizar) una serie de tiempo. Se logra
moviendo la media aritmtica a lo largo de la
serie de tiempo.
El promedio mvil es el mtodo bsico usado
para medir la fluctuacin estacional.
Para aplicar este mtodo a una serie de tiempo,
los datos deben seguir una tendencia bastante
lineal y tener un patrn de fluctuacin rtmico
definido.

Dr.Jorge L. Pastor Paredes-UBA, UNFV, UNSA

18-9

Tendencias No Lineales
Si la tendencia es no lineal pero los
incrementos tienden a ser un porcentaje
constante, los valores de Y se convierten en
logaritmos y la ecuacin de mnimos cuadrados
se determina con ellos.

log(Y ) [log(a )] [log(b)]t

Dr.Jorge L. Pastor Paredes-UBA, UNFV, UNSA

18-10

Variacin Estacional
El mtodo de mayor uso para calcular el patrn
estacional tpico se llama mtodo de razn a
promedio mvil
1. Elimina las componentes de tendencia,
cclica e irregular de los datos originales (Y).
2. Los nmeros que resultan se denominan
ndices estacionales tpicos.

Dr.Jorge L. Pastor Paredes-UBA, UNFV, UNSA

18-11

Determinacin del Indice Estacional


Paso 1: establecer el total mvil para la serie de
tiempo.
Paso 2: determinar el promedio mvil para la serie
de tiempo.
Paso 3: centrar los promedios mviles.
Paso 4: calcular el ndice estacional especfico
para cada periodo dividiendo los valores de
Y entre los promedios mviles centrados.
Paso 5: organizar los ndices estacionales
especficos en una tabla.
Paso 6: Aplicar el factor de correccin.
Dr.Jorge L. Pastor Paredes-UBA, UNFV, UNSA

18-12

Desestacionalizacin de Datos

Un conjunto comn de ndices es til al ajustar


una serie (por ejemplo, ventas)
La serie resultante (ventas) se llama ventas
desestacionalizadas o ventas con ajuste
estacional.
La razn para desestacionalizar una serie
(ventas) es eliminar la fluctuacin estacional
para poder estudiar la tendencia y el ciclo.

Dr.Jorge L. Pastor Paredes-UBA, UNFV, UNSA

Pronsticos Economtricos.

Cuando la variable dependiente se encuentra en


una serie histrica, el anlisis de regresin se
conoce con el nombre de modelo economtrico.
La construccin de un modelo economtrico
mediante el anlisis de regresin consiste en la
identificacin y especificacin de factores de
causa, a utilizar en una ecuacin de regresin.
Los modelos economtricos comprender un gran
nmero de ecuaciones de regresin lineal mltiple
simultneas, por ello son sistemas de ecuaciones
simultneas que comprenden gran cantidad de
variables independientes.
Dr.Jorge L. Pastor Paredes-UBA, UNFV, UNSA

Anda mungkin juga menyukai