Aula: 104
1.1
Muestreo y distribucin de muestreo aplicados a situaciones
cotidianas
Una meta comn e importante de la materia de estadstica es la siguiente:
aprender acerca de un grupo grande examinando los datos de algunos de sus
miembros. En dicho contexto los trminos muestra y poblacin adquieren
importancia. Las definiciones formales de trminos bsicos se presentan a
continuacin:
a.
Datos son las observaciones recolectadas (como mediciones, gneros,
respuestas de encuestas)
b.
Estadstica es un conjunto de mtodos para planear estudios y
experimentos, obtener datos y luego organizar, resumir, presentar, analizar,
interpretar y llegar a conclusiones basadas en los datos
c.
Poblacin es el conjunto completo de todos los elementos (puntuaciones,
personas, medidas, etc.) que se va a estudiar. El conjunto es completo porque
incluye a todos los sujetos que se estudiarn.
d.
e.
a.
Que es ms econmico
b.
c.
d.
Limitaciones:
a.
b.
Requiere mayor preparacin del personal, pues usa instrumentos ms
refinados
Muestreo no probabilstico:
Colocar en una urna tantos papelitos o pelotitas marcados con los nmeros
del uno al tamao de la poblacin (N)
Ejercicio
1.- En un lote de frascos para medicina, con una poblacin de 8000
unidades, se desea estimar la media de la capacidad en centmetros cbicos
de los mismos.
N Za/2S
8000(1.96)(2)
8000(0.25) + (1.96)(2)
Solo faltara muestrear 203 frascos, pues los datos de los 35 frascos del pre
muestreo siguen siendo vlidos.
Error tipo I
Aceptar H0
No hay error
(decisin correcta)
H0 es falsa
No hay error
(decisin correcta)
Error tipo II
1.- Una empresa est interesada en lanzar un nuevo producto al mercado. Tras
realizar una campaa publicitaria, se toma la muestra de 1 000 habitantes, de los
cuales, 25 no conocan el producto. A un nivel de significacin del 1% apoya el
estudio las siguientes hiptesis?
a. Ms del 3% de la poblacin no conoce el nuevo producto.
b. Menos del 2% de la poblacin no conoce el nuevo producto
Datos:
n = 1000
x = 25
Dnde:
x = ocurrencias
n = observaciones
= proporcin de la muestra
= proporcin propuesta
Solucin:
a)
a = 0,01
H0 es aceptada, ya que z prueba (-0,93) es menor que z tabla (2,326), por lo que
no es cierto que ms del 3% de la poblacin no conoce el nuevo producto.
1.3 ANOVA (Anlisis de Varianza)
Las pruebas de hiptesis son una herramienta til cuando se trata de comparar
dos tratamientos. La experimentacin usualmente requiere comparacin de ms
de dos tratamientos simultneamente, es all donde se introduce Anova (teniendo
en cuenta que es un procedimiento para anlisis de factores cualitativos).
El anlisis de varianza se deriva de la particin de la variabilidad total en las partes
que la componen. ANOVA establece que la variabilidad total en los datos, medida
por la suma de cuadrados total, puede ser dividida en una suma de cuadrados de
la diferencia entre los promedios de los tratamientos y el gran promedio total ms
una suma de cuadrados de la diferencia de las observaciones entre tratamientos
del promedio del tratamiento. Anova, nos da la herramienta para distinguir si un
factor afecta la respuesta en promedio.
Anova mira los promedios de cada nivel contra el promedio general y lo llama
entre tratamientos. Anova queda con dos estimados de varianza, dentro y entre los
niveles; con estos, saca un cociente, si las 2 varianzas se parecen, es decir, el
cociente es aproximadamente 1, el factor no tiene ningn impacto en la respuesta,
pero si este cociente resulta ser grande, entonces el factor tiene mucho impacto
en la respuesta.
Gl
Media
cuadrtica
323.792
Sig.
.002
21
1460.958
Intergrupos
Suma de
cuadrados
Gl
Media
cuadrtica
Sig.
647.584
323.792
8.360
.002
813.374
21
38.732
1460.958
23
Intra-grupos
total
Dnde:
es el error aleatorio con media cero y la misma varianza de la poblacin, que
representa todas las variables que no entran en el modelo, por no poderse incluir a
todas y afectar mnimamente a Y, lo que hace que no sea una representacin
exacta de la realidad.
La tcnica que se mostrar a continuacin, estima a los parmetros de este
modelo usando la tcnica que se conoce como mnimos cuadrados. Los
supuestos en que se requieren para aplicar esta tcnica son:
Tcnica:
1. Dibujar un diagrama de dispersin, el cual permite una primera aproximacin
para averiguar si se cumplen algunos de los supuestos del modelo.
xi2
yi2
16
16
16
16
20
25
16
24
36
16
36
36
36
28
49
16
42
49
36
56
64
49
1
0
90
10
0
81
1
0
1
0
100
10
0
10
0
7
2
6
0
431
50
4
38
0
xi
yi
2 Calculamos la covarianza .
10
Fsica1
10
Ejercicio 2.3
Resuelva el siguiente problema de mnimos cuadrados y calcule el error de
mnimos cuadrados para el sistema:
CORRELACIN.
Si tenemos un problema de regresin lineal, pero ambas variables tanto la
dependiente como las variables independientes son aleatorias, esto permite
suponer que las observaciones de y x son variables aleatorias conjuntas de la
distribucin f(x, y).
La forma de determinar los parmetros del modelo son las mismas que se
plantearon anteriormente usando el mtodo de mnimos cuadrados, considerando
a y x como variables aleatorias normales independientes con media
y
varianza constante
Adicionalmente a lo planteado en regresin lineal, es posible realizar inferencias
sobre el coeficiente de correlacin r, cuyo estimador es r:
Este coeficiente mide la asociacin lineal entre y x, es decir, el cambio que y tiene
por cambios en x. As mismo, se puede establecer una prueba de hiptesis para
probar si el modelo no es adecuado, que equivale a probar si el coeficiente de
correlacin es igual a cero.
A continuacin se muestra la hiptesis, el estadstico de prueba y la zona crtica.
2
i
i=1
Que se deriva con respecto de b0, b1,,bk, para igualar el resultado a cero y
generar el conjunto de k+1 ecuaciones normales de estimacin para la regresin
lineal mltiple.
Modelo de regresin lineal con el empleo de matrices
Al ajustar un modelo de regresin lineal mltiple, en particular cuando el nmero
de variables es mayor que dos, el dominio de la teora de matrices facilita en forma
considerable las manipulaciones matemticas. Suponga que el experimentador
tiene k variables independientes x 1, x2,,xk y n observaciones y1, y2,, yn, cada
una de las cuales puede expresarse con la ecuacin
y i= 0 + 1 x 1 i+ 2 x2 i ++ k x ki + i
'
A= X X =
i=1
n
i=1
n
i=1
n
x 21 i
x 1 i x 2 i x1 i x ki
x 1 i x2 i . x ki
n
n
x1 i
i=1
n
i=1
n
i=1
n
i=1
n
x ki x ki x 1i x ki x 2 i x 2ki
i=1
i=1
i=1
i=1
[ ]
n
g0= y i
i=1
g= X ' y= g 1= x 1 i y 1 i
i=1
n
g1= x ki y i
i=1
1
SSR= b i gi
n
i=1
( )
i =1
yi
SST =
i =1
1
y
n
2
i
( )
i=1
yi
SSE= y bi g i
i=1
2
i
i=1
R2 ajustada=1
( n1 )
( 1R2 )
[ n( k +1 ) ]
o en forma matricial
-1
Como = H , siendo H = X
que la matriz H es impotente
= - = -H =
= X + -HX -H =
=
,
Como los residuos tienen varianza variable y son dimensionados (tienen las
unidades de la variable Y), normalmente se tipifican
Los residuos tipificados siguen una distribucin normal estndar, pero como 2 es
desconocido, se sustituye por su estimador, la varianza residual R2 y se obtienen
los residuos estandarizados, definidos como
(9.11)
Por la hiptesis de normalidad los residuos estandarizados siguen una distribucin
t con ngrados de libertad. Como ya se indic en el estudio del modelo de
regresin lineal simple, en el clculo de ri existe el problema de que hay una
relacin de dependencia entre el numerador y el denominador de ri. Para evitar
esto, con mayor esfuerzo computacional, se calcula para cada i, i = 1,..., n, el
estimador R, la varianza residual del modelo de regresin obtenido a partir de la
muestra en la que se ha eliminado la observacin
. Ahora se definen
los residuos estudentizados como
(9.12)
Los residuos estudentizados siguen una distribucin t con
grados de
libertad. Si el tamao muestral
es grande, los residuos estandarizados y los
El grfico de dispersin matricial para los datos del Ejemplo 7.1. Se representa en
la Figura 9.2.
Figura 9.2. Grfico matricial con los datos del Ejemplo 7.1.
El histograma de los residuos, que sirve para observar la existencia de
normalidad, simetra y detectar observaciones atpicas.
El grfico probabilstico de normalidad (p-p y q -q) y el grfico de simetra,
que permite contrastar la normalidad (simetra) de la distribucin de los
residuos.
El grfico de residuos
diferentes problemas:
El grfico de residuos
frente a una variable explicativa
, permite
deducir si la existencia de heterocedasticidad o la falta de linealidad en el
modelo son debidas a la variable explicativa representada.
Grficos de este tipo son los representados en las Figuras 9.3 y 9.4. En la
primera de ellas se observa que la relacin con la variable xj no es lineal y,
probablemente, un ajuste cuadrtico sea adecuado, tambin se tendran dudas
acerca de la homocedasticidad del modelo.
'
'
s x '0 ( X ' X ) x 0
prediccin.
Igual que en el caso de la regresin lineal simple, se necesita distinguir con
claridad entre el intervalo de confianza sobre la respuesta media y el intervalo de
prediccin sobre una respuesta observada. Esta ltima proporciona una frontera
dentro de la cual puede decirse que caer una respuesta nueva observada, con el
grado preseleccionado de certidumbre.
Un intervalo de prediccin para una sola respuesta y 0 est dado por:
'
'
SSE
nk1
Ejercicio 2.9
1- Los tiempos de reaccin, en mili segundos, de 17 sujetos frente a una matriz de
15 estmulos fueron los siguientes: 448, 460, 514, 488, 592, 490, 507, 513, 492,
534, 523, 452, 464, 562, 584, 507, 461
Suponiendo que el tiempo de reaccin se distribuye Normalmente, determine un
intervalo de confianza para la media a un nivel de confianza del 95%.
Solucin:
Mediante los clculos bsicos obtenemos que la media muestral vale 505,35 y la
desviacin tpica 42,54.
Buscando en las tablas de la t de Student con 16 grados de libertad, obtenemos
que el valor que deja por debajo una probabilidad de 0,975 es 2,12
Sustituyendo estos valores en la expresin del intervalo de confianza de la media
tenemos:
(505,35 - 2,12 42,54 / 4 ,, 505,35 + 2,12 42,54 / 4)
Operando
(482,80 ,, 527,90)
Utilidad
Se utiliza para medir la reduccin en la variabilidad total de
debido a la inclusin
OBSERVACIONES
1.
esto
modelo
4.
es
si
(suponiendo
que
el
es
La estadstica R2 ajustada
Como alternativa al uso de
como medida de la idoneidad de un modelo, es
comn que se informe el coeficiente de determinacin mltiple ajustado, denotado
por
Se observa que
y lo que
Ejemplo
es
Los nmeros ndices simples que utilizan un perodo base comn reciben el
nombre de relativos de base fija. Otro tipo de nmero ndice, llamado relativo de
enlace concentra la atencin en los cambios anuales.
Los nmeros ndices compuestos se utilizan para indicar el cambio relativo en
precio, cantidad o valor de un grupo de elementos o mercancas. Por ejemplo,
usted podra preguntarse si, en general, los precios de los comestibles se han
elevado, pero otros se han reducido. Qu puede decirse en trminos globales?
Para saber la respuesta es necesario examinar una combinacin de artculos en
lugar de considerarlos de manera aislada. Se consideran dos mtodos para
obtener nmeros ndices compuestos:
1.
Mtodo de agregados ponderados.- se quiere saber hasta qu grado los
cambios en valor se deben a cambios en el precio, sin tener que considerar
cambios en cantidades
2.
Mtodo del promedio ponderado de relativos.- el trabajar con datos
publicados, algunas veces no se dispone de los precios y cantidades originales, en
vez de ello, se proporcionan los relativos, que son los que se utilizan.
Los nmeros ndices son intentos burdos para captar y apreciar el cambio
econmico. Existen peligros inherentes al utilizar e interpretar dichos indicadores.
Por ejemplo, los cambios en calidad y la frecuente introduccin de nuevos
I = 23 . 100 = 2.300
Es decir, lo que costaba 100 en el perodo inicial, cuesta ahora 2.300.
De esta manera, se consigue plasmar la idea de que la variacin ha sido ms
importante en el segundo caso, aunque la variacin en pesetas sea la misma.
Sin embargo hay que tener en cuenta que el pronstico por si solo no es la clave
del xito pues de nada sirve tener el pronstico ms exacto si este no es
comunicado oportunamente a las reas operativas para la toma de decisiones
sobre cmo van a utilizar los recursos con que cuentan.
MOVIMIENTOS CCLICOS
aleatorio que pudiera existir en los datos. Una vez ms, es de suponerse que los
datos estn compuestos por variaciones de tendencia, cclicas y estacionales, as
como por fluctuaciones al azar.
En trminos generales, cuando se utiliza el mtodo del promedio mvil se debe
tener en consideracin la pregunta de Cuntos perodos se deben incluir en
dicho promedio? Cuanto mayor sea el nmero de perodos (datos) incluidos en un
promedio, menos posibilidad habr de que cada nuevo dato altere dicho promedio,
mientras que cuanto menor sea el nmero de perodos incluidos, mayor ser la
probabilidad de que el promedio resulte afectado por los nuevos datos.
En gran medida, el grado ptimo de alisamiento depende de la magnitud de las
fluctuaciones al azar. Si stas son bastante grandes, se necesitar un
considerable alisamiento, para reducir su impacto; si las fluctuaciones aleatorias
son menores, se requerir un alisamiento ms leve. La tcnica del promedio mvil,
ponderado exponencialmente, es un tanto superior a los otros mtodos de
promedio mvil, dad la facilidad de ajustar el grado de alisamiento.
Una segunda consideracin de cierta importancia es la cantidad de datos
requeridos para apoyar el mtodo del promedio mvil. Por ejemplo, si ste incluye
las ltimas 100 observaciones, esto da lugar a una considerable dificultad para
almacenar y mantener los datos, incluso si los clculos se realizan por
computadora. Una vez ms, el alisamiento exponencial es superior a los otros
mtodos, dado que elimina la necesidad de almacenar datos, al condensarlos en
una sola cifra. La ecuacin para la determinacin del alisamiento exponencial es:
V s=V s1+ ( DV s1 )
En la cual
Vs=nuevo valor alisado
Vs-1=valor anterior alisado
D=siguiente punto de los datos
=factor de alisamiento
Media Mvil
Consiste simplemente en tomar el promedio aritmtico de los ltimos n perodos.
El valor de n se elige en funcin a la influencia que queramos que tenga la historia
ms antigua en la prediccin de los valores futuros. Un valor de n muy chico, har
que los pronsticos sigan ms de cerca a los ltimos valores reales, mientras que
un valor de n ms grande, se traduce en una curva ms amortiguada aunque, por
el mismo motivo, tambin de una menor velocidad de cambio.
Desventajas
No consideran los factores nuevos o inesperados
Requieren un histrico de la demanda y/o otras variables pertinentes
Estadstico de prueba:
z=
GG
G
Donde
G=
2 n1 n2
+1
n 1+ n2
G=
( 2 n1 n2 ) ( 2 n1 n2n1n2 )
2
( n 1+n 2 ) ( n1+ n21 )
( n2 )
( x +0.05 )
Para n > 25:
z=
n
2
Valores crticos
1. Para n 25, los valores crticos x se encuentran en la tabla valores crticos
para la prueba del signo
2. Par n > 25, los valores crticos z se encuentran en la tabla de distribucin
normal.
Valores crticos
Si n 30, el valor crtico T se encuentra en la tabla de valores crticos de T
para la prueba de rangos con signo de Wilcoxon
Si n > 30, los valores crticos z se encuentra en la tabla de distribucin normal.
R R
R
Donde
R =
n1 ( n1 +n2 +1 )
2
R=
n1 n2 ( n1+ n2 +1 )
12
Ejemplo 4.7 :
Notacin
x= el nmero de veces que ocurre el signo menos frecuente
n= el nmero total de signos positivos y negativos combinados
Estadstico de prueba
Para n 25: x (el nmero de veces que ocurre el signo menos frecuente)
( n2 )
( x +0.05 )
Para n > 25:
z=
n
2
Valores crticos
3. Para n 25, los valores crticos x se encuentran en la tabla valores crticos
para la prueba del signo
4. Par n > 25, los valores crticos z se encuentran en la tabla de distribucin
normal
Nota.- Cuando se aplica la prueba del signo en una prueba de una cola,
necesitamos ser muy cuidadosos para evitar obtener la conclusin equivocada
cuando un signo ocurre significativamente con ms frecuencia que el otro, pero los
datos mustrales contradicen la hiptesis alternativa. Por ejemplo, suponga que
estamos probando la aseveracin de que una tcnica de seleccin del gnero
favorece a los nios, pero obtenemos una muestra de 10 nios y 90 nias. Con
una proporcin muestral de nios igual a 0.10, los datos contradicen la hiptesis
alternativa H1: p > 0.5. No hay forma de sustentar dicha aseveracin con ninguna
proporcin muestral menor que 0.5, por lo que no rechazamos la hiptesis nula y
no procedemos con la prueba del signo. Si los datos mustrales van en el sentido
opuesto de H1, no rechace la hiptesis nula.
Cuando se utiliza la prueba del signo con datos que estn ordenados en pares,
convertimos los datos en bruto a datos con signos positivos y negativos como
sigue:
1. Restamos cada valor de la segunda variable del valor correspondiente de la
primera variable
Ejemplo 4.8
T = la ms pequea de las siguientes sumas:
1. La suma de los valores absolutos de los rangos negativos de las diferencias
d que no sean cero
2. La suma de los rangos positivos de las diferencias d que no sean cero.
Estadstico de prueba
Si n 30, el valor crtico T se encuentra en la tabla de valores crticos de T
para la prueba de rangos con signo Wilcoxon
n ( n+1 )
4
Z=
n ( n+1 )( 2 n+1 )
24
T
Valores crticos
Si n 30, el valor crtico T se encuentra en la tabla de valores crticos de T
para la prueba de rangos con signo de Wilcoxon
Si n > 30, los valores crticos z se encuentra en la tabla de distribucin normal.
Ejemplo 4.9
N=nmero total de observaciones en todas las muestras combinadas
k=nmero de muestras
R1=suma de los rangos de la muestra 1
n1=nmero de observaciones de la muestra 1
Para la muestra 2, la suma de los rangos es R 2 y el nmero de observaciones es
n2, y se utiliza una notacin similar para las otras muestras
Estadstico de prueba
H=
R21 R22
R2
12
+ ++ k 3(N +1)
nk
N (N +1) n1 n2
Valores crticos
1. La prueba es de cola derecha
2. gl=k-1. (Puesto que el estadstico de prueba H puede aproximarse por
medio de una distribucin cuadrada, utilice la tabla correspondiente, donde
k es el nmero de muestras diferentes)
Adems, tambin ser necesario construir un vdeo de alto impacto con toda la
informacin apropiada para nuestro producto y subirlo a YouTube. No olvidar fotos
en otro tipo de servicios de comunidad como Instagram, Picasa, etctera.
Recordar que es muy necesario construir comunidades apropiadas, en las redes
ms grandes (y chicas) tales como Facebook o Google +, la pgina de nuestro
producto, y alrededor de esta pgina empezar a invitar a todas nuestras
comunidades a que nos sigan.