1 Profesoras:
Amable Moreno y Noelia Garbero
Setiembre, 2019
CONTENIDOS
2
• Nociones Introductorias
• Inferencia Estadística
paramétrica(intervalos de confianza y
pruebas de hipótesis)
• Diseños de Experimentos
https://www.r-project.org/
https://www.rstudio.com/
4
UNIDAD 1
• POBLACIÓN Y MUESTRA
• DISTRIBUCIONES MUESTRALES
• ANÁLISIS DE DATOS
5
POBLACIÓN
MUESTRA
UNIDAD DE ANÁLISIS
VARIABLES: X, Y, Z
6 VARIABLES Y ESCALAS DE MEDICIÓN
Datos
Variables Variables
cuantitativas cualitativas
La población se caracteriza
probabilísticamente mediante variables
aleatorias y éstas por sus campos de
variación y distribución de probabilidad,
que especifican el comportamiento
aleatorio de la población.
MUESTRA ALEATORIA SIMPLE
8
Definición:
Una muestra aleatoria de tamaño n de
una población que tiene una densidad f es
un conjunto de “n” variables aleatorias
independientes y cada una con la misma
distribución de probabilidad de la
población.
i.i.d
Simbólicamente se indica: X , X ,........, X ~ fX (., )
1 2 n
Histograma
0 .0 3 5
0 .0 3 0
0 .0 2 5
0 .0 2 0
D e n s i ty
0 .0 1 5 0 .0 1 0
0 .0 0 5
0 .0 0 0
X
Datos simulados de una N(170,12)
SIMULAMOS UNA MUESTRA GRANDE DE UNA POBLACIÓN NORMAL
n=10 000
11
Histograma
0 .0 3 0
0 .0 2 5
0 .0 2 0
D e n s ity
0 .0 1 5
0 .0 1 0
0 .0 0 5
0 .0 0 0
X
Datos simulados de una N(170,12)
12
hist(X,freq=FALSE,col="lightsalmon",main="Histograma",
sub="Datos simulados de una N(170,12)")
curve(dnorm(x,170,12),xlim=c(110,220),col="blue",lwd=2,add=TRUE)
TEOREMA FUNDAMENTAL DE LA ESTADÍSTICA
13
DIAGRAMA DE BARRAS
y=c(0.325,0.675)
barplot(y,col=2,names.arg=c("debajo de la
línea","por encima de la línea"), main="Datos
sobre la pobreza",ylim=c(0, 1))
DIAGRAMA DE BARRAS
15
~
f (x) 0.325 I ( x) 0.675 I ( x)
0 1
DIAGRAMA CIRCULAR
16
y=c(0.325,0.675)
pie(y,col=rainbow(2),labels=c("por debajo","por
encima"), main="Datos sobre la pobreza")
por debajo
por encima
DATOS AGRUPADOS EN INTERVALOS
17
(18,19] 3 0.15
(20,21] 4 0.20
(21,22] 3 0.15
HISTOGRAMA
18
Histograma del gasto en estacionamiento
0.5
0.4
densidad empírica
0.3
0.2
0.1
0.0
17 18 19 20 21 22
gasto en estacionamiento
~
f (x) 0.10 I ( x ) 0.15 I ( x ) 0.40 I ( x ) 0.20 I ( x ) 0.15 I ( x)
(17,18] (18,19] (19,20] (20,21] (21,22]]
19
HISTOGRAMA DE FRECUENCIAS RELATIVAS
hz$breaks
hz$counts
10 15 20 25 30
quantile(estacionamiento)
0% 25% 50% 75% 100%
8.000 18.650 19.450 20.275 30.000
ESTADÍSTICO
22
UN ESTADÍSTICO ES UNA FUNCIÓN DE VARIABLES
ALEATORIAS OBSERVABLES y ES ÉL MISMO UNA
VARIABLE ALEATORIA Y NO DEPENDE DE
PARÁMETROS DESCONOCIDOS
T X 2X
1 1 2
T X
2 1
X 2
1 n
T X
n 1 i 1 i
3
ESTADÍSTICOS PARTICULARES
23
1) MEDIA MUESTRAL 1
X X
n
n
i
i 1
estac=c(17.1, 17.2, 18.2, 18.3, 18.5, 19.1, 19.1, 19.2, 19.3, 19.4, 19.5,
19.7, 19.8, 20.1, 20.2, 20.3, 20.5, 21.1, 21.6, 21.7)
mean(estac)= 19.495
PROPIEDADES DE LA MEDIA MUESTRAL
25
var(X)
n
2) TOTAL MUESTRAL
26
Dada una muestra aleatoria X , X ,....., X de una
1 2 n
T X
n
i
i 1
PROPIEDAD 1: E(T)= nμ
PROPIEDAD 2: var(T)= n
2
3) VARIANZA MUESTRAL
27
~ 1
Momento centrado de orden dos: S (X X )
n
2 2
n
i
i 1
~ n 1
E( S ) 2 2
n -1
i
i 1
E(S )
2 2
ESTADÍSTICOS DE ORDEN
28
6 4 2 10 8 2 4 6 8 10
( x, x, x, x, x)
1 2 3 4 5
x x 1 2
x
3
x
4
x
5
MEDIANA MUESTRAL
Si n es impar: Md= x n 1
2
x x
n
n
1
2 2
Si n es par: Md= 2
Estadísticos de una variable aleatoria
29
EN R:
estac=c(17.1, 17.2, 18.2, 18.3, 18.5, 19.1, 19.1, 19.2, 19.3, 19.4, 19.5,
19.7, 19.8, 20.1, 20.2, 20.3, 20.5, 21.1, 21.6, 21.7)
summary(estac)
sd(estac) 1.258016
var(estac) 1.582605
30
X 17 ,10
min
Q 18 ,95
1
Q 20 ,23
3
X 19 ,53
X 21,70
máx
S 1,258016
S 2 1 . 582605
C.V.% 6,44%
DIAGRAMA DE CAJA
31
Q Q Q
X 1 2 3 X
min máx
17 18 19 20 21
quantile(estac)
0% 25% 50% 75% 100%
17.10 18.95 19.450 20.23 21.70
GRÁFICO CUANTIL CUANTIL ( q-q plot)
32
Normal Q-Q Plot
21
x xsz
i i
Sample Quantiles
20
19
18
17
-2 -1 0 1 2
Theoretical Quantiles
qqnorm(estac,xlab="cuantiles poblacionales",ylab="cuantiles
muestrales", main="Gráfico cuantil-cuantil del precio del
estacionamiento", col=2)
qqline(estac,lwd=2)
Teorema del límite central
33
n
puede transformar en Z con media 0 y
varianza 1.
Z X
n
donde Z ~ N(0, 1)
COROLARIO:
35
i
i 1
n
T Xi N( n , n ) cuando n
2
i1
MUESTREO DE POBLACIONES NORMALES
36
Propiedad 1:
Si X , X , ....., X
1 2 n
es una muestra aleatoria de
una Variable aleatoria con distribución Normal
con media μ y varianza entonces la
2
2
( n 1 )
DISTRIBUCIONES CHI-CUADRADO CON v GRADOS DE
LIBERTAD
v=2
0.20
0.15
f(x)
0.10
v=20
v=40
0.05
0.00
0 10 20 30 40 50
x
Propiedad 3
39
Si X , X , ....., X
1 2
es una muestra aleatoria de
n
aleatoria X
S
n
tiene distribución t-Student con (n-1) grados de
libertal, t n-1
DENSIDAD t de STUDENT CON v GRADOS DE
LIBERTAD
n
E( X ) 0 n 1 var(X ) n2
n2
0 .6
0 .5
v=50
0 .4
v=1
f(x)
0 .3
0 .2
0 .1
0 .0
-3 -2 -1 0 1 2 3
x
Propiedad 4
41
Sea X , X , ....., X
1 2 n una muestra de una
población normal N( , ) y otra muestra
X
2
entonces;
S /
2 2
F X
~FX
S /
2
Y
2
(m-1, n -1)
Y
F de Fisher y Snedecor
42
n1
E( X )
n2 2 n 2 2n 2 n1 n 2 2
2
var( X ) n4
n1 n 2 2 n 2 4
2
43
PAÍS Porcentaje
Brasil 22,6%
El Salvador 20,4%
Colombia 19,4%
Argentina 18,1%
Uruguay 17,2%
Ecuador 16,2%
Chile 15,7%
Costa Rica 13,7%
Paraguay 13,3%
Perú 12,4%
Bolivia 10,0%
Fuente: CEPAL 2018
HISTOGRAMA DE FRECUENCIAS DE LA
PROPORCIÓN DE MATERIAS APROBADAS DE 302
ESTUDIANTES UNIVERSITARIOS
Proporción de materias aprobadas por 302 estudiantes universitarios de Ciencias de la Salud
100
80
60
cantidad de estudiantes
40
20
0
ago.19
ago.18
antes después
52
X mín -1,54 -37,93
Xmáx 7,94 10,22
Q1 -0,935 -4,678
Q2 -0,44 -2,405
Q3 0,905 -0,335
media 0,586 -5,034
Desv. St. 2,80 12,73
Variación del índice merval 15 días antes de las elecciones y 15 días después de las elecciones
después
antes
0.12
0.10
0.08
proporción de días
0.06
0.04
0.02
0.00
0.20
0.15
Histograma de la variación del índice merval para 4 meses del 2019
proporción de días
0.10
0.05
0.00
-6 -4 -2 0 2 4 6 8