Anda di halaman 1dari 56

UNIVERSIDAD NACIONAL DE CUYO

Facultad de Ciencias Económicas

DOCTORADO INTERNACIONAL EN CIENCIAS


ECONÓMICAS
ESTADÍSTICA APLICADA A LA INVESTIGACIÓN

1 Profesoras:
Amable Moreno y Noelia Garbero

Setiembre, 2019
CONTENIDOS
2

• Nociones Introductorias

• Inferencia Estadística
paramétrica(intervalos de confianza y
pruebas de hipótesis)

• Inferencia Estadística no paramétrica(


algunas pruebas de hipótesis)

• Diseños de Experimentos

• Regresión lineal simple y múltiple


3 BIBLIOGRAFÍA

1) Ruiz-Maya Pérez, F.J. Martín-Pliego López (1999). Fundamentos


de Inferencia Estadística. 3ra. Edición .Thomson Paraninfo
2) Montgomery-Peck-Vining (2004). Introducción al Análisis de
Regresión lineal 3ra. Edición. CECSA
3) George W. Cobb (2014). Introduction to Design and Analysis of
Experiments. Editorial Wiley
4) John Kloke & Joseph W. Mckean (2015). Nonparametric
Statistical. Methods using R. CRC Press

https://www.r-project.org/

https://www.rstudio.com/
4

UNIDAD 1

• POBLACIÓN Y MUESTRA
• DISTRIBUCIONES MUESTRALES
• ANÁLISIS DE DATOS
5

Algunos conceptos imprescindibles

POBLACIÓN

MUESTRA

UNIDAD DE ANÁLISIS

VARIABLES: X, Y, Z
6 VARIABLES Y ESCALAS DE MEDICIÓN

Datos

Variables Variables
cuantitativas cualitativas

Escala de Escala de Escala Escala


intervalo razón nominal Ordinal
POBLACIÓN
“Se
7 llama población al conjunto de todos los
posibles resultados de un fenómeno, o
experimento aleatorio”. Se denomina
elemento a cada uno de sus componentes,
pudiendo ser un número finito o, en teoría,
infinito.

La población se caracteriza
probabilísticamente mediante variables
aleatorias y éstas por sus campos de
variación y distribución de probabilidad,
que especifican el comportamiento
aleatorio de la población.
MUESTRA ALEATORIA SIMPLE
8

Definición:
Una muestra aleatoria de tamaño n de
una población que tiene una densidad f es
un conjunto de “n” variables aleatorias
independientes y cada una con la misma
distribución de probabilidad de la
población.
i.i.d
Simbólicamente se indica: X , X ,........, X ~ fX (.,  )
1 2 n

Donde i.i.d hace referencia a la independencia e idéntica distribución


de cada una de las variables
Cuando hablamos de una muestra
9 aleatoria de tamaño n y nos referimos
a sus elementos, estamos considerando
(x , x ,........, x ) una nueva variable aleatoria n - dimensional
1 2 n

Podemos pensar en un nuevo espacio muestral


n-dimensional formado por todas las muestras
posibles de igual tamaño

La finalidad de obtener una muestra es tener la


representación a escala de la población.
SIMULAMOS UNA MUESTRA DE UNA POBLACIÓN NORMAL n= 20
10

Histograma

0 .0 3 5
0 .0 3 0
0 .0 2 5
0 .0 2 0
D e n s i ty
0 .0 1 5 0 .0 1 0
0 .0 0 5
0 .0 0 0

140 150 160 170 180 190 200

X
Datos simulados de una N(170,12)
SIMULAMOS UNA MUESTRA GRANDE DE UNA POBLACIÓN NORMAL
n=10 000
11

Histograma
0 .0 3 0
0 .0 2 5
0 .0 2 0
D e n s ity
0 .0 1 5
0 .0 1 0
0 .0 0 5
0 .0 0 0

140 160 180 200 220

X
Datos simulados de una N(170,12)
12

El comando en R para obtener el gráfico anterior:

X=rnorm(10000, 170, 12)

hist(X,freq=FALSE,col="lightsalmon",main="Histograma",
sub="Datos simulados de una N(170,12)")

curve(dnorm(x,170,12),xlim=c(110,220),col="blue",lwd=2,add=TRUE)
TEOREMA FUNDAMENTAL DE LA ESTADÍSTICA

13

LA PONTENCIALIDAD INDUCTIVA DE LAS


MUESTRAS ES QUE LA FUNCIÓN DE DISTRIBUCIÓN
EMPÍRICA CONVERGE EN PROBABILIDAD A LA
FUNCIÓN DE DISTRIBUCIÓN POBLACIONAL
(teorema de Glivenko-Cantelli )
ANÁLISIS DE DATOS
14
frecuencia frecuencia
relativa
Por debajo de la
línea de pobreza 325 0.325
(0)
Por encima de la
línea de pobreza 675 0.675
(1)

DIAGRAMA DE BARRAS

y=c(0.325,0.675)
barplot(y,col=2,names.arg=c("debajo de la
línea","por encima de la línea"), main="Datos
sobre la pobreza",ylim=c(0, 1))
DIAGRAMA DE BARRAS
15

Datos sobre la pobreza


1.0
0.8
0.6
0.4
0.2
0.0

debajo de la línea por encima de la línea

~
f (x)  0.325 I ( x)  0.675 I ( x)
0  1 
DIAGRAMA CIRCULAR
16
y=c(0.325,0.675)
pie(y,col=rainbow(2),labels=c("por debajo","por
encima"), main="Datos sobre la pobreza")

Datos sobre la pobreza

por debajo

por encima
DATOS AGRUPADOS EN INTERVALOS
17

X:”gasto en estacionamiento por día de un


estudiante”
estac=c(17.1, 17.2, 18.2, 18.3, 18.5,19.1, 19.1, 19.2, 19.3, 19.4, 19.5,
19.7, 19.8, 20.1, 20.2, 20.3, 20.5, 21.1, 21.6, 21.7); n=20

Frecuencia Frecuencia relativa


Intervalos
(17,18] 2 0.10

(18,19] 3 0.15

(19, 20] 8 0.40

(20,21] 4 0.20

(21,22] 3 0.15
HISTOGRAMA
18
Histograma del gasto en estacionamiento

0.5

0.4
densidad empírica

0.3

0.2

0.1

0.0

17 18 19 20 21 22

gasto en estacionamiento

~
f (x)  0.10 I ( x )  0.15 I ( x )  0.40 I ( x )  0.20 I ( x )  0.15 I ( x)
(17,18] (18,19] (19,20] (20,21] (21,22]]
19
HISTOGRAMA DE FRECUENCIAS RELATIVAS

hz=hist (estac, col=2, main="histograma del gasto en estacionamiento


por día", freq=FALSE, ylim=c(0,0.5), xlab=“gasto en estacionamiento
por día", ylab="densidad empírica")
20
hz$density

0.10 0.15 0.40 0.20 0.15 altura de cada barra

hz$breaks

17 18 19 20 21 22 extremos de los intervalos

hz$counts

2 3 8 4 3 frecuencias de los intervalos


DIAGRAMA DE CAJA
21
estacionamiento=c(17.1, 17.2, 18.2, 18.3, 18.5, 19.1, 19.1, 19.2, 19.3, 19.4,
19.5, + + 19.7, 19.8, 20.1, 20.2, 20.3, 20.5, 21.1, 21.6, 21.7, 8,30)

10 15 20 25 30

precio del estacionamiento en Buenos Aires

quantile(estacionamiento)
0% 25% 50% 75% 100%
8.000 18.650 19.450 20.275 30.000
ESTADÍSTICO
22
UN ESTADÍSTICO ES UNA FUNCIÓN DE VARIABLES
ALEATORIAS OBSERVABLES y ES ÉL MISMO UNA
VARIABLE ALEATORIA Y NO DEPENDE DE
PARÁMETROS DESCONOCIDOS

T  X  2X
1 1 2

T  X 
2 1
X 2

1 n
T   X
n  1 i 1 i
3
ESTADÍSTICOS PARTICULARES
23

1) MEDIA MUESTRAL 1
X X
n

n
i
i 1

En el ejemplo de los datos sobre la pobreza:


1
X (325 x0  675 x1)  0.225 x0  0.675 x1  0.675
1000
24

En el ejemplo del estacionamiento, en R es:

estac=c(17.1, 17.2, 18.2, 18.3, 18.5, 19.1, 19.1, 19.2, 19.3, 19.4, 19.5,
19.7, 19.8, 20.1, 20.2, 20.3, 20.5, 21.1, 21.6, 21.7)

mean(estac)= 19.495
PROPIEDADES DE LA MEDIA MUESTRAL
25

Propiedad 1: El promedio de las medias de


todas las muestras posibles de una población
coincide con la media poblacional
E(X)  

Propiedad 2: La variabilidad de la media


muestral depende de la variabilidad de la
población de donde fue extraída la muestra y
del tamaño de la muestra
 2

var(X) 
n
2) TOTAL MUESTRAL
26
Dada una muestra aleatoria X , X ,....., X de una
1 2 n

población con densidad f , el total muestral es :


X

T  X
n

i
i 1

PROPIEDAD 1: E(T)= nμ

PROPIEDAD 2: var(T)= n
2
3) VARIANZA MUESTRAL
27
~ 1
Momento centrado de orden dos: S   (X  X )
n
2 2

n
i
i 1

~ n 1
E( S )   2 2

Definición de varianza muestral


1
S   (X  X )
n
2 2

n -1
i
i 1

E(S )  
2 2
ESTADÍSTICOS DE ORDEN
28

6 4 2 10 8 2 4 6 8 10
( x, x, x, x, x)
1 2 3 4 5
x x 1  2
x
3
x
4
x
5

MEDIANA MUESTRAL

Si n es impar: Md= x  n 1 

 2 

x x
 n 
 
n 
 1 
 2  2 

Si n es par: Md= 2
Estadísticos de una variable aleatoria
29

EN R:

X: precio del estacionamiento por día en Mendoza”

estac=c(17.1, 17.2, 18.2, 18.3, 18.5, 19.1, 19.1, 19.2, 19.3, 19.4, 19.5,
19.7, 19.8, 20.1, 20.2, 20.3, 20.5, 21.1, 21.6, 21.7)

summary(estac)

min. 1st Qu. Median Mean 3rd Qu. Max.


17.10 18.95 19.45 19.50 20.23 21.70

sd(estac) 1.258016

var(estac) 1.582605
30
X  17 ,10
min
Q  18 ,95
1
Q  20 ,23
3
X  19 ,53
X  21,70
máx
S  1,258016

S 2  1 . 582605
C.V.%  6,44%
DIAGRAMA DE CAJA
31

Q Q Q
X 1 2 3 X
min máx

17 18 19 20 21

precio del estacionamiento en Mendoza

quantile(estac)
0% 25% 50% 75% 100%
17.10 18.95 19.450 20.23 21.70
GRÁFICO CUANTIL CUANTIL ( q-q plot)
32
Normal Q-Q Plot

21
x  xsz
i  i
Sample Quantiles

20

19

18

17

-2 -1 0 1 2

Theoretical Quantiles

qqnorm(estac,xlab="cuantiles poblacionales",ylab="cuantiles
muestrales", main="Gráfico cuantil-cuantil del precio del
estacionamiento", col=2)
qqline(estac,lwd=2)
Teorema del límite central
33

Sea X una variable aleatoria con función


densidad f, con media μ y varianza  , ambas
2

finitas. Si se toma una muestra aleatoria de


tamaño n y se obtiene X, se puede probar que:
2

X  N(  , ) cuando n  
n
34

Es decir, X es asintóticamente normal con


media μ y varianza  ; por lo tanto se
2

n
puede transformar en Z con media 0 y
varianza 1.
Z  X  
n
donde Z ~ N(0, 1)
COROLARIO:
35

Sea X , X ,.......,X una muestra aleatoria de una población


1 2 n

con media  y varianza  finitas, la distribución de la


2

variable aleatoria  X es asintóticamente normal con


n

i
i 1

media n y varianza n . En símbolos :


2

n
T   Xi  N( n , n ) cuando n  
2

i1
MUESTREO DE POBLACIONES NORMALES
36

Propiedad 1:

Sea X , X ,......,X una muestra aleatoriade una poblaciónnormal


1 2 n
con media  y varianza 2 y a , a ,........,a constantesreales,entoncesla v
1 2 n
n n
variableY   ai Xi tiene tambiéndistribución normalcon media   ai y
i1 i1
2 n 2
varianza  ai
i1
Propiedad 2
37

Si X , X , ....., X
1 2 n
es una muestra aleatoria de
una Variable aleatoria con distribución Normal
con media μ y varianza  entonces la
2

variable aleatoria Y  n - 1S


2

 2

tiene distribución Chi-cuadrada con (n-1)


grados de libertal, 
2

( n 1 )
DISTRIBUCIONES CHI-CUADRADO CON v GRADOS DE
LIBERTAD

v=2
0.20
0.15
f(x)

0.10

v=20
v=40
0.05
0.00

0 10 20 30 40 50

x
Propiedad 3
39

Si X , X , ....., X
1 2
es una muestra aleatoria de
n

una población con distribución Normal con


media μ y varianza  entonces la variable
2

aleatoria X  
S
n
tiene distribución t-Student con (n-1) grados de

libertal, t n-1




 
 
DENSIDAD t de STUDENT CON v GRADOS DE
LIBERTAD

n
E( X )  0 n 1 var(X )  n2
n2
0 .6
0 .5

v=50
0 .4

v=1
f(x)
0 .3
0 .2
0 .1
0 .0

-3 -2 -1 0 1 2 3

x
Propiedad 4
41

Sea X , X , ....., X
1 2 n una muestra de una
población normal N(  , ) y otra muestra
X
2

(independiente de la anterior) Y , Y , ......, Y


1 2 n

de una población normal N(  , ) Y


2

entonces;
S /
2 2

F X
~FX

S /
2

Y
2
(m-1, n -1)
Y
F de Fisher y Snedecor
42

n1
E( X ) 
n2  2 n  2 2n 2 n1  n 2  2
2

var( X )  n4
n1 n 2  2  n 2  4
2
43

ANÁLISIS DE LOS DATOS


DE UNA MUESTRA
NIVEL DE ESTUDIOS DEL PADRE DE 302 ESTUDIANTES UNIVERSITARIOS DE
MENDOZA
Nivel de Porcentaje
estudios de
del padre estudiantes
Universitario 37,7%
Secundario 31,1%
Terciario 15,2%
Primario 11,3%
No 4,7%
contesta

Fuente: Elaboración propia


PORCENTAJE DE JÓVENES ENTRE 15 Y 24 AÑOS QUE NO ESTUDIAN NI TRABAJA EN ALGUNOS
PAÍSES LATINOAMERICADOS CORRESPONDIENTES AL AÑO 2017

PAÍS Porcentaje
Brasil 22,6%
El Salvador 20,4%
Colombia 19,4%
Argentina 18,1%
Uruguay 17,2%
Ecuador 16,2%
Chile 15,7%
Costa Rica 13,7%
Paraguay 13,3%
Perú 12,4%
Bolivia 10,0%
Fuente: CEPAL 2018
HISTOGRAMA DE FRECUENCIAS DE LA
PROPORCIÓN DE MATERIAS APROBADAS DE 302
ESTUDIANTES UNIVERSITARIOS
Proporción de materias aprobadas por 302 estudiantes universitarios de Ciencias de la Salud
100
80
60
cantidad de estudiantes

40
20
0

0.0 Fuente: Elaboración


0.2 propia
0.4 0.6 0.8 1.0

proporción de materias aprobadas


PRECIO DEL DÓLAR EN LA ARGENTICA 2017-2018-2019

FUENTE: Banco de la Nación Argentina 2019


ESTADÍSTICAS DESCRIPTIVAS
X: “precio del dólar”
PRECIO DEL DÓLAR PARA DICIEMBRE DE 2018

Shapiro-Wilk normality test data:


diciembre18

W = 0.96161, p-value = 0.6331

Como el p-value > 0.05 se acepta


la hipótesis de normalidad
PRECIO DEL DÓLAR PARA AGOSTO DE 2019

Shapiro-Wilk normality test data:


agosto19
W = 0.80651, p-value = 0.0006339

Como el p-value << 0.05 se rechaza la


hipótesis de normalidad
VARIACIÓN DEL ÍNDICE MERVAL

Variación del índice merval en agosto de 2018 y en agosto 2019

ago.19

ago.18

-30 -20 -10 0 10


ESTADÍSTICAS DESCRIPTIVAS DE LA VARIACIÓN DEL ÍNDICE MERVAL

antes después
52
X mín -1,54 -37,93
Xmáx 7,94 10,22
Q1 -0,935 -4,678
Q2 -0,44 -2,405
Q3 0,905 -0,335
media 0,586 -5,034
Desv. St. 2,80 12,73

Rango 9,48 48,15


ESTADÍSTICAS DESCRIPTIVAS DE LA VARIACIÓN DEL ÍNDICE
MERVAL

ESTADÍSTICOS AGOSTO 2018 AGOSTO 2019


Xmín -3,23 -37,93
Xmáx 6,15 10,22
Q1 -1,7675 -2,223
Q2 -0,345 -0,51
Q3 1,3025 1,502
media 0,08045 -2,229
Desviación 2,5383 10,644
estándar
Rango 9,38 48.15
Rango 3,07 3,725
Intercuartílico
Coeficiente de 0,2375 4,7746
variación
VARIACIÓN DEL ÍNDICE MERVAL ANTES Y DESPUÉS DE LAS ELECCIONES

Variación del índice merval 15 días antes de las elecciones y 15 días después de las elecciones

después
antes

-30 -20 -10 0 10


HISTOGRAMA DE FRECUENCIAS RELATIVAS
Histograma de la variación del índice merval para 4 meses del 2019

0.12
0.10
0.08
proporción de días

0.06
0.04
0.02
0.00

-40 -30 -20 -10 0 10

variación del índice merval

hist(anual, freq=FALSE,col="pink",main="Histograma de la variación del


índice merval para 4 meses del 2019",ylim=c(0,0.12),ylab="proporción de
días",xlab="variación del índice merval")
HISTOGRAMA DE FRECUENCIAS RELATIVAS LUEGO DE ELIMINAR LOS 2
VALORES MÁS BAJOS Y EL MÁS ALTO

0.20
0.15
Histograma de la variación del índice merval para 4 meses del 2019
proporción de días

0.10
0.05
0.00

-6 -4 -2 0 2 4 6 8

variación del índice merval

Anda mungkin juga menyukai