Unidad I - 2019

UNIVERSIDAD NACIONAL DE CUYO
Facultad de Ciencias Económicas
DOCTORADO INTERNACIONAL EN CIENCIAS

ECONÓMICAS
ESTADÍSTICA APLICADA A LA INVESTIGACIÓN
1 Profesoras:
Amable Moreno y Noelia Garbero
Setiembre, 2019
CONTENIDOS
2
• Nociones Introductorias
• Inferencia Estadística
paramétrica(intervalos de confianza y
pruebas de hipótesis)
• Inferencia Estadística no paramétrica(

algunas pruebas de hipótesis)
• Diseños de Experimentos
• Regresión lineal simple y múltiple

3 BIBLIOGRAFÍA
1) Ruiz-Maya Pérez, F.J. Martín-Pliego López (1999). Fundamentos

de Inferencia Estadística. 3ra. Edición .Thomson Paraninfo
2) Montgomery-Peck-Vining (2004). Introducción al Análisis de
Regresión lineal 3ra. Edición. CECSA
3) George W. Cobb (2014). Introduction to Design and Analysis of
Experiments. Editorial Wiley
4) John Kloke & Joseph W. Mckean (2015). Nonparametric
Statistical. Methods using R. CRC Press
https://www.r-project.org/
https://www.rstudio.com/
4
UNIDAD 1
• POBLACIÓN Y MUESTRA
• DISTRIBUCIONES MUESTRALES
• ANÁLISIS DE DATOS
5
Algunos conceptos imprescindibles
POBLACIÓN
MUESTRA
UNIDAD DE ANÁLISIS
VARIABLES: X, Y, Z
6 VARIABLES Y ESCALAS DE MEDICIÓN
Datos
Variables Variables
cuantitativas cualitativas
Escala de Escala de Escala Escala

intervalo razón nominal Ordinal
POBLACIÓN
“Se
7 llama población al conjunto de todos los
posibles resultados de un fenómeno, o
experimento aleatorio”. Se denomina
elemento a cada uno de sus componentes,
pudiendo ser un número finito o, en teoría,
infinito.
La población se caracteriza
probabilísticamente mediante variables
aleatorias y éstas por sus campos de
variación y distribución de probabilidad,
que especifican el comportamiento
aleatorio de la población.
MUESTRA ALEATORIA SIMPLE
8
Definición:
Una muestra aleatoria de tamaño n de
una población que tiene una densidad f es
un conjunto de “n” variables aleatorias
independientes y cada una con la misma
distribución de probabilidad de la
población.
i.i.d
Simbólicamente se indica: X , X ,........, X ~ fX (.,  )
1 2 n
Donde i.i.d hace referencia a la independencia e idéntica distribución

de cada una de las variables
Cuando hablamos de una muestra
9 aleatoria de tamaño n y nos referimos
a sus elementos, estamos considerando
(x , x ,........, x ) una nueva variable aleatoria n - dimensional
1 2 n
Podemos pensar en un nuevo espacio muestral

n-dimensional formado por todas las muestras
posibles de igual tamaño
La finalidad de obtener una muestra es tener la

representación a escala de la población.
SIMULAMOS UNA MUESTRA DE UNA POBLACIÓN NORMAL n= 20
10
Histograma
0 .0 3 5
0 .0 3 0
0 .0 2 5
0 .0 2 0
D e n s i ty
0 .0 1 5 0 .0 1 0
0 .0 0 5
0 .0 0 0
140 150 160 170 180 190 200
X
Datos simulados de una N(170,12)
SIMULAMOS UNA MUESTRA GRANDE DE UNA POBLACIÓN NORMAL
n=10 000
11
Histograma
0 .0 3 0
0 .0 2 5
0 .0 2 0
D e n s ity
0 .0 1 5
0 .0 1 0
0 .0 0 5
0 .0 0 0
140 160 180 200 220
X
Datos simulados de una N(170,12)
12
El comando en R para obtener el gráfico anterior:
X=rnorm(10000, 170, 12)
hist(X,freq=FALSE,col="lightsalmon",main="Histograma",
sub="Datos simulados de una N(170,12)")
curve(dnorm(x,170,12),xlim=c(110,220),col="blue",lwd=2,add=TRUE)
TEOREMA FUNDAMENTAL DE LA ESTADÍSTICA
13
LA PONTENCIALIDAD INDUCTIVA DE LAS

MUESTRAS ES QUE LA FUNCIÓN DE DISTRIBUCIÓN
EMPÍRICA CONVERGE EN PROBABILIDAD A LA
FUNCIÓN DE DISTRIBUCIÓN POBLACIONAL
(teorema de Glivenko-Cantelli )
ANÁLISIS DE DATOS
14
frecuencia frecuencia
relativa
Por debajo de la
línea de pobreza 325 0.325
(0)
Por encima de la
línea de pobreza 675 0.675
(1)
DIAGRAMA DE BARRAS
y=c(0.325,0.675)
barplot(y,col=2,names.arg=c("debajo de la
línea","por encima de la línea"), main="Datos
sobre la pobreza",ylim=c(0, 1))
DIAGRAMA DE BARRAS
15
Datos sobre la pobreza

1.0
0.8
0.6
0.4
0.2
0.0
debajo de la línea por encima de la línea
~
f (x)  0.325 I ( x)  0.675 I ( x)
0  1 
DIAGRAMA CIRCULAR
16
y=c(0.325,0.675)
pie(y,col=rainbow(2),labels=c("por debajo","por
encima"), main="Datos sobre la pobreza")
Datos sobre la pobreza
por debajo
por encima
DATOS AGRUPADOS EN INTERVALOS
17
X:”gasto en estacionamiento por día de un

estudiante”
estac=c(17.1, 17.2, 18.2, 18.3, 18.5,19.1, 19.1, 19.2, 19.3, 19.4, 19.5,
19.7, 19.8, 20.1, 20.2, 20.3, 20.5, 21.1, 21.6, 21.7); n=20
Frecuencia Frecuencia relativa

Intervalos
(17,18] 2 0.10
(18,19] 3 0.15
(19, 20] 8 0.40
(20,21] 4 0.20
(21,22] 3 0.15
HISTOGRAMA
18
Histograma del gasto en estacionamiento
0.5
0.4
densidad empírica
0.3
0.2
0.1
0.0
17 18 19 20 21 22
gasto en estacionamiento
~
f (x)  0.10 I ( x )  0.15 I ( x )  0.40 I ( x )  0.20 I ( x )  0.15 I ( x)
(17,18] (18,19] (19,20] (20,21] (21,22]]
19
HISTOGRAMA DE FRECUENCIAS RELATIVAS
hz=hist (estac, col=2, main="histograma del gasto en estacionamiento

por día", freq=FALSE, ylim=c(0,0.5), xlab=“gasto en estacionamiento
por día", ylab="densidad empírica")
20
hz$density
0.10 0.15 0.40 0.20 0.15 altura de cada barra
hz$breaks
17 18 19 20 21 22 extremos de los intervalos
hz$counts
2 3 8 4 3 frecuencias de los intervalos

DIAGRAMA DE CAJA
21
estacionamiento=c(17.1, 17.2, 18.2, 18.3, 18.5, 19.1, 19.1, 19.2, 19.3, 19.4,
19.5, + + 19.7, 19.8, 20.1, 20.2, 20.3, 20.5, 21.1, 21.6, 21.7, 8,30)
10 15 20 25 30
precio del estacionamiento en Buenos Aires
quantile(estacionamiento)
0% 25% 50% 75% 100%
8.000 18.650 19.450 20.275 30.000
ESTADÍSTICO
22
UN ESTADÍSTICO ES UNA FUNCIÓN DE VARIABLES
ALEATORIAS OBSERVABLES y ES ÉL MISMO UNA
VARIABLE ALEATORIA Y NO DEPENDE DE
PARÁMETROS DESCONOCIDOS
T  X  2X
1 1 2
T  X 
2 1
X 2
1 n
T   X
n  1 i 1 i
3
ESTADÍSTICOS PARTICULARES
23
1) MEDIA MUESTRAL 1
X X
n
n
i
i 1
En el ejemplo de los datos sobre la pobreza:

1
X (325 x0  675 x1)  0.225 x0  0.675 x1  0.675
1000
24
En el ejemplo del estacionamiento, en R es:
estac=c(17.1, 17.2, 18.2, 18.3, 18.5, 19.1, 19.1, 19.2, 19.3, 19.4, 19.5,
19.7, 19.8, 20.1, 20.2, 20.3, 20.5, 21.1, 21.6, 21.7)
mean(estac)= 19.495
PROPIEDADES DE LA MEDIA MUESTRAL
25
Propiedad 1: El promedio de las medias de

todas las muestras posibles de una población
coincide con la media poblacional
E(X)  
Propiedad 2: La variabilidad de la media

muestral depende de la variabilidad de la
población de donde fue extraída la muestra y
del tamaño de la muestra
 2
var(X) 
n
2) TOTAL MUESTRAL
26
Dada una muestra aleatoria X , X ,....., X de una
1 2 n
población con densidad f , el total muestral es :

X
T  X
n
i
i 1
PROPIEDAD 1: E(T)= nμ
PROPIEDAD 2: var(T)= n
2
3) VARIANZA MUESTRAL
27
~ 1
Momento centrado de orden dos: S   (X  X )
n
2 2
n
i
i 1
~ n 1
E( S )   2 2
Definición de varianza muestral

1
S   (X  X )
n
2 2
n -1
i
i 1
E(S )  
2 2
ESTADÍSTICOS DE ORDEN
28
6 4 2 10 8 2 4 6 8 10
( x, x, x, x, x)
1 2 3 4 5
x x 1  2
x
3
x
4
x
5
MEDIANA MUESTRAL
Si n es impar: Md= x  n 1 

 2 

x x
 n 
 
n 
 1 
 2  2 
Si n es par: Md= 2
Estadísticos de una variable aleatoria
29
EN R:
X: precio del estacionamiento por día en Mendoza”
estac=c(17.1, 17.2, 18.2, 18.3, 18.5, 19.1, 19.1, 19.2, 19.3, 19.4, 19.5,
19.7, 19.8, 20.1, 20.2, 20.3, 20.5, 21.1, 21.6, 21.7)
summary(estac)
min. 1st Qu. Median Mean 3rd Qu. Max.

17.10 18.95 19.45 19.50 20.23 21.70
sd(estac) 1.258016
var(estac) 1.582605
30
X  17 ,10
min
Q  18 ,95
1
Q  20 ,23
3
X  19 ,53
X  21,70
máx
S  1,258016
S 2  1 . 582605
C.V.%  6,44%
DIAGRAMA DE CAJA
31
Q Q Q
X 1 2 3 X
min máx
17 18 19 20 21
precio del estacionamiento en Mendoza
quantile(estac)
0% 25% 50% 75% 100%
17.10 18.95 19.450 20.23 21.70
GRÁFICO CUANTIL CUANTIL ( q-q plot)
32
Normal Q-Q Plot
21
x  xsz
i  i
Sample Quantiles
20
19
18
17
-2 -1 0 1 2
Theoretical Quantiles
qqnorm(estac,xlab="cuantiles poblacionales",ylab="cuantiles
muestrales", main="Gráfico cuantil-cuantil del precio del
estacionamiento", col=2)
qqline(estac,lwd=2)
Teorema del límite central
33
Sea X una variable aleatoria con función

densidad f, con media μ y varianza  , ambas
2
finitas. Si se toma una muestra aleatoria de

tamaño n y se obtiene X, se puede probar que:
2

X  N(  , ) cuando n  
n
34
Es decir, X es asintóticamente normal con

media μ y varianza  ; por lo tanto se
2
n
puede transformar en Z con media 0 y
varianza 1.
Z  X  
n
donde Z ~ N(0, 1)
COROLARIO:
35
Sea X , X ,.......,X una muestra aleatoria de una población

1 2 n
con media  y varianza  finitas, la distribución de la

2
variable aleatoria  X es asintóticamente normal con

n
i
i 1
media n y varianza n . En símbolos :

2
n
T   Xi  N( n , n ) cuando n  
2
i1
MUESTREO DE POBLACIONES NORMALES
36
Propiedad 1:
Sea X , X ,......,X una muestra aleatoriade una poblaciónnormal

1 2 n
con media  y varianza 2 y a , a ,........,a constantesreales,entoncesla v
1 2 n
n n
variableY   ai Xi tiene tambiéndistribución normalcon media   ai y
i1 i1
2 n 2
varianza  ai
i1
Propiedad 2
37
Si X , X , ....., X
1 2 n
es una muestra aleatoria de
una Variable aleatoria con distribución Normal
con media μ y varianza  entonces la
2
variable aleatoria Y  n - 1S

2
 2
tiene distribución Chi-cuadrada con (n-1)

grados de libertal, 
2
( n 1 )
DISTRIBUCIONES CHI-CUADRADO CON v GRADOS DE
LIBERTAD
v=2
0.20
0.15
f(x)
0.10
v=20
v=40
0.05
0.00
0 10 20 30 40 50
x
Propiedad 3
39
Si X , X , ....., X
1 2
es una muestra aleatoria de
n
una población con distribución Normal con

media μ y varianza  entonces la variable
2
aleatoria X  
S
n
tiene distribución t-Student con (n-1) grados de
libertal, t n-1




 
 
DENSIDAD t de STUDENT CON v GRADOS DE
LIBERTAD
n
E( X )  0 n 1 var(X )  n2
n2
0 .6
0 .5
v=50
0 .4
v=1
f(x)
0 .3
0 .2
0 .1
0 .0
-3 -2 -1 0 1 2 3
x
Propiedad 4
41
Sea X , X , ....., X
1 2 n una muestra de una
población normal N(  , ) y otra muestra
X
2
(independiente de la anterior) Y , Y , ......, Y

1 2 n
de una población normal N(  , ) Y

2
entonces;
S /
2 2
F X
~FX
S /
2
Y
2
(m-1, n -1)
Y
F de Fisher y Snedecor
42
n1
E( X ) 
n2  2 n  2 2n 2 n1  n 2  2
2
var( X )  n4
n1 n 2  2  n 2  4
2
43
ANÁLISIS DE LOS DATOS

DE UNA MUESTRA
NIVEL DE ESTUDIOS DEL PADRE DE 302 ESTUDIANTES UNIVERSITARIOS DE
MENDOZA
Nivel de Porcentaje
estudios de
del padre estudiantes
Universitario 37,7%
Secundario 31,1%
Terciario 15,2%
Primario 11,3%
No 4,7%
contesta
Fuente: Elaboración propia

PORCENTAJE DE JÓVENES ENTRE 15 Y 24 AÑOS QUE NO ESTUDIAN NI TRABAJA EN ALGUNOS
PAÍSES LATINOAMERICADOS CORRESPONDIENTES AL AÑO 2017
PAÍS Porcentaje
Brasil 22,6%
El Salvador 20,4%
Colombia 19,4%
Argentina 18,1%
Uruguay 17,2%
Ecuador 16,2%
Chile 15,7%
Costa Rica 13,7%
Paraguay 13,3%
Perú 12,4%
Bolivia 10,0%
Fuente: CEPAL 2018
HISTOGRAMA DE FRECUENCIAS DE LA
PROPORCIÓN DE MATERIAS APROBADAS DE 302
ESTUDIANTES UNIVERSITARIOS
Proporción de materias aprobadas por 302 estudiantes universitarios de Ciencias de la Salud
100
80
60
cantidad de estudiantes
40
20
0
0.0 Fuente: Elaboración

0.2 propia
0.4 0.6 0.8 1.0
proporción de materias aprobadas

PRECIO DEL DÓLAR EN LA ARGENTICA 2017-2018-2019
FUENTE: Banco de la Nación Argentina 2019

ESTADÍSTICAS DESCRIPTIVAS
X: “precio del dólar”
PRECIO DEL DÓLAR PARA DICIEMBRE DE 2018
Shapiro-Wilk normality test data:

diciembre18
W = 0.96161, p-value = 0.6331
Como el p-value > 0.05 se acepta

la hipótesis de normalidad
PRECIO DEL DÓLAR PARA AGOSTO DE 2019
Shapiro-Wilk normality test data:

agosto19
W = 0.80651, p-value = 0.0006339
Como el p-value << 0.05 se rechaza la

hipótesis de normalidad
VARIACIÓN DEL ÍNDICE MERVAL
Variación del índice merval en agosto de 2018 y en agosto 2019
ago.19
ago.18
-30 -20 -10 0 10

ESTADÍSTICAS DESCRIPTIVAS DE LA VARIACIÓN DEL ÍNDICE MERVAL
antes después
52
X mín -1,54 -37,93
Xmáx 7,94 10,22
Q1 -0,935 -4,678
Q2 -0,44 -2,405
Q3 0,905 -0,335
media 0,586 -5,034
Desv. St. 2,80 12,73
Rango 9,48 48,15

ESTADÍSTICAS DESCRIPTIVAS DE LA VARIACIÓN DEL ÍNDICE
MERVAL
ESTADÍSTICOS AGOSTO 2018 AGOSTO 2019

Xmín -3,23 -37,93
Xmáx 6,15 10,22
Q1 -1,7675 -2,223
Q2 -0,345 -0,51
Q3 1,3025 1,502
media 0,08045 -2,229
Desviación 2,5383 10,644
estándar
Rango 9,38 48.15
Rango 3,07 3,725
Intercuartílico
Coeficiente de 0,2375 4,7746
variación
VARIACIÓN DEL ÍNDICE MERVAL ANTES Y DESPUÉS DE LAS ELECCIONES
Variación del índice merval 15 días antes de las elecciones y 15 días después de las elecciones
después
antes
-30 -20 -10 0 10

HISTOGRAMA DE FRECUENCIAS RELATIVAS
Histograma de la variación del índice merval para 4 meses del 2019
0.12
0.10
0.08
proporción de días
0.06
0.04
0.02
0.00
-40 -30 -20 -10 0 10
variación del índice merval
hist(anual, freq=FALSE,col="pink",main="Histograma de la variación del

índice merval para 4 meses del 2019",ylim=c(0,0.12),ylab="proporción de
días",xlab="variación del índice merval")
HISTOGRAMA DE FRECUENCIAS RELATIVAS LUEGO DE ELIMINAR LOS 2
VALORES MÁS BAJOS Y EL MÁS ALTO
0.20
0.15
Histograma de la variación del índice merval para 4 meses del 2019
proporción de días
0.10
0.05
0.00
-6 -4 -2 0 2 4 6 8
variación del índice merval

Unidad I - 2019

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Unidad I - 2019

Diunggah oleh

Hak Cipta:

Format Tersedia

UNIVERSIDAD NACIONAL DE CUYO

Facultad de Ciencias Económicas

DOCTORADO INTERNACIONAL EN CIENCIAS

• Inferencia Estadística no paramétrica(

• Regresión lineal simple y múltiple

1) Ruiz-Maya Pérez, F.J. Martín-Pliego López (1999). Fundamentos

Algunos conceptos imprescindibles

Escala de Escala de Escala Escala

Donde i.i.d hace referencia a la independencia e idéntica distribución

Podemos pensar en un nuevo espacio muestral

La finalidad de obtener una muestra es tener la

140 150 160 170 180 190 200

140 160 180 200 220

El comando en R para obtener el gráfico anterior:

X=rnorm(10000, 170, 12)

LA PONTENCIALIDAD INDUCTIVA DE LAS

Datos sobre la pobreza

debajo de la línea por encima de la línea

Datos sobre la pobreza

X:”gasto en estacionamiento por día de un

Frecuencia Frecuencia relativa

(19, 20] 8 0.40

hz=hist (estac, col=2, main="histograma del gasto en estacionamiento

0.10 0.15 0.40 0.20 0.15 altura de cada barra

17 18 19 20 21 22 extremos de los intervalos

2 3 8 4 3 frecuencias de los intervalos

precio del estacionamiento en Buenos Aires

En el ejemplo de los datos sobre la pobreza:

En el ejemplo del estacionamiento, en R es:

Propiedad 1: El promedio de las medias de

Propiedad 2: La variabilidad de la media

población con densidad f , el total muestral es :

Definición de varianza muestral

X: precio del estacionamiento por día en Mendoza”

min. 1st Qu. Median Mean 3rd Qu. Max.

precio del estacionamiento en Mendoza

Sea X una variable aleatoria con función

finitas. Si se toma una muestra aleatoria de

Es decir, X es asintóticamente normal con

Sea X , X ,.......,X una muestra aleatoria de una población

con media  y varianza  finitas, la distribución de la

variable aleatoria  X es asintóticamente normal con

media n y varianza n . En símbolos :

Sea X , X ,......,X una muestra aleatoriade una poblaciónnormal

variable aleatoria Y  n - 1S

tiene distribución Chi-cuadrada con (n-1)

una población con distribución Normal con

(independiente de la anterior) Y , Y , ......, Y

de una población normal N(  , ) Y

ANÁLISIS DE LOS DATOS

Fuente: Elaboración propia

0.0 Fuente: Elaboración

proporción de materias aprobadas

FUENTE: Banco de la Nación Argentina 2019

Shapiro-Wilk normality test data:

W = 0.96161, p-value = 0.6331

Como el p-value > 0.05 se acepta

Shapiro-Wilk normality test data:

Como el p-value << 0.05 se rechaza la

Variación del índice merval en agosto de 2018 y en agosto 2019

-30 -20 -10 0 10

Rango 9,48 48,15

ESTADÍSTICOS AGOSTO 2018 AGOSTO 2019