Anda di halaman 1dari 74

1

Curso de estadstica
inferencial aplicada al anlisis
de la educacin superior
LUZ KARINE ARDILA VARGAS
2015

1. Contenido
1.

Introduccin a la estadstica

2.

Anlisis Univariado

3.

i.

Distribuciones discretas y continuas

ii.

Distribucin normal y el teorema de lmite central

iii.

Pruebas de hiptesis

iv.

Anlisis de varianzas: ANOVA

Anlisis Multivariado
i.
ii.

Coeficiente de correlacin de Pearson


Estudio de las pruebas no paramtricas de correlacin y anlisis
de tablas cruzadas

1. Contenido

4.

iii.

Anlisis Factorial

iv.

Construccin de Indicadores Sintticos

v.

Anlisis multivariado

Anlisis de bases de datos de las pruebas SABERPRO del ICFES,


y del Observatorio Laboral OLE del Ministerio de Educacin

1. Introduccin a la estadstica

Definiciones

Poblacin: Conjunto de unidades que comparten alguna caracterstica.

Ejemplos: Los estudiantes, los profesores, los graduados, etc.

Muestra: Recoleccin de unidades que representan apropiadamente a la


muestra.

Ejemplos: La muestra de estudiantes calculada para el Estudio de Satisfaccin de


Estudiantes.

1. Introduccin a la estadstica
Satisfaccin

Servicios acadmicos
Servicios
administrativos

Servicios estudiantiles
Apoyos

:muestra
auxiliar
:Poblacin
: Peso
Varianza=0,5^2
: Margen de error
:1,96

Infraestructura

1. Introduccin a la estadstica

Definiciones

Tipos de mediciones: Datos nominales, datos ordinales, datos en


intervalos, y datos en tasas.

Los datos provienen de la unidad de anlisis que constituye la


muestra, pueden ser variables cualitativas o categricas o
cuantitativas.

Adems las variables cuantitativas pueden ser continuas o


discretas.

1. Introduccin a la estadstica

Una

vez se identific la poblacin, y se recolectaron los datos.

El siguiente propsito es describir de forma apropiada las caractersticas esenciales de la


muestra.
Esta fase se le conoce como la construccin de las estadsticas descriptivas tal que se pueda
relacionar un proceso generador de datos, es decir, que los datos siguen una funcin de
distribucin probabilstica.
Sobre qu medicin
o
es nuestro proceso
generador de datos en
La probabilidad del espacio muestral es 1, y est acotada entre 0 y 1.
las
encuestas
a
o
estudiantes?

1. Introduccin a la estadstica
Las distribuciones tienen formas o caractersticas sobre el proceso generador de datos. Dos de
ellos son muy conocidos: la media y la varianza.
Histograma de frecuencias relativas

80.0
70.0
60.0
50.0
40.0
30.0
20.0
10.0
-

54.2
28.9
12.3

3.4
-

0.8

0.5
1

Satisfaccin
Satisfaccin con el programa (%)
Investigacin (%)
Cafetera (%)

1. Introduccin a la estadstica
Las distribuciones tienen formas o caractersticas sobre el proceso generador de datos. Dos de
ellos son muy conocidos: la media y la varianza.

10

1. Introduccin a la estadstica

Adems de las anteriores medidas. Es muy importante conocer otros momentos de


las distribuciones:
Asimetra

Curtosis

11

1. Introduccin a la estadstica

Funciones de distribucin
Discretas

Distribucin Bernoulli (6 en la satisfaccin con el programa)


0.8
0.71
0.7

Bernoulli

0.6
0.5
0.4
0.3

0.29

0.2
0.1
0

xito

No xito

12

1. Introduccin a la estadstica

Binomial (Geomtrica, Binomial negativa)


Distribucin binomial (6 en la satisfaccin con el programa, N=10)

10

13

1. Introduccin a la estadstica

Poisson
Distribucin Poisson (Tasa =2,89)
0.25
0.2
0.15
0.1
0.05
0

10

11

14

1. Introduccin a la estadstica

0
0

0
0

15

Tcnicas univariadas

16

Distribuciones de muestras
Continuas

Normal

T student

Chi cuadrado

17

Distribucin normal

Su importancia:

Es una distribucin til porque se aproxima a la distribucin binomial y esto


va a ser muy importante en las prueba de hiptesis.

Es la piedra angular de la inferencia estadstica porque las distribuciones de


muchas estadsticas muestrales tienden a esta distribucin a medida que
crece el tamao de la muestra.

18

Distribucin normal

los eventos tienen una distribucin normal con media (a) y


Si
varianza , entonces:

19

Distribucin normal estndar

20

Teorema de los grandes nmeros

Cada sucesin de eventos o realizaciones son independientes e


idnticamente distribuidas, cada una de ellas con la misma media y
varianza. Cuando N es muy muy grande se cumple que

21

Teorema de lmite central

Cada sucesin de eventos o realizaciones son independientes e


idnticamente distribuidas, cada una de ellas con la misma media y
varianza. Cuando N es muy muy grande se cumple que

22

Teorema

Sea X una variable aleatoria binomial con media np y varianza np(1-p).


Se cumple que Y tiene una distribucin normal

23

Pruebas de hiptesis
Las funciones de probabilidad nos permitan saber con que ocurrencia
podra ocurrir un evento. De ella sabemos cmo est definida, por ende
su media y su varianza. Sin embargo, en la realidad lo que vemos es lo
contrario, vemos son las realizaciones y debemos es estimar su
distribucin para hacer algn tipo de inferencia.
Cuando asumimos que las realizaciones que vemos siguen alguna
distribucin debemos estimar sus parmetros. A este mtodo nos
referimos como estimacin paramtrica.

24

Estimacin puntal

Hay dos tipos de estimacin paramtrica:

Puntual: Mtodo de momentos y de Mxima verosimilitud

25

Estimacin puntal

Algunos estimadores comnmente usados son, si X se distribuye normal: Dos de los


momentos muestrales ms comnmente usados para caracterizas un proceso
generador de datos:

Si no se conoce la media

Si no se conoce la varianza

Si X se distribuye binomial

26

Estimacin por intervalo

Lo ms importante de la estimacin por intervalo es la siguiente condicin

=0,99999999999999

Para solucionar este hecho debemos saber sobre qu intervalo es cierta la anterior
afirmacin. Para ello necesitamos saber como se distribuye . Pero antes necesitamos
definir dos conceptos: Error tipo 1 y el error tipo 2.

27

Estimacin por intervalo

El intervalo de confianza de la estadstica ser

A continuacin algunos estimadores y su distribucin:

Cuando la varianza es conocida

En realidad la varianza no es conocida

28

Estimacin por intervalo


La varianza

Como en realidad no conocemos la varianza, y en su lugar la estimamos

29

Estimacin por intervalo

Otros estimadores tiles para comparar momentos muestrales son las


diferencias de medias y la comparacin de varianzas.

La comparacin de varianzas ser

30

Estimacin por intervalo


Ahora s los intervalos de confianza de cada estimador mencionado
anteriormente:

31

Estimacin por intervalo

32

Estimacin por intervalo

33

Pruebas de hiptesis

Algunos conceptos bsicos de las pruebas de hiptesis:


Hiptesis nula (): Es la hiptesis que se considera como verdad hasta que
se demuestre lo contrario.
Hiptesis alternativa (: Es la hiptesis contraria a la nula que la rechaza.
Segn los dos tipos de errores (I y II)

Rechazar

No rechazar

En muchas ocasiones se considera ms grave cometer el error I al error II.

34

Pruebas de hiptesis

Si el nivel de confianza es la probabilidad de cometer el error tipo I En el


caso ms general:

y/o

Por ejemplo: el promedio se distribuye normal, si se conoce la varianza;


sino, se distribuye t student. En consecuencia, los estadsticos de prueba
respectivamente son:

Vs

Vs

35

Pruebas de hiptesis

En este caso se
conoce la
varianza. Si no
fuese as, sera la
distribucin t.

36

Pruebas de hiptesis
Por ejemplo:

Vs

Vs

Vs

Equivalente

Vs

37

Anlisis de varianza (Anova)


Es comnmente utilizado en:

Anlisis de los datos de una variable

Anlisis de un estudio observacional

Se usa para comparar las propiedades muestrales de conjuntos de


datos de experimentos

Tambin se usa en anlisis en las regresiones multivariadas

Intuitivamente se trata de analizar y explotar la

variabilidad

38

Anlisis de varianza (ANOVA)

Por
simplicidad diremos que buscamos explicar la variable (Puntaje de
la prueba saber pro). Adems, se considera que la fuente de variacin
de es la variable categrica (Programa acadmico). Cada una de las
categoras es independiente.

39

Anlisis de varianza (ANOVA)


Supuestos:

En la poblacin, la variable dependiente tiene distribucin normal.

La varianza de la variable dependiente es la misma en cada categora.

Las observaciones son independientes.

Diferencias
de las medias

40

Anlisis de varianza (ANOVA)


Particionamos la variacin

De los 3 grupos tenemos que la desviacin de la media respecto a la poblacional


es(j=1,2,3):

Por otro lado, tenemos que hay un trmino


de error entre la medicin y la media

poblacional
Entonces:

+()+(-)
()+(-)
Grupo

Error

41

Anlisis de varianza (ANOVA)

En trminos conocidos:
()+(-)

El anlisis de la variacin ser por cuenta de una funcin de la


desviacin

+
Suma de
cuadrados
Totales
(SCT)

Suma de
cuadrados
Tratados(S
CTR)

Suma de
cuadrados
de los
errores

42

Anlisis de varianza (ANOVA)

En trminos conocidos:
()+(-)

El anlisis de la variacin ser por cuenta de una funcin de la


desviacin

Grados de
libertad

Suma de
cuadrados
Totales (SCT)

Suma de
cuadrados
Tratados(SCT
R)

Suma de
cuadrados de
los errores

N-1

J-1

N-J

43

Anlisis de varianza (ANOVA)

Nuestro
propsito ser identificar si la variacin corresponde al grupo o
no, es decir, la hiptesis nula a probar es si . Si lo es, la mayor fuente
de explicacin ser motivado por la suma de los errores.

En ese caso construimos un estadstico para la comparacin de las


varianzas, que dar lugar a la tabla Anova.

44

Anlisis de varianza (ANOVA)

45

Tcnicas multivariadas

46

Correlacin de Pearson

El estadstico de Pearson es una medida comn para establecer a


relacin entre varias variables continuas. Es definido como:

47

Correlacin de Pearson

El estadstico muestra qu tanta relacin existe entre las dos variables:


Su rango est entre -1 y 1. Revelando si existe una relacin positiva o
negativa entre las variables.

Usualmente si la correlacin estimada es superior al 50% se supone


que hay una correlacin fuerte.

Mtodos no paramtricos de
correlacin
MTODO KOLMOGOROV SMIRNOV

Es una tcnica usada para contrastar las distribuciones de dos variables,


sin asumir ninguna distribucin.

Por ejemplo es til para contrastar la distribucin de los puntajes del ICFES
segn Instituciones de Educacin Superior.

En este caso (de a pares):

Se basa en la comparacin de la distribucin acumulada de ambas


distribuciones.

48

Mtodos no paramtricos de
correlacin
KOLMOGOROV SMIRNOV

Es una tcnica usada para contrastar distribuciones.

Tambin es til para contrastar la distribucin de los puntajes del ICFES


segn Instituciones de Educacin Superior.

En este caso (de a pares):

Se basa en la comparacin de la distribucin acumulada de ambas


distribuciones.

49

50

Mtodos no paramtricos de
correlacin
Frecuencia relativa

Frecuencia acumulada Distancia

Categoras

F(1)

F(2)

F(1)

F(2)

F(1)

F(2)

F(1) - F(2)

Muy insatisfecho

20

0,1613

0,0323

0,1613

0,0323

0,1290

Insatisfecho

30

27

0,2419

0,2177

0,4032

0,2500

0,1532

Ni satifecho o
insatisfecho

13

28

0,1048

0,2258

0,5081

0,4758

0,0323

Satisfecho

20

18

0,1613

0,1452

0,6694

0,6210

0,0484

Muy satisfecho

41

47

0,3306

0,3790

1,0000

1,0000

0,0000

Total

124

124

1,0000

1,0000
D

0,1532

Valor Cr

0,1221316
1

(1,36/Raz(
N))

Mtodos no paramtricos de
correlacin
TABLA DE CONTINGENCIA

Se emplea usualmente sobre variables categricas.

Su objetivo es probar si las dos caractersticas son independientes.

51

Mtodos no paramtricos de
correlacin

Como no contamos con la probabilidad poblacional de cada categora,


la estimamos como la proporcin de observaciones que cumplen las
condiciones sobre la caracterstica A, y la B.

Intuitivamente queremos probar la independencia, entonces nuestro


estadstico nos debe decir si:

52

Mtodos no paramtricos de
correlacin
El estadstico de prueba ser:

53

54

Indicadores sintticos

Es una medida analtica muy utilizada en las ciencias sociales y tiles en las
tomas de decisiones.

Segn la OECD es la combinacin de los indicadores que representan


distintos componentes del concepto que se pretende evaluar a partir de un
contexto multidimensional.

Implica un mtodo de agregacin.

Usualmente usa de ponderaciones.

Las crticas ms grandes es sobre la decisin de las ponderaciones.

55

Indicadores sintticos
Los elementos importantes de los indicadores son:

El rango

La normalizacin

La transformacin para hacer de l un indicador multidimensional

Ejemplo: Indicador compuesto de eficiencia


Desercin
consta de 3
indicadores

% de estudiantes en los
3 primeros deciles de la
prueba SaberPro

Indicador de
eficiencia de
programas
acadmicos

56

Anlisis factorial

Conjunto de mtodos

Analiza la relacin entre factores o componentes.

No exige la condicin dependencia o independencia.

Como supuestos: La parsimonia y la interpretabilidad.

El anlisis puede ser exploratorio o confirmatorio.

57

Pasos

58

Pasos

El anlisis factorial

Pueden incluirse ms
59
variables a explicar.
Ese nmero debe ser
menor a los factores.

Todo comienza con la siguiente representacin para la explicacin de


dos variables.

F son los factores comunes que el investigador considera que estn


relacionados con las variables a explicar. Los coeficientes son
conocidos como cargas factoriales. U corresponde a los factores
nicos.

60

Anlisis factorial

as variables deben estar estandarizadas tal que:


Supuestos:

l trmino u debe ser independiente a los factores, e independiente entre s.


El anlisis de componentes principales es el
ms usado en un ejercicio prctico y
exploratorio. Sobretodo por el carcter de los
supuestos.

El anlisis factorial

La representacin:

Entonces:

Pueden incluirse ms
61
variables a explicar.
Ese nmero debe ser
menor a los factores.

62

Pasos

63

El anlisis factorial
matriz
La

de correlacin de los factores permitir determinar si hay


alguna relacin dbil o redundante entre los factores.

El test de Barlett prueba si la matriz de varianza de los datos (R) es la


identidad.

El estadstico de prueba se distribuye chi cuadrado con grados de


libertad

64

Pasos

65

Anlisis factorial
mtodo comn para saber si el Anlisis factorial es indicado es
Un
mediante al anlisis de las covarianzas de los factores. Una de sus
medidas es el anlisis de adecuacin muestral.

Medida de
adecuacin
muestra para
cada i

En la prctica hay que tener cuidado con la eliminacin de variables por


medio de este mtodo. La variable con el menor ndice es a candidata a
ser eliminada.

66

Anlisis factorial
Recordemos que
covarianza poblacional es:

, en la prctica. La matriz de varianza y

Objetivo

Al determinar el peso de los factores sobre la explicacin de


las variables. Podremos saber que factores tienen un peso
nulo en el modelo.

67

Pasos

68

Anlisis factorial
Se pueden utilizar varias estrategias para determinar los factores a utilizar:
1.

La experiencia.

2.

La matriz de varianza y covarianza.

3.

El clculo de los valores propios de la matriz de varianza y covarianza


poblacional, y eliminar aquellas variables con un valor p superior a 0,7.

4.

Fraccionar la muestra y evidenciar si los factores son igualmente


importantes es ambas.

69

Pasos

70

Anlisis factorial
La rotacin (transformacin) elimina ambigedades de las conclusiones
en las etapas previas.
De esa forma con la rotacin algunos pesos (a) sern mayores o nulos en
las variables. Identificando la relacin entre las variables no incluidas y las
incluidas.
Es decir, encontrar un mtodo ms simple. No se pierden las propiedades
matemticas de la matriz.

71

Pasos

72

Regresin lineal

Es un mtodo ampliamente usado para identificar variables


determinantes en la explicacin de la trayectoria de una variable
dependiente.

Asume una estructura lineal por definicin.

Asume que la variable dependiente (y) es explicada por un conjunto de


variables (x) , y un trmino de error (se distribuye normal). En
consecuencia, se asume alguna causalidad.

73

Regresin lineal
Los supuestos en la versin ideal

La normalidad del trmino de error

La varianza del error es constante, y la media es cero.

No hay una relacin muy fuerte entre los regresores.

No se estn omitiendo variables relevantes.

El error es independiente a los regresores.

No hay endogenidad.

74

Regresin lineal

Anda mungkin juga menyukai