Anda di halaman 1dari 7

Introducción

Análisis de Muchas veces las decisiones se basan en la relación entre


Regresión y Correlación dos o m ás variables.Ejemplos

• Dosis de fertilizantes aplicadas y rendimiento del cultivo.

CB-412 V • La relaci ón entre la radiación que reciben los sensores con


la que se predicen los rendimientos por parcelas con los
Lic. Yolanda Segura García rendimientos reales observados en dichas parcelas.

• Relación entre tamaño de un lote de producción y horas –


hombres utilizadas para realizarlo.

Distinguiremos entre relaciones funcionales y relaciones


CB-412 1 CB- 412 2
estadísticas

Relación funcional entre dos


Figura 1
variables
Una relación funcional se expresa mediante Relación funcional perfecta entre dosis y
una función matemática. rendimientos

Si X es la variable independiente e Y es la variable 300

dependiente, una relación funcional tiene la forma:


250
Ren dimien to

200

Y=f(X) 150
Rend.
100

Ejemplo 1 50

Parcela Dosis Rend.(kg/h)


0
0 20 40 60 80 100 120 140

Dosis
1 75 150
2 25 50 Nota: Las observaciones caen exactamente sobre la línea de
3 130 260 relación funcional
CB-412 3 CB- 412 4

Relación estadística entre dos


Figura 2
variables
A diferencia de la relación funcional, no es una Relación estadística entre tamaño del lote y
relación perfecta, las observaciones no caen horas hombre

exactamente sobre la curva de relación entre las


1 80

1 60
Horas hombr e

variables
1 40

1 20

1 00

Ejemplo 2
80

Horas hombre
60

40

Lote de prod. Tamaño del lote Horas hombre


20

0
0 10 20 30 40 50 60 70 80 90

1 30 73 Tamaño del lote


2 20 50
3 60 128 Nota: La mayor parte de los punto no caen directamente sobre
4 80 170 la línea de relación estadística.
5 40 87 Esta dispersión de punto alrededor de la línea representa la
CB-412 5 variación aleatoria CB- 412 6

1
Figura 3 Conceptos básicos
Coordenadas de puntos de control utilizados Análisis de Regresión: Es un procedimiento estadístico que estudia
para corregir la columna de los niveles la relación funcional entre variables.Con el objeto de predecir una
en función de la/s otra/s.
digitales de una imagen satelital
Análisis de Correlación: Un grupo de técnicas estadísticas usadas
7000
para medir la intensidad de la relación entre dos variables
6000
Diagrama de Dispersión: Es un gráfico que muestra la intensidad y el
5000
sentido de la relación entre dos variables de interés.
Variable dependiente (respuesta, predicha, endógena): es la
4000

variable que se desea predecir o estimar


3000

2000

1000 Variables independientes (predictoras, explicativas exógenas). Son


0
0 2 4 6 8 10 12 14 16
las variables que proveen las bases para estimar.
Regresión simple: interviene una sola variable independiente
Nota: se trata de un terreno rugoso donde var ían notablemente Regresión m últiple: intervienen dos o más variables independientes.
las condiciones de observación del sensor, para corregir errores Regresión lineal: la función es una combinación lineal de los
geométricos de la imagen, se aplican funciones de segundo parámetros.
grado. Los datos sugieren que la relaci ón estadística es de tipo Regresión no lineal: la función que relaciona los parámetros no es
curvilínea. CB-412 7 una combinación lineal CB- 412 8

Gráfico de dispersión Coeficiente de correlación


Los diagramas de dispersión no sólo muestran la lineal
relación existente entre variables, sino también resaltan
las observaciones individuales que se desvían de la
relación general. Estas observaciones son conocidas
El Coeficiente de Correlación (r)
como outliers o valores inusitados, que son puntos de requiere variables medidas en escala de
los datos que aparecen separados del resto. intervalos o de proporciones
– Varía entre -1 y 1.
– Valores de -1 ó 1 indican correlación perfecta.
– Valor igual a 0 indica ausencia de correlación.
– Valores negativos indican una relación lineal
inversa y valores positivos indican una relación
lineal directa

CB-412 9 CB- 412 10

Correlación Negativa Perfecta Correlación Positiva Perfecta


10 10
9 9
8 8
7 7
6 6
Y 5 Y 5
4 4
3 3
2 2
1 1
0 0

0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10
X
CB-412 11 X
CB- 412 12

2
Ausencia de Correlación Correlación Fuerte y Positiva
10 10
9 9
8 8
7 7
6 6
Y 5 Y 5
4 4
3 3
2 2
1 1
0 0

0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10
X
CB-412 13
X
CB- 412 14

Fórmula para el coeficente de Modelos de Regresión


correlación (r) Pearson
Un modelo de regresión, es una manera de
expresar dos ingredientes esenciales de
una relación estadística:
n(( ΣXY )  ( ΣX )( ΣY )) Una tendencia de la variable dependiente Y a
r
n( ΣX 2
  - ΣY 
)  ( ΣX ) 2 n ΣY 2
2
variar conjuntamente con la variación de la o
las X de una manera sistemática
Una dispersión de las observaciones alrededor
de la curva de relación estadística

CB-412 15 CB- 412 16

Modelos de Regresión Representación gráfica del


modelo de Regresión Lineal
Estas dos características están implícitas en un
modelo de regresión, postulando que:
En la población de observaciones asociadas con el
proceso que fue muestreado, hay una distribución
de probabilidades de Y para cada nivel de X.
Las medias de estas distribuciones varían de manera
sistemática al variar X.

Nota: en esta figura se muestran las distribuciones de probabilidades


CB-412 17 de Y para distintos valores de X CB- 412 18

3
Análisis de Regresión Supuestos de Regresión Lineal
Clásica
Objetivo: determinar la ecuación de regresión para • Cada error est á normalmente distribuido
predecir los valores de la variable dependiente (Y)
con:
en base a la o las variables independientes ( X).
– Esperanza de los errores igual a 0
Procedimiento: seleccionar una muestra a partir de
la población, listar pares de datos para cada – Variancia de los errores igual a una
observación; dibujar un diagrama de puntos para constante 2.

dar una imagen visual de la relación; determinar la – Covariancia de los errores nulas para todo
ecuación de regresión. ij

CB-412 19 CB- 412 20

Proceso de estimación de la regresión lineal simple


Líneas posibles de regresión en la
Modelo de regresión Datos de la muestra
x y
regresión lineal simple
y=0 +1x+
x1 y1 Sección A Sección B Sección C
Ecuación de regresión x2 y2 Relació n lineal positiva Relació n lineal negativa No hay relació n
E(y)=0+1 x . .
Parámetros desconocidos . .
. . Ey Ey
0.1 La pendiente 1 Ey
xn yn
L ínea de regresi ón es negativa
* La pendiente 1
es 0

* La pendiente 1 *
es positiva Línea de regresió n Línea de regresi ón
Ecuación estimada de
b0 y b1 regresi ón
y=b0 +b1 x
proporcionan estimados Estadísticos de la muestra x x x
0 y 1 b0.b 1
* Ordenada al origen 0
CB-412 21 CB- 412 22

Estimación de la ecuación de Mínimos cuadrados - Supuestos


Regresión Simple
1. El modelo de regresión es lineal en los parámetros.
Y’= a + bX, donde: 2. Los valores de X son fijos en muestreo repetido.
Y’ es el valor estimado de Y para distintos X. 3. El valor medio de la perturbación  i es igual a cero.
a es la intersección o el valor estimado de Y cuando X=0 4. Homocedasticidad o igual variancia de  i.

b es la pendiente de la línea, o el cambio promedio de Y’ 5. No autocorrelación entre las perturbaciones.


para cada cambio en una unidad de X 6. La covariancia entre i y Xi es cero.
el principio de mínimos cuadrados es usado para obtener a 7. El número de observaciones n debe ser mayor que
y b: el número de parámetros a estimar.
8. Variabilidad en los valores de X.
n ( X Y )  ( X ) ( Y ) 9. El modelo de regresión está correctamente
b  especificado.
n ( X 2 )  ( X ) 2
Y X 10. No hay relaciones lineales perfectas entre las
a  CB-412
b
n n 23 explicativas. CB- 412 24

4
Estimación de la variancia de los Estimación de la variancia de los
términos del error (2 ) términos del error (2)
Debe ser estimada por varios motivos Dado que los Yi provienen de diferentes distribuciones
• Para tener una indicación de la variabilidad de probabilidades con medias diferentes que
de las distribuciones de probabilidad de Y. dependen del nivel de X, la desviación de una
• Para realizar inferencias con respecto a la observación Y i debe ser calculada con respecto a su
función de regresión y la predicción de Y. propia media estimada Y i.
Por tanto, las desviaciones son los residuales
• La lógica del desarrollo de un estimador de
2 para el modelo de regresión es la misma Yi - ˆ
Yi = e i
que cuando se muestrea una sola población Y la suma de cuadrados es:
• La variancia de cada observación Y i es 2 , la n n n

SCe ( Yi ˆ
Yi ) (Yi a bX 1) e i
2 2 2

misma que la de cada término del error i1 i1 i


1
CB-412 25 CB- 412 26

Estimación de la variancia de los Análisis de Variancia en el análisis


términos del error (2 )
de regresión
La suma de cuadrados del error, tiene n-2 grados de
libertad asociados con ella, ya que se tuvieron que El enfoque desde el análisis de variancia se basa en
estimar dos parámetros. la partición de sumas de cuadrados y grados de
Por lo tanto, las desviaciones al cuadrado dividido por libertad asociados con la variable respuesta Y.
los grados de libertad, se denomina cuadrados medios
n 2 La variación de los Yi se mide convencionalmente
SC e en términos de las desviaciones
CM   e i1 i
( Yi Yi )
n 2 n 2
e

La medida de la variación total Sc tot, es la suma de


Donde CM es el Cuadrado medio del error o cuadrado
medio residual. Es un estimador insesgado de 2 las desviaciones al cuadrado

CB-412 27
(Y Y )
i
CB- 412
i
2

28

Desarrollo formal de la partición Desarrollo formal de la partición


Consideremos la desviación Si consideremos todas las observaciones y elevamos al
( Yi Yi ) cuadrado para que los desvíos no se anulen


Y Y ( Y
2 2
Podemos descomponerla en
i
ˆY) ( Y Y
2
ˆ) i i i


Y Y (Y
i
ˆY ) (Y Y
i
ˆ) i i
SC tot SCreg SC er
T R E (SCtot): Suma de cuadrados total
(T): desviación total (SCreg ): Suma de cuadrados de la regresión
(SCer ): Suma de cuadrados del error
(R): es la desviación del valor ajustado por la
regresión con respecto a la media general Dividiendo por los grados de libertad, (n-1), (k) y
(E): es la desviación de la observación con respecto (n-2), respectivamente cada suma de cuadrados, se
a la línea de regresión obtienen los cuadrados medios del análisis de
CB-412 29 variancia. CB- 412 30

5
Cálculo del R2 a través de la
Coeficiente de Determinación siguiente fórmula

Coeficiente de Determinación, R2 - es la
proporción de la variación total en la
(y y )
R  ˆ
2
variable dependiente Y que es explicada o
2 c
contabilizada por la variación en la variable
(y y )
2
independiente X.
o
– El coeficiente de determinación es el
cuadrado del coeficiente de correlación, y
varia entre 0 y 1.

CB-412 31 CB- 412 32

Ejemplo
Inferencia en Regresión
Se desean comparar los rendimientos predichos a partir de la
• Los supuestos que establecimos sobre los información obtenida por 3 sensores sobre los rendimientos
reales por parcelas de lotes de maíz. Los rendimientos (Y) y el
errores nos permiten hacer inferencia sobre los rindes predichos de 4 sensores se presentan a continuación
los parámetros de regresión (prueba de Sensor 1 Sensor 4 Sensor 5 Rendimiento

hipòtesis e intervalos de confianza), ya que 0,0754


0,0754
0,3083
0,3083
0,1212
0,1212
42,5846
43,8576

los estimadores de 0 y 1 pueden cambiar su


0,0742 0,3327 0,1328 44,0082
0,0766 0,3327 0,1251 43,4989
0,0766 0,3297 0,1251 41,3327

valor si cambia la muestra. 0,0730


0,0754
0,0766
0,3205
0,3114
0,2901
0,1193
0,1193
0,1193
41,0313
40,4802
36,6735
0,0754 0,3449 0,1328 43,3535
• Por lo tanto debemos conocer la distribución 0,0754
0,0766
0,3480
0,3480
0,1193
0,1193
43,3180
43,3143

de los estimadores para poder realizar 0,0766


0,0766
0,3419
0,2840
0,1135
0,1135
41,0042
36,4908
0,0766 0,3053 0,1193 37,5931
prueba de hipòtesis e intervalos de confianza 0,0754
0,0766
0,3266
0,2840
0,1232
0,1135
40,4556
35,5595
0,0754 0,3358 0,1232 41,6400
0,0742 0,3419 0,1251 43,5951

¿Qué sensor refleja mejor el rendimiento de esa zona?


CB-412 33 CB- 412 34

Descripción Gráfica y cuantitativa de la relación entre


cada sensor y el rendimiento T ít u lo

4 5 ,9 5
T ít u lo
PR ED_R endimiento

4 5 ,9 5 3 8 ,4 1
P RED _R endimi ento

3 8 ,4 1 3 0 ,8 7

3 0 ,8 7 2 3 ,3 3

2 3 ,3 3 1 5 ,7 9
0 ,2 2 0 ,2 6 0 ,3 0 0 ,3 4 0 ,3 7
B 4
1 5 ,7 9
0 ,0 7 8 0 ,0 9 2 0 ,1 0 7 0 ,1 2 1 0 ,1 3 5
R e n d im ie n t o
B5 P R E D _ R e n d im ie n t o

R e n d im ie n to
PR ED _ R e n d im ie n to

Y = 338.71*X - 4.87
Y = 155.37*X – 13.25
CB-412 35 CB- 412 36
R2 = 0.32 R2 = 0.57

6
T ít u lo

4 5 ,9 5
PR ED_R en d imi en to

3 8 ,4 1

3 0 ,8 7

2 3 ,3 3

1 5 ,7 9
0 ,0 7 1 0 ,0 7 6 0 ,0 8 1 0 ,0 8 7 0 ,0 9 2
B 1

R e n d im ie n t o
P R E D _ R e n d im ie n t o

Y = - 1004.34*X +112.24
CB-412 R2 = 0.44 37

Anda mungkin juga menyukai