Anda di halaman 1dari 51

FACULTAD DE INGENIERIA DE PROCESOS

ASIGNATURA: ESTADISTICA INDUSTRIAL (IQ313APQ)


DOCENTE: DRA. LECSI MARICELA ROMERO PEÑA

Contenido : REGRESION LINEAL Y CORRELACIÓN (A)

MATERIAL DE ESTUDIO (PARTE 9)


2017-II
Análisis de correlación simple

Análisis de correlación simple: permite obtener la


relación entre dos conjunto de datos.

Para investigar la relación entre dos variables es


conveniente considerar:

 Las observaciones que muestran los valores de las


variables.

 Si se tiene “n” observaciones bidimensionales,


cada par de puntos(X, Y) se representa en un
sistema de coordenadas rectangulares por un
punto como parejas de observaciones se tenga.
Análisis de correlación simple

 La representación de los puntos en el sistema de coordenadas


rectangulares, da origen al diagrama de dispersión.

 El diagrama de dispersión en una gráfica en la que cada punto


trazado representa el par de valores observados de las variables
independientes y dependientes.

 La gráfica del diagrama de dispersión nos permite visualizar el


valor de la variable independiente “X” en el eje horizontal y el
valor de la variable dependiente “Y” en el eje vertical.
Diagramas de correlación que representan correlaciones cero,
débil y fuerte
covarianza
Covarianza
Supongamos que tenemos dos variables aleatorias X e Y,
discretas o continuas, con función de probabilidad o densidad
conjunta f(x,y) y definimos una función z(x,y) igual al producto
de las desviaciones de cada valor a su media respectiva (es
decir, z(x,y) tiene la misma estructura que (X - μ)2 = (X - μ) (X - μ)
si sustituimos una vez a X por Y).

Cov(x,y) = xy =

Al valor esperado de z(x,y) se le llama covarianza de las


variables X e Y y se representa como σxy o cov(x,y).

La covarianza es una medida de la variación común a dos variables y, por


tanto, una medida del grado y tipo de su relación.
Coeficiente de correlación

Creado por Karl Pearson alrededor de 1900, es una medida de


la fuerza de la relación lineal entre dos variables en escala de
intervalo o de razón.

El coeficiente de correlación se define como el cociente


entre la covarianza y el producto de las desviaciones
estándar de las dos variables.
Coeficiente de correlación muestral (r):

O también

En las fórmulas:
(xi, yi ) = Observaciones individuales para el elemento i
(x , y ) = Medias muestrales.
(Sx, Sy) = desvíos estándares muestrales en x e y respectivamente.
(Sxy) = covarianza muestral.
n = número de elementos de la muestra
Coeficiente de correlación poblacional ():

En la fórmula:

 = es el coeficiente de correlacional poblacional


xy = es la covarianza poblacional de (x,y)
x = es la desviación estándar poblacional de la variable x
y = es la desviación estándar poblacional de la variable y
Coeficiente de correlación (r)
Características:
1. El coeficiente de correlación de la muestra se identifica con la
letra minúscula r.
2. Muestra la dirección y fuerza de la relación lineal (recta)
entre dos variables en escala de intervalo o en escala de razón.
3. Varía de -1 hasta +1, inclusive.
4. Un valor cercano a 0 indica que hay poca asociación entre las
variables.
5. Un valor cercano a 1 indica una asociación directa o positiva
entre las variables.
6. Un valor cercano a -1 indica una asociación inversa o negativa
entre las variables.
Ejemplo 1
El propietario de una empresa desea analizar la relación entre
las ventas y la suma de dinero que gastó en publicidad. A
continuación se presenta la información de las ventas y de los
gastos publicitarios durante los últimos cuatro meses.

a) El propietario desea pronosticar las ventas con base en los


gastos publicitarios. ¿Cuál es la variable dependiente? ¿Cuál es
la variable independiente?
b) Trace un diagrama de dispersión.
c) Determine el coeficiente de correlación.
d) Interprete la fuerza del coeficiente de correlación.
Respuestas

• a) Variable independiente: Gastos en publicidad


• Variable dependiente: Ingreso de ventas
d) Hay una correlación fuerte
Prueba t del coeficiente de correlación
Las hipótesis nula y alternativa son:

PRUEBA t DEL COEFICIENTE con n-2n-2 grados de libertad


DE CORRELACIÓN

Regla de decisión en la prueba de hipótesis con un nivel de significancia


de 0.05
Autoevaluación
Una muestra de 25 campañas para la alcaldía de ciudades de tamaño
medio con poblaciones entre 50 000 y 250 000 habitantes demostró
que la correlación entre el porcentaje de los votos recibidos y la
cantidad gastada en la campaña por cada candidato fue 0.43. A un
nivel de significancia de 0.05, ¿hay una asociación positiva entre las
variables?
Respuesta
Regresión lineal simple

• Los métodos de regresión estudian los modelos para explicar la


dependencia entre una variable independiente (respuesta) (y) y las
variables explicativas o dependientes (X).

• El modelo de regresión lineal , tiene lugar cuando la dependencia


es de tendencia lineal y se usa para dar respuesta a dos cuestiones
básicas:
• ¿Es significativo el efecto que una variable X causa sobre otra Y?,
• ¿ Es significativa la dependencia lineal entre esas dos variables?.
Regresión: Objetivos

• Investigar si existe una asociación entre las dos variables.

• Estudiar la fuerza de la asociación, a través de una medida de


asociación denominada coeficiente de correlación.

• Estudiar la forma de la relación. Usando los datos se propone un


modelo para la relación que permitirá predecir el valor de una
variable a partir de la otra.
Regresión: Objetivos

• Determinar una ecuación que pueda utilizarse en pronósticos.

• Medir el error del pronóstico.

• Presentar las consideraciones en que se basa el análisis de


regresión.

• Determinar intervalos de confianza para los pronósticos.


Análisis de regresión
El análisis de la regresión es un proceso estadístico para
estimar las relaciones entre variables

La técnica para desarrollar una ecuación lineal entre dos


variables y proporcionar las estimaciones de la variable
dependiente Y en base a un valor seleccionado de la
variable independiente X .

Ecuación de regresión. Ecuación que expresa la relación


lineal entre dos variables.
Análisis de regresión
Principio de los mínimos cuadrados. Determina una ecuación
de regresión al minimizar la suma de los cuadrados de las
distancias verticales entre los valores reales (observados) de
Y y los valores pronosticados (estimados) de Y.

El criterio de mínimos cuadrados permite obtener la ecuación


de mejor ajuste.
Ecuación de la línea recta

Forma general de la ecuación de regresión lineal: Ŷ = a + bX


Ecuación de la línea recta

Forma general de la ecuación de regresión lineal: Ŷ = a + bX

Intersección con el eje y: a = Ῡ - bX


Diferencia entre el análisis de regresión y
el análisis de correlación

La regresión y la correlación son dos técnicas


estrechamente relacionadas y comprenden una forma de
estimación. ... El análisis de correlación produce un
número que resume el grado de la correlación entre dos
variables; y el análisis de regresión da lugar a una
ecuación matemática que describe dicha relación.
Autoevaluación
Consulte la autoevaluación 1, donde el propietario estudió la
relación entre las ventas y la cantidad que gastaba en
publicidad. La información de las ventas de los cuatro últimos
meses se repite a continuación.
a) Determine la ecuación de regresión.
b) Interprete los valores de a y b.
c) Estime las ventas cuando se gastan $3 millones en
publicidad.
Respuestas
Ejercicio
Una compañía de electricidad estudia la relación entre los
kilowatts-hora (miles) consumidos y el número de
habitaciones de una residencia privada familiar. Una muestra
aleatoria de 10 casas reveló lo siguiente.

Nro de habitaciones 12 9 14 6 10 8 10 10 5 7
Kilowatts-hora (miles) 9 7 10 5 8 6 8 10 4 7

a) Determine la ecuación de regresión


b) Encuentre el número de kilowatts-hora, en miles, de una
casa de seis habitaciones.
Prueba de significancia de la pendiente
Las hipótesis nula y alternativa son:
H0: β=0
H1: β≠0
Donde β representa la pendiente de la población de la ecuación
de regresión.
Identificamos el valor de la pendiente como b. Así que la
pendiente “b” calculada se basa en una muestra y es una
estimación de la pendiente de la población, identificada como
“β”.
La hipótesis nula es que la pendiente de la ecuación de
regresión de la población es cero. Si éste es el caso, la recta
de regresión es horizontal y no existe relación entra la variable
independiente, X, y la variable dependiente, Y.
Si se rechaza H0 y se acepta H1, se deduce que la pendiente
de la recta de regresión de la población no es igual a cero;
existe una relación significativa entre las variables X e Y.
Prueba de significancia de la pendiente

b es la estimación de la pendiente de la recta de regresión,


calculada a partir de la estimación de la muestra.
sb es el error estándar de la estimación de la pendiente.
Excel. Regresión
Kw-hr = 1.3333 + 0.66667
habitaciones

Error estándar de estimación

SS
R
SSTotal
Capacidad predictora de una ecuación de
regresión

Error estándar de estimación. Medida de la dispersión de los


valores observados respecto de la recta de regresión para un
valor dado de X.
Capacidad predictora de una ecuación de
regresión

Coeficiente de determinación, r2. Proporción de la


variación total de la variable dependiente Y que se
explica, o contabiliza, por la variación de la variable
dependiente X.
Suposiciones de la regresión lineal
Intervalos de confianza e intervalos de
predicción
• Intervalo de confianza. Se utiliza para predecir el valor medio de Y para
una X dada.

• Intervalo de predicción. Se usa para predecir una Y individual para un


• valor dado de X.
Ejercicios
58 y 59 (páginas 506 y 507).
Análisis de regresión múltiple

La ecuación lineal múltiple para k variables independientes es

Donde
a es la intersección, el valor de Y cuando todas las X son cero
bi es la cantidad en que Y cambia cuando esa Xj particular
aumenta una unidad, cuando los valores de todas las demás
variables independientes se mantienen constantes. i=1..k
Prueba global del modelo de regresión
múltiple
La hipótesis nula es:
H0: β1 = β2 = β3 = 0
H1: No todas las βi son 0.
Evaluación de los coeficientes de regresión
individuales
La distribución de muestreo de los coeficientes sigue la
distribución t con n – (k+1) grados de libertad.
Las variables independientes se pueden probar individualmente
para determinar si los coeficientes de regresión difieren de cero.

El coeficiente bi se refiere a cualquiera de los coeficientes de


regresión, y sbi, a la desviación estándar de esa distribución del
coeficiente de regresión. Se incluye 0 debido a que la hipótesis
nula es βi = 0.
Supuestos de la regresión múltiple
1. Existe una relación lineal entre la variable dependiente y c/u
de las variables independientes
2. La variación entre los residuos es la misma tanto
para valores grandes como pequeños de . Esto significa
que los valores de predicción es constante, sin que importe
si los valores de predicción son grandes o pequeños
(homoscedasticidad).
3. Los residuos siguen la distribución de probabilidad normal.
4. Las variables independientes no deben estar
correlacionadas entre sí (no debe existir multicolinealidad).
5. Los residuos son independientes. Las observaciones
sucesivas de la variable dependiente no están
correlacionadas.

Anda mungkin juga menyukai