Anda di halaman 1dari 8

9.

2 MODELO DE REGRESIÓN

En el problema representativo de regresión, como en la mayoría de los problemas de


estadística aplicada, los investigadores disponen de una muestra de observaciones
extraída de una población hipotética o real. Con base en los resultados del análisis de los
datos de la muestra, se pretende llegar a una decisión respecto a la población de la que se
extrajo la muestra. Por 10 tanto, es importante que los investigadores comprendan la
naturaleza de las poblaciones en las que están interesados. Deben saber 10 suficiente
respecto a las poblaciones para que sean capaces de elaborar un modelo mate matico que
la represente, o determinar si se ajusta razonablemente a algún modelo ya establecido.
Por ejemplo, si un investigador va a analizar un conjunto de datos mediante los métodos
de regresión lineal simple, debe estar seguro de que el modelo de regresión lineal simple
proporciona una representación al menos aproximada de la población. No es de esperarse
que el modelo sea una representación fiel de la situación real, dado que pocas veces se
encuentra esta característica en los modelos de valor práctico. Un modelo elaborado de
forma que corresponda precisamente con los detalles de la situación es, por lo general,
muy complicado para proporcionar alguna información de valor. Por otra parte, los
resultados que se obtienen a partir del análisis de datos que han sido forzados dentro de
un modelo al que no se ajustan tampoco tienen valor. Sin embargo, por fortuna un
modelo perfectamente ajustado no es un requisito para obtener resultados útiles. Los
investigadores deben ser capaces de distinguir entre el caso en que el modelo elegido y
los datos son 10 suficientemente compatibles como para poder proceder y el caso en que
se deberá rechazar dicho modelo.
Supuestos que fundamentan la regresión lineal simple Para el modelo de regresión lineal
simple son importantes dos variables, X y Y. A la variable X se Ie conoce por lo general
como variable independiente, ya que con frecuencia se encuentra bajo el control del
investigador; es decir, los valores de X pueden ser seleccionados por el investigador para
obtener uno 0 mas valores de Y, en correspondencia con los de X. Por consiguiente, a la
otra variable, Y, se Ie conoce como variable dependiente, y se habla de regresión de Y
sobre X. Los siguientes puntos son las suposiciones que fundamentan el modelo de
regresión lineal simple.

1. Se dice que los valores de la variable independiente X son fijos. Esto significa que los
valores de X son seleccionados previamente por el investigador, de modo que en la
recolección de datos dichos valores no pueden variar. En este modelo, algunos autores
dan a X el nombre de variable no aleatoria, y otros, el de variable matemática. Es
necesario señalar en este momento que el enunciado de este supuesto clasifica al
modelo como modelo de regresión clásico. El análisis de regresión también puede
efectuarse con datos en los que X es una variable aleatoria.
2. La variable X se mide sin error. Dado que ningún procedimiento de medición es
perfecto, esto significa que la magnitud del error de medición en X es insignificante.
3. Para cada valor de X existe una subpoblacion de valores de Y. Para que los
procedimientos de inferencia estadística de estimación y prueba de hipótesis sean
validos estas subpoblaciones deben seguir una distribución normal. Para presentar los
ejemplos y ejercicios que siguen, se supone que los valores de Y siguen una
distribución normal.
4. Todas las variancias de las subpoblaciones de Y son iguales.
5. Todas las medias de las subpoblaciones de Y se encuentran sobre la misma línea recta.
A esto se Ie conoce como suposición de linealidad. Esta suposición se expresa
simbólicamente como:

donde μ1x es la media de la subpoblacion de valores Y para un valor especifico de X; a α


y β se les conoce como coeficientes de regresión de la población. Geométricamente, α
y β representan la ordenada al origen y Y la pendiente de la recta, respectivamente, en
la que se supone están todas las medias.

6. Los valores Y son estadísticamente independientes. En otras palabras, al extraer la


muestra, se supone que los valores de Y obtenidos para un valor de X de ninguna manera
dependen de los valores de Y elegidos para otro valor de X.

Estas suposiciones pueden resumirse mediante la siguiente ecuación, llamada modelo de


regresión:

donde Y es un valor representativo de una de las subpoblaciones de Y, α ó β son como se


definen en la ecuación 9.2.1, y a e se Ie llama termino de error. Si se despeja e en la
ecuación 9.2.2, se tiene que
se puede apreciar que e indica la cantidad con la que y se desvía de la media de la
subpoblación de los valores de Y de la cual se extrae. Como consecuencia de la suposición
de que las subpoblaciones de los valores de Y siguen una distribución normal con
variancias iguales, las e para cada subpoblación también siguen una distribución normal
con una variancia igual a la variancia común de las subpoblaciones de valores de Y.
Las siguientes siglas son de gran utilidad para recordar muchas de las suposiciones
necesarias para la inferencia en el análisis de regresión lineal:

LINI [Linealidad (suposición 5), Independencia (suposición 6), Normalidad (suposición 3),
iguales variancias (suposición 4)]
En la figura 9.2.1 aparece una representación grafica del modelo de regresión.

9.3 ECUACIÓN DE REGRESIÓN DE LA MUESTRA

EI objeto de interés para el investigador, en la regresión lineal simple, es la ecuación de


regresión de la población, que describe la relación real entre la variable dependiente Y y la
variable independiente X.
En un esfuerzo para llegar a una decisión respecto a la forma probable de esa
relación, el investigador extrae una muestra a partir de la población de interés y, con los
datos resultantes, calcula una ecuación de regresión que forma la base para llegar a
conclusiones respecto a la ecuación desconocida de regresión de la población.
Pasos en el análisis de regresión: Al no tener información extensa respecto a la naturaleza
de las variables de interés, una estrategia que se utiliza con frecuencia es suponer
inicialmente que están relacionadas en forma lineal. El análisis subsiguiente comprende
estos pasos:
1. Determinar si las suposiciones que fundamentan la relación lineal se cumplen o no en
los datos disponibles para el análisis.
1. Obtener la ecuación de la recta que se ajuste mejor a los datos de la muestra.
2. Evaluar la ecuación para obtener una idea de que tan fuerte es la relación y mal es la
utilidad de la ecuación para predecir y estimar.
3. Si los datos parecen ajustarse satisfactoriamente al modelo lineal, entonces se utiliza
la ecuación que se obtuvo de los datos de la muestra para predecir y estimar.

Cuando se utiliza la ecuación de regresión para predecir, se predice el valor probable


de Y cuando X tiene un valor dado. Cuando se utiliza la ecuación para estimar, se estima la
media de la subpoblación de los valores de Y que se supone existen para un valor dado de
X. Observe que los datos de la muestra utilizados para obtener la ecuación de regresión
consisten en valores conocidos de X y de Y. Cuando la ecuación se utiliza para predecir y
estimar los valores de Y, solo se conocerán los val ores correspondientes de X. Con el
siguiente ejemplo se ilustra el uso de los cuatro pasos para el análisis de regresión lineal
más sencillo.

EJEMPLO 9.3.1
Després et al. (A-I) señalaron que la topografía del tejido adiposo (TA) está asociada con
complicaciones metabólicas consideradas como factores de riesgo para enfermedades
cardiovasculares. Afirman que es importante medir la cantidad de tejido adiposo
intraabdominal como parte de la evaluación del riesgo de enfermedades cardiovasculares
en un individuo. La tomografía computada (TC), es la única técnica disponible con la que
es posible medir de manera precisa y confiable la cantidad de tejido adiposo
intraabdominal profundo; sin embargo, es una técnica costosa y requiere de irradiación
sobre el individuo. Además, la tecnología no está disponible para muchos médicos.
Després y sus colaboradores desarrollaron ecuaciones para predecir la cantidad de tejido
adiposo del abdomen a partir de las mediciones antropométricas simples. Los individuos
estudiados eran hombres con edades entre 18 y 42 años que no presentaban
enfermedades metabólicas que necesitaran tratamiento. En la tabla 9.3.1 se muestran las
mediciones tomadas a cada individuo respecto a la circunferencia de la cintura y a la
cantidad de tejido adiposo profundo mediante la tomografía computada. La pregunta es:
¿que tan acertado seria predecir y estimar la cantidad de tejido adiposo abdominal a
partir de la medida de circunferencia de la cintura? Esta pregunta es representativa de
aquellas que pueden responderse mediante el análisis de regresión lineal. Dado que la
cantidad de tejido adiposo abdominal profundo es la variable sobre la que se pretende
estimar y predecir, constituye la variable dependiente. La variable medición de la cintura
es la variable independiente, que se utilizan para hacer las predicciones y estimaciones.
Diagrama de dispersión
El primer paso, generalmente útil en el estudio de la relación entre dos variables, es
preparar un diagrama de dispersión de los datos, como se muestra en la figura
9.3.1. Los puntos se grafican asignando los valores de la variable independiente X al eje
horizontal y los valores de la variable dependiente Y al eje vertical.
El patrón que se obtiene mediante los puntos graficados en el diagrama de dispersión,
generalmente sugiere la naturaleza básica y la fuerza de la relación de dos variables. Como
se muestra en la figura 9.3.1, por ejemplo, los puntos parecen estar dispersos en tomo a
una línea recta imaginaria. El diagrama de dispersión también muestra, en general, que los
individuos con cintura grande también tienen más tejido adiposo abdominal. Estos
resultados sugieren que la relación entre las dos variables puede ser representada
mediante una línea recta que cruza el eje Y cerca del origen un ángulo de 45 grados,
aproximadamente, con respecto al eje X. Se ve como si fuera sencillo trazar, a pulso, a
través de los puntos, la recta que describe la relación entre X y Y. Sin embargo, es muy
poco probable que las rectas trazadas por dos personas sean exactamente la misma.
Dicho de otra manera, cada persona que trace una recta a ojo, o a pulso, obtendría una
recta ligeramente diferente. Surge entonces la pregunta de qué recta es la que describe
mejor la relación entre las dos variables, pero no se puede obtener una respuesta a esa
pregunta observando las rectas. De hecho, no es probable que alguna de las rectas
trazadas a pulso sobre los puntos sea la que mejor describe la relación entre X y Y, dado
que las rectas a pulso reflejan defectos de visualización o juicio de la persona que las
traza. Análogamente, cuando se juzga cuál de dos rectas describe mejor la relación, la
evaluación subjetiva está expuesta a las mismas deficiencias.
Lo que se necesita para obtener la recta deseada es un método que no esté expuesto a
estas deficiencias.

La recta de mínimos cuadrados


EI método que se utiliza regularmente para obtener la recta deseada se Ie conoce como
método de mínimos cuadrados, y a la recta resultante se Ie conoce como recta de mínimos
cuadrados. En el siguiente análisis se explica la razón por la que se Ie da ese nombre a este
método.
De acuerdo con los conceptos básicos del algebra, la ecuación general de una recta
está dada por la expresión
donde Y es un valor sobre el eje vertical, X un valor sobre el eje horizontal, a es el punto
donde la recta cruza el eje vertical, y b indica la cantidad con la cual y cambia por cada
unidad de cambio en x. La ordenada al origen es a, y b es la pendiente de la recta. Para
trazar una recta con base en la ecuación 9.3.1, se necesitan los valores numéricos de las
constantes a y b. Dadas estas constantes, pueden sustituirse varios valores de x en la
ecuación para obtener los valores correspondientes de Y. Después, es posible graficar los
puntas resultantes. Dado que dos parejas cualesquiera de esas coordenadas determinan
una recta, es posible seleccionar dos de ellas para ubicarlas en el sistema de coordenadas
y unirlas para obtener la recta correspondiente a la ecuación.

La ecuación dice que, puesto que a es un valor negativo, la recta cruza el eje Y por abajo
del origen y que, puesto que el valor b, la pendiente, es positivo, la recta se extiende
desde el extrema izquierdo inferior de la grafica hasta el extrema derecho superior.
También, es posible apreciar que por cada unidad que aumente x, y aumenta por una
cantidad igual a 3.46. El símbolo y representa el valor calculado de y mediante la ecuación,
en lugar del valor observado de Y.
AI sustituir los valores adecuados de X en la ecuación 9.3.2, se obtienen las coordenadas
necesarias para trazar la recta. Suponga, primero, que X = 70 y que se obtiene
Criterio de mínimos cuadrados
Después de obtener 10 que se llama la mejor recta que describe las relaciones entre las
variables, es necesario identificar que criterio puede ser el mejor. Antes de establecer el
criterio, hay que examinar la figura 9.3.3. Es posible apreciar que, por 10 general, la recta
de mínimos cuadrados no pasa a través de los puntos observados que se marcan en el
diagrama de dispersión. En otras palabras, la mayor parte de los puntos observados se
desvían de la recta por cantidades que varían.
La recta trazada a través de los puntos tiene el siguiente significado:
La suma de las desviaciones verticales al cuadrado de los puntos observados (y) a
partir de la recta de mínimos cuadrados es menor que la suma de las desviaciones
verticales al cuadrado de los puntos de los datos que forman cualquier otra recta.
En otras palabras, si se eleva al cuadrado la distancia desde cada punto observado (y)
hasta la recta de mínimos cuadrados y se suman esos valores para todos esos puntos, el
total que resulta será menor que-el total calculado en forma semejante para cualquier
otra recta que pueda trazarse a través de los puntos. Por esta razón, la recta trazada se
llama recta de mínimos cuadrados.