- El anlisis de regresin lineal: tcnica estadstica adecuada que se utiliza para estudiar la
relacin entre variables. En investigacin social dicho anlisis de regresin se aplica para predecir
una amplia gama de fenmenos.
Segn sea la cantidad de variables independientes con las que nos manejamos estaremos
haciendo una distincin entre el anlisis de regresin lineal simple y el de regresin lineal
mltiple.
Plantearse este tipo de conocimiento implica tener la necesidad de acceder a informacin que no
se posee, pero exige partir de una condicin muy importante: suponer que la informacin que se
carece se puede registrar en una variable y que sta se encuentra relacionada (covara) con otra,
de manera tal que a partir de sta ltima se podr llegar a la informacin requerida en forma
confiable y vlida.
Esta estimacin solo es posible bajo ciertas condiciones:
1. La relacin de dependencia entre las variables debe ser suficientemente fuerte, de manera tal
de minimizar la probabilidad de error en la estimacin. La fuerza de la relacin se expresa en la
magnitud del resultado obtenido con el coeficiente r de Pearson (correlacin). Cualquier
relacin entre variables, cunto ms fuerte, permite predecir ms confiablemente el
comportamiento de la variable dependiente, ya que a medida que aumenta dicha fuerza
disminuye la libertad (independencia) de comportamiento de esta ltima variable.
2. La eleccin de la variable independiente es de carcter terico. Se supone (se asume como
hiptesis) que esta variable es la que mejor da cuenta de las variaciones de la variable
dependiente: es la estimadora, tericamente, ms apropiada.
Entendamos el Anlisis de regresin lineal a partir de un diagrama de dispersin:
El modelo de regresin lineal ha de cumplir una serie de supuestos que garanticen su correcta
aplicacin, a saber: a) linealidad; b) normalidad; c) homocedasticidad. Todos estos supuestos
pueden ser estudiados mediante el recurso de las puntuaciones residuales que indican la
diferencia entre las puntuaciones observadas y predichas por el modelo.
En las ciencias sociales donde la realidad con la que se trabaja presenta no slo dos variables
sino una multiplicidad de relaciones entre los fenmenos; nos llevar forzosamente a considerar
dos modelos de correlacin atenindonos a la mayor cantidad de variables independientes que
explicaran la variable dependiente. Dichos modelos son los denominados correlacin parcial y
correlacin mltiple.
La Correlacin Parcial
La correlacin parcial: mide el grado de relacin existente entre dos variables pero en funcin
del control que se ejerce sobre una o ms variables. En otras palabras, es posible pensar que
otras variables, por fuera del modelo bivariado presentado anteriormente, se encuentren
influyendo en distinta medida en la relacin original. Estas otras variables podran incidir en
la relacin original siendo causantes de las variaciones presentadas en la correlacin lineal.
El coeficiente de correlacin parcial, debe ser considerado como la correlacin que queda entre la
variable independiente y la variable dependiente (ambas intervalares) una vez suprimidos los
efectos de la variable de control. En definitiva, con la correlacin parcial se procura explicar el
comportamiento de la variable dependiente a partir de la variable independiente con una
variable de control.
Correlacin simple entre edad y cantidad de horas que lee diarios impresos en un mes:
0,70
Correlacin simple entre cantidad de horas que lee diarios impresos en un mes e ingresos
0,63
Correlacin simple entre edad y ingresos 0,49
La Correlacin Mltiple
Pero ciertamente resulta difcil poder atribuir a una sola variable los resultados en otra; la realidad
nos lleva a reconocer que para predecir con mayor precisin un determinado valor, es
necesario observar e integrar en la prediccin otras variables que tambin puedan estar
relacionadas. Esto lleva a la necesidad de trabajar con ms de dos variables (una independiente
y otra dependiente) de manera simultnea.
El procedimiento analtico que nos permite establecer cunto de la variacin en la variable
observada (o dependiente) est asociado con la variacin del conjunto de variables independiente
que pretenden explicarla y predecirla se denomina: correlacin mltiple.
El objetivo de la aplicacin de dicho modelo apunta a la construccin de la mejor combinacin
del peso que cada variable independiente aporta en la medicin de la variable dependiente
que procura explicarse. Y esta mejor combinacin sin duda tendr una mayor correlacin con la
variable dependiente que la correlacin que pueda tener cualquiera de las variables
independientes con respecto a la dependiente, tomadas de manera individual.
Esta tcnica supone que existen ms de dos variables correlacionadas y que es posible
determinar la forma como se comportan las diversas correlaciones a nivel bivariable a fin de
conformar una correlacin combinada o total.
El coeficiente R, smbolo de este tipo de correlacin, se presenta en el modelo de la siguiente
forma:
R123 = r12 + r13.2 (1- r12)
1 = variable dependiente
2 y 3 = variables independientes
correlacin en la que se permite descomponer la relacin que hay entre las variables con un
objetivo que difiere en cierto modo de lo presentado en la correlacin parcial; en aqulla se
apunta a la explicacin de la variable dependiente a partir de una variable independiente con la
presencia de una variable de control. En tanto en la correlacin mltiple Lo que se procura es la
captacin de cmo explican a la variable dependiente un conjunto de variables independientes.
Para la aplicacin del modelo de correlacin mltiple es imprescindible saber desde qu hiptesis
se est partiendo.
En el modelo ms elemental (1 variable dependiente y 2 variables independientes) la primera
hiptesis tiene que ver con elegir determinadas variables independientes para explicar a la
variable dependiente. Pero el segundo nivel es el ms importante, ya que debe suponerse y
plantear de manera concreta cul de las variables independientes se espera que tenga un mayor
poder explicativo. Esto conlleva necesariamente a una jerarquizacin de las variables
independientes.
1. El primer elemento de la frmula (r12) incluye la variable dependiente y una de las variables
independientes; esto nos va a indicar cul es la proporcin explicada de la variable
dependiente por la variable independiente Nro. 2. (o variable principal). En este modelo que
presento supongo que la variable independiente Nro. 2 tenga el mayor poder explicativo
y va a cumplir esa funcin en toda la frmula. Es decir, cunto de la variable dependiente o
sus variaciones se explican por la variable independiente (o variable Nro. 2).
2. El segundo elemento de la frmula (r13.2) es el r que mide la determinacin que hay entre la
variable dependiente (o variable Nro.1) y la otra variable independiente (o variable Nro. 3)
controlando la variable independiente principal Esto indica cul es la proporcin de la
variable dependiente por la otra variable independiente controlando la variable Nro. 2.
3. El tercer elemento de la frmula (1- r12) es el K cuadrado; es el coeficiente de
indeterminacin. Es la proporcin no explicada de la variable dependiente por la
variable independiente principal.
El coeficiente de correlacin mltiple (R) vara entre 0 y 1; no hay valores negativos ya que
todos los componentes son elevados al cuadrado. La importancia del modelo radica en su
desarrollo; esto es:
a) cunto explica la principal variable independiente;
b) cunto explica la otra variable independiente controlando la variable independiente
principal y
c) cunto queda sin explicar.
En la correlacin mltiple el R indica:
1. Qu proporcin de las variaciones de la variable dependiente es explicada por el conjunto de
variables independientes propuestas por la hiptesis.
2. Permite conocer el desempeo de las variables independientes al interior de la proporcin
explicada. En otras palabras, el conjunto de las variables independientes es tratado en forma
agregada y desagregada.
3. Permite conocer la proporcin de las variaciones no explicadas.
La combinacin de estas tres contribuciones del modelo a la comprensin del comportamiento de
la variable dependiente, le ayuda al investigador no solamente a probar sus hiptesis sino
tambin a especificar el alcance de las mismas. Puede discriminar el desempeo de cada
variable independiente en su intento por explicar el comportamiento de la dependiente.
6
El anlisis descriptivo requiere del estudio de las relaciones entre variables, dado que el anlisis
de cada variable por separado no es suficiente a tal fin. Complementariamente con ello, el anlisis
de las relaciones entre dos variables no implica alcanzar una explicacin del fenmeno en
estudio. Para tal fin se requiere emprender un anlisis multivariado.
Los objetivos, en tanto metas que orientan el avance de una investigacin, permiten llevar a cabo
la produccin de los datos adecuados para intentar responder a los interrogantes que dieron
origen al proceso.
Los datos, a pesar de su origen etimolgico (del latn datum, lo dado), son construidos siempre
desde una perspectiva terica, para responder a una determinada problemtica, mediante la
aplicacin de tcnicas y procedimientos que tambin implican supuestos tericos.
Una vez realizada la etapa de relevamiento, cuando se trabaja con un abordaje cuantitativo, se
elabora una matriz que clasifica cada caso segn el valor que asume en cada variable,
constituyndose una estructura tripartita de los datos.
Las variables de una matriz de datos, cabe destacar, no son sino aquellos conceptos que se ha
decidido que deban ser considerados en el relevamiento a partir de los interrogantes, los
objetivos, las hiptesis y el marco terico de la investigacin. La matriz vuelve visible la estructura
tripartita de los datos -unidades de anlisis, variables y categoras.
Con la matriz por s sola no es posible avanzar en el anlisis. Es necesario decidir cules son las
variables de estudio cuyo comportamiento merece ser observado individualmente por presentar
inters en s mismo y cules variables interesan para ser observadas en su relacin con otras. En
este ltimo caso, el hecho de que haya relaciones entre variables que se consideren relevantes
para analizar obedece a la existencia de hiptesis, es decir, supuestos acerca de los posibles
vnculos entre conceptos susceptibles de ser confrontados con los datos.
Es a partir del anlisis bivariado que se vuelve posible describir las relaciones entre variables
del fenmeno en estudio.
Cuando se decide qu es relevante observar de la relacin entre dos o ms variables es porque
se ha propuesto una hiptesis de trabajo. En el proceso de construccin de las tablas que
concentran nuestros datos es donde nuestras hiptesis comienzan a verse reflejadas. Si bien su
contrastacin permite avanzar en la produccin de conocimiento, generalmente no agotan en s
mismas los objetivos de investigacin, sino que es el conjunto de estas hiptesis de trabajo,
contrastadas en las tablas que se producen, con la articulacin terica y la ilacin lgica que le
confieren quienes investigan, lo que puede dar respuesta a los interrogantes y cumplir los
objetivos.
Las hiptesis, constituidas por relaciones entre conceptos del marco terico, permiten vincular
este universo conceptual con los datos. Los datos son producto de un proceso terico de
construccin y slo desde la teora pueden ser interpretados, siendo las hiptesis las
mediaciones imprescindibles que expresan lo que desde la teora se espera que ocurra con
los datos producidos.
Se deben determinar las variables que deben ser relacionadas y, preferentemente, tener en claro
de qu modo se espera que se vinculen las categoras de las variables entre s. El tipo de
hiptesis, el nivel de medicin de las variables, los roles que cumplen las variables en la hiptesis,
7
la cantidad de casos con que se trabaje y la cantidad de categoras de las variables -y su posible
reagrupamiento en otros sistemas de categoras- son todos aspectos que entran en juego en las
posibilidades y restricciones de tratamiento estadstico de los datos.
El plan de anlisis implica una labor de previsin y reflexin sobre las estrategias de anlisis y el
detalle de procedimientos que deben llevarse a cabo para cumplir los objetivos.
Una vez que se ha procesado y tabulado los datos segn el plan de anlisis, se est en
condiciones de avanzar en el anlisis para cumplir los objetivos. Tanto la produccin de datos
como las decisiones relativas al anlisis deben entenderse en el marco de lo que constituye una
estrategia terico-metodolgica de contrastacin del universo de conceptos con el fenmeno de
estudio.
Cada espacio de propiedades clasifica un subconjunto de casos que presentan simultneamente
las dos o ms propiedades cuya combinacin genera el espacio. A partir de la distribucin de los
casos en los espacios de propiedades, con el auxilio del clculo de porcentajes, es posible
examinar las relaciones entre variables mediante una lectura comparativa de las frecuencias.
Siguiendo a Garca Ferrando (1995: 218), se puede caracterizar la relacin entre dos variables
segn la existencia de asociacin, la fuerza, la direccin y la naturaleza de la misma.
1. La existencia de asociacin: implica que la distribucin de una variable difiere de algn
modo entre las categoras de la segunda variable, alejndose de la independencia
estadstica, lo cual puede determinarse a partir del anlisis de diferencias porcentuales y de
la comparacin de las frecuencias esperadas con las observadas, mediante la prueba de
hiptesis de ji cuadrado, esta ltima para los casos en que se trabaje con muestras
probabilsticas.
- Independencia estadstica: inexistencia de relacin entre las variables analizadas. Ello refiere a que
cualquiera sea el valor que asuma una variable en estudio A, la variable B se mantendr constante.
Cuando dos variables estn relacionadas varan conjuntamente en algn grado, existiendo
covariacin o varianza en comn. Cuando la covariacin o varianza en conjunto de ambas
variables alcanza su nivel mximo -en que toda la varianza de una variable coincide con la
varianza de otra- existe una asociacin perfecta. Por la complejidad y multicausalidad del
mundo social, no es habitual en ciencias sociales encontrar asociaciones perfectas entre
variables.
La asociacin perfecta es muy til en tanto situacin extrema con la cual confrontar los datos
con que se dispone en una tabla bivariada. Cuando hay asociacin perfecta cada categora de
una variable se encuentra asociada con una sola categora de la otra. En una tabla, los casos
se concentran en la diagonal y el resto de los espacios de propiedades tendrn cero casos,
con lo cual las diferencias porcentuales sern del 100%. El caso opuesto a la asociacin
perfecta es el de independencia estadstica, en que no hay ninguna covariacin entre las
variables, de modo tal que los casos se distribuyen en la tabla bivariada al igual que lo haran en
una distribucin univariable, con lo cual las diferencias porcentuales sern de 0%.
El test de ji cuadrado nos permite saber si la relacin observada entre determinadas variables en
nuestra muestra puede ser inferible, bajo determinados niveles de confianza, al universo de
estudio. Para ello pone en relacin la hiptesis nula con la hiptesis de trabajo.
1.1. HIPTESIS NULA: es una hiptesis que afirma la independencia estadstica, es decir, la ausencia de
asociacin entre variables, lo contrario a lo que afirma la hiptesis de trabajo.
1.1.1.Ambas hiptesis se excluyen mutuamente: el rechazo de la hiptesis nula implica que puede
aceptarse, con determinados niveles de confianza, la hiptesis de trabajo. En este caso, lo que
rechazamos es la hiptesis de independencia estadstica y por tanto, implica que la relacin entre las
variables observadas en la muestra es inferible al universo en estudio. El no rechazo de la hiptesis
nula a cierto nivel de confianza, implica que no puede afirmarse que esa relacin ocurra tambin en
el universo, lo que no significa que no tenga relevancia terica.
Si se rechaza la hiptesis nula, se est descartando, asumiendo determinado riesgo, que se trate
de una situacin de independencia estadstica y se est aceptando que hay alguna asociacin
9
estadstica entre las variables de la hiptesis de trabajo, con determinado nivel de confianza. No
rechazar la hiptesis nula implica que la hiptesis de trabajo no es estadsticamente significativa
para determinado nivel de confianza, mas no implica necesariamente que se acepte la hiptesis
nula ni que deba darse por finalizado el anlisis de la relacin.
El ji cuadrado se utiliza para relaciones entre variables nominales u ordinales, puesto que existen
otras pruebas para variables intervalares.
El ji cuadrado compara frecuencias absolutas, no porcentajes. Opera a partir de la comparacin
entre las frecuencias observadas y las frecuencias esperadas.
Las frecuencias observadas son simplemente los casos relevados distribuidos en los
espacios de una tabla.
Las frecuencias esperadas son aquellas que cabra esperar si hubiese independencia
estadstica.
Ejemplo:
- Frecuencia observada es la que aparece registrada en tu tabla de doble entrada.
- Frecuencia esperada (si los hechos son independientes): es la que se obtiene multiplicando los totales marginales
del casillero y dividiendo por el total general.
compararlo con el ji cuadrado terico (X 2t). El ji cuadrado terico, crtico o de tabla proviene
de una distribucin estadstica que relaciona valores tericos de ji cuadrado con sus
posibilidades de ocurrencia por el slo efecto del error muestral.
La distribucin terica de ji cuadrado permite conocer cul es el valor con el que comparar el ji
cuadrado emprico, segn los grados de libertad de la tabla y el nivel de confianza con que se
decida trabajar. Los grados de libertad de una tabla se determinan segn la mnima cantidad de
frecuencias condicionales que necesitan conocerse para poder calcular las restantes, para
frecuencias marginales dadas. Se calcula multiplicando la cantidad de columnas menos uno
por la cantidad de filas menos uno [GL= (c-1) x (f-1)]. Por ejemplo, una tabla de dos columnas
por dos filas tiene un grado de libertad.
El nivel de confianza es el complemento del riesgo. Este ltimo es la probabilidad de rechazar
la hiptesis nula siendo esta verdadera, o lo que es lo mismo, la probabilidad de cometer error de
tipo I.
- El error de tipo I consiste en aceptar la hiptesis de trabajo, cuando en realidad la
relacin no existe en el universo bajo estudio.
- La situacin inversa es el error de tipo II, o probabilidad de no rechazar la hiptesis nula
siendo esta falsa. En el error de tipo II se rechaza la hiptesis de trabajo, cuando s es
estadsticamente significativa.
Son errores estadsticos, probabilidades que quienes investigan asumen como riesgos propios de
los instrumentos estadsticos que se utilizan. Por convencin, suele trabajarse con un 95% de
confianza en Ciencias Sociales, lo cual equivale a decir que el riesgo o significacin ms
habitual es de 0.05.
Si al comparar los valores obtenidos: el ji cuadrado terico es mayor al ji cuadrado emprico
(Xt2 > Xe2) la hiptesis nula no puede ser rechazada, por lo que la hiptesis de trabajo no
es aceptada. Por el contrario, si el ji cuadrado terico es menor o igual al ji cuadrado
emprico (Xt2 Xe2) la hiptesis nula se rechaza y se acepta la hiptesis de trabajo,
considerando que existe una relacin estadsticamente significativa entre las variables.
- P-valor: indica la probabilidad de que sea cierta la hiptesis nula en la poblacin para determinado ji
cuadrado emprico. Ejemplo: si el p-valor fuera de 0.007, se determina que la hiptesis nula puede
rechazarse con 99.3% de confianza.
11
Cabe destacar que este Test de Hiptesis no es til para el anlisis si es tomado aisladamente de
los otros recursos con los que contamos como lo son los Coeficientes de Asociacin y la
Lectura Porcentual que veremos a continuacin.
perfecta en tablas de dos por dos, por lo cual se necesitaran dos espacios de propiedad con
cero casos. Para hiptesis diagonales de cuadros de ms de 2x2, utilizaremos Tau b,
coeficiente lineal.
3. Tamao del cuadro. Q y Phi se utilizan para cuadros de dos por dos. Si los cuadros tienen
ms categoras, se utiliza Gamma en lugar de Q y Tau-b en lugar de Phi.
COEFICIENTES DE ASOCIACIN
Hiptesis
Lineal
Curvilinea
Nominal - Ms de
Tipo
2x2
de
Nominal/Ordinal
Variable - 2x2
Ordinal - Ms de
2x2
V de Cramer (V)
Phi ()
Q de
Yule
Tau b ( b )
Gamma ()
El valor que arroje un coeficiente de asociacin ha de ser interpretado segn cunto se aproxime
al 0 y al 1 (o menos 1), independencia estadstica y asociacin perfecta positiva o negativa,
respectivamente. A medida que los coeficientes comienzan a alejarse de 0 estn expresando
algn tipo de relacin entre las variables.
Ahora bien, el valor de un coeficiente de asociacin en un anlisis determinado no puede
ser interpretado aisladamente, sino en funcin de las comparaciones que establezca.
Dichas comparaciones intentarn mostrar las maneras en que nuestra variable dependiente
se encuentra afectada por diferentes variables independientes. En este sentido, no existen
valores altos, medios o bajos en los anlisis de los coeficientes, sino que el valor que la
covariacin entre las variables adopte ser interpretado a la luz del valor que adquiera otra
covariacin.
- Para que las comparaciones respecto a la fuerza de incidencia de distintas variables independientes sean
correctas, es necesario realizarlas con el mismo coeficiente, preferentemente para variables nominales si hay
por lo menos una de dicho nivel de medicin.
13
Reflexiones Finales
14