Anda di halaman 1dari 14

RESUMEN 2DO.

PARCIAL METODOLOGA III

Cuaderno N 1: Tcnicas Multivariadas

El anlisis multivariado se enmarca en una estrategia de anlisis cuantitativa que responde a


objetivos explicativos de una investigacin.
La existencia de relacin entre dos acontecimientos NO permite suponer que uno de ellos
explique o de cuenta de por qu existe el otro. En todo caso, se vinculan, hasta puede haber
relacin de dependencia entre uno y otro, pero no necesariamente esto determina que el suceso
dependiente es explicado por el independiente.
El diseo experimental responde a la necesidad de poner a prueba una hiptesis original entre
dos variables y con ello profundizar y enriquecer la explicacin de los fenmenos que nos
proponemos estudiar,
Se parte de un supuesto en el cual esa relacin aparente que observamos a partir de la
convergencia entre dos variables puede deberse al efecto de otra u otras variables que estn
jugando algn tipo de influencia y se encuentran ocultas o ignoradas en ese primer anlisis
descriptivo de la relacin.
En su corriente clsica, el experimento necesita de por lo menos dos grupos, que pueden ser
individuos, grupos sociales o comunidades. A uno de ellos se le aplica un estmulo (grupo
experimental) y al otro un placebo (grupo de control). Este procedimiento cuenta como mnimo
de los siguientes pasos:
1.
2.
3.
4.

La medicin inicial de ambos grupos,


La incorporacin del estmulo al grupo experimental,
La medicin posterior de ambos grupos
La comparacin de resultados.

El grupo que brinda el parmetro de cambios es el grupo de control.


Mientras que en el diseo experimental se interviene empricamente en el momento en que
ocurre el fenmeno (manipulando el objeto de estudio y realizando mediciones previas y
posteriores a la aplicacin del estmulo), en el estudio de los fenmenos sociales este tipo de
intervencin que implica aislar determinados fenmenos de su situacin real, no es posible
Slo puede realizarse post facto, reproduciendo determinadas condiciones de experimentacin a
posteriori, en el momento del anlisis.
En ciencias sociales ms que hablar de experimentacin en el sentido clsico, nos referimos al
concepto de explicacin. Hablar de anlisis explicativo implica la presencia de tres
condiciones necesarias:
1. Covariacin entre variables. Describe la relacin conjunta entre las variables.
2. Orden temporal de las variables. El orden temporal tiene un rol importante en esta
secuencia. El tiempo acta as como una variable que interviene o afecta la explicacin del
fenmeno social.
3. Control de variables. Confronta con la idea de covariacin a partir del supuesto de
existencia de terceras variables ocultas - no controladas - que podran modificar o estar
afectando la relacin entre las variables originales en donde se detect dicha covariacin.
1

En el anlisis multivariado se presenta una explicacin de la relacin entre dos variables,


donde adems de demostrar la covariacin que existe entre ambas, debemos explicitar la
secuencia temporal que establecen entre s y garantizar que esa relacin est controlada, a la
luz de otras variables que podran estar afectando esa relacin.
La decisin de controlar una relacin surge de considerar aquellas variables que son relevantes
tericamente para el estudio de ese fenmeno social
Cmo controlamos las variables en ciencias sociales? El control de variables consiste en
transformar las terceras variables en constantes (es decir, quitarles su variacin) y luego analizar
cules son sus efectos comparando qu ocurre ante su presencia y ante su ausencia.
El aporte de la lgica experimental a la comprensin de la explicacin de la sociologa permite
dar cuenta de distintas situaciones en las cuales terceras variables pueden estar influyendo
en una relacin original entre lo que llamamos una variable dependiente e independiente:
1. La posible existencia de una relacin espuria, es decir una relacin que en principio
pareca existir entre dos variables pero que slo se manifiesta por la existencia de una
tercera variable que produce la relacin.
2. La explicacin de la variable dependiente por la independiente, demostrando la no
influencia de la variable de control en la relacin.
3. La existencia de determinadas condiciones bajo las cuales una relacin se manifiesta, esto
es especificando las situaciones en las que dicha relacin se presenta. Es decir, la
relacin es potenciada una vez introducida la variable de control.
El control de cada una de estas variables en el anlisis de la relacin entre hbito de lectura de
diarios impresos y online nos permite reconstruir tres posibilidades que pueden surgir del anlisis:
1. Que la variable sea ajena a la relacin, como sucedi cuando controlamos la relacin por la
variable sexo.
2. Que la relacin se especifique o se muestre fortalecida, para alguna o algunas de las
categoras de la variable de control, como sucede cuando se introduce la variable Nivel
Educativo
3. Que la relacin original que observbamos sea espuria, como sucede cuando introducimos la
variable de control Experiencia de lectura de diarios impresos en el hogar de origen. Es decir,
que en aquella situacin en donde observbamos una relacin entre dos variables,
stas en realidad slo covaran por la existencia de otra variable que es la que en
realidad explica el comportamiento de nuestra variable dependiente: hbito de lectura de
diarios impresos. Al intervenir la relacin comprendemos que la relacin original es una
relacin aparente y que estas variables slo estn vinculadas entre s al estar ellas mismas
asociadas con la variable de control.

Anlisis multivariado para variables cuantitativas

Si nos viramos en la necesidad de trabajar exclusivamente con variables cuantitativas o


intervalares y establecer la relacin entre ellas, esto nos llevar a trabajar con otros dos
procedimientos: la correlacin y la regresin lineal.
El anlisis de correlacin y regresin lineal, como cualquier medida estadstica permite
dimensionar el comportamiento emprico del fenmeno de estudio pero bajo las condiciones
tericas que el investigador determina.

- El anlisis de regresin lineal: tcnica estadstica adecuada que se utiliza para estudiar la
relacin entre variables. En investigacin social dicho anlisis de regresin se aplica para predecir
una amplia gama de fenmenos.
Segn sea la cantidad de variables independientes con las que nos manejamos estaremos
haciendo una distincin entre el anlisis de regresin lineal simple y el de regresin lineal
mltiple.

Regresin Lineal Simple: Estima el comportamiento de una variable dependiente a partir de


la variable independiente.
Regresin lineal Mltiple: Se trabaja con un conjunto de variables independientes en donde
se determina cules son las que ms influyen en la variable dependiente.

Plantearse este tipo de conocimiento implica tener la necesidad de acceder a informacin que no
se posee, pero exige partir de una condicin muy importante: suponer que la informacin que se
carece se puede registrar en una variable y que sta se encuentra relacionada (covara) con otra,
de manera tal que a partir de sta ltima se podr llegar a la informacin requerida en forma
confiable y vlida.
Esta estimacin solo es posible bajo ciertas condiciones:
1. La relacin de dependencia entre las variables debe ser suficientemente fuerte, de manera tal
de minimizar la probabilidad de error en la estimacin. La fuerza de la relacin se expresa en la
magnitud del resultado obtenido con el coeficiente r de Pearson (correlacin). Cualquier
relacin entre variables, cunto ms fuerte, permite predecir ms confiablemente el
comportamiento de la variable dependiente, ya que a medida que aumenta dicha fuerza
disminuye la libertad (independencia) de comportamiento de esta ltima variable.
2. La eleccin de la variable independiente es de carcter terico. Se supone (se asume como
hiptesis) que esta variable es la que mejor da cuenta de las variaciones de la variable
dependiente: es la estimadora, tericamente, ms apropiada.
Entendamos el Anlisis de regresin lineal a partir de un diagrama de dispersin:

La nube de puntos adquiere su forma segn la intensidad de la covariacin. As, cunto ms


intensa o sea la covariacin, ms densa y cercana a una recta ser la nube de puntos,
contrariamente cuanto menor sea la covariacin ms dispersa ser la nube de puntos.
Cuando observamos diagramas muy dispersos sabremos que no podremos realizar estimaciones
precisas, porque el comportamiento de la variable tiende a la independencia entre s.
3

El modelo de regresin lineal ha de cumplir una serie de supuestos que garanticen su correcta
aplicacin, a saber: a) linealidad; b) normalidad; c) homocedasticidad. Todos estos supuestos
pueden ser estudiados mediante el recurso de las puntuaciones residuales que indican la
diferencia entre las puntuaciones observadas y predichas por el modelo.
En las ciencias sociales donde la realidad con la que se trabaja presenta no slo dos variables
sino una multiplicidad de relaciones entre los fenmenos; nos llevar forzosamente a considerar
dos modelos de correlacin atenindonos a la mayor cantidad de variables independientes que
explicaran la variable dependiente. Dichos modelos son los denominados correlacin parcial y
correlacin mltiple.

La Correlacin Parcial

La correlacin parcial: mide el grado de relacin existente entre dos variables pero en funcin
del control que se ejerce sobre una o ms variables. En otras palabras, es posible pensar que
otras variables, por fuera del modelo bivariado presentado anteriormente, se encuentren
influyendo en distinta medida en la relacin original. Estas otras variables podran incidir en
la relacin original siendo causantes de las variaciones presentadas en la correlacin lineal.
El coeficiente de correlacin parcial, debe ser considerado como la correlacin que queda entre la
variable independiente y la variable dependiente (ambas intervalares) una vez suprimidos los
efectos de la variable de control. En definitiva, con la correlacin parcial se procura explicar el
comportamiento de la variable dependiente a partir de la variable independiente con una
variable de control.

El r expresado en la frmula representa el coeficiente de correlacin de Pearson, ya visto en


el modelo de correlacin lineal. La diferencia que se contempla en este caso es que en vez de
medir la covariacin entre dos variables, el coeficiente expresa la presencia de 3 variables.
El coeficiente de correlacin parcial vara entre 1 y 1 y su resultado se interpreta de forma
similar al de la correlacin simple.
Si bien se explican las variaciones de la variable dependiente a partir de la independiente, dicha
relacin refleja la fortaleza de la variable de control con cada una de las dos variables de la
relacin original. Es necesario hacer notar que en el denominador de la frmula se manifiestan
los coeficientes de independencia k que miden la independencia estadstica entre la
variable independiente y la variable de control, por un lado y de la variable de control con la
variable dependiente por el otro. Cunto ms fuerte sea la independencia entre las
variables, mayor magnitud reflejar el denominador y por ende menor ser la correlacin
final entre las variables. Entretanto en el numerador se est midiendo la correlacin simple
existente en la relacin original y el producto de la correlacin de ambas con respecto a la
variable de control. Por ende, a medida que aumenta el denominador, (o la independencia
estadstica) disminuye la correlacin simple entre las variables, disminuyendo el resultado
final del modelo presentado.
Si quisiramos conocer la relacin que existe entre cantidad de horas que lee diarios impresos
en un mes (variable dependiente) con edad (variable independiente) controlando ingresos
(variable de control), utilizaremos los siguientes datos hipotticos:

Correlacin simple entre edad y cantidad de horas que lee diarios impresos en un mes:
0,70
Correlacin simple entre cantidad de horas que lee diarios impresos en un mes e ingresos
0,63
Correlacin simple entre edad y ingresos 0,49

Al aplicar la frmula el resultado del coeficiente de correlacin parcial es 0,58; qu puede


sostenerse con estos valores? Pues que estamos frente a una explicacin de tipo parcial. En este
caso, la correlacin parcial reduce solamente una parte comparada con la correlacin bivariada
original, es decir, que la variable de control afecta parcialmente la relacin original. Siguiendo la
misma lgica y a ttulo de ejemplo; supongamos que si el coeficiente de correlacin parcial
hubiese arrojado un valor bastante ms cercano a 0 entonces podra decirse que la variable de
control afecta totalmente la relacin. Por ltimo, un resultado del coeficiente de correlacin parcial
muy cercano (o igual) a 0,70 nos permitira afirmar que la variable de control es ajena a la relacin
original planteada

La Correlacin Mltiple

Pero ciertamente resulta difcil poder atribuir a una sola variable los resultados en otra; la realidad
nos lleva a reconocer que para predecir con mayor precisin un determinado valor, es
necesario observar e integrar en la prediccin otras variables que tambin puedan estar
relacionadas. Esto lleva a la necesidad de trabajar con ms de dos variables (una independiente
y otra dependiente) de manera simultnea.
El procedimiento analtico que nos permite establecer cunto de la variacin en la variable
observada (o dependiente) est asociado con la variacin del conjunto de variables independiente
que pretenden explicarla y predecirla se denomina: correlacin mltiple.
El objetivo de la aplicacin de dicho modelo apunta a la construccin de la mejor combinacin
del peso que cada variable independiente aporta en la medicin de la variable dependiente
que procura explicarse. Y esta mejor combinacin sin duda tendr una mayor correlacin con la
variable dependiente que la correlacin que pueda tener cualquiera de las variables
independientes con respecto a la dependiente, tomadas de manera individual.
Esta tcnica supone que existen ms de dos variables correlacionadas y que es posible
determinar la forma como se comportan las diversas correlaciones a nivel bivariable a fin de
conformar una correlacin combinada o total.
El coeficiente R, smbolo de este tipo de correlacin, se presenta en el modelo de la siguiente
forma:
R123 = r12 + r13.2 (1- r12)
1 = variable dependiente
2 y 3 = variables independientes

r12: Proporcin explicada de la variable dependiente por la variable independiente


principal
r13.2: esto es r de la correlacin parcial, es la proporcin explicada de la variable 3
controlada por la variable 2
(1- r12): Esto es el k, es la proporcin no explicada de la variable dependiente por la
variable independiente principal

La presentacin de la frmula (que considera un modelo de dos variables independientes y una


variable dependiente) nos lleva a pensar en un anlisis de los componentes. Esta es una
5

correlacin en la que se permite descomponer la relacin que hay entre las variables con un
objetivo que difiere en cierto modo de lo presentado en la correlacin parcial; en aqulla se
apunta a la explicacin de la variable dependiente a partir de una variable independiente con la
presencia de una variable de control. En tanto en la correlacin mltiple Lo que se procura es la
captacin de cmo explican a la variable dependiente un conjunto de variables independientes.
Para la aplicacin del modelo de correlacin mltiple es imprescindible saber desde qu hiptesis
se est partiendo.
En el modelo ms elemental (1 variable dependiente y 2 variables independientes) la primera
hiptesis tiene que ver con elegir determinadas variables independientes para explicar a la
variable dependiente. Pero el segundo nivel es el ms importante, ya que debe suponerse y
plantear de manera concreta cul de las variables independientes se espera que tenga un mayor
poder explicativo. Esto conlleva necesariamente a una jerarquizacin de las variables
independientes.
1. El primer elemento de la frmula (r12) incluye la variable dependiente y una de las variables
independientes; esto nos va a indicar cul es la proporcin explicada de la variable
dependiente por la variable independiente Nro. 2. (o variable principal). En este modelo que
presento supongo que la variable independiente Nro. 2 tenga el mayor poder explicativo
y va a cumplir esa funcin en toda la frmula. Es decir, cunto de la variable dependiente o
sus variaciones se explican por la variable independiente (o variable Nro. 2).
2. El segundo elemento de la frmula (r13.2) es el r que mide la determinacin que hay entre la
variable dependiente (o variable Nro.1) y la otra variable independiente (o variable Nro. 3)
controlando la variable independiente principal Esto indica cul es la proporcin de la
variable dependiente por la otra variable independiente controlando la variable Nro. 2.
3. El tercer elemento de la frmula (1- r12) es el K cuadrado; es el coeficiente de
indeterminacin. Es la proporcin no explicada de la variable dependiente por la
variable independiente principal.
El coeficiente de correlacin mltiple (R) vara entre 0 y 1; no hay valores negativos ya que
todos los componentes son elevados al cuadrado. La importancia del modelo radica en su
desarrollo; esto es:
a) cunto explica la principal variable independiente;
b) cunto explica la otra variable independiente controlando la variable independiente
principal y
c) cunto queda sin explicar.
En la correlacin mltiple el R indica:
1. Qu proporcin de las variaciones de la variable dependiente es explicada por el conjunto de
variables independientes propuestas por la hiptesis.
2. Permite conocer el desempeo de las variables independientes al interior de la proporcin
explicada. En otras palabras, el conjunto de las variables independientes es tratado en forma
agregada y desagregada.
3. Permite conocer la proporcin de las variaciones no explicadas.
La combinacin de estas tres contribuciones del modelo a la comprensin del comportamiento de
la variable dependiente, le ayuda al investigador no solamente a probar sus hiptesis sino
tambin a especificar el alcance de las mismas. Puede discriminar el desempeo de cada
variable independiente en su intento por explicar el comportamiento de la dependiente.
6

Cuaderno N 5: Anlisis descriptivo de los datos

El anlisis descriptivo requiere del estudio de las relaciones entre variables, dado que el anlisis
de cada variable por separado no es suficiente a tal fin. Complementariamente con ello, el anlisis
de las relaciones entre dos variables no implica alcanzar una explicacin del fenmeno en
estudio. Para tal fin se requiere emprender un anlisis multivariado.

Anlisis descriptivo de datos cuantitativos

Los objetivos, en tanto metas que orientan el avance de una investigacin, permiten llevar a cabo
la produccin de los datos adecuados para intentar responder a los interrogantes que dieron
origen al proceso.
Los datos, a pesar de su origen etimolgico (del latn datum, lo dado), son construidos siempre
desde una perspectiva terica, para responder a una determinada problemtica, mediante la
aplicacin de tcnicas y procedimientos que tambin implican supuestos tericos.
Una vez realizada la etapa de relevamiento, cuando se trabaja con un abordaje cuantitativo, se
elabora una matriz que clasifica cada caso segn el valor que asume en cada variable,
constituyndose una estructura tripartita de los datos.
Las variables de una matriz de datos, cabe destacar, no son sino aquellos conceptos que se ha
decidido que deban ser considerados en el relevamiento a partir de los interrogantes, los
objetivos, las hiptesis y el marco terico de la investigacin. La matriz vuelve visible la estructura
tripartita de los datos -unidades de anlisis, variables y categoras.
Con la matriz por s sola no es posible avanzar en el anlisis. Es necesario decidir cules son las
variables de estudio cuyo comportamiento merece ser observado individualmente por presentar
inters en s mismo y cules variables interesan para ser observadas en su relacin con otras. En
este ltimo caso, el hecho de que haya relaciones entre variables que se consideren relevantes
para analizar obedece a la existencia de hiptesis, es decir, supuestos acerca de los posibles
vnculos entre conceptos susceptibles de ser confrontados con los datos.
Es a partir del anlisis bivariado que se vuelve posible describir las relaciones entre variables
del fenmeno en estudio.
Cuando se decide qu es relevante observar de la relacin entre dos o ms variables es porque
se ha propuesto una hiptesis de trabajo. En el proceso de construccin de las tablas que
concentran nuestros datos es donde nuestras hiptesis comienzan a verse reflejadas. Si bien su
contrastacin permite avanzar en la produccin de conocimiento, generalmente no agotan en s
mismas los objetivos de investigacin, sino que es el conjunto de estas hiptesis de trabajo,
contrastadas en las tablas que se producen, con la articulacin terica y la ilacin lgica que le
confieren quienes investigan, lo que puede dar respuesta a los interrogantes y cumplir los
objetivos.
Las hiptesis, constituidas por relaciones entre conceptos del marco terico, permiten vincular
este universo conceptual con los datos. Los datos son producto de un proceso terico de
construccin y slo desde la teora pueden ser interpretados, siendo las hiptesis las
mediaciones imprescindibles que expresan lo que desde la teora se espera que ocurra con
los datos producidos.
Se deben determinar las variables que deben ser relacionadas y, preferentemente, tener en claro
de qu modo se espera que se vinculen las categoras de las variables entre s. El tipo de
hiptesis, el nivel de medicin de las variables, los roles que cumplen las variables en la hiptesis,
7

la cantidad de casos con que se trabaje y la cantidad de categoras de las variables -y su posible
reagrupamiento en otros sistemas de categoras- son todos aspectos que entran en juego en las
posibilidades y restricciones de tratamiento estadstico de los datos.
El plan de anlisis implica una labor de previsin y reflexin sobre las estrategias de anlisis y el
detalle de procedimientos que deben llevarse a cabo para cumplir los objetivos.
Una vez que se ha procesado y tabulado los datos segn el plan de anlisis, se est en
condiciones de avanzar en el anlisis para cumplir los objetivos. Tanto la produccin de datos
como las decisiones relativas al anlisis deben entenderse en el marco de lo que constituye una
estrategia terico-metodolgica de contrastacin del universo de conceptos con el fenmeno de
estudio.
Cada espacio de propiedades clasifica un subconjunto de casos que presentan simultneamente
las dos o ms propiedades cuya combinacin genera el espacio. A partir de la distribucin de los
casos en los espacios de propiedades, con el auxilio del clculo de porcentajes, es posible
examinar las relaciones entre variables mediante una lectura comparativa de las frecuencias.

Tres recursos para el anlisis de relaciones entre variables

Siguiendo a Garca Ferrando (1995: 218), se puede caracterizar la relacin entre dos variables
segn la existencia de asociacin, la fuerza, la direccin y la naturaleza de la misma.
1. La existencia de asociacin: implica que la distribucin de una variable difiere de algn
modo entre las categoras de la segunda variable, alejndose de la independencia
estadstica, lo cual puede determinarse a partir del anlisis de diferencias porcentuales y de
la comparacin de las frecuencias esperadas con las observadas, mediante la prueba de
hiptesis de ji cuadrado, esta ltima para los casos en que se trabaje con muestras
probabilsticas.
- Independencia estadstica: inexistencia de relacin entre las variables analizadas. Ello refiere a que
cualquiera sea el valor que asuma una variable en estudio A, la variable B se mantendr constante.

2. El grado o fuerza de la asociacin: vara segn cunto se aleje la relacin de la


independencia estadstica. Se han establecido algunos coeficientes estandarizados, que
varan de forma fija entre un valor mnimo cero- y un mximo uno-, facilitando su
interpretacin. Estos coeficientes permiten conocer tambin, cuando las variables son como
mnimo de nivel de medicin ordinal, la direccin de la asociacin, que puede ser positiva,
cuando los valores altos de una variable se corresponden con los valores altos de la otra -y los
valores bajos con los valores bajos-, o negativa, -cuando los valores altos de una variable se
corresponden con los bajos de la segunda -y viceversa.
3. La naturaleza: es la forma general en que se distribuyen los datos en un cuadro, que puede
ser lineal o diagonal, curvilineal o rinconal e irregular.
Siguiendo esta lgica, un PRIMER PASO en el anlisis de los datos en funcin de una hiptesis
puede darse mediante el test de significacin estadstica de ji cuadrado (2) que permite
establecer si existe relacin estadsticamente significativa entre las variables o si hay
independencia estadstica.
- El JI CUADRADO: permite testear si las relaciones entre las variables e hiptesis observadas
en una muestra probabilstica puede ser extrapolada al universo con un determinado nivel de
confianza. Esta prueba de hiptesis define el escenario estadstico en que se trabaja, por eso
constituye un buen primer paso en el anlisis.
8

Definido as el contexto respecto a la existencia o no de una relacin estadsticamente


significativa, e independientemente del resultado del test, es posible contar con un panorama
de la fuerza y el sentido de la relacin entre variables mediante coeficientes de asociacin,
los cuales son medidas resmenes estandarizadas que permiten conocer grosso modo qu
ocurre con una relacin entre variables. En una nica medida se sintetiza la intensidad de la
relacin y, en algunas de ellas, permite conocer tambin el sentido. Este sentido o direccin de la
relacin puede ser positivo -cuando ambas variables crecen o decrecen conjuntamente- o
negativo -cuando una crece mientras la otra decrece- cuyo nivel de medicin es ordinal o mayor.
Con la prueba de hiptesis y los coeficientes de asociacin ya se cuenta con una primera
aproximacin global y sinttica de la relacin estudiada. Con la lectura analtica de porcentajes
es posible conocer en detalle cmo se distribuyen las unidades de anlisis en los espacios de
propiedades generados por la tabulacin cruzada de variables de cualquier nivel de medicin.
Dado que en la mayora de los casos las variaciones no son perfectas ni lineales, la lectura de
porcentajes permite analizar las particularidades de cada cuadro con respecto a la forma
de distribucin de unidades de anlisis en los espacios de propiedad.
Tres herramientas de anlisis descriptivo de relaciones bivariadas: ji cuadrado, coeficientes
de asociacin y lectura de porcentajes. Este conjunto de recursos usados en combinacin
permiten realizar un anlisis exhaustivo de lo que ocurre en los datos para cada hiptesis de
trabajo.

Ji cuadrado como prueba de significacin estadstica

Cuando dos variables estn relacionadas varan conjuntamente en algn grado, existiendo
covariacin o varianza en comn. Cuando la covariacin o varianza en conjunto de ambas
variables alcanza su nivel mximo -en que toda la varianza de una variable coincide con la
varianza de otra- existe una asociacin perfecta. Por la complejidad y multicausalidad del
mundo social, no es habitual en ciencias sociales encontrar asociaciones perfectas entre
variables.
La asociacin perfecta es muy til en tanto situacin extrema con la cual confrontar los datos
con que se dispone en una tabla bivariada. Cuando hay asociacin perfecta cada categora de
una variable se encuentra asociada con una sola categora de la otra. En una tabla, los casos
se concentran en la diagonal y el resto de los espacios de propiedades tendrn cero casos,
con lo cual las diferencias porcentuales sern del 100%. El caso opuesto a la asociacin
perfecta es el de independencia estadstica, en que no hay ninguna covariacin entre las
variables, de modo tal que los casos se distribuyen en la tabla bivariada al igual que lo haran en
una distribucin univariable, con lo cual las diferencias porcentuales sern de 0%.
El test de ji cuadrado nos permite saber si la relacin observada entre determinadas variables en
nuestra muestra puede ser inferible, bajo determinados niveles de confianza, al universo de
estudio. Para ello pone en relacin la hiptesis nula con la hiptesis de trabajo.
1.1. HIPTESIS NULA: es una hiptesis que afirma la independencia estadstica, es decir, la ausencia de
asociacin entre variables, lo contrario a lo que afirma la hiptesis de trabajo.
1.1.1.Ambas hiptesis se excluyen mutuamente: el rechazo de la hiptesis nula implica que puede
aceptarse, con determinados niveles de confianza, la hiptesis de trabajo. En este caso, lo que
rechazamos es la hiptesis de independencia estadstica y por tanto, implica que la relacin entre las
variables observadas en la muestra es inferible al universo en estudio. El no rechazo de la hiptesis
nula a cierto nivel de confianza, implica que no puede afirmarse que esa relacin ocurra tambin en
el universo, lo que no significa que no tenga relevancia terica.

Si se rechaza la hiptesis nula, se est descartando, asumiendo determinado riesgo, que se trate
de una situacin de independencia estadstica y se est aceptando que hay alguna asociacin
9

estadstica entre las variables de la hiptesis de trabajo, con determinado nivel de confianza. No
rechazar la hiptesis nula implica que la hiptesis de trabajo no es estadsticamente significativa
para determinado nivel de confianza, mas no implica necesariamente que se acepte la hiptesis
nula ni que deba darse por finalizado el anlisis de la relacin.
El ji cuadrado se utiliza para relaciones entre variables nominales u ordinales, puesto que existen
otras pruebas para variables intervalares.
El ji cuadrado compara frecuencias absolutas, no porcentajes. Opera a partir de la comparacin
entre las frecuencias observadas y las frecuencias esperadas.

Las frecuencias observadas son simplemente los casos relevados distribuidos en los
espacios de una tabla.
Las frecuencias esperadas son aquellas que cabra esperar si hubiese independencia
estadstica.

Ejemplo:
- Frecuencia observada es la que aparece registrada en tu tabla de doble entrada.
- Frecuencia esperada (si los hechos son independientes): es la que se obtiene multiplicando los totales marginales
del casillero y dividiendo por el total general.

1. La frecuencia observada en mujer no fumadora es 22


2. La frecuencia esperada si el sexo y el fumar(o no) son hechos independientes en este grupo de personas se
obtiene multiplicando los totales marginales de ese casillero (40 es el total marginal de las mujeres; 30 es el
total marginal de los no fumadores) y dividiendo por el total general que es 50.
Es decir: Frecuencia Esperada= 40*30/50=24

Para cada espacio de propiedad de un cuadro, la frecuencia esperada se obtiene


multiplicando las frecuencias marginales entre s y dividiendo el producto por el total de
casos. De este modo, se obtiene una distribucin de los casos en el cuadro que mantiene las
frecuencias marginales observadas de cada variable pero distribuye los casos en los espacios de
propiedades, de modo tal que las frecuencias condicionales sean las que cabra esperar por
meras desviaciones en la muestra en ausencia de asociacin en la poblacin.
Es posible elaborar una tabla de frecuencias esperadas o datos tericos y compararla con
la tabla de frecuencias observadas o datos reales. SI NO SE OBSERVA DIFERENCIA ENTRE
LAS MISMAS SE PUEDE DECIR QUE HAY UNA AUSENCIA DE ASOCIACIN ENTRE LAS DOS
VARIABLES O INDEPENDENCIA ESTADSTICA. Si hay diferencia entre las frecuencias
observadas y esperadas, es necesario evaluar si los datos reales se alejan lo suficiente de
la independencia estadstica como para rechazar la hiptesis nula con un nivel de
confianza razonable. Para ello, se realiza el clculo del ji cuadrado.
La diferencia entre frecuencias observadas y esperadas de cada espacio se eleva al cuadrado,
anulando los signos negativos. Para normalizar las diferencias elevadas al cuadrado de cada
espacio de propiedad, se divide por la frecuencia esperada. Al sumar los resultados se obtiene el
ji cuadrado emprico (X2e), que puede adoptar valores desde cero hasta infinito. Cuanto ms
pequeo sea el valor de ji cuadrado, ms fcil es no estar en condiciones de rechazar la
hiptesis nula. Como el valor de ji cuadrado aumenta con el tamao de la muestra, no habiendo
un lmite superior, para decidir el rechazo o no rechazo de la hiptesis nula, es necesario
10

compararlo con el ji cuadrado terico (X 2t). El ji cuadrado terico, crtico o de tabla proviene
de una distribucin estadstica que relaciona valores tericos de ji cuadrado con sus
posibilidades de ocurrencia por el slo efecto del error muestral.
La distribucin terica de ji cuadrado permite conocer cul es el valor con el que comparar el ji
cuadrado emprico, segn los grados de libertad de la tabla y el nivel de confianza con que se
decida trabajar. Los grados de libertad de una tabla se determinan segn la mnima cantidad de
frecuencias condicionales que necesitan conocerse para poder calcular las restantes, para
frecuencias marginales dadas. Se calcula multiplicando la cantidad de columnas menos uno
por la cantidad de filas menos uno [GL= (c-1) x (f-1)]. Por ejemplo, una tabla de dos columnas
por dos filas tiene un grado de libertad.
El nivel de confianza es el complemento del riesgo. Este ltimo es la probabilidad de rechazar
la hiptesis nula siendo esta verdadera, o lo que es lo mismo, la probabilidad de cometer error de
tipo I.
- El error de tipo I consiste en aceptar la hiptesis de trabajo, cuando en realidad la
relacin no existe en el universo bajo estudio.
- La situacin inversa es el error de tipo II, o probabilidad de no rechazar la hiptesis nula
siendo esta falsa. En el error de tipo II se rechaza la hiptesis de trabajo, cuando s es
estadsticamente significativa.
Son errores estadsticos, probabilidades que quienes investigan asumen como riesgos propios de
los instrumentos estadsticos que se utilizan. Por convencin, suele trabajarse con un 95% de
confianza en Ciencias Sociales, lo cual equivale a decir que el riesgo o significacin ms
habitual es de 0.05.
Si al comparar los valores obtenidos: el ji cuadrado terico es mayor al ji cuadrado emprico
(Xt2 > Xe2) la hiptesis nula no puede ser rechazada, por lo que la hiptesis de trabajo no
es aceptada. Por el contrario, si el ji cuadrado terico es menor o igual al ji cuadrado
emprico (Xt2 Xe2) la hiptesis nula se rechaza y se acepta la hiptesis de trabajo,
considerando que existe una relacin estadsticamente significativa entre las variables.
- P-valor: indica la probabilidad de que sea cierta la hiptesis nula en la poblacin para determinado ji
cuadrado emprico. Ejemplo: si el p-valor fuera de 0.007, se determina que la hiptesis nula puede
rechazarse con 99.3% de confianza.

El nivel de significacin terico con el que se compara habitualmente es 0.05 -eventualmente


0.01-, de modo tal que los niveles de significacin emprica menores indicarn que se est en
condiciones de rechazar la hiptesis nula.
Cuando se analiza el valor que asume ji cuadrado, ste est indicando simplemente si la relacin
supuesta entre las variables en la hiptesis de trabajo es estadsticamente significativa o no. Con
esto, se define estadsticamente el contexto en que se trabaja con la hiptesis, de modo tal que SI
LA ASOCIACIN ENTRE VARIABLES ES ESTADSTICAMENTE SIGNIFICATIVA SE PUEDE
REALIZAR UNA INFERENCIA ESTADSTICA DE LA MUESTRA AL UNIVERSO DE ESTUDIO.
Ello quiere decir que se puede rechazar con determinado nivel de confianza que la
hiptesis nula sea cierta en el universo y que la asociacin en los casos analizados se
deba solamente a errores muestrales.
La ausencia de significacin estadstica puede deberse a diversos motivos, tales como el
modo de construir las variables, una insuficiente cantidad de casos, las caractersticas de la
estrategia de medicin, etc. El hecho de que no haya significacin estadstica en la relacin entre
las variables analizadas, no impide avanzar en la produccin de conocimiento.

11

Cabe destacar que este Test de Hiptesis no es til para el anlisis si es tomado aisladamente de
los otros recursos con los que contamos como lo son los Coeficientes de Asociacin y la
Lectura Porcentual que veremos a continuacin.

Asociacin y medidas de asociacin

La asociacin: es una forma de covariacin entre variables, medida a partir de cmo se


distribuyen las unidades de anlisis en los espacios de propiedades. Las medidas de
asociacin, pueden ser utilizadas con variables de cualquier nivel de medicin, a
diferencia del coeficiente de correlacin que requiere variables cuantitativas. Los
coeficientes de asociacin no permiten realizar inferencias al universo, sino que indican la fuerza
de la relacin en la muestra que se analiza.
Los coeficientes de asociacin: medidas resumen de la fuerza de la asociacin entre variables
y, algunos de ellos, permiten tambin conocer la direccin. Los coeficientes de asociacin son
estandarizados, variando entre cero, que indica independencia estadstica y uno, que indica
asociacin perfecta.
Phi () y V de Cramer (V) son coeficientes derivados de ji cuadrado , con lo cual operan a partir de
las diferencias entre frecuencias observadas y esperadas. Como en tablas de ms de dos por dos
el valor de Phi puede superar la unidad, V de Cramer incorpora un factor de correccin en su
frmula para poder ser utilizado en cuadros de cualquier cantidad de categoras.
Algunos coeficientes, como Tau-b (b), Q de Yule (Q) y Gamma () operan en base a la reduccin
proporcional del error. La relacin entre las variables puede entonces tambin ser interpretada
como la proporcin en que se reduce el error de prediccin de las categoras de la variable
dependiente cuando se conoce su distribucin en las categoras de la independiente, contra el
error de prediccin cuando slo se conoce la distribucin univariada de la variable dependiente.
Algunos coeficientes pueden llevar signo positivo o negativo, de modo que varan entre -1 y
1, pasando por 0, siendo -1 asociacin perfecta negativa y 1 asociacin perfecta positiva.
El signo indica el sentido de la relacin.
La eleccin del coeficiente adecuado depende del nivel de medicin de las variables, del tipo
de hiptesis y, en algunas situaciones, del tamao del cuadro:
1. Nivel de medicin de las variables:
- Si son nominales con cuadros de ms de dos por dos se utiliza V de Cramer.
- Si son nominales u ordinales en cuadros de dos por dos se utiliza Phi y Q de Yule.
- Si son ordinales en cuadros de ms de dos por dos se utiliza Tau b y Gamma. La eleccin
de Tau-b es recomendable cuando las tablas son cuadradas, es decir, poseen el mismo
nmero de filas que de columnas.
2. Tipo de hiptesis.
- Las hiptesis rinconales: son aquellas que tienen una sola condicin acerca del modo en
que se vinculan las variables, es decir, relacionan una categora de la variable dependiente
con una categora de la variable independiente. Son hiptesis menos exigentes, puesto que
para que haya asociacin perfecta en una tabla de dos por dos alcanza con que una sola
frecuencia sea cero. Si la hiptesis es rinconal se utiliza Q o Gamma, que son coeficientes
curvilineales.
- Las hiptesis diagonales: son ms exigentes puesto que para corroborarse, los casos
deben concentrarse en la diagonal de una tabla, y para que exista asociacin perfecta no
puede haber ningn caso en los espacios fuera de la diagonal. Por ejemplo, si la hiptesis es
diagonal se utiliza Phi, coeficiente lineal, que pone dos condiciones para que haya asociacin
12

perfecta en tablas de dos por dos, por lo cual se necesitaran dos espacios de propiedad con
cero casos. Para hiptesis diagonales de cuadros de ms de 2x2, utilizaremos Tau b,
coeficiente lineal.
3. Tamao del cuadro. Q y Phi se utilizan para cuadros de dos por dos. Si los cuadros tienen
ms categoras, se utiliza Gamma en lugar de Q y Tau-b en lugar de Phi.
COEFICIENTES DE ASOCIACIN
Hiptesis
Lineal
Curvilinea
Nominal - Ms de

Tipo
2x2
de
Nominal/Ordinal
Variable - 2x2

Ordinal - Ms de
2x2

V de Cramer (V)
Phi ()

Q de
Yule

Tau b ( b )

Gamma ()

El valor que arroje un coeficiente de asociacin ha de ser interpretado segn cunto se aproxime
al 0 y al 1 (o menos 1), independencia estadstica y asociacin perfecta positiva o negativa,
respectivamente. A medida que los coeficientes comienzan a alejarse de 0 estn expresando
algn tipo de relacin entre las variables.
Ahora bien, el valor de un coeficiente de asociacin en un anlisis determinado no puede
ser interpretado aisladamente, sino en funcin de las comparaciones que establezca.
Dichas comparaciones intentarn mostrar las maneras en que nuestra variable dependiente
se encuentra afectada por diferentes variables independientes. En este sentido, no existen
valores altos, medios o bajos en los anlisis de los coeficientes, sino que el valor que la
covariacin entre las variables adopte ser interpretado a la luz del valor que adquiera otra
covariacin.
- Para que las comparaciones respecto a la fuerza de incidencia de distintas variables independientes sean
correctas, es necesario realizarlas con el mismo coeficiente, preferentemente para variables nominales si hay
por lo menos una de dicho nivel de medicin.

En consecuencia, el proceso de conocimiento que implica acercarnos a nuestro fenmeno de


estudio compromete el anlisis y la comparacin de un nmero significativo de variables dadas
por nuestro marco terico de anlisis. De esta manera, la comparacin se vuelve una instancia
nodal de nuestro proceso de construccin del conocimiento y la seleccin de variables y su
interpretacin posibilita subordinar los recursos tcnicos a las decisiones terico-metodolgicas.

Lectura analtica de porcentajes

La lectura de tablas de contingencia permite un anlisis cuantitativo refinado, analtico y


artesanal. Una vez que se tiene una tabla con las frecuencias absolutas distribuidas en los
espacios de propiedades, es necesario calcular porcentajes para poder realizar comparaciones
vlidas con mayor facilidad. Porcentualizar es una manera de estandarizar las frecuencias
condicionales para liberarlas de los efectos de las diferencias de los marginales y hacer
comparable una parte respecto al todo.
Los porcentajes pueden ser calculados sobre el total (n) de una tabla, sobre los subtotales de fila
-asumiendo que se dispuso all variable dependiente- o sobre los subtotales de columna
-asumiendo que se trata de la variable independiente-.

13

Si se procura conocer qu porcentaje de la poblacin puede ser clasificado en dos o ms


atributos simultneamente -por ejemplo, varn y de nivel educativo alto- es necesario calcular los
porcentajes sobre el total de la tabla.
Para realizar una lectura en funcin de las hiptesis es necesario calcular los porcentajes
en el sentido de la variable independiente y leerlos comparando en el sentido de la variable
dependiente. De este modo, podemos analizar la influencia de la variable independiente sobre la
dependiente. Por ejemplo, saber qu porcentaje de los varones tiene nivel educativo alto, al
comparar con el porcentaje que tienen las mujeres en dicho nivel educativo, permite a partir de
las diferencias porcentuales aproximarse a la incidencia de la variable sexo en el nivel educativo
alcanzado.
La lectura de un cuadro puede comenzarse por las frecuencias marginales de la variable
dependiente, que no son ms que la distribucin univariada de esa variable, es decir, su
distribucin sin tomar en cuenta las categoras de la variable independiente. Lo central de la
lectura de cuadros bivariados es la lectura de las frecuencias condicionales, comparando en el
sentido de la variable dependiente.
Cuando se trata de un cuadro de dos por dos, bastar con comparar dos porcentajes para
leer el cuadro por completo, puesto que habiendo ledo los dos porcentajes de una categora de
la variable dependiente, los de la otra categora de la variable dependiente son complementarios.
La diferencia entre los dos porcentajes comparados ser la diferencia porcentual o psilon ()
que sintetiza todo el cuadro, indicando la fuerza de la relacin.
Probablemente no sea necesario leer todos los porcentajes cuando haya muchas categoras de
las variables, siendo siempre la hiptesis lo que orientar la lectura, indicando qu espacios de
propiedad son los ms relevantes segn las expectativas tericas.
La lectura de un cuadro no debe ser entendida como un fin en s mismo sino como un medio
para el anlisis e interpretacin de los resultados enmarcado en un proceso terico
metodolgico, evitando as miradas fragmentadas del proceso de investigacin.

Reflexiones Finales

El anlisis de relaciones entre dos variables se sirve de la prueba de hiptesis de ji cuadrado, de


los coeficientes de asociacin y de la lectura analtica de los cuadros, en tanto herramientas que
en conjunto permiten analizar y comenzar a dar respuesta a objetivos descriptivos. La prueba de ji
cuadrado, permite establecer si existe relacin estadsticamente significativa entre las variables y
complementada por los coeficientes de asociacin, permite examinar la fuerza de la relacin y su
sentido. La naturaleza de la relacin entre variables, es decir, si se aproxima a una forma lineal,
curvilineal o irregular, slo puede ser examinada mediante la lectura porcentual analtica al interior
del cuadro.

14

Anda mungkin juga menyukai