Anda di halaman 1dari 8

SEM: Ajuste global y local.

*notas Kline

 Métodos de ecuación única - limited information

analiza las ecuaciones para una sola variable endógena cada vez y no asumen ni
normalidad multivariada ni necesitan modelos identificados. Están menos afectados
por los errores de especificación que los métodos simultáneos.

Si se usan no se puede utilizar estadísticos de ajuste global solo local.

* regresión múltiple p. 233

* two stage least squares p. 234

 Métodos simultáneos - métodos full information

Estiman todos los parámetros libres de una vez pero requieren modelos identificados.
Sus estimaciones son más eficientes pero para ello es necesario que se cumplan
ciertas condiciones.

Ya que todos los parámetros se estiman de una vez, el error de especificación de un


parámetro se puede propagar y afectar a todo el modelo. Es difícil predecir la dirección
o magnitud del problema, lo único cierto es que cuanto mayor sea el error de
especificación, mayor será. En estos casos los métodos de ecuación única son más
indicados ya que aíslan los efectos de los errores de especificación a ciertas partes del
modelo en vez de dejar que se propaguen.

Cuando se duda de la especificación, se podría utilizar un método como 2 stage least


squares como complemento o incluso sustituto.

ML** - asume normalidad multivariada para la distribución conjunta de las variables


endógenas. Si las variables no son continuas o sus distribuciones se alejan demasiado
de la normalidad, es necesario un mº alternativo. ML vs OLS ofrecen estimaciones
parecidas en muestras grandes e incluso idénticas en modelos path recursivos.

Estimación de varianzas - distintos softwares utilizan N-1 o N como denominador. ML


siempre utiliza ∑SS/N. Hay que saber que estamos utilizando.

Heywood cases: varianzas negativas o correlaciones mayores a 1. Causas:

1) errores de especificación, 2) modelo no identificado, 3) presencia de valores


extremos que alteran la solución, 4) combinación de N pequeño y solo dos indicadores
por factor en modelos de variable latente. 5) valores de inicio erróneos, 6)
correlaciones poblacionales extremadamente altas o bajas lo que resulta en
infraidentificación empírica.

[ML parte de la idea de que el modelo está correctamente especificado con lo cual
hara lo que sea para forzar el modelo a los datos. Es por esto que se dan los casos
Heywood. Algunos softwares permiten constreñir las varianzas a números positivos
para evitarlos pero lo mejor es verlos y así poder identificar el problema. ]
ML es libre de escala e invariante siempre que se analicen matrices de cov. o datos
originales. Además requiere muestras grandes, observaciones independientes, error
distribuidos normalmente, no missing values con el archivo completo.

Para vv. continuas pero con alejamiento importante de la normalidad: MLR. Problemas
de no usar MLR en este caso p. 239 puntos 1 y 2.

Ajuste local

☺Rule of thumb: discrepancias en valor absoluto de 0.10 entre valores observados y


pronosticados de las correlaciones (residuos) están indicando discrepancias
importantes entre modelo y datos.

Interpretación de coeficientes (p. 241-243)

Coeficiente no stand / su SE > 2.58 es sign. a 0.01

Efecto indirecto de una variable en otra: multiplicamos los coeficientes de los dos
efectos que lo conforman. 0.390*-0.250=-0.098. Sobel test para buscar sign. de esto.

Mediación inconsistente (efectos directos e indirectos tienen signos contrarios y se


restan) vs. mediación consistente (efectos directos e indirectos tienen el mismo signo)

SEM software suele estimar únicamente un efecto directo (no todas las posibilidades
que existen) efectos directos como suma de ellos e indirectos como producto. Si
existen caminos alternativos (Backdoor criterion)

MPLUS: STDYX: todas las variables estandarizadas. STDY: todas estandarizadas


excepto la exógenas medidas (preferible con exógenas binarias). STD: solo factores
estandarizados. Muchos softwares (MPLUS) también estiman SE para efectos totales,
directos o indirectos. (unstand/SE> 2.58 para 0.01 o 1.96 para 0.05)

En las salidas: Observar los efectos directos/indirectos de exógenas en endógenas.


Valorar si es un único efecto ya que no hay caminos alternativos p. 249 p. 250 para
interpretar los efectos totales estandarizados.

☺Valid tracing: a variable is not entered through an arrowhead and exited by the
same arrowhead; nor is entered twice in the same tracing.

☺No colliding arrowheads like: →←, ↔←, →↔, or ↔↔

Calculo de la correlación entre dos variables con caminos distintos: camino 1 (→*→)
+ camino 2 (→*→). Se puede valorar cuanto se parece a la correlación muestral de
estas dos variables y ver si el modelo infra o sobreestima. p. 251-252 <--- esto es
difícil de hacer a mano, apreciando todas las vías etc. por eso usamos software.

Residuos: interpretar los de correlaciones (es decir estandarizados) Los ratios de


residuos covarianza/ su SE pueden considerarse un Z test pero son muy dependientes
de N. Algo cercano a cero podría ser sign. en N grandes.

Normalized residuals: alternativa de z test aunque más conservador. lavaan y MPLUS.


También ejercicio 6 capitulo 11: p. 479 reproducción de un residuo para comparar con
la estimación.

Si un modelo es dependiente de escala, su ajuste depende de si las variables están


estandarizadas o no estandarizadas, puede que analizar su matriz de correlaciones
con ML en esos casos de problemas. ML ASUME que estamos utilizando la matriz de
datos no estandarizados. Si da problemas como por ej. valores mayores que 1 en la
diagonal de la matriz de correlaciones pronosticada. Se puede utilizar el método de
imponer restrcciones no lineales a ciertos parámetros a estimar que garanticen que el
modelo es scale invariant. p. 254

También util si no tenemos SDs, solo las correlaciones.

OTROS ESTIMADORES

ULS genera estimadores insesgados pero no es tan eficiente como ML. Requiere que
todas las variables observadas estén en la misma escala (el mº no es ni scale free ni
scale invariant) No requiere una matriz de covarianza definida positiva. Robusto
también respecto a los valores de inicio. Se podría incluso utilizar para generar unos
primeros estimadores iniciales que después se utilicen para analizar el mismo modelo
con ML.

GLS es scale free y scale invariant. Se puede utilizar para datos que se alejan
bastante de la normalidad. Si hubiese normalidad multivariada, GLS y ML son
asintóticos.

A partir de 6-7 categorías y distribuciones simétricas, los resultados de ML en N


grandes pueden ser razonables. Si no se da al menos esto, entonces:

- WLS aunque es computacionalmente complejo y requiere N grande, es mejor:

- Robust WLS funcionan bien con N moderados

Estadisticos de ajuste global

Los estadísticos de ajuste nunca ofrecen una respuesta si/no sobre si el modelo debe
mantenerse o no. Existen heurísticos y reglas aceptadas pero se debe usar el juicio
propio del investigador al tomar decisiones. Se deben inspeccionar toda la salida del
software incluida la parte de local fit.

- Los estadísticos de ajuste global reflejan el ajuste medio del modelo. Es posible que
algunas partes del modelo ajusten mal, el modelo sea inadecuado pero que el valor
global del estadístico sea bueno. En este caso el modelo sería inadecuado.

- Cada estadístico refleja un aspecto particular del ajuste. No hay un solo estadístico
que dice todo lo que queremos saber del ajuste del modelo.

- Los estadísticos de ajuste global no indican donde está el problema de ajuste ->
necesitamos otros diagnósticos de local fit.

- Buen ajuste global ≠ poder explicativo del modelo (R2)


- Los estadísticos de ajuste no indican que el modelo sea importante/tenga sentido
desde el punto de vista de la teoría.

- Los estadísticos de ajuste no dicen nada sobre como de buenos son generando
pronósticos nuestros modelos.

Model test statistics

Exact fit hypothesis: no hay diferencia entre las covarianzas pronosticadas por el
modelo, dadas las estimaciones de los parámetros y la covarianza poblacional.

Si rechazamos la hipótesis: nuestros datos incluyen información de la covarianza que


contradice al modelo y debemos explicar unas discrepancias entre el modelo y los
datos que han excedido las discrepancias esperadas por simple error de muestreo.

Queremos poder retener la hipótesis nula. Pag. 265 explica sobre tipos de Error y α, β

Resumiendo: no son muy fiables pero son un informe preliminar que debemos tener en
cuenta antes de evaluar el resto de índices.

Approximate fit indexes

Medidas continuas de correspondencia modelo-datos. No hay decisión binaria sobre


ellos.

Índices de ajuste absoluto: como de bien el modelo propuesto explica los datos, sin
otro modelo como punto de referencia. No dice mucho, casi cualquier just-identified
model puede explicar las covarianzas observadas.

Índices de ajuste comparativo: miden la mejora del ajuste del modelo frente a un
modelo base (normalmente el modelo nulo o de independencia, que asume
covarianzas de cero entre las variables endógenas. Distintos softwares utilizan
distintos conceptos de modelo nulo, pág 266, punto 2) El supuesto de covarianzas
cero es poco realista y estos índices siempre mejorarán el ajuste.

Índices ajustados para la parsimonia: incluyen una penalización para la complejidad


del modelo o premio por ser parsimoniosos. Parsimonia ≠ gl. Un modelo puede tener
muchos gl por tener muchas observaciones PERO estos gl siguen siendo
proporcionalmente pequeños comparados con la cantidad de parámetros libres a
estimar. Mulaik 2009 parsimony ratio= gl del modelo propuesto / gl modelo nulo. Un
modelo parsimonioso tendrán un PR de 1.0 ya que esto indica que el modelo tiene
tantos gl como gl están disponibles en los datos. (pag 267).

Índices de ajuste predictivo: estiman el ajuste del modelo en hipotéticas replicas con
muestras del mismo tamaño y aleatoriamente seleccionadas de la misma población
que la muestra original. Estos índices pueden considerarse basados en la población
más que basados en la muestra. SEM no suele aplicarlos.

Algunos de estos Approximate fit indexes tienen pruebas estadísticas (model test
statistics) esto significa que se basan en los mismo supuestos distribucionales. Si
estos supuestos no se cumplen tanto el índice como el test correspondiente no son
fiables.
Todos los valores aceptables que tenemos hoy en día provienen de estudios de
simulación en el marco de modelo CFA y con errores de especificación pequeños y en
muchos casos con ML y variables continuas, lo que quiere decir que pueden no
generalizarse a otros datos (Categóricos)

Los umbrales deberían ser ≠ según el modelo y su tipo de misspecification. Esto es


particularmente verdad cuando el valor del índice se encuentra muy próximo al umbral
de lo aceptable. En general, se debería dar un papel limitado a estos índices.

Pasos para evaluar el ajuste:

1. Chi cuadrado. Si el modelo no pasa el test, es decir es significativo, se debe


provisionalmente rechazar dicho modelo. Conducir un test de ajuste local para detectar
posibles fuentes de desajuste.

Si el modelo pasa el test de Chi, también hay que chequear el ajuste local. La idea es
encontrar discrepancias modelo-datos que aunque no sean grandes como para sign.
estadística, nos hagan dudar del modelo.

2. Reportar la matriz de residuos (las correlaciones residuales) o al menos describir su


patrón en caso de modelos muy grandes. En especial comentar la localización de
residuos grandes y su signo. Buscar patrones que pueden diagnosticar la posible mala
especificación del modelo.

3. Reportar los approximate fit indexes pero nunca, nunca justificar la retención del
modelo por sus valores ya que los umbrales (no lo estadísticos en sí) están totalmente
desacreditados. Aún más si el modelo no ha pasado el test chi y hay patrones de
residuos sospechosos. Hay que reportar al menos: RMSEA, CFI y SRMR. (criterio
mixto?)

4. Si se respecifica el modelo, habrá que justificar por qué explicando por ejemplo que
papel han jugado los residuos.

5. Si no se retiene ningún modelo, hay que explicar muy bien las implicaciones que
esto tiene para la teoría que estaba siendo puesta a prueba. Se retenga o no, lo
importante es el proceso y la justificación.

Chi-square: (N-1) FML o solo N FML <- si es igual a cero, el modelo ajusta a los datos
de manera perfecta, suele ocurrir en just-identifed models. (cada covarianza
observada es igual a la predicha) Si el ajuste de un modelo sobre identificado y no
correctamente especificado empeora, el chi aumenta. Estadístico de maldad de ajuste

Cuidado con Chi, es fácil conseguir que ajuste el modelo al añadir parámetros libres
extra al modelo. También se ve afectado por: 1) falta de normalidad multivariada
(puede mejorar o empeorar el ajuste) 2) alta correlación entre variables observadas da
altos valores de Chi para modelos incorrectos, 3) unicidad (varianza única) variables
con ↑ unicidad (posible falta de fiabilidad en las medidas) pueden llevarnos a aceptar
el modelo fácilmente, si no lo aceptamos con ↑ unicidades también debemos
sospechar (en general hay que fijarse de nuevo en local fit) y 4) chi suele aumentar
según aumenta el N, con lo cual es fácil que rechacemos H0 de buen ajuste.
***A pesar de estos problemas, no se debe ignorar el Chi porque nos ha salido mal y a
la vez, aceptar el modelo e interpretar los tests de significación de los parámetros
individuales. No tiene sentido rechazar una cosa y aceptar la otra.

Normed chi square o  2 / gl no usar nunca jamás (pág 272)

Otros chis ajustados (Satorra Bentler) pág 272

RMSEA: absolute fit index. El cero es el mejor resultado. Premia modelos con muchos
gl o con N grande con valores más bajos. Se basa en el alejamiento del modelo de
ajuste aproximado (no del ajuste perfecto como chi). Es decir que RMSEA nos dice
que las discrepancias no llegan a exceder las del ajuste aproximado pero no las del
ajuste perfecto. El umbral de 0.05 es debatible.

RMSEA robusto se ha probado mejor que el normal pág 276 punto 2

Parece que penaliza modelos pequeños con pocas variables <- tener en cuenta para
interpretación. Breivik y Olsson 2001

CFI: índice de ajuste incremental. Un resultado de 0.90 indica que el ajuste del modelo
propuesto es un 90% mejor que el del modelo base. (version rescalada de RNI).

Similar es TLI/NNFI aunque estos penalizan mucho más la complejidad del modelo
que CFI. Solo debemos reportar uno u otro, son muy parecidos.

La critica a todos estos índices es que utilizan el modelo nulo o de independencia


como referente (modelo base) y el supuesto de covarianza cero es demasiado poco
probable. Es posible especificar un modelo base más plausible que el modelo nulo o
de independencia.

Dudas sobre el criterio de CFI ≥0.95 y SRMR ≤ 0.08. Hu & Bentler lo recomiendan
pero las simulaciones no lo apoyan.

SRMR: medida del promedio de los residuos obtenidos de la matriz de correlaciones.


(si fuesen matriz varianza-cov sería el RMR). Indica la diferencia total entre los
correlaciones observadas y las pronosticadas. SRMR < 0.10 indicarían mal ajuste pero
se debe inspeccionar la matriz de los residuos de las correlaciones en ese caso.

Los residuos de las correlaciones son más fáciles de interpretar que los residuos de la
matriz covarianza. Residuos en valor absoluto mayores a 0.10 deben ser tenidos en
cuenta. !! Aunque no es posible relacionar el tamaño de los residuos con el tipo o
grado de falta de especificación del modelo. Es decir un residuo pequeño puede pasar
desapercibido pero estar escondiendo un error de especificación grave, esto es porque
la mala especificación de un modelo afecta a su vez (negativamente) a los valores de
los residuos y de los estadísticos incluidos los de modificación.

Ej. X e Y están conectadas por caminos indirectos en el modelo estructura, RXY > 0 el
residuo para este par es positivo, esto indica que el modelo infrapronostica su
asociación observada. La idea de que no hay efecto directo entre X e Y debe ponerse
en duda y reespecificar añadiendo un efecto directo o una disturbance correlation. El
problema es que el residuo no te puede decir la dirección de las flechas.

Comparación de modelos anidados

Trimming (quitando, constringiendo parámetros, el ajuste empeora) o building


(añadiendo paths, el ajuste mejora pero se debe partir de un sobreidentificado). La
respecificación puede basarse en consideraciones teóricas o en consideraciones
empíricas basadas en criterios estadísticos.

Chi square difference test:

Tenemos un modelo sobreidentificado con  M 1 (5)  18,30 , añadimos un efecto


2

directo al modelo, se reducen los gl y tenemos  M 2 (4)  9,10


2

Calculamos los gl de la diferencia= 5-4= 1. Y su chi:

 D 2 (1)  18,30  9,10  9, 20, p  0.002

El ajuste global del nuevo modelo con el término adicional es estadísticamente mejor
que el del modelo original. El test es univariado, si hubiésemos hecho más cambios y
tuviésemos gl de la diferencia ≥ 2 el test nos diría que los cambios resultan
estadísticamente significativos pero los cambios tomados individualmente pueden
serlo o no, lo más seguro es que al menos uno lo sea, pero podría no serlo.

*Si el Chi calculado es Satorra Bentler, usamos el método de pág.282 (también la web)

La interpretación de  D debe guiarse por si la reespecificación fue basada en teoría o


2

en resultados estadísticos. Un path eliminado que no era significativo puede que no


haga la diferencia entre modelos, es decir  D significativa. Pero si este path se ha
2

hipotetizado que debía ser cero,  D debería ser ahora significativo.


2

Cuidado con la capitalización del azar ya que coeficientes pueden ser o no


significativos únicamente por el azar de la variabilidad de los datos.

Si se utiliza la opción automática de algunos softwares para respecificar el modelo. En


particular estas opciones pueden darnos índices de modificación para parámetros
"ilegales" como covarianzas entre vv. exógenas y disturbance. O para parámetros que
si añadiésemos al modelo, lo harían no especificado. Esto es porque el software no
prueba el nuevo modelo y ejecuta el análisis para comprobarlo.
Todos estos tests dependen mucho de N y casi cualquier cambio puede dar un  D
2

estadísticamente sign. con un N suficientemente grande.

Debemos tener en cuenta el valor absoluto de la magnitud del cambio el coeficiente


del parámetro o el cambio esperado en el parámetro si es pequeño, puede estar
reflejando variaciones debidas a la muestra.

Re: índices de modificación, es difícil elegir el modelo correcto, si tenemos varios


cambios significativos y otros no significativos. Es posible que los no significativos lo
sean porque hay error de especificación en el modelo y al no estar incluyendo los
significativos -- ej. en la página 286.

Modelos no anidados

AIC (penaliza por complejidad aunque esta penalización es más pequeña a medida
que el N aumenta) y BIC (tiene más en cuenta el N). AIC y BIC sirven para comparar
modelos competidores, al elegir el que menor valor tenga.

BIC varia bastante al ↑ el N, cuidado con declarar a un modelo particular ganador


frente a otro basándonos solo en estos índices.

Potencia ---> maneras de calcularla pag. 290 también de tamaño de N minima.

Modelos equivalentes o casi equivalentes ---> pág. 292

Anda mungkin juga menyukai