Sistema de ecuaciones estructurales: una herramienta de investigación
4
Sistema de ecuaciones estructurales:
una herramienta de investigación
Cuaderno técnico 4
Sistema de ecuaciones estructurales: una herramienta de investigación Cuaderno técnico 4 Abigaíl Manzano Patiño Salvador Zamora Muñoz Revisión técnica: Lucía Monroy Cazorla Mauricio Arce Orozco
Sistema de ecuaciones estructurales: una herramienta de investigación Cuaderno técnico 4 D.R. © 2009, Centro Nacional de Evaluación para la Educación Superior, A.C. (Ceneval) Av. Camino al Desierto de los Leones 19, Col. San Ángel, Deleg. Álvaro Obregón, C.P. 01000, México, D.F. www.ceneval.edu.mx Diseño: Mónica Cortés Genis Formación: Alvaro Edel Reynoso Castañeda Abril de 2009 Impreso en México • Printed in México
Directorio Dirección General Rafael Vidal Uribe Dirección General Adjunta de los EGEL Jorge Hernández Uralde Dirección General Adjunta de los EXANI José O. Medel Bello Dirección General Adjunta de Programas Especiales Rocío Llarena de Thierry Dirección General Adjunta Técnica y de Investigación Lucía Monroy Cazorla Dirección General Adjunta de Operación Francisco Javier Apreza García Méndez Dirección General Adjunta de Difusión Javier Díaz de la Serna Braojos Dirección General Adjunta de Administración Francisco Javier Anaya Torres Dirección de Procesos Ópticos y Calicación María del Socorro Martínez de Luna Dirección de Tecnologías de la Información y las Comunicaciones Francisco Manuel Otero Flores
Índice Prefacio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 Antecedentes históricos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 Áreas de aplicación. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 Relaciones causales entre variables. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 Variables latentes y variables manifiestas. . . . . . . . . . . . . . . . . . . . . . . . . . 15 Elementos de los modelos de ecuaciones estructurales. . . . . . . . . . . . . . . . 16 Tipos de parámetros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 Tipos de modelos de ecuaciones estructurales . . . . . . . . . . . . . . . . . . . . . . 19 Identificabilidad del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 Métodos de estimación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 Modelos con variables discretas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 Bondad de ajuste del modelo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 Efecto total, directo e indirecto entre variables . . . . . . . . . . . . . . . . . . . . . . 39 Lisrel (LInear Structural relations) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 Introducción a Lisrel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 La pantalla principal de Lisrel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 Prelis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 Crear la base desde Prelis Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 Importar la base desde un archivo externo . . . . . . . . . . . . . . . . . . . . . . . . 47 Datos faltantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 Obtención de la matriz de correlaciones Pearson, policóricas y asintótica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 Dibujando el diagrama que describe al modelo . . . . . . . . . . . . . . . . . . . . 54 Bibliografía...............................................97
Índice de tablas Tabla 1. Notación básica en los modelos de EE . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 Tabla 2. Funciones de ajuste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 Tabla 3. Medidas de correlación entre variables con distintas escalas. . . . . . . . . . . . 34 Índice de figuras Figura 1. Modelo recursivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 Figura 2. Modelo no recursivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 Figura 3. Modelo factorial confirmatorio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 Figura 4. Modelo de regresión estructural . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 Figura 5. Modelo mimic. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 Figura 6. Modelo de crecimiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 Figura 7. Correlaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 Figura 8. One way path. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 Figura 9. Multi-segment path . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
Figura 10. Correlación entre calesc y capitec . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 Figura 11. Habilidad del sustentante. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76 Figura 12. Ajuste del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 Figura 13. Residuos estandarizados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 Figura 14. Índices modificados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84 Figura 15. Valores estandarizados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 Figura 16. Efectos indirectos y totales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86 Figura 17. Modelo con tres factores en población femenina . . . . . . . . . . . . . . . . . . . . 88
Prefacio
E
l Centro Nacional de Evaluación para la Educación Superior (Ceneval) es una institución de carácter eminentemente técnico. A lo largo de tres lustros su actividad esencial ha sido promover la calidad de la educación mediante evaluaciones válidas, conables y pertinentes de los aprendizajes. Primordialmente, evalúa los conocimientos y habilidades adquiridos por los individuos en los procesos de enseñanza-aprendizaje, formales o no formales, de los sistemas educativos. Así contribuye a la toma de decisiones fundamentadas. De hecho, con sus servicios de evaluación atiende instituciones de educación media superior y superior, autoridades educativas, organizaciones profesionales y otras instancias públicas y privadas y, desde luego, al destinatario nal –y el más importante– de sus pruebas: el propio sustentante. Con la serie Cuadernos técnicos el Centro promueve también el uso de herramientas de análisis en círculos cada vez más amplios. El propósito de estos títulos es contribuir a elevar la calidad de la educación mexicana y fomentar una auténtica cultura de la evaluación. El desarrollo de modelos que incorporan variables latentes y variables medidas –objeto de estudio del presente texto– se ha incrementado de forma espectacular. Este tipo de modelos tienen aplicación en diversas disciplinas, como la psicología (depresión en adolescentes, adicciones y problemas del comportamiento), la sociología (estudios acerca de la salud ocupacional, redes sociales, ambientes laborales), la mercadotecnia (análisis de satisfacción del consumidor, diseño y desarrollo de nuevos productos), entre otras. En lo concerniente a la investigación educativa, los modelos de ecuaciones estructurales se aplican en estudios de motivación para lectura y aprendizaje, usos de las nuevas tecnologías para la enseñanza, etcétera. Sistema de ecuaciones estructurales … tiene el propósito de promover una reexión más profunda sobre estas valiosas herramientas de investigación.
Sistema de ecuaciones estructurales: una herramienta de investigación
9
Antecedentes históricos
E
l primer antecedente de un modelo de ecuaciones estructurales se remonta a 1934, año en el que el biómetra Sewall Wright da a conocer el modelo de trayectoria ( path analysis ) sobre las relaciones de tamaño en mediciones óseas. Para Wright “éste no era un método para descubrir causas, sino más bien era un método aplicado a modelos causales ya formulados con base en un conocimiento y consideración teórica”. Esta técnica permitía descomponer la varianza y covarianza de las variables involucradas, en función de los parámetros de un sistema de ecuaciones simultáneas y tenía como n estudiar el efecto directo e indirecto entre estas variables. A diferencia de los métodos matriciales empleados en la actualidad, él utilizaba diagramas de trayectoria en lugar. No obstante su importancia, este modelo fue ignorado en biología, sociología y psicología. No es sino hasta los años sesenta y principios de los setenta que Blalock, Boundon, Duncan y otros sociólogos reconocen el potencial del análisis de trayectoria y las técnicas relacionadas de “correlación parcial”, como herramientas para analizar datos no experimentales. Este redescubrimiento del análisis de trayectoria en la sociología se propagó a la ciencia política y a otras ramas de las ciencias sociales. En la segunda mitad del siglo XX varios estadísticos se vieron interesados en los retos que presentaba la estimación de estos modelos. D.N. Lawley, T.W. Anderson, K.G. Jöreskog, M.W. Browne, A. Satorra, D. Sörbom y B. Muthén, entre otros, dan respuesta a la gran cantidad de desafíos que se derivan de los procesos para estimar estos modelos de ecuaciones estructurales. Un paso decisivo ocurre cuando Jöreskog (1973), Keesling (1972) y Wiley (1973) desarrollan un modelo general de ecuaciones estructurales e incorporan diagramas de trayectoria y otras características del análisis de trayectoria, conocido como modelo Lisrel ( linear structural relations ) o modelo JKW . Además de facilitar la difusión del análisis de trayectoria, presenta las ecuaciones que se derivan de las covarianzas entre las variables, a través de operaciones matriciales en lugar de que se “lean” del diagrama de trayectoria, y proporciona una
10
Cuaderno técnico
4
descomposición más clara de los efectos directos, indirectos y totales. Lisrel incorpora modelos con variables latentes y variables medidas, fundamentales en las técnicas contemporáneas de ecuaciones estructurales. El desarrollo de modelos con esta combinación de variables –latentes y medidas– se ha incrementado de forma espectacular. Jöreskog extendió el análisis factorial exploratorio al factorial conrmatorio, desarrolló el modelo factorial de segundo orden, el análisis factorial multi-grupo y el ya citado modelo general de ecuación estructural Lisrel. Además, desarrolló métodos para la estimación y prueba de dichos modelos para datos transversales, longitudinales, multi-grupo y multinivel. La inuencia de Jöreskog no sólo se limita a los desarrollos propios. Varios de sus estudiantes de doctorado han realizado importantes contribuciones. Por ejemplo, Sörbom (1974) extiende el modelo multi-grupo para incluir medias en las variables latentes; Muthén (1977) introduce métodos para incluir variables observadas categóricas; Hägglund (1985) contribuye con el método de mínimos cuadrados por medio de estimación de dos estados ( two-state last-square methods ); Quiroga (1992), por su parte, realiza estudios de robustez con correlaciones policóricas para desviaciones del supuesto de normalidad, mientras que Yang Wallentin (1997) desarrolla métodos para estimar relaciones no lineales. Los avances recientes en modelos de ecuaciones estructurales comprenden extensiones para estimaciones en datos que provienen de muestras complejas, modelos lineales generalizados y series de tiempo.
Sistema de ecuaciones estructurales: una herramienta de investigación
11
Áreas de aplicación
E
n el ámbito de la psicología, este tipo de modelos se aplica principalmente en estudios sobre depresión en adolescentes, adicciones y problemas del comportamiento. En sociología, sus aplicaciones comprenden estudios acerca de la salud ocupacional, redes sociales, ambientes laborales y otros. En mercadotecnia abarca, sólo por citar algunos, los análisis de satisfacción del consumidor, benecios de los medios de comunicación en los negocios, así como diseño y desarrollo de nuevos productos. En lo concerniente a la investigación educativa, los modelos de ecuaciones estructurales se aplican en estudios de motivación para lectura y aprendizaje, usos de las nuevas tecnologías para la enseñanza, etcétera. En medicina se usan en estudios de trastornos del sueño, servicios de salud en la población, epidemiología ambiental, entre otros. Aquí damos cuenta de las principales áreas de aplicación, pero existen muchas más en las que el uso de este tipo de modelos empieza a ser una práctica común.
12
Cuaderno técnico
4
Relaciones causales entre variables
N
o se pretende aquí fomentar una discusión exhaustiva sobre causalidad. El propósito es modesto: promover una reexión más profunda sobre este importantísimo elemento, presente en los modelos que se describen. Un elemento fundamental en los modelos de ecuaciones estructurales es la presencia de relaciones causales entre las variables que los componen. Las relaciones de causalidad se establecen en diversas áreas del conocimiento, en ciencias, en humanidades y muchos otros campos. Sin embargo, existen varias connotaciones del término causalidad. De acuerdo con la denición general de Bollen (1989), consideremos una variable y 1, que está aislada de toda inuencia excepto de la de una segunda variable x 1. Si un cambio en y 1 proviene de un cambio en x 1, entonces x 1 es causa de y 1. La denición de causa tiene tres componentes: aislamiento, asociación y dirección de la inuencia. Al observar los elementos en las relaciones causales, se aprecia que lo que hace casi imposible tener absoluta certeza de que una variable es causa de otra es la posibilidad de armar que y 1 está aislada de cualquiera otra causa, excepto de x 1. Aislamiento es un ideal no asequible. Podemos decir que existe un aislamiento cuando x 1 y y 1 están en un “vacío” que excluye cualquier otra inuencia. Mucho del debate sobre el estatus causal de una relación inicia con la interrogante sobre si la asociación entre y 1 y x 1 no se debe a estos otros factores. Sin la condición de aislamiento de y 1, nunca tendremos la certeza de que x 1 causa a y 1. Varios estudios experimentales, cuasi experimentales y observacionales, intentan aproximarse a estas condiciones de aislamiento, por medio de alguna forma de procesos de control o de aleatorización. La asociación es la segunda condición para establecer la causalidad. Cuando una supuesta causa y su efecto están aislados de otras inuencias, podrían estar asociados. Una asociación bivariada no es condición necesaria ni suciente para una relación causal. La asociación, junto con otros factores, sí.
Sistema de ecuaciones estructurales: una herramienta de investigación
13
Bollen (1989) presenta varios escenarios relacionados con modelos de ecuaciones estructurales, en los que resulta difícil determinar la asociación entre las variables que componen un modelo. Los problemas van desde la propia determinación de la existencia de la asociación entre las variables, los casos en los que las técnicas estadísticas para evaluarla son inadecuadas y los problemas que provoca la multicolinealidad en la estimación de estas asociaciones. El componente nal de una relación causal es la dirección causal. La plausibilidad de una asociación causal inicia con la determinación de la dirección correcta. La variable que produce la causa requiere una prioridad temporal como una condición de causalidad. La supuesta causa debe preceder al efecto, es decir que la variable explicativa tiene primicia causal. Si debe existir un intervalo entre la causa y el efecto que ésta produce, ¿qué tan largo debe ser este intervalo? En estudios epidemiológicos, por ejemplo, es importante determinar cuánto tiempo se debe estar expuesto a un riesgo para desarrollar una enfermedad. Nuevamente referimos al lector a Bollen (1989) para intentar esclarecer la dirección causal. En síntesis, hemos tomado una denición de causalidad orientada a los modelos de ecuaciones estructurales, pues se asume necesario contar con tres condiciones: aislamiento, asociación y dirección de la causalidad para establecer una relación causal. Cada una de estas condiciones es difícil de obtener; sobre todo la certeza de que una causa y su efecto estén aislados de cualquier otra inuen cia. Por ello debemos ver a los modelos únicamente como una aproximación a la realidad. Las pruebas estadísticas sólo podrán descartar modelos, jamás probarán modelos o relaciones causales dentro de ellos. Los problemas para demostrar el aislamiento, la asociación y la dirección causal son muy añejos en el entorno de las distintas áreas de la ciencia.
14
Cuaderno técnico
4
Variables latentes y variables manifiestas
E
n muchas disciplinas relacionadas con las ciencias sociales es usual intentar medir la inteligencia, motivación, eciencia, percepción, habilidad verbal, etcétera –fenómenos de una gran complejidad–, a partir de percepciones, opiniones, indicadores y variables relativas o aproximadas. Este tipo de variables recibe un nombre genérico: variables latentes . La naturaleza de estas variables cuestiona la posibilidad de medirlas pues, a diferencia de muchos fenómenos donde es posible crear condiciones de laboratorio para reproducirlos, los fenómenos asociados a variables latentes carecen no sólo de la posibilidad de medirlos sino, en múltiples ocasiones, de una denición precisa. Cualquier entidad hipotética de difícil denición dentro de una teoría cientíca puede representarse a través de una variable latente –en muchas áreas denominada constructo–, la cual no se puede observar o manipular de forma directa. Las variables maniestas se pueden medir de manera directa y representan características observables de algún fenómeno subyacente, al contrario de las latentes. Una característica importante de estas variables es que sirven para evidenciar o denir a las variables no observadas o latentes. La forma de modelar un fenómeno que requiere representar relaciones entre variables latentes y variables medidas o maniestas es a través de los modelos de ecuaciones estructurales.
Sistema de ecuaciones estructurales: una herramienta de investigación
15
Elementos de los modelos de ecuaciones estructurales
U
n modelo de ecuaciones estructurales puede representarse por medio de un diagrama de trayectorias y un sistema de ecuaciones. En general, es recomendable comenzar por representarlo grácamente, lo cual facilita la escritura de las ecuaciones que describen a dicho modelo. Existe un consenso para la representación de estos modelos. Así, una variable observada se expresa por medio de un cuadrado o rectángulo, una variable latente con un círculo o elipse, y la asociación y la correlación entre dos variables se maniestan por medio de una echa unidireccional (→) y bidireccional (←→), respectivamente. Las variables dependientes son fácilmente identicables: reciben al menos una echa. De las independientes sólo salen echas, pero no entran. La tabla 1 muestra la notación básica para representar los modelos en términos de ecuaciones. Tabla 1. Notación básica en los modelos de EE Variable
Símbolo expresado en forma matricial
Descripción
Variable observada dependiente Variable observada independiente Coeficiente entre una variable observada o entre una variable latente y una observada Error asociado a Y Error asociado a X Variable latente independiente Variable latente dependiente Error asociado a η Coeficiente entre variables latentes dependientes Coeficiente entre una variable latente independiente y una dependiente Matriz de covarianza asociada a ξ
16
Cuaderno técnico
4
En modelos en donde sólo se incluyen variables observadas (modelo de trayectorias) algunas veces se usan las matrices B y Γ en lugar de Λ. En el caso de los errores, se utiliza ζ en lugar de ε para simplicar la notación. Lo anterior es conveniente si dichos modelos ajustan con Lisrel.
Sistema de ecuaciones estructurales: una herramienta de investigación
17
Tipos de parámetros
E
n los modelos de ecuaciones estructurales hay tres tipos de parámetros: libres, jos y de restricción. Los libres, que deberán estimarse en el proceso, son los siguientes: las varianzas que corresponden a las variables independientes, las covarianzas entre variables independientes, todos los coecientes que conectan a las variables latentes con sus respectivas variables observadas, los que conectan a latentes con latentes y los que conectan a observadas con observadas. A los jos se les asigna de inicio un valor constante sin ser parámetros por estimar en el modelo. Los de restricción son aquellos sobre los que se expresa una conjetura acerca de sus valores. Esencialmente, esta presunción se establece en términos de una hipótesis, por lo que se igualan a un valor particular (cero, por ejemplo), o se asume que son iguales a otro u otros parámetros del modelo.
18
Cuaderno técnico
4
Tipos de modelos de ecuaciones estructurales
D
e acuerdo con su estructura y con la naturaleza de las variables que contienen, hay varios tipos de modelos de ecuaciones estructurales: de trayectoria, factorial conrmatoria, factorial de segundo orden, de regresión estructural, mimic, de crecimiento, entre otros. El análisis de trayectoria, el modelo más simple, sólo involucra variables observadas. Es similar a un modelo de regresión lineal, aunque la diferencia radica en que en éstos se puede estimar el efecto indirecto que tiene una variable sobre otra, lo que no puede hacerse con el de regresión lineal. Hay dos tipos de modelos de trayectoria: recursivos y no recursivos. En los modelos recursivos (gura 1) no es posible que haya causalidad recíproca (si hay una trayectoria de Y 1 a Y 2 no puede haber una de Y 2 a Y 1) ni ciclos ni correlación entre los errores; en un modelo no recursivo (gura 2), sí. Figura 1. Modelo recursivo
X 1
γ11
γ12
X 1
γ11
Y1
ζ1
γ21
Y1
ζ1
X 2
γ21
Figura 2. Modelo no recursivo
β21
Y2
ζ2
γ22
Sistema de ecuaciones estructurales: una herramienta de investigación
β21 β12
X 2
γ12 γ22
Y2
ζ2
19
La ecuación que describe el modelo recursivo es de la siguiente forma Y = BY + ΓX+ ζ Esto es: Y 1 = γ11 X 1 + γ12 X 2 + ζ1 Y 2 = β21 Y 1 + γ21 X 1 + γ22 X 2 + ζ2 De forma matricial se escribe como:
( )(
Y 1 0 0 = Y 2 β21 0
)( ) (
γ11 Y 1 Y 2 + γ21
γ12 γ22
)( ) ( ) X 1 X 2 +
ζ1 ζ2
El modelo factorial conrmatorio permite explicar la correlación entre variables latentes y la asociación entre cada latente y sus correspondientes variables observadas. Como su nombre lo indica, está orientado a conrmar la estructura sugerida por medio del modelo. Figura 3. Modelo factorial confirmatorio 31
ξ1
21
ξ3
32
ξ2 λ11
20
λ21
λ31
λ42
λ52
λ62
λ73
λ83
X 1
X 2
X 3
X 4
X 5
X 6
X 7
X 8
δ1
δ2
δ3
δ4
δ5
δ6
δ7
δ8
Cuaderno técnico
4
La ecuación asociada a este modelo es: X = Λxξ+δ X 1 X 2 X 3 X 4 X 5 X 6 X 7 X 8
=
λ11 λ21 λ31 0 0 0 0 0
0 0 0 λ42 λ52 λ62 0 0
0 0 0 0 0 0 λ73 λ83
ξ1 ξ2 ξ3
+
δ1 δ2 δ3 δ4 δ5 δ6 δ7 δ8
El modelo de regresión estructural diere del factorial conrmatorio en que entre las variables latentes existe asociación y no sólo correlación, lo que permite identicar dos submodelos de manera natural. Uno de ellos, que suele denominarse modelo estructural, establece la asociación entre variables latentes, mientras que el otro está formado por la asociación entre variables latentes y observadas.
Sistema de ecuaciones estructurales: una herramienta de investigación
21
Figura 4. Modelo de regresión estructural
δ1 δ2
X 1 X 2
λx11 λx21 λx31
δ3
ζ1 γ11
ξ1
η1
β21
X 3
ζ2 λy 42
γ21 η2 λy 52
λy 11 λy 21
Y1
ε1
Y2
ε2
Y3
ε3
λy 31
λy 62
Y4
Y5
Y6
ε4
ε5
ε6
Modelo estructural: η= Bη + ΓX + ζ Modelo de medición: Y = ΛX η + ε X = Λ Y ξ + δ El modelo mimic ( multiple indicators and multiple causes of a single latent variable ) es un caso especial del modelo de regresión estructural.
22
Cuaderno técnico
4
Figura 5. Modelo mimic
X 1 X 2
ζ1
Y1
ε1
X 3
η1
Y2
ε2
Y3
ε3
X 4 X 5
Las ecuaciones que lo describen son: η = ΓX+ζ Y=Λy η+ε El modelo de crecimiento ( Latent Growth Curve Model ) se utiliza con datos de tipo longitudinal. Para que este tipo de modelo funcione adecuadamente se deberá garantizar que se cumplan los siguientes requerimientos: todos los individuos deberán contar con información en cada uno de los tiempos o etapas involucrados en el modelo, el espaciamiento entre un tiempo (o etapa) y otro debe ser similar en todos los individuos, la variable de respuesta debe ser continua, el número de periodos debe ser mayor a dos y el tamaño de muestra debe ser al menos de 200 en cada uno de los tiempos (Boomsma, 1985; Boomsma y Sayer, 2001).
Sistema de ecuaciones estructurales: una herramienta de investigación
23
Figura 6. Modelo de crecimiento
Intercepto
Xt1
24
Pendiente
Xt2
Xt3
Xt4
Cuaderno técnico
4
Identificabilidad del modelo
D
esde que en el aula cursamos álgebra elemental enfrentamos problemas de identicabilidad de un modelo, concretamente cuando trabajamos con ecuaciones simultáneas. Una ecuación de la forma 2x - 3 y = 4 no tenía solución única y su solución dependía de asignar un valor particular a alguna de las incógnitas ( x o y ) y encontrar el valor correspondiente de la otra. Dicho en los términos, x y y son nuestros parámetros, y jamos uno de ellos, para encontrar solución de la ecuación o del sistema. También recordamos que si teníamos otra ecuación que no fuera linealmente dependiente de la primera, podríamos encontrar la solución sin necesidad de asignar ningún valor a nuestras incógnitas. Retomaremos más adelante, algunas de estas condiciones para garantizar identicabili dad en los modelos de ecuaciones estructurales. En un modelo no identicable es imposible obtener de manera única el valor de cada uno de los parámetros libres. Las principales razones por las que se da este problema se deben a que se estipulan dentro del modelo parámetros que por regla general no son estimables. Un ejemplo es cuando en un modelo de regresión estructural se incluye una correlación entre dos variables dependientes. En el caso de modelos que contienen variables latentes es importante no olvidar jar la escala de cada uno de ellos para evitar este problema. Otra característica que puede generar conictos es cuando hay más parámetros libres que ecuaciones y por lo tanto uno o varios parámetros quedan expresados en términos de otros, o bien cuando se obtienen valores de parámetros que son inadmisibles como varianzas negativas. Para determinar si un modelo es identicable bastará con vericar ciertas reglas. Una de ellas es aplicable a todos los tipos de modelos, mientras que el resto varían dependiendo el tipo. La regla más sencilla y general es la regla t . Para utilizarla sólo se necesita conocer el número de parámetros libres y de variables observadas, y bastará con que se satisfaga la siguiente desigualdad:
Sistema de ecuaciones estructurales: una herramienta de investigación
25
t≤
( p + q ) ( p + q + 1 ) 2
donde t es el número de parámetros libres y p + q es el número de variables observadas. Esta regla es necesaria mas no suciente para garantizar la identicabilidad del modelo. Algunas reglas pueden ser aplicables a un modelo de trayectorias: regla de la B nula, regla recursiva, regla de condición de orden y regla de condición de rango; a modelos de análisis conrmatorio o derivados de éste: regla de tres variables observadas y regla de dos variables observadas; o bien, a modelos de regresión estructural: regla de los dos pasos y regla mimic. Regla de la B nula . Aunque no se establezcan asociaciones entre variables dependientes en modelos de trayectorias, y por lo tanto la matriz B sea cero, el modelo es identicable. Regla recursiva . Se aplica a los modelos recursivos y sólo verica que no haya correlación entre los errores asociados a las variables dependientes. Regla de condición de orden . Su propósito es revisar la identicabilidad en cada una de las ecuaciones asociadas al modelo. Una condición necesaria para la identicabilidad de una ecuación es que el número de variables excluidas sea al menos p-1, donde p representa el número de variables dependientes. Regla de condición de rango. Al igual que la regla de orden, se aplica a cada una de las ecuaciones. Para poder aplicar esta regla es necesario formar una nueva matriz C de la forma [( I-B )|-Γ ], donde I es la matriz identidad (con valores de uno en la diagonal y lo demás cero). Para vericar la identicabilidad de la i-ésima ecuación, se borran todas las columnas en C en las que no hay un cero en el i-ésimo renglón. Las columnas no borradas formarán una nueva matriz C i . Una condición suciente y necesaria para que la i-ésima ecuación sea identicable es que el rango1 de C i sea igual a p-1.
26
Cuaderno técnico
4
Para ilustrar la regla de condición de orden, considérese el modelo expresado por medio de las siguientes ecuaciones. Y 1=β12 Y 2 + γ11X 1 + ζ1 ...(1) Y 2=β21 Y 1 + γ22X 2 + ζ2 ...(2) Hay dos variables dependientes ( Y1 y Y 2) y dos independientes ( X 1 y X 2). Si se aplica la regla de condición de orden para la ecuación uno, se cumple que por lo menos exista una variable excluida de la ecuación (esto es, Y 1 y X 2) y lo mismo sucede con la ecuación dos. Para aplicar la regla de condición de rango usando este ejemplo, primero se obtendrá la matriz C . ( I - B ) =
( 10 01 ) -( 0 0 ) =(-1 -1 ) β 21
β 12
β 21
β 12
Si se junta a ( I-B ) con -Γ se obtiene: C =
1
(
1 -β 12 -γ 11 0 -β 21 1 0 -γ 22
)
El rango de una matriz es el número de las o columnas linealmente independientes. Una la o columna es linealmente dependiente de otra cuando es posible establecer una combinación lineal entre ellas. Por ejemplo, si f 1 = 2f 2 + 3f 3 entonces se dice que la la uno es linealmente dependiente de la la 2 y la la 3. Por el contrario, una la o columna es linealmente independiente de otra u otras cuando no se puede establecer una combinación lineal entre ellas.
Sistema de ecuaciones estructurales: una herramienta de investigación
27
Para vericar a la ecuación uno, se deberán borrar las columnas uno, dos y tres (ya que no contienen al cero en el primer renglón) de esta forma:
( )
0 C 1 = -γ 22
Como p- 1 = 1 y el rango de C 1 es uno, entonces se cumple la identicabilidad para la ecuación uno. El procedimiento para la ecuación dos es análogo. Regla de tres variables observadas . Para un modelo con un sólo factor, una condición suciente para su identicabilidad es que tenga asociadas al menos tres variables observadas, con cargas factoriales diferentes de cero y que la matriz de varianzas y covarianzas asociada a los errores δ( Θ δ ) sea diagonal. Para modelos con más de un factor se deben de considerar tres especicaciones: que cada factor tenga asociadas por lo menos tres variables observadas, que cada renglón de ΛX posea un sólo elemento diferente de cero y que Θ δ sea diagonal. La condición dos se puede traducir al hecho de que si un factor tiene asociadas tres variables, éstas no están asociadas a otro factor, mientras que la tres indica que no hay correlación entre los errores asociados a las variables observadas. Regla de dos variables observadas . Esta regla aplica en dos casos. El primero de ellos requiere que se satisfagan la segunda y tercera condiciones de la regla de tres variables observadas y que la matriz Φ sea diferente de cero. El segundo caso diere del primero con respecto a Φ ya que puede suceder que algunos valores de está matriz sean cero. En ambos casos, con tener dos variables obser vadas por cada variable latente es suciente para que el modelo sea identicable. Regla de los dos pasos. Esta regla consta de dos pasos: el primero requiere ver al modelo como un factorial conrmatorio: X y Y se expresan sólo como X ; η y ξ como ξ. La manera de identicar este nuevo modelo es por medio de las reglas aplicables a un conrmatorio. Una vez que se ha determinado que es identicable se procede al segundo paso. Éste involucra únicamente a la parte del modelo
28
Cuaderno técnico
4
en donde se observan las asociaciones entre latentes (lo que se denominó como modelo estructural). De esta forma se reescribe al modelo como uno de variables observadas en donde η es ahora Y y ξ es X y se procede a utilizar una de las reglas de identicabilidad para modelos de trayectoria. Si la identicabilidad se cumple en ambos pasos, es suciente para considerar al modelo en su totalidad como identicable. Regla mimic . Sólo es aplicable en los modelos mimic. Establece que si el número de variables observadas Y es mayor o igual que dos y el de observadas X es mayor o igual que uno, y se ja uno de los coecientes que van de η a Y , es suciente para que el modelo sea identicable.
Sistema de ecuaciones estructurales: una herramienta de investigación
29
Métodos de estimación
E
l proceso de estimación de un modelo de ecuaciones estructurales es crucial debido a que permite obtener de manera única el valor estimado que tendrá cada parámetro libre. La hipótesis básica en un modelo de ecuaciones estructurales se reduce a probar que la matriz de varianzas y covarianzas poblacional es igual a la matriz de varianzas y covarianzas asociada al modelo teórico, esto es: Σ=Σ(θ) donde Σ es la matriz poblacional y Σ(θ) es la matriz asociada al modelo pro puesto. Aunque en la práctica es improbable que se dé la igualdad como tal, el objetivo será encontrar θˆ , de tal forma que Σ sea lo más parecido a Σ( θˆ ). Partiendo del hecho de que no es posible conocer explícitamente los valores de la matriz de varianzas y covarianzas poblacional (si se conociera no tendría sentido plantearse siquiera un modelo), se utiliza a la matriz de varianzas-covarianzas muestral (S) como estimador de Σ. La diferencia entre estas dos matrices (S-Σ( θˆ )) se denomina residuo e indica la discrepancia entre lo observado por medio de los datos y las estimaciones arrojadas por el modelo. La estimación se lleva a cabo por medio de un proceso iterativo cuyo objetivo es minimizar el valor de una función. Esta función, denominada de ajuste ( F ), se escribe en términos de las matrices S y Σ( θˆ ). La manera de expresar a F varía según el método de estimación que se utilice. F siempre es mayor o igual a cero y sólo es cero si se cumple que S=Σ( θˆ ), es decir que el modelo propuesto ajusta perfectamente a los datos. Los métodos de estimación más empleados son máxima verosimilitud ( ML ), mínimos cuadrados no ponderados ( ULS ), mínimos cuadrados ponderados ( WLS ) y mínimos cuadrados generalizados ( GLS ).
30
Cuaderno técnico
4
El método de máxima verosimilitud es quizá el más empleado y trabaja bajo el supuesto de normalidad de los datos. Recientemente se ha comprobado (Bollen, 1989) que bajo pequeñas desviaciones de normalidad este método puede ser adecuado. Otro método que también opera bajo el supuesto de normalidad es el de mínimos cuadrados generalizados. Este método y el de mínimos cuadrados no ponderados son análogos al método de OLS ( ordinary least square ) empleado en regresión lineal, aunque el GLS se pondera por una matriz de pesos. El método de mínimos cuadrados ponderados, también conocido como método de distribución asintóticamente libre, se puede utilizar cuando se viole el supuesto de normalidad de los datos. De hecho, es imprescindible si el modelo contiene una o más variables categóricas y por lo tanto se trabaja con matrices policóricas, poliseriales y tetracóricas. Este método requiere particularmente que la muestra sea considerablemente grande (n > 250, Willet y Sayer, 1994). En la tabla 2 se presentan las funciones de ajuste para estos cuatro métodos. Tabla 2. Funciones de ajuste Método de estimación
Función de ajuste
Máxima verosimilitud
FML = log|Σ ( θ )|+ tr ( SΣ-1 ( θ )) – log|S|– ( p + q )
Mínimos cuadrados no ponderados
FULS = ( ½ ) tr [( S – Σ ( θ ))2 ]
Mínimos cuadrados generalizados
FGLS = ( ½ ) tr ( {[S – Σ ( θ )] W -1 }2 )
Mínimos cuadrados ponderados o de distribución asintóticamente libre
FWLS = ( ½ ) tr {[S – Σ ( θ )] V -1 }2
Sistema de ecuaciones estructurales: una herramienta de investigación
31
donde tr representa la traza, la cual se dene como la suma de los elementos de la diagonal principal de una matriz. Por ejemplo, sea A una matriz de 3x3 de la forma:
(
a a A = a 11 a 12 21 22
)
la traza de A, esto es, tr ( A ) = a 11 + a 22
32
Cuaderno técnico
4
Modelos con variables discretas
E
n las aplicaciones comunes de los modelos de ecuaciones estructurales se asume que las variables medidas tienen una escala continua, lo que justica, al menos en principio, los supuestos de distribución normal de los datos, así como el uso de la matriz de correlaciones de Pearson. Sin embargo, en muchas áreas relacionadas con las ciencias sociales, las variables de interés generalmente presentan escalas discretas, ya sean de conteo, nominales u ordinales (principalmente estas dos últimas). En esta situación, como comentamos en el párrafo anterior, es necesario construir esta matriz de correlaciones considerando la escala de medición de las variables involucradas en el cálculo de cada entrada de esta matriz. La tabla 3 presenta el tipo de correlación que es conveniente calcular de acuerdo con el orden de medición de las dos variables involucradas. Tabla 3. Medidas de correlación entre variables con distintas escalas Escala de medición Continua Ordinal Dicotómica
Continua Pearson
Ordinal Poliserial Policórica
Dicotómica Punto biserial Policórica Tetracórica
Cada una de estas variables discretas provienen de un proceso de discretización de una variable continua. Es decir, se asume que subyace una variable latente continua, con distribución normal. Recordemos que la mayoría de las variables ordinales de uso común (nivel socioeconómico, nivel de satisfacción de un servicio, evaluación de la calidad de un producto, etcétera) provienen de discretizar variables continuas. Entonces, cuando se desee construir un modelo de ecuaciones estructurales con este tipo de variables, tendremos que trabajar con matrices policóricas, poliseriales, tetracóricas o, lo más común, con una matriz de correlaciones mixta, que contenga varias de las correlaciones anteriores.
Sistema de ecuaciones estructurales: una herramienta de investigación
33
Un aspecto importante: cuando se utiliza el tipo de correlación respetando la escala de las variables involucradas, generalmente se obtienen correlaciones más grandes que si se utilizan las correlaciones de Pearson, y debemos recordar que un buen principio es tener una estructura de correlación fuerte entre las variables que componen nuestro modelo.
34
Cuaderno técnico
4
Bondad de ajuste del modelo
L
a etapa en la que se lleva a cabo la evaluación del modelo propuesto es fundamental para determinar si dicho modelo describe de manera apropiada al fenómeno objeto de estudio. Como ya se mencionó, la hipótesis básica que se contrasta es que la matriz de varianzas y covarianzas muestral es igual a la matriz de varianzas y covarianzas conformada con los parámetros del modelo (S=Σ( θ )). A diferencia de la metodología clásica de regresión, en la cual el principal interés se enfoca en rechazar la hipótesis nula ( Ho: β=0) en ecuaciones estructurales el interés radica en no rechazarla para garantizar que el modelo propuesto ajusta adecuadamente a los datos. Las diferentes formas de evaluar el modelo deben ser valoradas de manera global; todas serán indicadores del grado de ajuste del modelo. Basar nuestro juicio sobre lo adecuado del modelo en una sola prueba, puede generar conclusiones erróneas. Prueba ji-cuadrada (χ2 ). Esta prueba se usa para contrastar la hipótesis básica. Se le conoce con este nombre, ya que si el modelo es correcto y ajusta adecuadamente a los datos, entonces T , el estadístico de prueba, se distribuye como una ji-cuadrada con ( t ( t +1) / 2) - p grados de libertad (donde t = número de parámetros y p = número de variables observadas). Este estadístico se escribe así: ( -1) F min T = N donde N es el tamaño de muestra y F min es el valor mínimo que toma la función de ajuste una vez que se estimaron los parámetros. El criterio para aceptar la hipótesis nula es que el valor de T sea menor al valor en tablas de una ji-cuadrada con los grados de libertad mencionados y a un nivel de signicancia α. Otra forma es observando que el p-value es mayor que el α. Una limitación de esta prueba es que es susceptible ante cambios en el tamaño de muestra, por lo que para muestras grandes T tiende a incrementarse, lo que aumenta la frecuencia con
Sistema de ecuaciones estructurales: una herramienta de investigación
35
que se rechaza Ho, a pesar de que esto no reeje la realidad. Esta es una razón por la cual no se recomienda usar como único criterio de bondad de ajuste a esta prueba, sino más bien como complemento de otros índices de ajuste. Índices de ajuste . Hay dos tipos de índices: los de ajuste absoluto y los de incremento. Los primeros evalúan directamente el ajuste del modelo, mientras que los de incremento comparan al modelo propuesto con el modelo de independencia, en el cual se asume que no hay asociaciones entre las variables. Los índices de ajuste absoluto son: el índice de bondad de ajuste ( GFI = Goodness of Fit Index ), el índice ajustado de bondad de ajuste ( AGFI = Adjusted Goodness of Fit Index ), el índice de aproximación de la raíz de cuadrados medios del error ( RMSEA = Root Mean Square Error of Aproximation ) y el índice de la raíz del cuadrado medio del residuo ( RMR ). El índice GFI puede interpretarse como una medida que determina la proporción de varianza explicada por el modelo (como la R 2 en regresión lineal). Si además se consideran los grados de libertad y el número de variables observadas del modelo, se obtiene el índice AGFI. El valor que toman estos dos índices se encuentra entre cero y uno (aunque en casos aislados puede tomar valores negativos). En ambos casos, valores cercanos a uno determinan que el modelo tiene muy buen ajuste. Uno de los índices más populares es el RMSEA, que sólo puede tomar valores positivos. Un valor menor a 0.05 indica que el ajuste del modelo es bueno aunque es más deseable uno cercano a cero. El RMSEA tiene asociada la prueba de hipótesis: Ho: RMSEA ≤ 0.05 vs Ha: RMSEA > 0.05
Si el pclose (así se le denomina dentro de la paquetería estadística) es mayor al nivel de signicancia α entonces hay evidencia para rechazar a Ho. Una limitación de este índice es que, como su expresión involucra al tamaño de muestra, para muestras pequeñas tiende a sobreestimar el ajuste del modelo. El índice RMR es similar en corte al RMSEA: los valores más deseables se encuentran por
36
Cuaderno técnico
4
debajo de 0.05 y entre más cercano a cero es mayor la evidencia de buen ajuste. Los índices de ajuste de incremento son: índice de ajuste normado ( NFI = Nor- med Fit Index ), índice de ajuste no normado ( NNFI o TLI = Non Normed Fit Index), índice de ajuste comparativo ( CFI = Comparative Fit Index ), índice incremental de ajuste ( IFI o BL89 = Incremental Fit Index ), índice relativo de ajuste ( RFI = Relative Fit Index ), índice esperado de validación cruzada ( ECVI = Expected Cross Validation Index ) y criterio de información de Akaike ( AIC = Akaike Information Criterion ). El NFI se calcula por medio de la diferencia del valor de la ji-cuadrada asociada al modelo de independencia con respecto a la del modelo propuesto. Una limitación de este índice es que no toma en cuenta los grados de libertad, de manera que no es posible valorar la complejidad del modelo ni tampoco el tamaño de muestra. El NNFI es una variante del NFI aunque aquel sí considera los grados de libertad y el tamaño de muestra. Los índices CFI, IFI y RFI tienen variaciones con respecto al NFI pero siempre bajo la misma idea de incluir en la expresión al modelo de independencia versus el modelo propuesto. En general, todos estos índices toman valores entre cero y uno, y valores cercanos a uno indicarán que el modelo tiene muy buen ajuste. El ECVI permite cuanticar el cambio que se produce al comparar al modelo propuesto con el modelo de independencia y saturado. Lo deseable es que el ECVI asociado al modelo propuesto sea el más pequeño con respecto a los otros dos. El AIC es un índice que toma en cuenta la complejidad del modelo y el grado de ajuste; al igual que el ECVI compara al modelo con los otros dos ya mencionados. Lo atractivo de estos dos índices es que, cuando se cuenta con varias versiones del modelo original, se pueden comparar entre sí por medio de los valores obtenidos del ECVI y AIC y utilizarlos para elegir al que tenga el mejor ajuste, preriendo a aquel cuyos índices en conjunto sean los de menor valor. Un punto de corte aceptable para los índices GFI, AGFI, NFI, NNFI, CFI, IFI y RFI es de 0.9.
Sistema de ecuaciones estructurales: una herramienta de investigación
37
El test de los multiplicadores de Lagrange –conocido en Lisrel como índices modi- cados–, así como el test de Wald, se usan para cuanticar la contribución que tiene un parámetro en el modelo propuesto. El test de los multiplicadores de Lagrange muestra el decremento provocado en la ji-cuadrada al considerar un nuevo parámetro libre (por ejemplo, una nueva trayectoria antes no impuesta). Por el contrario, el test de Wald muestra el incremento en la ji-cuadrada al jar en cero un parámetro (semejante a eliminar el parámetro del modelo). A diferencia de los índices de ajuste, en los cuales existe un punto de corte sugerido para determinar que el modelo es bueno, en estas dos pruebas no los hay, por lo que el criterio del investigador juega un papel importante en la toma de decisiones para considerar nuevos parámetros sugeridos por medio de las dos pruebas a favor del modelo y tomando siempre en cuenta, que al modicar un parámetro puede afectar otras partes del modelo ya sea en sentido positivo o negativo, esto es, puede hacer que el ajuste del modelo mejore o empeore con respecto al modelo originalmente propuesto. Cuando se desea evaluar el ajuste de un segmento particular del modelo, los índices de ajuste no nos aportan información al respecto, para lo cual podemos utilizar la matriz de residuos estandarizados . Cada una de las entradas de esta matriz cuantica la discrepancia que hay entre lo observado por medio de los datos y las estimaciones que el modelo produce. Lo deseable es obtener residuos estandarizados cercanos a cero; sin embargo, un rango aceptable es entre -2 y 2. En ecuaciones estructurales no es posible realizar análisis de residuos análogos a los que se hacen con la metodología clásica de regresión lineal. Finalmente, otra forma de evaluar si un parámetro libre es estadísticamente signicativo es por medio de su valor t . Para obtener a t se divide el valor estimado del parámetro entre su error estándar. Si t se encuentra por fuera de -2 y 2, entonces el parámetro es signicativo al 5%, y puede considerarse diferente de cero a ese nivel de signicancia.
38
Cuaderno técnico
4
Efecto total, directo e indirecto entre variables
U
no de los atractivos de SEM es que permite estimar el efecto indirecto y total que puede tener una variable sobre otra y no sólo el directo como en regresión lineal. Hay tres tipos de efecto: a) el directo es la inuencia que tienen una variable sobre otra, que se da de manera directa dentro del diagrama de trayectorias (por medio de la echa que une a dos variables); b) el indirecto es la inuencia que tiene una variable sobre otra, pero en cuya trayectoria hay al menos otra variable intermedia que las une, y c) el total, que es la suma del efecto directo y el indirecto, permite cuanticar el cambio que se observa en la variable en que se produjo el efecto (la que recibe la echa), inducido por un cambio en la variable que lo causó (variable de la que sale la echa), independientemente de los mecanismos por los cuales se haya producido dicho cambio.
Sistema de ecuaciones estructurales: una herramienta de investigación
39
Lisrel (LInear Structural relations)
D
iversos paquetes estadísticos sirven para ajustar este tipo de modelos. Algunos fueron desarrollados especícamente para este n, como AMOS, EQS, Lisrel y M-PLUS; otros incluyen únicamente un módulo particular para realizar esta tarea. Dentro de estos últimos destacan R , S-plus, SAS, SPSS, Stata, Systat, entre otros. Lisrel se mantiene a la vanguardia en el desarrollo de las rutinas computacionales para introducir los desarrollos recientes en estos modelos. Para ilustrar el ajuste de algunos modelos de ecuaciones estructurales, en el ámbito de la evaluación educativa, haremos uso de este paquete.
40
Cuaderno técnico
4
Introducción a Lisrel
L
a primera versión de Lisrel (versión 3) apareció en 1975 y es atribuido a Karl Jöreskog. Lisrel es el acrónimo de “LInear Structural RELations”, aunque en la actualidad hablar de Lisrel es sinónimo de SEM (Structural Equation Modeling). Sin embargo, no fue hasta 1998 cuando apareció la primera versión interactiva de Lisrel (versión 8.2 para Windows). La primera versión del módulo Prelis (PREprocessor for Lisrel) se lanzó en 1986. Este módulo ha ido evolucionando hasta convertirse en una herramienta exploratoria de los datos que serán usados posteriormente en Lisrel, como el cálculo de la matriz de correlaciones policóricas cuando los datos son categóricos, el cálculo de la matriz de varianzas-covarianzas asintótica, análisis descriptivo de los datos, etcétera.
Sistema de ecuaciones estructurales: una herramienta de investigación
41
La pantalla principal de Lisrel
L
a pantalla inicial de Lisrel permite acceder a la barra de menú de opciones por medio del cual se podrá ingresar a la ayuda, abrir archivos, importarlos... Como se observa en la pantalla siguiente, hay iconos que no están habilitados; esto cambia una vez especicado el tipo de proyecto que se va a usar. Un proyecto es el tipo de archivo de trabajo.
La opción File permite abrir documentos o comenzar un nuevo proyecto, importar datos en otros formatos (por ejemplo SPSS ) e imprimir. Cuando se elige esta opción aparecen otras.
La opción New contiene cinco tipos de archivo (o proyectos), de los cuales se debe elegir uno. Son:
42
Cuaderno técnico
4
Syntax Only (.pr2, .ls8, .spl) PRELIS Data (.pr2) SIMPLIS Project (.spj) LISREL Project (.lpj) Path diagram (.pth)
Cuando se está familiarizado con la notación de las variables y las matrices y se es capaz de escribir las ecuaciones e instrucciones tal como el paquete lo requiere, se recomienda usar el proyecto de sintaxis ( Syntax Only ). Por medio de éste, se pueden escribir programas para Prelis o para Lisrel, ya sea para calcular una matriz de correlaciones, o bien para obtener las ecuaciones del modelo y estimarlo. Si no se está familiarizado con Lisrel existen, por fortuna, otras opciones que permiten, de manera más sencilla, realizar análisis descriptivo de los datos, calcular matrices, etcétera. La opción de Prelis Data despliega una hoja en la que se podrá capturar la base con la que se trabajará. Los archivos de Prelis siempre se guardan con la extensión .psf. Lisrel Project y Simplis Project sirven para escribir las ecuaciones subyacentes al modelo de ecuaciones y los archivos con los que trabajan, tienen extensión .lpj y .spj, respectivamente. Path diagram permite dibujar el modelo de ecuaciones y guarda los archivos con extensión .pth
Sistema de ecuaciones estructurales: una herramienta de investigación
43
Prelis
P
relis es un módulo incluido en Lisrel que sirve para preparar los datos que serán usados cuando se lleve a cabo la construcción del modelo de ecuaciones estructurales, o bien para hacer otro tipo de análisis estadístico diferente a SEM. Para poder trabajar los datos en Prelis es necesario disponer de una base con extensión .pr2. Hay dos formas de obtenerla: a) capturando directamente los datos por medio de la opción Prelis Data, y b) importando una base que se encuentre en otro tipo de formato.
44
Cuaderno técnico
4
Crear la base desde Prelis DATA
E
n la pantalla principal de Lisrel elija File → New → P relis Data . Inmediatamente aparecerá la siguiente pantalla
La opción Data, en la parte izquierda superior de la pantalla, permitirá insertar los nombres de las variables. Data → Dene Variable nos despliega una nueva pantalla; para poder insertar el nombre de la variable se elegirá la opción Insert . En una nueva ventana ( Add Variables ) se escribirá el nombre de la variable y se oprimirá Ok. Este procedimiento se hará según el número de variables que se desee insertar. Una vez que se han terminado de denir todas las variables se oprimirá Ok en la pantalla Dene variables .
Sistema de ecuaciones estructurales: una herramienta de investigación
45
Para insertar el número de casos se elegirá nuevamente Data → Insert case .
Una vez elegido el número de casos, en una ventana parecida a Excel se podrán ir capturando los datos. En principio, siempre aparece en ceros. Una vez capturada la información se debe guardar la base por medio de File → Save o con el icono que muestra un diskete (la extensión debe ser .psf).
46
Cuaderno técnico
4
Importar la base desde un archivo externo
T
ambién es posible capturar el archivo como SPSS, texto, ASCII, Excel, SAS. Para importar la base se deberá elegir de la pantalla principal las siguientes opciones File → Import Data in Free Format o File → Import External Data in Other Format, lo que depende del tipo de archivo. Como se despliega una nueva ventana se deberá buscar la ubicación de la base que se desea importar y elegir abrir. Aparecerá una pantalla con la base importada, la cual ha sido guardada automáticamente con el mismo nombre pero con extensión .psf.
Sistema de ecuaciones estructurales: una herramienta de investigación
47
Datos faltantes
A
veces, cuando se importa una base o se captura directamente algunos sujetos o casos no cuentan con información en alguna de las variables. Es posible declarar estos valores como datos faltantes. Esta opción de Missing values se ubica en la misma ventana en donde se insertan las variables y se puede declarar un valor diferente de dato faltante para cada variable. Por ejemplo, si la variable sexo tuviera valores de 1 y 2, un dato faltante podría ser declarado con un 9, pero si por ejemplo otra variable con más dígitos –digamos edad– tuviera un rango entre 0 y 100, entonces el dato faltante podría ser 999, por conveniencia.
48
Cuaderno técnico
4
Obtención de la matriz de correlaciones Pearson, policóricas y asintótica
C
uando la base de datos es grande, conviene emplear la matriz de correlaciones en lugar de trabajar con la base original. Para poder obtener esta matriz se deberá utilizar Prelis. Será necesario entonces abrir una base de datos con extensión .psf, para que de esta forma se activen nuevos iconos y opciones en la parte superior de la pantalla principal, tal como se muestra enseguida:
Estas nuevas opciones permitirán realizar diferentes tipos de análisis estadísticos, como regresiones múltiples, análisis de factores, análisis multinivel, imputación de datos, grácas, calcular variables a partir de otras, realizar trans formaciones u obtener correlaciones, entre otras cosas. Cuando algunas de las variables de un modelo de ecuaciones estructurales son categóricas no es posible trabajar con correlaciones de Pearson, por lo que se tiene que calcular la matriz de correlaciones policóricas. Una vez abierta la base de
Sistema de ecuaciones estructurales: una herramienta de investigación
49
la que se leerán los datos (con extensión .psf), seleccione Statistics → Output options . Automáticamente aparecerá una ventana Output . En la parte superior izquierda se encuentra el recuadro Moment matrix en el cual se tendrá que elegir la opción Correlations . En caso de que se desee guardar la matriz en un archivo, se deberá elegir la opción Save to le y debajo de esta opción escribir el nombre del archivo que deberá guardarse con extensión .cor. También por medio de esta ventana se puede calcular la matriz de varianzas-covarianzas asintótica ( Asymptotic Cova- riance Matrix ), indispensable si se utiliza el método de estimación de mínimos cuadrados ponderados ( WLS ) o el de máxima verosimilitud robusto. Al igual que la matriz de correlaciones, ésta se puede guardar con extensión .acm. Para cerrar la ventana se elegirá Ok. Cabe mencionar que cuando se calcula la matriz de correlaciones, Prelis es capaz de determinar si todas las variables son continuas o solo algunas, por lo que en caso de que todas sean continuas, las correlaciones que calculará serán de Pearson y en caso contrario la correspondiente (policórica, poliserial o tetracórica), además de que en el archivo de salida especicará qué tipo de correlación obtuvo.
50
Cuaderno técnico
4
Automáticamente aparecerá un nuevo archivo que contiene la salida completa: código de instrucciones para obtener la matriz, ubicación de la base de datos que utilizó Prelis para leer la información, así como estadísticas descriptivas de las variables (frecuencias en caso de variables no continuas), la matriz de correlaciones policóricas, entre otras cosas. Este archivo generalmente es guardado con el mismo nombre de la base de datos que utilizó pero con extensión .out. También, por default, Prelis creará un archivo con extensión .dsf que deberá ser usado cuando se construya el modelo, ya que contiene la información del nombre de las variables, así como la ubicación de los archivos que contienen a las matrices que se calcularon. El siguiente cuadro muestra una porción de la salida para el ejemplo que se estará utilizando a lo largo de la construcción del modelo. La base que se utilizó (modcua2h2.psf) contiene 24 variables y sólo una de ellas (theta) es continua. Como no se declara explícitamente cuál variable es categórica y cuál continua, el programa impone un límite máximo de categorías; si se rebasa el número, el paquete declarará a esa variable como continua y desplegará en la salida un Warning en el que informa que la variable será tratada como continua, tal como se muestra en el ejemplo. Esta salida despliega, entre otras cosas, el número de casos faltantes por variable, gráca de frecuencias y medidas de tendencia central (en caso de que la variable sea continua), tipo de correlación que se calculó según el par de variables y, por último, la matriz de correlaciones.
Sistema de ecuaciones estructurales: una herramienta de investigación
51
Figura 7. Correlaciones ►
52
Cuaderno técnico
4
Figura 7.
Sistema de ecuaciones estructurales: una herramienta de investigación
53
Dibujando el diagrama que describe al modelo
A
ntes de explicar la forma en la que se debe dibujar el modelo, se dará una breve explicación sobre el ejemplo que se presentará y analizará. Las hipótesis que sustenta este modelo son tres: a) la calidad de la escuela y el capital económico familiar tienen una asociación con el compromiso académico que adquiere un estudiante; b) la calidad de la escuela y el capital económico tienen un efecto indirecto, mediado por el compromiso académico, sobre la habilidad del sustentante evaluada mediante un examen, y c) la calidad de la escuela y el capital económico están correlacionadas entre sí. De esta forma, el modelo es de tipo regresión estructural y está conformado por tres variables latentes y 24 variables observadas.
Variables latentes: η= compromiso académico (comaca) ξ1 = calidad de la escuela (calesc) ξ2= capital económico (capiteco) Variables observadas que miden al compromiso académico: Y 1 = habilidad del sustentante (theta) Y 2 = faltar a la escuela (con_fal) Y 3 = llegar tarde a las clases (con_tar) Y 4 = no entrar a las clases estando en la escuela (con_ent) Y 5 = días a la semana que hacia tareas o estudiaba (dia_est) Y 6 = promedio de horas al día dedicadas a estudiar o hacer tareas fuera del horario escolar (hor_tar) Y 7 = calidad de las tareas entregadas (cal_tar) Variables observadas que miden a la calidad de la escuela: X 1 = nivel de exigencia de la escuela secundaria (exi_esc)
54
Cuaderno técnico
4
X 2 = porcentaje de compañeros que logró una excelente preparación en la secundaria (pre_com) X 3 = preparación de los maestros que impartían clases en la secundaria (pre_ma) X 4 = maestros que llegaban tarde a clase en el último año de secundaria (ma_tar) X 5 = faltas frecuentes de maestros en el último año de la secundaria (ma_falt) Por último, variables que miden al capital económico: X 6 = horno de microondas en casa (ser_mic) X 7 = lavadora en casa (ser_lav) X 8 = suscripción a periódicos o revistas en casa (ser_sus) X 9 = dvd en casa (ser_dvd) X 10 = computadora en casa (ser_pc) X 11 = televisor en casa (ser_tv) X12 = automóvil en casa (ser_auto) X 13 = reproductor de mp3 para uso personal (ser_mp3) X 14 = teléfono celular para uso personal (ser_tec) X 15 = vacaciones dentro de la República Mexicana en los últimos dos años (vva_rp) X 16 = vacaciones fuera del país en los últimos dos años (vva_fp) X 17 = número de estados de la República que ha visitado en los últimos dos años (edo_rep) De esta forma, X 1 a X 5 estarán asociadas con la primera variable latente independiente (ξ )1 y X 6 a X 17 con la segunda latente independiente (ξ 2 ); Y 1 a Y 7 estarán asociadas con la única variable latente dependiente η. Ambas (calesc y capitec) están correlacionadas entre sí y tienen asociación con compac. Este modelo se aplicó individualmente para hombres y mujeres, por lo que las bases estuvieron conformadas por un tamaño de muestra de 1075 y 1144, respectiva-
Sistema de ecuaciones estructurales: una herramienta de investigación
55
mente. El método de estimación fue mínimos cuadrados ponderados ( WLS ), ya que todas las variables observadas, con excepción de X 1, son categóricas. Existen varios caminos para especicar y estimar el modelo de ecuaciones estructurales. El más sencillo es dibujar el modelo y permitir que Lisrel escriba de forma autónoma el código del programa que detalla las asociaciones, correlaciones y parámetros que conformarán el modelo teórico. Para dibujar el diagrama es necesario especicar a Lisrel que queremos trabajar con un pro yecto Path diagram . En la ventana principal, abrir File → New → Path diagram . Aparecerá una ventana que pedirá el nombre con el cual se guardará el diagrama con extensión .pth (por ejemplo, modelo2hom2.pth). Al activar la opción de Path diagram o abrir un archivo .pth se muestra la siguiente pantalla:
56
Cuaderno técnico
4
La parte superior es muy parecida, pero no igual, a la pantalla principal de Lisrel. La barra de menú contiene las opciones File, Edit, Setup, Draw, View, Ima- ge, Output, Window y Help. File cuenta con las mismas características del File de la pantalla principal, aunque aquí es posible exportar un diagrama a otros tipos de formato como .gif y .wmf. Edit permite hacer modicaciones al modelo. Setup introduce la información con respecto a los datos como ubicación de la base, número de casos, tipo de matriz con la que se va a trabajar, etc. En Draw se dibujan las variables, las trayectorias, correlaciones y se pueden escribir notas dentro del diagrama. View permite modicar el aspecto de la pantalla cuadriculada (área en donde se dibujará el modelo) y los iconos que aparecen en la parte superior, elegir qué resultados se mostrarán en el diagrama (parámetros estimados, solución estandarizada, valores t, entre otros) y especicar (opcional) el tipo de modelo que se va a dibujar. Image ayuda a cambiar el aspecto del diagrama. Con Output es posible escoger el tipo de método de estimación, el contenido de la corrida y las matrices que se quieran guardar en un archivo independiente. Para comenzar a construir el modelo, utilizaremos principalmente Setup, Draw y Output . Al elegir Setup → Title and Comments aparece la siguiente ventana:
Sistema de ecuaciones estructurales: una herramienta de investigación
57
En ella se escriben el título y los comentarios del modelo; aunque es opcional, es recomendable hacerlo para que en el caso de correr varias versiones del mismo modelo sea más fácil identicar con cuál se está trabajando. El botón Next es de mucha utilidad, ya que permite acceder a las otras ventanas que se activan dentro de la misma opción (este botón también tiene la misma utilidad en Output ), pero sin tener que estar eligiendo una por una. Como en nuestro ejemplo hay tres variables latentes o factores, se especicará el título según lo muestra la ventana anterior. Group names es una ventana opcional. Se utiliza cuando hay varias submuestras para las cuales se quiere correr el mismo modelo.
58
Cuaderno técnico
4
La tercera ventana, Labels, sirve para especicar cuáles serán las variables observadas y latentes que describirán al modelo.
Para incluir las variables observadas se elige la opción Add/read variables del cuadro izquierdo ( Observed variables ) y las latentes por medio del cuadro derecho ( Latent variables ). Sin embargo, la diferencia entre estos dos radica en que por medio del primero se deberán leer las variables observadas de una base en particular, mientras que en el otro únicamente se puede escribir el nombre con el cual se identicará una variable latente. Al elegir la opción izquierda aparece una nueva ventana Add/read variables . Con el botón Browse se busca el archivo que contiene la información de las variables que intervendrán en el modelo. Se puede elegir un archivo creado en Prelis o en Lisrel. En general, el más usado es el del segundo. Este archivo tiene extensión .dsf y, como se mencionó, contiene la información del nombre de las variables y la ubicación de las matrices que se obtuvieron por medio de Prelis.
Sistema de ecuaciones estructurales: una herramienta de investigación
59
Una vez que aparece en el recuadro en blanco del File name la ubicación y nombre del archivo del cual se leerán las variables observadas, se sabrá que efectivamente se leyó la información, pues aparecerán los nombres de las variables de la base solicitada dentro del cuadro derecho en la ventana Labels . El nombre de las variables latentes se introduce manualmente:
60
Cuaderno técnico
4
En el cuadro de la izquierda se despliegan los nombres de las variables observadas que conformarán al modelo y en el de la derecha, los nombres de las latentes: compac, calesc y capiteco (siguiendo ese orden). Finalmente, si se desea borrar una variable latente se hace clic en el número del costado izquierdo de la variable seguido de la tecla supr del teclado. La siguiente ventana es Data. En ella se debe especicar el tamaño de la muestra ( Number of observation ) y la matriz que se va a analizar, recordando que cuando se calcule la matriz policórica o asintótica, la matriz que se va a analizar será de correlaciones. Esta ventana es la última opción del Setup, por lo que ahora se deberá oprimir Ok.
Sistema de ecuaciones estructurales: una herramienta de investigación
61
Para vericar que se han incluido, los nombres de las variables se aprecian en la parte izquierda de la pantalla cuadriculada. Para que una variable aparezca dentro de la cuadrícula en forma de gura, se debe arrastrar con ayuda del mouse. Cuando el modelo contiene variables observadas X y Y , así como latentes dependientes e independientes, se deberá especicar en dónde aparecen los nombres de las variables, cuáles de ellas son Y (variables observadas asociadas a latentes dependientes) y ETA (así se les denomina en Lisrel a las latentes dependientes). Las que no se especiquen se tomarán como X (observadas) y como latentes independientes (no observadas). Para este ejemplo, únicamente las variables theta y cal_tar son Y´s, y por lo tanto aparece un tache enseguida de los nombres y compac es la única ETA (variable latente dependiente).
62
Cuaderno técnico
4
Por medio de la opción Draw o de la paleta de dibujo (en general se activa automáticamente), que tienen las mismas seis opciones, se podrán trazar las trayectorias (echas unidireccionales →) y correlaciones (echas bidireccionales ←→) entre variables, además de escribir texto y jar parámetros.
Select (primer icono en la paleta) permite seleccionar uno o más objetos del diagrama para moverlos, alinearlos, cambiarles el color, el tipo de fuente, etcétera. One-way path (segundo icono) sirve para dibujar la trayectoria (asociaciones) entre las variables. Para dibujar una trayectoria, se debe seleccionar esta opción y colocar el mouse en la variable de la cual saldrá la echa, arrastrarlo con el botón izquierdo apretado hasta llegar a la variable que recibirá la trayectoria. Esto se hace para cada una de las trayectorias del modelo. Si se quiere desactivar ese icono, se deberá seleccionar Select y dar clic con el botón izquierdo del mouse dentro de la cuadrícula. Esto aplica para cualquier opción de la paleta.
Sistema de ecuaciones estructurales: una herramienta de investigación
63
Figura 8. One way path
Multi-segment path (tercer icono) tiene la misma nalidad del segundo icono, pero permite dibujar la echa en segmentos.
Figura 9. Multi-segment path
Error covariance or factor correlation (cuarto icono) sirve para dibujar las correlaciones entre variables o errores. Para ello se procede igual que con las trayectorias. Plain text (quinto icono) sirve para insertar texto al diagrama. Una vez activado este icono se deberá dibujar un rectángulo arrastrando el botón izquierdo del mouse y escribiendo el texto dentro de la gura trazada. Para cambiar la fuente o el color del texto se utiliza el botón derecho del mouse y se selecciona Options.
64
Cuaderno técnico
4
Por último, Zoom (sexto icono) permite reducir o incrementar el tamaño del diagrama. Cuando el modelo incluye variables latentes, es necesario jar la escala de cada una de ellas (para que el modelo no tenga problemas de identicabilidad). Esto se logra jando en un valor especíco (Lisrel los ja en 1) a alguna de las trayectorias que van de la variable latente a una de las observadas. Así, por ejemplo, si el modelo contiene tres variables latentes se deberán jar tres trayectorias, una por cada una de ellas. Para realizar esto, se selecciona con el botón izquierdo del mouse la trayectoria deseada y se utiliza el botón derecho para seleccionar la opción Fix . Deberá cambiar de color la echa dentro del diagrama, lo que permite vericar que efectivamente se jó ese parámetro. En el ejemplo se decidió jar en uno las trayectorias que van de compac a con_ent, de calesc a pre_com y de capiteco a ser_lav. En los dos primeros casos fue arbitraria la decisión, en la tercera trayectoria se jó debido a que contar con lavadora presentó la menor variabilidad en la respuesta.
Sistema de ecuaciones estructurales: una herramienta de investigación
65
Una vez dibujado el modelo se debe especicar el método de estimación y lo que queremos que despliegue el archivo de salida. Para ello se elige Output → Lisrel Outputs . Esta selección despliega tres opciones Estimations, Selections y Save.
Al elegir Estimations aparece la siguiente ventana:
66
Cuaderno técnico
4
La ventana despliega todos los métodos disponibles para estimar los parámetros, así como otras opciones relacionadas con el número de iteraciones permitidas para llegar a la solución nal, etcétera. En general estas opciones no se modican a menos que exista un problema de convergencia, por lo que no es necesario hacer cambios en esta sección. La siguiente ventana, Selections, muestra las opciones que queremos que despliegue en el archivo de salida. Se pueden elegir algunas o todas por medio de Print all . La parte inferior de esta ventana permite invocar al modelo, si así se desea.
Sistema de ecuaciones estructurales: una herramienta de investigación
67
La tercera ventana, Save, permite s alvar en archivos archivos separados matrices, índiSave, permite salvar ces de bondad de ajuste, valores t, entre co sas. t, entre otras cosas.
Cuando se termina de dibujar el modelo y de especicar el método de estiesti mación y opciones opciones de salida, sal ida, se debe pedir que se muestre muestre la sintaxis si ntaxis que subyace al modelo. Esto se hace por medio med io de Setup en Setup en la barra de menú, seleccionando Build Lisrel Syntax o Build SIMPLIS Syntax Syntax . La diferencia entre estas dos opciones radica en la forma en la que despliega la sintaxis. La primera opción es un poco más complicada, ya que no muestra directamente las ecuaciones que subyacen al modelo sino únicamente ún icamente los parámetros que se van a estimar; estimar ; esto se hace en forma matricial, por lo que si no se está familiarizado famil iarizado con el lenguaje de Lisrel resultará más difícil dif ícil de leer. Simplis, por el contrario, contrario, sí despliega las ecuaciones por medio de los nombres nombres de las variables. A continuación se muestra el modelo que se va a estimar y la sintaxis subyacente utilizando ambas notaciones.
68
Cuaderno técnico
4
La siguiente secuencia de instrucciones se obtiene con Simplis. Como muestra el código, los dos primeros renglones hacen referencia al título y a los comentarios. La tercera línea indica la ubicación del archivo modcua2h2. dsf que contiene la información de la ubicación de las matrices policórica y asintótica. La cuarta cuar ta línea lí nea indica el tamaño de muestra. La quinta corresponde corresponde al nombre de las variables variables latentes. latentes. A partir part ir de la séptima sépti ma línea y hasta la décimo segunda se indican las trayectorias trayectorias que van de las latentes latentes a las observadas. Véase Véase que no aparece la l a trayectoria que va de compac a con_ent, con_ ent, de calesc a pre_com y de capitec a ser_ ser_lav lav,, ya que se jaron los parámetros, lo que se puede corroborar corroborar en el diagrama d iagrama (las ( las trayectorias trayectorias aparecen de color color gris claro y no en azul como las otras). otras). La línea l ínea 29 indica que se está pidiendo que, una vez esti-
Sistema de ecuaciones estructurales: una herramienta de investigación
69
mado el modelo, se despliegue nuevamente el diagrama. Las últimas dos líneas indican el método de estimación, los resultados que deseamos imprimir, como residuos, índices modicados y efectos directos, indirectos y totales. También se puede pedir que despliegue todo por medio de All .
70
Cuaderno técnico
4
Con la sintaxis de Lisrel se obtiene la siguiente secuencia de instrucciones. Al igual que en Simplis, la primera línea hace referencia al título. La segunda contiene la especicación con respecto al número de variables observadas, obser vadas, tamaño de muestra, número de grupos (poblaciones a las que se aplicará el mismo modelo) MA = matriz y KM = y el tipo de matriz que se usará ( MA = correlación). La tercera línea es similar a la segunda de Simplis. La cuarta la ubicación de la matriz de varianzas-cov varianzas-covarianzas arianzas asintótica (en este caso caso la matriz matriz se guardó guardó en el archivo archivo asin2h2.acm). asin2h2.acm). A partir de la siguiente línea y hasta la 15, se especica la forma de las matrices que contienen los parámetros libres, parámetros jos y nombre de las variables. En particular, a partir de la 12 se indica cuáles son las trayectorias que se van a estimar. Para Para poder especicar esp ecicar que son parámetros libres, la línea debe comenzar con la instrucción FR (free) (free) seguido de la lista de parámetros. Como ya se mencionó, en este ejemplo se tienen 24 variables observadas. Las siete primeras se asociaron con la única variable latente dependiente (compac) y las restantes 17 con alguna de las dos latentes independientes (calesc y capitec); en particular, las cinco primeras se asociarán con calesc y las siguientes siguien tes se 12 con capitec, Véase que en el código se hace referencia a LY , LX y y GA. LY se reere a la matriz que contiene las asociaciones entre variables latentes depen dientes y sus correspondientes observadas Y . LX es es la matriz de coecientes entre latentes independientes y observadas X observadas X y y GA entre latentes independientes y latentes dependientes. dep endientes. En este ejemplo, tenemos una única variable latente dependiente (compac) asociada a siete variables, por lo que LY (1,1) (1,1) a LY (7,1) (7,1) siempre muestra un uno en la segunda entrada y lo que varía es la primera, que va de uno a siete. siete. Por otro lado, lado, como las X ´s ´s están asociadas con latentes independientes, la numeración tiene que volver a comenzar desde uno. uno. De esta forma LX (1,1) (1,1) a LX (5,1) (5,1) son las trayectorias que van de calesc a X a X 1 y hasta X hasta X 5 y LX (6,2) (6,2) a LX (17,2) (17,2) las que van de capitec (segunda latente independiente) a hasta X 17. La instrucción VA VA indica qué parámetros se jaron. En este caso, X 6 y hasta X (4,1), LX (2,1) (2,1) y LX (7,2) (7,2) tomarán el valor de uno, y se puede corroborar en LY (4,1),
Sistema de ecuaciones estructurales: una herramienta de investigación
71
el diagrama, ya que las echas aparecen en gris y no en azul. Las últimas dos líneas solicitan el diagrama asociado ( PD =Path Diagram) y en la salida referida PD =Path como OU (output) que se muestren los residuos ( RS ), los l os efectos indirectos RS SS MI y totales ( EF ), la solución estandarizada estan darizada ( SS ) y los índices modicados ( MI ), ME ) que en este caso fue además de indicar el tipo de método de estimación ( ME WLS el de mínimos cuadrados ponderados ( WLS ). Aunque Aunq ue parece p arece complicada la notación, dibujar correctamente correctamen te el modelo evita estar revisando cada una de las líneas que se despliegan.
Una vez que se vericó la sintaxis, se elige el botón Run Lisrel ubicado ubicado en la parte superior de la pantalla. Automáticamente se despliega el modelo estimado y por medio de la opción Window (de (de la barra de menú) nos podemos mover al archivo de sintaxis y al de salida. El diagrama que Lisrel o Simplis despliegan después de estimar el modelo muestra por default los valores de las estimacio-
72
Cuaderno técnico
4
nes de los parámetros; sin embargo, también es posible desplegar otros valores como la solución estandarizada, los valores t, etcétera. t, etcétera. Para hacer este cambio se debe utilizar la opción de Estimates de Estimates que que se encuentra arriba de la cuadrícula, tal como se muestra a continuación:
Como el documento que contiene la salida con los resultados es extenso, se irán explicando los fragmentos más importantes y la forma más adecuada de interpretarlos. Las siguientes líneas permiten vericar que se han leído correctamente el número de variables X variables X , Y , η, ξ y el número de observaciones. Como se había comentado, el modelo consta de 24 variables observadas, de las cuales siete son son X , una es latente dependiente ( ETA ETA ) y dos son son latentes latentes independienindependienY , 17 son X tes ( KSI KSI ). ). El número número que nalmente nalmente conformó la muestra muestra fue fue de 908 hombres que tenían información en las 24 variables observadas (y no de 1075 como se declaró originalmente).
Sistema de ecuaciones estructurales: una herramienta de investigación
73
Number Number Number Number Number Number
of of of of of of
Input Variables 24 Y - Variables 7 X - Variables 17 ETA - Variables 1 KSI - Variables 2 Observations 908
La especicación de los parámetros ( parameter specications ) permite revisar que los parámetros que queremos estimar son los correctos. Siempre que aparezca un número diferente de cero, indicará que es libre. En el ejemplo, se estimaron 51 parámetros. El parámetro 25 indica que se debe estimar la correlación entre calesc y capitec contenido en la matriz PHI.
Figura 10. Correlación entre calesc y capitec ►
74
Cuaderno técnico
4
Figura 10.
La salida también especica cuántas iteraciones se realizaron para llegar a la solución nal (para este ejemplo fueron 24). Por otro lado, despliega los parámetros estimados. Por ejemplo, la primera entrada de LAMBDA-Y indica en primer lugar el valor del coeciente de asociación entre compac y theta (0.70), debajo de este valor aparece entre paréntesis el error estándar (0.04) y debajo de éste el valor t (16.16). Los 51 parámetros resultaron estadísticamente signicati vos (el valor t se ubica por fuera del intervalo (-2, 2)), por lo que se pueden considerar parámetros diferentes de cero. Como se jaron los parámetros que van de compac a con_ent, de calesc a pre_com y de capiteco a ser_lav, éstos aparecen con un uno y consecuentemente no hay error estándar ni valor t. Por otro lado, el signo que presenta el coeciente depende en gran medida de la forma en la que se codicaron las categorías de la variable. Por ejemplo, véase que cal_tar presenta un coeciente positivo. Esta variable está categorizada de la siguiente
Sistema de ecuaciones estructurales: una herramienta de investigación
75
forma: 1, deciente; 2, regular; 3, buena, y 4, excelente. En este caso es coherente que a mayor calidad de la tarea entregada (mayor valor en la categoría) mayor sea su compromiso académico. Otro ejemplo es el coeciente asociado a ma_ tar, el cual es negativo. Esta variable está categorizada así: 1, ninguno; 2, menos de la mitad; 3, la mitad; 4, más de la mitad, y 5, todos. Como esta variable hace referencia a la cantidad de maestros que llegaban tarde a clase en el último año de secundaria, es perfectamente justicado que a mayor cantidad de maestros faltistas (mayor valor de la categoría) menor sea la calidad de la escuela. Estos dos ejemplos muestran cómo la forma de codicar puede repercutir en el signo del coeciente, por lo que se deberá poner especial atención en ello. Se reitera que una de las asociaciones más importantes de este modelo es la habilidad del sustentante (theta), por lo que se hará énfasis en algunos de sus resultados.
Figura 11. Habilidad del sustentante ►
76
Cuaderno técnico
4
Figura 11. ►
Sistema de ecuaciones estructurales: una herramienta de investigación
Figura 11. ►
77
Figura 11.
78
Cuaderno técnico
4
Posteriormente, se despliegan los índices que permitirán evaluar la bondad de ajuste del modelo. El valor p asociado a la ji-cuadrada (1374.97, p = 0.0) aporta evidencia para decir que el modelo propuesto no está ajustando adecuadamente a los datos. Los índices de ajuste GFI y AGFI obtuvieron valores superiores al 0.90, mientras que el RMSEA y el RMR fueron superiores al 0.05 (lo que no es deseable). En relación con los índices de ajuste de incremento, el NFI, NNFI, CFI, IFI y RFI mostraron valores por debajo del 0.85. El ECVI y el AIC indican que el modelo saturado es mejor en ajuste que el modelo que se propuso, aunque el propuesto es mejor que el de independencia. Finalmente, el CAIC, indica que el modelo propuesto es mejor en ajuste que el saturado y el de independencia. Estos resultados, permiten concluir que el modelo propuesto para la población masculina no está ajustando adecuadamente a los datos, ya que la mayoría de los índices mostraron valores inferiores al punto de corte deseado. Cabe mencionar, que un modelo puede presentar parámetros muy signicativos y un ajuste muy pobre, parámetros no signicativos y buen ajuste, parámetros no signicativos y ajuste pobre o parámetros muy signicativos y buen ajuste. En este caso, estamos ante el primer escenario.
Sistema de ecuaciones estructurales: una herramienta de investigación
79
Figura 12. Ajuste del modelo Goodness of Fit Statistics Degrees of Freedom = 249 Minimum Fit Function Chi-Square = 1374.97 (P = 0.0) Estimated Non-centrality Parameter (NCP) = 1125.97 90 Percent Condence Interval for NCP = (1013.34 ; 1246.08) Minimum Fit Function Value = 1.52 Population Discrepancy Function Value (F0) = 1.24 90 Percent Condence Interval for F0 = (1.12 ; 1.37) Root Mean Square Error of Approximation (RMSEA) = 0.071 90 Percent Condence Interval for RMSEA = (0.067 ; 0.074) P-Value for Test of Close Fit (RMSEA < 0.05) = 0.00 Expected Cross-Validation Index (ECVI) = 1.63 90 Percent Condence Interval for ECVI = (1.50 ; 1.76) ECVI for Saturated Model = 0.66 ECVI for Independence Model = 7.17 Chi-Square for Independence Model with 276 Degrees of Freedom = 6452.46 Independence AIC = 6500.46 Model AIC = 1476.97 Saturated AIC = 600.00 Independence CAIC = 6639.93 Model CAIC = 1773.34 Saturated CAIC = 2343.37 Normed Fit Index (NFI) = 0.79 Non-Normed Fit Index (NNFI) = 0.80 Parsimony Normed Fit Index (PNFI) = 0.71 Comparative Fit Index (CFI) = 0.82 Incremental Fit Index (IFI) = 0.82 Relative Fit Index (RFI) = 0.76 Critical N (CN) = 201.43 Root Mean Square Residual (RMR) = 0.11 Standardized RMR = 0.11 Goodness of Fit Index (GFI) = 0.95 Adjusted Goodness of Fit Index (AGFI) = 0.94 Parsimony Goodness of Fit Index (PGFI) = 0.79
80
Cuaderno técnico
4
Los residuos estandarizados son otra forma de evaluar el ajuste del modelo. Lisrel despliega la matriz de residuos estandarizados como se muestra a continuación. Los residuos no aportan mucha información si los errores no siguen una distribución normal. A pesar de que en este caso aproximadamente 24% de ellos se ubicaron por fuera del intervalo deseado (-2,2), no los utilizaremos para la evaluación del modelo debido a que no se cumple el supuesto de normalidad.
Figura 13. Residuos estandarizados ►
Sistema de ecuaciones estructurales: una herramienta de investigación
81
Figura 13. ►
82
Cuaderno técnico
4
Figura 13.
Sistema de ecuaciones estructurales: una herramienta de investigación
83
Posteriormente, se despliegan en forma matricial los índices modicados. Con respecto a las trayectorias entre factores independientes y variables obser vadas, se puede observar que el mayor decremento esperado en la ji-cuadrada se podría dar si se considerara la trayectoria de capitec a ma_tar (una disminución de 91.28) y la de capitec a exi_esc (una disminución de 51.27). Sin embargo, a pesar de que Lisrel sugiere estos cambios, es el criterio del investigador el que juega un papel importante para determinar si estas modicaciones pueden sustentarse teóricamente.
Figura 14. Índices modificados ►
84
Figura 14.
Cuaderno técnico
4
Otra forma de reportar los coecientes asociados a las trayectorias del mo delo es por medio de valores estandarizados. Esto es deseable cuando se quiere comparar la magnitud de los coecientes. Cabe mencionar que las trayectorias jadas en uno cambian debido a esta estandarización; sin embargo, es recomendable reportar el valor jado (en este caso es de uno) para ser consistentes con las especicaciones iniciales.
Figura 15. Valores estandarizados ►
Sistema de ecuaciones estructurales: una herramienta de investigación
Figura 15.
85
Otra opción que se despliega son los efectos indirectos y totales. En este caso, únicamente tenemos efectos indirectos de los factores independientes calesc y capitec a las variables observadas asociadas al factor dependiente compac. Estos se muestran matricialmente y, de igual forma que con los coecientes, se despliega el coeciente, el error estándar y el valor t . En este ejemplo, todos los efectos indirectos resultaron estadísticamente signicativos (diferentes de cero). En particular, los efectos indirectos de calidad de la escuela (calesc) y capital económico (capitec) a la habilidad del sustentante (theta) fueron estadísticamente signicativos e indican que a mayor calidad de la escuela y a mayor capital económico, mayor es la habilidad del sustentante.
Figura 16. Efectos indirectos y totales
86
Cuaderno técnico
4
A manera de conclusión, podemos mencionar que el ajuste de este modelo fue muy pobre considerando la magnitud de los índices, a pesar de que las variables asociadas a cada uno de los factores presentaron fuertes asociaciones, en particular para la variable de interés habilidad del sustentante (theta). Presentado en una población masculina, este modelo se estimó para una población femenina. Se presenta la salida del modelo y algunos comentarios. Para este ejemplo, la muestra nal se constituyó por 971 mujeres, aunque la base era originalmente de 1144. El programa requirió de 38 iteraciones para llegar a la solución nal y, al igual que en el primer modelo, los 51 parámetros resultaron estadísticamente signicativos (diferentes de cero). Los índices de bondad de ajuste mostraron los siguientes resultados. El valor p asociado a la ji-cuadrada (2005.20, p = 0.0) aportó evidencia en contra del modelo propuesto, lo que indicaría que el modelo no está ajustando adecuadamente a los datos. Sin embargo, los índices GFI, AGFI, NFI, NNFI, CFI, IFI y RFI presentaron valores superiores al 0.90. ECVI, AIC y CAIC indicaron que el modelo propuesto es mejor que el de independencia pero no que el saturado. Estos valores en conjunto aportan evidencia para concluir que el modelo ajusta relativamente bien a los datos. Aproximadamente, 30% de los residuos estandarizados estaban fuera del intervalo (-2, 2); sin embargo, este resultado no se utilizará para evaluar el ajuste del modelo debido a que no se cumple el supuesto de normalidad de los errores como en el caso del modelo para población masculina. Los índices modicados mostraron que el mayor decremento en la ji-cuadrada se daría si se considerara la trayectoria entre capitec y exi_esc, ya que se registraría una disminución de aproximadamente 74.56 en la ji-cuadrada. Todos los efectos indirectos de calesc y capitec a las variables Y resultaron estadísticamente signicativos (diferentes de cero); especícamente, los que desembocan a la habilidad del sustentante (theta) indican que a mayor calidad de la escuela y a mayor capital económico mayor es la habilidad del sustentante.
Sistema de ecuaciones estructurales: una herramienta de investigación
87
Se puede concluir, con respecto a este modelo para población femenina, que el ajuste fue bueno, además de obtener parámetros estadísticamente signicati vos. Esto sugiere, además, que el modelo propuesto tiene mejores resultados en población femenina que en masculina.
Figura 17. Modelo con tres factores en población femenina ►
88
Cuaderno técnico
4
Figura 17. ►
Sistema de ecuaciones estructurales: una herramienta de investigación
Figura 17. ►
89
Figura 17. ►
90
Cuaderno técnico
4
Figura 17. ►
Sistema de ecuaciones estructurales: una herramienta de investigación
91
Figura 17. ►
92
Cuaderno técnico
4
Figura 17. ►
Sistema de ecuaciones estructurales: una herramienta de investigación
93
Figura 17. ►
94
Cuaderno técnico
4
Figura 17. ►
Sistema de ecuaciones estructurales: una herramienta de investigación
Figura 17. ►
95
Algunas recomendaciones finales 1.
2.
3.
4.
5.
6.
96
Procúrese guardar los archivos en carpetas que no tengan nombres muy largos. En caso de no poder evitarlo, siempre se debe vericar en el código del programa (sintaxis) que la dirección no aparezca incompleta y, en su caso, se deberá completar la secuencia. Téngase presente que cuando se utilice el método de estimación de mínimos cuadrados ponderados ( WLS ) y el de máxima verosimilitud robusto, se deberá calcular previamente la matriz de varianzas-covarianzas asintótica. Siempre que el modelo contenga variables categóricas, se tiene que calcular la matriz de correlaciones policóricas. Al momento de plantear un modelo, téngase presente cuáles son parámetros estimables y cuáles no, para evitar problemas de identicabilidad. Deben generarse bases de datos que contengan únicamente las variables que se van a utilizar en el análisis. De preferencia se ordenarán las variables de tal forma que consecutivamente se muestren las que fungirán como X y luego las Y o viceversa, ya que esto hará más fácil la revisión de la sintaxis. Procúrese hacer uso del comando Help.
Cuaderno técnico
4
Bibliografía
Bollen, K. (1989). Structural Equations with Latent Variables, 1a. ed., New York: John Wiley & Sons. Boomsma, A. (1985). Nonconvergence, improper solutions and starting values in Lisrel maximum likelihood estimation, Psychometrika, 50, 229-242. DuToit, M. & DuToit S. (2001) Interactive Lisrel: User’s Guide, 2a. ed., Lincolnwood, IL: Scientic Software International, Inc. Everitt, B., S. (1984). An introduction to latent variable models, 1a. ed., New York: Chapman and Hall. Jöreskog, K. G. (2001). Lisrel 8: User´s Reference Guide, 2a. ed., Lincolnwood, IL: Scientic Software International, Inc. Hägglund, G. (1985). Factor analysis by instrumental variable method, Psycho- metrica, 47, 209-222. Jöreskog, K. G. (1973). A general method for estimating a linear structural equation system. En A. S. Goldberger & O. D. Duncan (eds.), Structural Equations Models in the Social Sciences, pp. 85-112, New York: Academic Press. Keesling, M. G. (1972). Maximum Likelihood Approaches to Causal Analysis . Ph.D. dissertation.: University of Chicago: Department of Education. Loehlin, J. C. (1992). Latent variable models: an introduction to factor, path and structural analysis, 2a. ed., Mahwah, NJ: Lawrence Erlbaum Associates Publishers. Muthén, B. (1977). Some results on using summed raw scores and factor scores from dichotomous item in the estimation of structural equations models. Unpublished Technical Report, University of Uppsala, Sweden. Recuperado en enero del 2009, de http://www.gseis.ucla.edu/faculty/muthen/articles/ Muthen_Unpublished_01.pdf Quiroga, A, .M. (1992). Studies of the Polychoric Correlation and Other Correlation Mea - sures for Ordinal Variables. PhD Dissertation : Uppsala University: Department of Statistics.
Sistema de ecuaciones estructurales: una herramienta de investigación
97
Sörbom, D. (1974). A general method for studying differences in factor means and factor structures between groups. Brithish Journal of Mathematical and Sta- tistical Psycholog y, 27, 229-239. Wiley, D. E. (1973). The identication problem for structural equation models with unmeasured variables. En A. S. Goldberger & O. D. Duncan (eds.), Stru- crural Equations Models in the Social Sciences, pp. 69-83, New York: Academic Press. Willet, J., B, & Sayer, A. G. (1994). Using covariance structure analysis to detect correlates and predictors of individual change over time, Psychological Bulletin, 116: 363-381. Wright, S. (1934). The method of path coefcients, Annals of Mathematical Sta- tistics, 5: 161-215. Yang-Wallentin, F. (1997). Non-linear structural equation models: Simulation studies of the Kenny-Judd model. Studia Statistica Upsaliensia, 4, Uppsala: University of Uppsala.
98
Cuaderno técnico
4
El Centro Nacional de Evaluación para la Educación Superior es una asociación civil sin nes de lucro constituida formalmente el 28 de abril de 1994, como consta en la escritura pública número 87036 pasada ante la fe del notario 49 del Distrito Federal. Sus órganos de gobierno son la Asamblea General, el Consejo Directivo y la Dirección General. Su máxima autoridad es la Asamblea General, cuya integración se presenta a continuación, según el sector al que pertenecen los asociados, así como los porcentajes que les corresponden en la toma de decisiones: Asociaciones e instituciones educativas (40%): Asociación Nacional de Universidades e Instituciones
de Educación Superior, A.C. ( ANUIES ); Federación de Instituciones Mexicanas Particulares de Educación Superior, A.C. ( FIMPES ); Instituto Politécnico Nacional ( IPN ); Instituto Tecnológico y de Estudios Superiores de Monterrey ( ITESM ); Universidad Autónoma del Estado de México ( UAEM ); Universidad Autónoma de San Luis Potosí ( UASLP ); Universidad Autónoma de Yucatán ( UADY ); Universidad Nacional Autónoma de México ( UNAM ); Universidad Popular Autónoma del Estado de Puebla ( UPAEP ); Universidad Tecnológica de México ( UNITEC ). Asociaciones y colegios de profesionales (20%): Barra
Mexicana Colegio de Abogados, A.C.; Colegio Nacional de Actuarios, A.C.; Colegio Nacional de Psicólogos, A.C.; Federación de Colegios y Asociaciones de Médicos Veterinarios y Zootecnistas de México, A.C.; Instituto Mexicano de Contadores Públicos, A.C. Organizaciones productivas y sociales (20%): Academia de Ingeniería, A.C.; Academia Mexicana de
Ciencias, A.C.; Academia Nacional de Medicina, A.C.; Fundación ICA, A.C. Autoridades educativas gubernamentales (20%): Secretaría de Educación Pública. •
•
•
•
•
•
•
Ceneval, A.C.®, EXANI-I®, EXANI-II® son marcas registradas ante la Secretaría de Comercio y Fomento Industrial con el número 478968 del 29 de julio de 1994. EGEL®, con el número 628837 del 1 de julio de 1999, y EXANI-III ®, con el número 628839 del 1 de julio de 1999. Inscrito en el Registro Nacional de Instituciones Cientícas y Tecnológicas del Consejo Nacional de Ciencia y Tecnología con el número 506 desde el 10 de marzo de 1995. Organismo Certicador acreditado por el Consejo de Normalización y Certicación de Competencia Laboral ( CONOCER ) (1998). Miembro de la International Association for Educational Assessment. Miembro de la European Association of Institutional Research. Miembro del Consortium for North American Higher Education Collaboration. Miembro del Institutional Management for Higher Education de la OCDE.
La publicación de esta obra la realizó el Centro Nacional de Evaluación para la Educación Superior, A.C. Se terminó de imprimir el 17 de abril de 2009 en los talleres de Winkilis, Bugambilias 131, Col. El Rosario, México, D.F., C.P. 09930, con un tiraje de 500 ejemplares