1
CAPÍTULO 14 EL A NÁLISIS FACTORIAL CONFIRMATOR CONFIRMATORIO IO Dr. José Moral de la Rubia Profesor investigador de la Facultad de Psicología. UANL ÍNDICE XI.1 INTRODUCIÓN ...................................................................................... ............................................................................................................................... ......................................... 2 XI.1.1 Definición del modelo del AFC .............................................................................. ............................................................................................... ................. 2 XI.1.2 Utilidad del AFC........................................................................... AFC ...................................................................................................................... ........................................... 3 XI.1.3 Supuestos del AFC.................................................................................... AFC ................................................................................................................. ............................. 3 XI.1.4 Tipos de de variables variables en el modelo modelo ................................................................................ ................................................................................................. ................. 3 XI.1.5 Pasos para la ejecución ejecución del AFC............................................................................................ AFC............................................................................................ 3 XI.2 EL CÁLCULO DEL ANÁLISIS ANÁLISIS FACTORIAL CONFIRMATORIO CONFIRMATORIO CON STATISTICA..................... STATISTICA..................... 4 XI.2.1 Archivos de datos datos ....................................................................................... ................................................................................................................... ............................ 4 XI.2.2 La definición definición del modelo modelo........................................................................... ......................................................................................................... .............................. 6 XI.2.2.1 La definición del modelo con el lenguaje de sintaxis ( Path1) ........... ................. ........... ........... ........... ........... ........... ..... 7 IX.2.2.2 Definición del modelo con Path wizard .............................................................................. 8 XI.2.2.3 Definición del modelo con Path tool .............................................................................. ................................................................................... ..... 8 XI.2.2.4 Definición del modelo con un diagrama de senderos ( Path diagram) ........... ................. ............ ............ ...... 10 XI.3 PARÁMETROS DEL MODELO Y MÉTODOS DE ESTIMACIÓN DE LA FUNCIÓN DE DISCREPANCIA......................................................................................................................................... DISCREPANCIA....................................................................... .................................................................. 10 XI.3.1 Tipos de datos datos para el análisis análisis (Data to analysis)................................................................ 11 IX.3.2 Opciones de resultados resultados (Output (Output options) options) ............................................................................. 12 XI.3.3 Métodos de estimación de la función función de discrepancia (Discrepancy (Discrepancy function).................... 12 XI.3.4 Criterios de convergencia convergencia (Convergency (Convergency criteria) criteria) ................................................................ 13 XI.3.5 Parámetros Parámetros globales de iteración (Global (Global iteration parameters) parameters) .......................................... 13 IX.3.6 Valores iniciales iniciales (Inicial (Inicial values)............................................................................................ values)............................................................................................ 14 IX.3.7 Estandarización Estandarización de valores valores (Standarization) (Standarization)........................................................................ ........................................................................ 14 IX.3.8 Variables manifiestas exógenas (Manifiest exogenous) exogenous) ...................................................... 14 XI.3.9 Método de búsqueda del parámetro o línea del vector de los parámetros a modificar (Line search method) .................................................................................. ...................................................................................................................................... .................................................... 14 XI.3.10 Tipo de parámetros sobre los que se aplica el método de búsqueda (Line Search parameters) parameters).......................................................................... ............................................................................................................................................ .................................................................. 15 XI.4 CONTRASTE DE LA NORMALIDAD MULTIVARIADA................................................................ 15 XI.5 ESTADÍSTICOS DE MEJORA MEJORA DEL MODELO ............................................................................. 15 XI.5.1 Estadísticos del del multiplicador multiplicador de Lagrang Lagrange e .......................................................................... 16 XI.5.2 Significación de los parámetros parámetros finales ................................................................................ 16 XI.6 ESTADÍSTICOS DE AJUSTE .................................................................................... ....................................................................................................... ................... 16 XI.6.1 Estadísticos básicos ............................................................................................ ............................................................................................................. ................. 17 XI.6.2 Índices de ajuste de no centralidad centralidad ...................................................................................... 18 XI.6.3 Índices de bondad bondad de ajuste para una una muestra simple simple........................................................ ........................................................ 18 XI.7 EVALUACIÓN DEL DEL AJUSTE A TRAVÉS DE LAS LAS CORRELACIONES CORRELACIONES RESIDUALES RESIDUALES ............... 20 XI.8 APLICACIÓN DEL AFC................................................................................. AFC................................................................................................................. ................................ 21 XI.8.1 Aplicación del del AFC en una sola sola muestra.............................................................................. muestra.............................................................................. 21 XI.8.1.1 Especificación del del modelo de 3 factores factores relacionados relacionados (3D) para la TAS-20 TAS-20................... ................... 21 IX.8.1.2 Información sobre sobre las iteraciones iteraciones para el modelo modelo 3D ...................................................... 22 IX.8.1.3 Parámetros Parámetros finales del modelo modelo 3D 3D ................................................................................... 23 XI.8.1.4 Estadísticos básicos básicos para para el modelo 3D .......................................................................... 25 XI.8.1.5 Estadísticos de no centralidad centralidad para el el modelo 3D........................................................... 26 XI.8.1.6 Estadísticos de ajuste ajuste de una sola muestra para el modelo modelo 3D...................................... 3D ...................................... 26 XI.8.1.7 Estadísticos del multiplicador multiplicador de de LaGrange LaGrange para el modelo 3D ...................................... 27 XI.8.1.8 Contraste de supuestos (normalidad (normalidad multivariada a través de la simetría y la kurtosis) para el modelo 3D ...................................................................................... ............................................................................................................................. ....................................... 27 XI.8.1.9Residuos o diferencia entre la matriz de correlación inicial y la estimada para el modelo 3D .................................................................................................................................................... ............................................................................. .............................................................................. ....... 29 XI.8.1.10 Comparación Comparación entre entre los 8 modelos ............................................................................... 30 XI.8.2 Aplicación del del AFC a varias varias muestras de distinta distinta población................................................ población................................................ 31 XI.8.3 Aplicación del del AFC a la misma muestra muestra tomada tomada en distintos distintos momentos............................. momentos............................. 32 EJERCICIOS PROPUESTOS.................................................................................................................…34 REFERENCIAS BIBLIOGRÁFICAS.......................................................................................................... BIBLIOGRÁFICAS............................................................................................................ 44
2
RESUMEN El capítulo inicia con la definición del modelo del Análisis Factorial Confirmatorio (AFC), sus supuestos, la utilidad de esta técnica, los pasos necesarios para su aplicación y el tipo de variables que requiere. La exposición continúa apoyándose fundamentalmente en las posibilidades de cálculo de módulo SEPATH de STATISTICA versión 6. Se presenta como transformar archivos de datos de SPSS (.sav) para que sean leídos por STATISTICA, al grabarlos como SPSS portable (.por) . Se muestra como definir el modelo teórico con las herramientas del programa y el lenguaje de texto, expresar un modelo en un diagrama y cómo realizar los cálculos tanto desde archivo de datos como desde una matriz de correlaciones, varianzas-covarianzas o momentos. Se prosigue con los métodos de minimización de la función de discrepancia y estimación de parámetros y con las especificaciones en referencia a las iteraciones, pasos, métodos de búsqueda y parámetros para el avance iterativo. Se desarrollan los índices de ajuste del modelo: 3 estadísticos básicos (estadístico χ2 de ajuste al modelo teórico, el valor de la Función de Discrepancia, y el residuo estandarizado cuadrático medio), 12 índices de bondad de ajuste para una muestra simple entre ellos el índice general de ajuste corregido de Jöreskog y 5 índices de no centralidad entre ellos la raíz cuadrada de la media de los errores de aproximación de SteigerLind, el índice gamma poblacional ajustado y el índice de no centralidad de McDonald. Asimismo, se exponen los índices de mejora del modelo (significación de los parámetros finales del modelo y estadísticos del multiplicador de LaGrange), y el contraste del supuesto de normalidad multivariada a través de índices de simetría y kurtosis de las variables manifiestas. Se ejemplifica la aplicación e interpretación del programa por medio de tres casos importante en el desarrollo de escalas: el establecimiento de la validez de constructo a través de la confirmación de una estructura factorial, la estabilidad de la solución en muestras de distinta población como hombres y mujeres, y la estabilidad de la solución en la misma muestra tomada en momentos distintos, en un retest de la escala a los 6 meses; contemplando en los tres casos modelos alternativos. Finalmente, se sugieren ocho ejercicios para ejecutar con STATISTICA versión 6 en referencia a una estructura de tres factores relacionados para las escalas clínicas del MMPI en una muestra y en dos muestras de distinta población (hombres y mujeres), en referencia a una estructura unidimensional para las 6 escalas del DAT en una muestra y en dos muestras de distinta población (hombres y mujeres) y en referencia a la estabilidad de la matriz de correlaciones y la estructura unidimensional de tres medidas de inteligencia tomadas en dos momentos distintos. A tal fin se suministran archivos (.sta) y matrices de correlación para la realización de los cálculos y la replica de los ejemplos mostrados. XI.1
INTRODUCIÓN
XI.1.1 XI.1.1 Definici ón del modelo del del AFC Como técnica factorial parte del supuesto de la descomposición de la varianza de las variables en factores comunes y factores únicos, es decir, en varianza común (comunalidad) y única (unicidad), pero es muy flexible en las especificaciones. Así, cada factor va a estar constituido sólo por algunos elementos, no por la combinación lineal de todas las variables; y puede correlacionar con algunos de los otros factores. Asimismo, los errores pueden correlacionar entre sí y en las correcciones al modelo, alguno de ellos se pueden eliminar si no es significativo. Los principales objetivos del análisis factorial confirmatorio son poner a prueba una estructura factorial postulada en base a una teoría o pronosticada en base a resultados anteriores, mostrar la estabilidad de esa estructura factorial en muestras procedentes de distintas poblaciones (como de distintos países, estratos sociales, niveles educativos, hombres y mujeres, clínica y población general) y la comprobar estabilidad de la estructura factorial en el tiempo. A tal fin se crea una función diferencial para estimar los parámetros del modelo desde los datos minimizando su discrepancia con los parámetros teóricos a los que se ha traducido el modelo. Los métodos de estimación de la función de discrepancia emplean procesos iterativos hasta alcanzar unos criterios de convergencia. Sobre la solución obtenida, se calculan una serie de estadísticos para informar sobre la calidad del ajuste al modelo y sobre la significación de los parámetros finales. Su base matemática es el cálculo matricial, empleando funciones estructurales estructurales lineales y no lineales. Inicialmente, se desarrolló la técnica partiendo de la matriz de varianzas-covarianzas, de ahí que los programas de estadísticos para AFC tengan esta opción por defecto. No obstante, pronto se crean algoritmos de cálculo para la matriz de correlaciones (Cudeck, 1989). El cálculo del AFC se puede realizar a través de varios paquetes estadísticos como AMOS para IBM/PC (Arbuckle, 1988), LISREL para SPSS (Joreskog y Sorbom, 1989), Structural Equations Program (EQS) para BMDP (Bentler, 1989), Covariance Analysis and Linear Structural equations (CALIS) para SAS/STAT (Hartmann, 1992) y SEPATH para el STATISTICA. En este capítulo vamos a ver esta técnica a través de STATISTICA versión 6.
3
XI.1.2 XI.1.2 Utili dad del AFC Jöreskog y Sörbom (1989), que figuran entre los creadores de esta técnica, parte del concepto de conocimiento acumulado en la ciencia. Hablan de una fase descriptiva donde se podría aplicar el análisis factorial exploratorio para estudiar la relación entre un conjunto de medidas interrelacionadas y una fase explicativa en la que ya existiría un modelo o una teoría sobre la relación entre dichas variables que se podría a prueba con el análisis factorial confirmatorio. Asimismo, es útil para confirmar y consolidar una estructura empírica, sobre la cual se harán desarrollos teóricos posteriores. Actualmente, se considera que el análisis factorial confirmatorio confirmatorio constituye la mejor herramienta herramienta para contrastar la validez de constructo de un instrumento, no sólo contemplando las dimensiones subyacentes, sino la estructura de relaciones con otros constructos en base a las predicciones teóricas y la estabilidad del constructo o estructura factorial en distintas poblaciones poblaciones y en el tiempo. XI.1.3 XI.1.3 Supuestos del AFC El requisito más fuerte del análisis factorial confirmatorio es la aleatoriedad y tamaño grande de la muestra. Idealmente se debería aplicar sobre muestras probabilísticas para realizar inferencias paramétricas. Se considera inadecuado aplicarlo a muestra menores a 200 sujetos. Tiene la ventaja que es más flexible respecto a la normalidad multivariada, en cuanto que existen alternativas de método para distribuciones asimétricas (ADFG y ADFU). Naturalmente, la interdependencia de las variables habrá de ser alta reflejando multicolinealidad. En caso contrario, no tiene sentido factorizar. Como las técnicas factoriales exploratorias requiere variables medidas en escala numérica (de intervalo o razón) con instrumentos instrumentos fiables y válidos. Hemos de señalar que el requisito de escala métrica para las variables, en psicometría es frecuentemente violado. Las variables ordinales con más de 9 niveles, asumiendo un supuesto de continuidad, se suelen manejar a nivel estadístico como de intervalo. No obstante, la técnica se aplica sobre reactivos tipo Likert que tienen un recorrido menor a 9 puntos. Al ser escasa la pérdida de potencia estadística, se justifica su empleo (Flora y Curran, 2004). 2004). No obstante, el AFC ofrece una alternativa para datos ordinales con una asunción de continuidad que son los métodos de estimador asintóticamente libre de distribución. Con dos variantes una de estimador gramiano (ADFG) y otra de estimador insesgado (ADFU) (Browne 1982, 84). Son métodos de estimación de la función de discrepancia menos sensibles que los basados en distribución normal multivariada y tienden a rechazar más la hipótesis nula de equivalencia entre los datos y el modelo. Así, finalmente se siguen empleando más con las escalas Likert los otros métodos como mínimos cuadrados generalizados (GLS) y máxima verosimilitud (ML). XI.1.4 XI.1.4 Tipos de variables en en el modelo A la hora de crear un modelo hay que distinguir entre variables manifiestas, que son aquellas cargadas en el archivo de datos y las variables latentes que son las variables creadas por el programa a partir de las variables manifiestas bajo las especificaciones introducidas al definir el modelo. Dentro de las variables latentes podemos distinguir factores y residuos. Los factores determinan el valor de al menos 2 variables y los residuos es la parte de la varianza no determinada ni por los factores ni otras variables manifiestas. Corresponden al concepto de factor único asociado a cada variable manifiesta. En los programas de sintaxis cada residuo es contemplado como una variable latente que determina a una variable manifiesta. El programa STATISTICA versión 6 limita el número de factores a un máximo de 9. No obstante, permite tanto errores como variables manifiestas se manejen. A su vez, se distingue entre variables endógenas y exógenas. Las primeras están determinadas por otras variables bajo una relación causal y las segundas están relacionadas con otras variables, pero ninguna relación la determina de forma causal, así son relaciones de covarianza o de correlación. XI.1.5 XI.1.5 Pasos para para la ejecució n del del AFC 1. Definir el modelo factorial. factorial . Como primer paso tenemos que definir el modelo teórico de determinación y asociación de elementos que queremos poner a prueba. Una de las mayores ventajas de esta prueba es su flexibilidad. Así podemos especificar cuáles variables manifiestas están determinadas por qué factor o factores, qué factores se relacionan entre sí, sí alguna variable manifiesta carece de factor único, si algunos factores únicos correlacionan con otros elementos del modelo, si hay variables manifiestas exógenas y con qué elementos se relacionan. Esto implica establecer el número de factores, qué elementos lo integran, el número de residuos o factores únicos, como se relacionan los factores y como se relacionan los residuos. El total de elementos contemplados nos da el número de parámetros del modelo. El valor de los parámetros se puede dejar en fluctúe libremente que es lo más común. También, se puede establecer ciertas especificaciones de valor
4
como equivalencias entre ciertos parámetros (por ejemplo cuando se contrasta la misma estructura factorial en distintos momentos o en muestras de distintas poblaciones), que ciertos parámetros sean nulos o con un valor específico. 2. Capturar los datos de las variables. Se han de seleccionar medidas fiables y válidas en una escala numérica. Se han de contemplar mínimo dos variables manifiestas por factor y de preferencia al menos tres. 3. Obtener la matriz de varianzas-covarianzas, varianzas-c ovarianzas, de correlaciones o momentos. Como técnica factorial podemos partir de la matriz de correlación que resuelve el problema de diferencias de recorrido entre las escalas de medida empleadas y hace más fácil interpretar muchos de los índices de ajuste. No obstante, se ha de señalar que las primeras aplicaciones fueron desde la matriz de varianzascovarianzas. Asimismo, se puede introducir constantes en el modelo, empleando a tal fin las medias de las variables y la matriz de varianzas-covarianzas. En este último caso hablamos de momentos. La puntuación estandarizada en una variable manifiesta no sólo vendría predicha por la combinación lineal de la puntuación en el factor común multiplicada por su carga factorial y la varianza del factor único, sino también por una constante. 4. Seleccionar el método de factorización y contraste de ajuste entre los datos observados y los datos pronosticados por el modelo. El procedimiento de ajuste más empleado es el de Máxima verosimilitud (ML) que requiere que se cumpla el supuesto de normalidad multivariada. En caso contrario se puede optar por los dos métodos de estimación asintótica libre de distribución Asymtotically distribution free estimation). El programa STATISTICA por defecto emplea una ( Asymtotically combinación secuenciada de dos métodos. Realiza las primeras 5 iteraciones por Mínimos cuadrados generalizados (GLS) y prosigue por Máxima verosimilitud (ML) hasta que alcanza la convergencia bajos los parámetros de convergencia especificados, salvo que ésta se logre antes. 5. Evaluar la adecuación del modelo. A tal fin nos fijamos, por una parte, en los diversos índices de ajuste (especialmente el residuo estandarizado cuadrático medio, el residuo medio de los errores de estimación, el índice gamma poblacional ajustado y el índice de bondad de ajuste corregido de Jöreskog); y por otra parte, en la significación de los parámetros estimados de los elementos del modelo y en los estadísticos del multiplicador de LaGrange de las variables manifiestas. Toda variable manifiesta endógena tiene que presentar un parámetro estimado significativo dentro de la variable latente que la determina y un estadístico de LaGrange asociado nulo. En caso contrario, indica que las especificaciones para dicha variable manifiesta debe ser revisadas. 6. Comparar con otros modelos alternativos. alternativ os. Calcular de forma secuencial otros modelos desde los índices de mejora de ajuste, así como otros modelos teóricos competitivos, para finalmente optar por uno de ellos o desecharlos todos. El potencial interpretativo de muchos de los índices de ajuste se halla en comparar su valor entre los distintos modelos aplicados. XI.2
EL CÁLCULO CÁL CULO DEL ANÁLISIS ANÁ LISIS FACTORIAL FACTORIA L CONFIRMATORIO CON STATISTICA
XI.2.1 XI.2.1 Archivo Arc hivoss de datos Para crear un archivo de datos con el programa STATISTICA versión 6, podemos seguir los siguientes pasos: Abierto el programa, arriba en la barra de menú, encontramos File que nos da acceso a la opción New. Poniendo el cursor sobre la misma presionamos el botón derecho del ratón y se abre la pantalla para la creación de archivos. Ésta tiene varias pestañas. Por defecto está activa Spreadsheet que es para datos. Se nos pregunta por el número de variables que aparecerán en las columnas y el número de casos que aparecerán en las filas. Por defecto aparecen 10 filas y 10 columnas. Con los botones de flecha que se hallan en el extremo derecho de las ventanas podemos aumentar ( ↑) o disminuir ( ↓) este número. Indicado el número de variables y casos, presionamos al botón de Continue . Así, se crea una pantalla para la captura de datos. En el menú principal, en File tenemos la opción de guardar como (save as) para poner el nombre al archivo. Por defecto aparece la extensión final . sta que indica al programa que se trata de un archivo de datos. En vez de crear el archivo, si ya lo tenemos capturado en SPSS, podemos proceder a importarlo. A tal fin, primero abrimos el archivo con el SPSS y en File vamos a Save as. Abierta la pantalla seleccionamos el archivo con el cursor del ratón. Hecho esto su nombre y el tipo de archivo aparecerán en las dos ventanas de abajo. Procedemos a cambiar el tipo de archivo: de SPSS (*.sav) a SPSS portable (*.por) . Le ponemos dejar el mismo nombre o poner otro distinto. Finalmente, presionamos en el botón de guardar ( Save) y ya queda como un nuevo archivo exportable que el programa STATISTICA 6 puede leer sin ningún problema. Cerramos el programa SPSS y cuando nos pregunte si queremos guardar el archivo le decimos que NO para conservar el archivo .sav original. Abrimos el STATISTICA y vamos a
5
File a continuación a Open, al presionar con el ratón se abre una pantalla que nos permite buscar la
carpeta o unidad donde se encuentra el archivo. Para poder ver específicamente el archivo que requemos, abajo encontramos la ventana de Tipo de archivo y ahí escogimos la opción SPSS portable files (.por). Encontrado el archivo, se señala con el ratón y se da al botón de Abrir. Aparecerá otra pantalla que ofrece dos opciones: Obtener el nombre de los casos desde la primera columna ( Get case from first column) o importar etiquetas de los valores ( Import value lables ), estando señalada por defecto la segunda, al ser la más común. Si es nuestro caso, le presionamos al botón de OK y se abre el archivo. Éste aparece con todos los nombres de las variables, etiquetas de datos y demás especificaciones. Esto se puede comprobar al ponernos sobre cada variable y presionar dos veces con el botón derecho del ratón. Se abre una pantalla con las especificaciones de la variable. Es importante realizar esta comprobación antes de iniciar los cálculos. Una vez abierto el archivo (*.por) se puede trabajar con él sin ningún problema. Ahora lo podemos volver a grabar, especialmente si hacemos cambios, como un archivo de datos de STATISTICA (*.sta). Arriba en la barra de menús, desplegamos el de File, presionamos con el ratón en Save y se abre una pantalla, donde ya aparece como nombre, el que tiene el archivo y como tipo STATISTICA Spreedsheet File (*.sta). El nombre si lo deseamos lo podemos cambiar. También por defecto aparece en la ubicación del fichero (.por) con el que estamos trabajando. Ubicación que podemos cambiar desplegando el menú de Guardar en. Fijado su nombre y ubicación, presionamos en el botón de Guardar y queda grabado como un nuevo archivo STATISTICA que SPSS no puede leer. Hay una tercera forma de trabajar con SEPATH que sería introducir únicamente la matriz de correlaciones, de varianzas-covarianzas o momentos. Presentación de datos que vamos a emplear en los ejercicios propuestos al final del capitulo. Para que una matriz de datos sea reconocida por el programa debe tener el siguiente formato:
Veamos con más detalle como crear un archivo de matriz de datos. Abierto el programa, desplegamos el menú de File tocando con el ratón y presionamos en la primera opción que es New. Así, abrimos la pantalla para la creación de un nuestro archivo de datos ( Spreadsheet ). Se nos pregunta por el número de variables que aparecerán en las columnas y el número de casos que aparecerán en las filas. Siendo p variables, indicamos como número de variables (columnas) p y como número de casos (filas) p+4. Por ejemplo, si son 6 variables manifiestas, tendremos 6 columnas y 10 filas. Presionamos al botón de Continue y se abre el archivo para introducir los datos. Al presionar dos veces el botón derecho del ratón sobre cada columna, se abre una pantalla para definir la variable. En la ventana de Name ponemos el nombre de la variable. El programa acepta letras, números y guiones bajos sin límite de extensión. Es conveniente no rebasar los 8 caracteres, pues es el límite que lee el programa de sintaxis para variables manifiestas. Dejamos las demás entradas con sus opciones por defecto. En Type aparece Double para poder introducir tanto números como texto como valores para las variables. En Display format se halla General admite un máximo de 30 números o letras. Si estamos creando una matriz de correlaciones, ponemos unos en la diagonal principal. Si es una matriz de varianzas-covarianzas o de momentos, ponemos los valores de varianza de cada variable. A continuación se llenan sólo los espacios por debajo de la diagonal principal, con los valores de correlación para las matrices de correlaciones y con los valores de covarianzas para las matrices de varianzas-covarianzas y de momentos. Como nombre de caso en las p primeras filas se escribe el nombre de las variables en el mismo orden y con las mismas letras que aparecen en las columnas. Para meter el nombre del caso, ponemos el cursor en el espacio rosado al principio de la fila y presionamos dos veces en el botón derecho del ratón. Entonces se activa la casilla y se puede escribir sobre ella. Tras las p filas de variables, en la fila de orden p+1, se pone como nombre de caso Means. En esta fila introducimos las medias de cada variable. En la fila de orden p+2, se pone Std Dev. como etiqueta de caso: Aquí introducimos los valores de desviación estándar de cada variable. En la fila p+3, se añade la etiqueta de No. Cases y se especifica el número de pares correlacionados. En la última fila (p+4), se escribe como etiqueta Matrix y en su primera columna el número con la que la identificamos el tipo de matriz: 1 para la de correlaciones y 4 para la de varianzas-
6
covarianzas y de momentos. Es necesario introducir los valores de las medias si vamos a analizar los datos como momentos. Los valores de las desviaciones estándar no es necesario que se especifiquen ya sea que tratemos los datos como correlaciones, como varianzas-covarianzas o momentos. Si es necesario introducir el número de casos. Si todas las variables tienen el mismo número de casos, basta con ponerlo en la columna de la primera variable. Creada la matriz de datos se puede guardar como un archivo STATISTICA matrix file (*.smx). A la hora de realizar los cálculos, en la pantalla de Parameters vamos a especificar en la sección de datos de análisis ( Data to analysis) si se trata de una matriz de correlaciones ( correlations ), de varianzas-covarianzas ( Covariances ) o momentos (Moments ). Si introducimos matrices de correlaciones, varianzas-covarianzas o momentos de p variables procedentes de k muestras de distintas poblaciones con el objetivo de contrastar la estabilidad de la estructura factorial, entonces abrimos un archivo de p columnas y k(p+4) filas. De este modo, metemos cada matriz completa debajo de su precedente. Los datos de la primera muestra se hallan en las p+4 primeras filas, los de la segunda entre p+5 y 2(p+4), los de la tercera muestra entre la fila 2(p+4)+1 y 3(p+4) y así sucesivamente. Por ejemplo, en un modelo de 6 variables manifiestas de 2 poblaciones, tendremos 6 columnas y 20 filas. Si fuesen de 3 poblaciones, tendríamos 6 columnas y 30 filas. Ver las matrices de los ejercicios 2 y 4. Si introducimos una matriz de correlaciones, varianzas-covarianzas o momentos de p variables capturadas k veces con el objetivo de comparar la estabilidad de la estructura correlacional, de covarianza o factorial en los k muestreos, entonces abrimos un archivo de k.p columnas y (k-1) (p) +4 filas. Usualmente se nomina a la variable en los sucesivos muestreos con el mismo nombre raíz, se añade un guión bajo y el número de la secuencia de muestro (e.g., VER_1, VER_2, VER_3). Bajo la disposición señalada podemos cruzar cada variable con las demás dentro de su muestra y consigo misma y las demás en las muestras sucesivas. Por ejemplo, en un modelo de 3 variables manifiestas capturadas dos veces, definimos una matriz de 6 columnas y 7 filas. Si hubiesen sido capturadas 3 veces, la matriz tendría 9 columnas y 10 filas. Ver la matriz de los ejercicios 5 y 6. XI.2.2 La definición del modelo En la barra de menú principal vamos a Statistics y se abre un menú de opciones de cálculo. Por este menú bajamos hasta modelos lineales y no lineales avanzados ( Advanced Linear/Nonlinear models ). Al presionar con el ratón, se abre otro menú con 11 opciones y escogemos la última que es modelamiento de ecuaciones estructurales ( Strucural equation modeling ). Al presionar nuevamente aparece una pantalla con dos pestañas: Quick y Advanced como vemos en la figura de abajo. La única diferencia entre ambas modalidades de pantalla son los botones que aparecen en la parte superior izquierda. En Quick, tenemos dos botones de interés: Path tool que proporciona las herramientas para modificar un modelo activo y Path wizards para crear un nuevo modelo y en Advanced aparecen cinco, los dos anteriores, dos más para abrir un modelo bien nuevo ( New model) o bien grabado ( open model ) y un quinto botón para grabar el nuevo modelo o los cambios en el existente ( save model as). En medio se halla Analysis syntax donde se carga el modelo activo y es un espacio donde se puede escribir empleando los comandos de sintaxis. En caso de no dominar el lenguaje de sintaxis, nos servimos de las herramientas proporcionadas por Path tool y Path wizard. De todos modos veamos brevemente el lenguaje de sintaxis para comprender mejor el programa que se activa en la ventana de Analysis syntax.
7
XI.2.2.1 La defini ción del modelo con el lenguaje de sin taxis ( Path1) Podemos definir y modificar modelos desde la ventana de Analysis syntax empleando el lenguaje Path1. A tal fin, ponemos el cursor sobre la ventana y presionando una vez en el botón derecho del ratón. De este modo se activa y escribimos los comandos de texto. Path1 es un lenguaje de computadora diseñado para transformar en texto, lo más exactamente posible, los símbolos de un diagrama de senderos. Las reglas básicas de Path1 son las siguientes:
1. Cada fecha (→) representa una relación causal y cada segmento (-) representa una relación no causal como covariación, correlación o un valor de varianza. 2. Cada relación se especifica en una línea, no pudiéndose introducir más de una relación por línea. 3. Las líneas en blanco no cuentan. 4. Las líneas que comienzan por asterisco * se tratan como comentarios de texto y no las analiza el programa. 5. Las variables manifiestas se representan con su nombre completo encerrado en corchetes y nunca debe rebasar los 8 caracteres. Se permite el guión bajo _. Por ejemplo, [I1]. 6. Las variables latentes se representan con todo su nombre entre paréntesis y éste no debe rebasar los 20 caracteres. Admite y diferencia mayúsculas de minúsculas y guiones bajos. Por ejemplo, (DIS). 7. Las relaciones causales se representan del siguiente modo: Nombre de la variable independiente –número entero del orden del parámetro – valor inicial del parámetro entre llaves {} → nombre de la variable dependiente. Por ejemplo, un factor que determina un elemento: (DIS)–1{.5}→[I1]. Si el nombre de la variable independiente se omite, entonces se toma de la primera variable de la línea anterior. El número del orden del parámetro indica que su valor es libre para que lo estime el programa. Si se omite el número, se da a entender que el parámetro tiene un valor fijo, tomándose el que aparece entre llaves. Si se omite también éste, implica que es uno. Si el número de orden del parámetro está especificado, pero se halla ausente el valor inicial del parámetro en el proceso de cálculo iterativo, entonces el programa asume el valor por defecto que es .5. En los programas de sintaxis observamos que los residuos son variables latentes que determinan a las variables manifiestas como un parámetro fijo unitario. Por ejemplo, (Error1) →[I1]. El programa no calcula ningún parámetro para esta relación y en el modelo final las correspondientes líneas en blanco. La significación de los residuos la conocemos a través del parámetro de varianza que es libre (Error1)-21-(Error1) y parece en el modelo final. 8. Las relaciones no causales (de covariación o correlación) entre dos variables se representan del siguiente modo: Nombre de la primera variable – número entero del orden de parámetro – valor inicial del parámetro entre llaves – segunda variable. Por ejemplo, la correlación de dos factores o variables latentes: (DES)-41{.5}-(DIS). Si el valor inicial del parámetro está omitido, el programa asume el valor por defecto que es .5. Si el nombre de la primera variable se omite, entonces se toma de la primera variable de la línea anterior. 9. Poblaciones estadísticas diferentes se denotan por Group1 al inicio y Endogroup al final del conjunto de líneas que definen el modelo. Representando el orden por el número entero que aparece pegado a Group. Para el segundo sería Group2 y el tercero Group3. 10. Un parámetro de una variable manifiesta como la varianza se representa del siguiente modo: [nombre de la variable] – número del orden del parámetro – valor del parámetro inicial entre llaves – [nombre de variable]. Por ejemplo, la varianza de la variable rol de género se escribiría así: [genero]-44-{2.30}-[genero]. Esto se realiza cuando el modelo tiene variables manifiestas exógenas, se ha escogido la opción USER que viene por defecto en la sección de Manifiest exogeneous dentro de las pantalla de los parámetros y se analizan los datos como varianzascovarianzas. También hay para que especificar los parámetros de inicio en correlaciones y relaciones de dependencia donde la variable exógena es una variable independiente. Si se opta por Free o Fixed para el tratamiento de las variables manifiestas exógenas, entonces no se
8
escribe estas especificaciones. Si se hiciese, el programa daría un mensaje de error y no se realizaría el cálculo. IX.2.2.2 Definici ón del modelo con Path wizard Al presionar en Path wizard se abre una pantalla con dos opciones: Análisis factorial confirmatorio (Confirmatory factor analysis ) que aparece por defecto y modelamiento estructural ( structural modeling ). Así que le presionamos al botón de OK.
Se abre una pantalla que nos permite definir el modelo. Empezamos por las variables latentes ( latent variables). Podemos proponer hasta un máximo de 9. En el espacio en blanco escribimos la etiqueta del factor y presionamos al botón Var para escoger las variables manifiestas que son determinadas por el factor. Aparece una ventana con todas las variables del archivo precedidas de un número. En la ventana en blanco de abajo escribimos el número de cada variable que compone el factor, separando cada número por medio de la barra espaciadora. De este modo se activan en color las variables afectadas en el cuadro superior. Especificadas todas las variables se presiona en el botón de OK. De vuelta en la pantalla anterior, se va definiendo uno a uno los factores. Por defecto el programa nombra a las variables residuales: DELTA. Podemos sustituir este nombre. Debajo de Latent variables en el espacio donde está escrito DELTA con el cursor lo activamos, borramos la palabra y escribimos la denominación que queremos como por ejemplo Error o Residuo. El programa considera tanto errores como variables manifiesta se introduzcan en el modelo. Los errores son enumerados de 1 a p. El error 1 determina a la primera variable manifiesta introducida en el programa de sintaxis, el error 2 a la segunda y el error p a la última. Definidos todos los factores, en la parte derecha de la pantalla podemos ver dos sectores: Factors y Residual variables . Tanto Factors como Residual variables nos permiten especificar si todos los factores o residuos son independientes entre sí ( Uncorrelated) que es la opción por defecto o si al menos dos de ellos están relacionados ( Correlated ). Lo más común es mantener el supuesto de independencia de los residuos, pero el programa es flexible y permite matizar relaciones entre residuos. Si nuestro modelo cuenta con factores relacionados, señalamos Correlated en Factors y presionamos en el botón de OK que está en la parte inferior derecha de la pantalla. Así, abrimos la pantalla para definir la relación entre los factores. Marcamos en la primera ventana un factor y en la segunda otro, presionamos al botón Correlate y el par se introduce en la tercera ventana; con lo que ya quedan especificados como factores que correlacionan. Si nos equivocamos, marcamos el par en la tercera ventana y presionamos al botón Delete . Definidos de este modo todos los pares de factores relaciones del modelo presionamos al botón de OK. Aparece una pantalla con dos opciones: Añadir este modelo al programa existente ( Append this model to existing program) o reemplazar el programa existente con el nuevo modelo (Replace existing program with new model ). Por defecto está marcada la primera opción. Le presionamos al botón de OK. Cuando ya está activo un modelo tomaríamos la segunda opción para que lo reemplace. En la ventana de Analysis syntax aparece el modelo. Sobre este modelo cualquier cambio que queremos hacer lo llevamos a cabo desde la pantalla que se abre al presionar al botón de Path tool. Para guardar el modelo, presionamos en el botón de Save model as que abre una pantalla para poner el nombre y señalar la carpeta o unidad donde queremos grabar el modelo. El tipo de archivo es .CMD. Es necesario crear cuantos modelos vayamos a contrastar, ponerles un nombre y guardarlos. La pantalla de Advanced a través del botón de Open model nos permite recuperar los mismos, que deben guardarse en una misma carpeta para facilitar su manejo. XI.2.2.3 Definici ón del modelo con Path t ool La forma más cómoda de crear un modelo es desde el botón de Tool wizard, aunque también se puede definir desde Path tool. Creemos ahora el modelo con Path tool (ver gráfica en la figura de abajo). Al presionar al botón de editar variables latentes ( Edit latent), que se halla en la zona central de la pantalla
9
de Path construction tool, emerge una nueva pantalla donde ponemos las etiquetas a las variables latentes de los factores. Las etiquetas no deben rebasar los 20 caracteres, pues es el límite que lee el programa de sintaxis para variables latentes. Se puede emplear mayúsculas, minúsculas y guiones bajos. Al dar al botón OK aparecen en las ventanas de variables que están sector superior izquierdo de la pantalla de Path construction tool. Pueden verse tanto en la ventana de variables de origen ( from) como en la de variables de destino ( to) si se activa la opción de variables latentes. Precisamente, arriba de cada ventana hay un menú despegable con dos opciones: Manifiest y Latent. La primera activa variables manifiestas y la segunda variables latentes (factores y errores). Para definir los factores, en la ventana de variables de origen ( from) se activan las variable latentes ( Latent); y en la de variables de destino (to), las variables manifiestas. En el sector de tipo de vía ( Path type) se escoge la opción de fecha que indica causalidad. Así, los factores son los determinantes de las puntuaciones en las variables manifiestas. Si queremos especificar el valor del parámetro de inicio, activamos el sector de valor de inicio (start value). Marcamos una palomilla en la opción de incluir ( Include) presionando con el cursor. Por defecto aparece un valor de .5. No lo cambiamos salvo que sea un requisito importante del modelo. Precisamente, Tool wizard toma este valor y no lo muestra en el cuadro de sintaxis. Cuando el valor está especificado aparece entre llaves tras el número de orden del parámetro. A continuación presionamos en el botón de añadir ( Add) y el comando se introduce en la ventana de sintaxis del modelo ( Paths) que se ubica en la zona suprior derecha. Para definir los errores, en Path Type marcamos Residual . Entonces se activa la ventana de abajo Residual variables y se inhibe la ventana de variables de origen ( from). En residual variable vemos que por defecto aparece como nombre de base EPS, pero lo podemos cambiar por otro nombre con un máximo de 20 caracteres, por ejemplo Error o Residuo. También por defecto se empieza a enumerar a partir de 1. En nuestro ejemplo enumera los errores de 1 a 20. Ahora vamos a la ventana de variables de destino (to) e introducimos las variables manifiestas una a una por medio del botón Add. En la ventana de sintaxis (Paths) nos aparecen dos líneas: (Error1)-->[I1] y (Error1)-21-(Error1). La primera línea indica que la variable latente Error 1 determina a la variable manifiesta I1 y que se trata de un parámetro fijo con valor unitario que no afecta a los grados de libertad del modelo, por lo que no aparecerá en el modelo final. La segunda línea indica que la varianza del error es un parámetro libre que el programa debe estimar y aparecerá en el modelo final. Al no haber ningún valor entre llaves, se entiende que el valor inicial en el proceso de cálculo iterativo es .5. Es a través de esta varianza como valoramos el peso de las variables residuales en el modelo final. Si el parámetro es significativamente distinto de cero, indica que el factor único tiene un peso. En caso contrario, no existe. Se puede especificar un valor de inicio activando start value antes de añadir el comando la ventana de sintaxis ( Paths). En tal caso es mejor dejar el valor por defecto, aunque se explicite Error1-41{.5}-Error1. Precisamente, Path wizard no especifica ningún valor y se asume .5. Para introducir las correlaciones entre los factores marcamos en Path type la segunda opción. En las ventanas de variables de origen y destino seleccionamos Latent en el menú superior despegable. A continuación marcamos el par de factores, un factor en cada columna y lo introducimos en la ventana de sintaxis (Paths) presionando en el botón de añadir ( Add). De este modo dejamos que el parámetro de la correlación tome el valor inicial por defecto de .5. Si queremos especificarlo activamos Start value y ponemos su valor antes de añadir el comando en el diálogo de sintaxis ( Paths). Igualmente se puede hacer con las correlaciones de los residuos.
Si tenemos alguna variable manifiesta que no es determinada por ninguna otra variable ya sea latente (factores o errores) o manifiesta, y sólo entabla relaciones de covarianza o de correlación, estamos ante una variable manifiesta exógena. En este caso tenemos que especificar los parámetros de inicio, salvo que empleemos las opciones de Free o Fixed en la sección de Manifiest exogenous que aparece en la pantalla que se abre por medio del botón de Parameters . La varianza de cada variable manifiesta exógena se puede especificar marcando la opción de Covar en Path type. En variables de destino ( to),
10
seleccionamos desde su menú desplegable: Manifiest. A continuación marcamos la variable manifiesta exógena. Activamos la sección de Start value y ponemos su valor de la varianza. Lo insertamos en la ventana de sintaxis del modelo ( Paths) presionando en el botón de añadir ( Add). En el caso de las correlaciones con otras variables, marcamos la segunda opción en Path type. En variables de origen y destino marcamos la opción de Manifiest. Seleccionamos la variable exógena en una ventana y la otra variable con la que correlaciona en la otra ventana. Activamos valor de inicio y lo especificamos el valor de la correlación y finalmente presionamos en el botón de añadir ( Add). XI.2.2.4 Definici ón del m odelo con un diagrama de senderos ( Path diagram ) SEPATH no ofrece la posibilidad de representar el modelo por medio de una gráfica de senderos como sí otros programas tal como AMOS, LISREL y EQS. No obstante, vamos a ver las convenciones para la representación gráfica del modelo: • Las variables manifiestas se representan dentro de cajas. • Las variables latentes dentro de círculos ovales. • La relación causal se representa por medio de un vector o flecha con origen en la variable independiente y final en la variable dependiente; es decir, apunta hacia la variable dependiente. El módulo del vector no representa la magnitud del parámetro. El valor inicial del mismo, si está especificado, se representa en la zona media del vector, ligeramente arriba. • Las relaciones no causales como covariación o correlación se representan por líneas recta que unen las variables que covarían o correlacionan. El valor inicial de parámetro libre de la relación, si está especificado, se representa en la zona media de la línea, ligeramente arriba. • Segmentos curvos sin flechas que parten y vuelven de la variable a forma de un sombrero representan la especificación de un parámetro que se escribe en el centro ligeramente arriba. Normalmente, valores de varianza. • Las variables endógenas reciben segmentos con fecha. • Las variables exógenas no reciben segmentos con fecha, pero pueden ser origen de ellos. Veamos un ejemplo:
En este diagrama tenemos que las variables X1, X2, X3, X4, X5 y X6 son variables manifiestas endógenas. Están inscritas en cajas y reciben flechas. L1 es una variable latente exógena. Está inscrita en un oval y no recibe flechas. L2 es una variable latente endógena. Está inscrita en un oval y recibe flechas. Se sobreentiende que E2 es una variable residual que determina a la variable manifiesta X2. D1 y D2 son parámetros iniciales especificados (varianzas). L1 determina a las variables manifiestas X1, X2 y X3, así como a la variable latente L2. Además, se ha especificado la varianza de la variable latente L1 que es D1. L2 determina a las variables X4, X5 y X6. L2 está determinado a su vez por la variable latente L1 y la variable residual que determina a la variable manifiesta X2 que tiene también el valor de su varianza especificado (D2). En el diagrama no se representa ninguna relación no causal entre variables. Los parámetros de todas las relaciones causales se han dejado libres y toman como valor de inicio, el fijado por defecto que es .5. También, es frecuente en los artículos de investigación donde se emplea análisis factorial confirmatorio o el análisis de senderos que se represente el modelo final y se escriba encima de las flechas y las líneas los parámetros finales de las relaciones. Estos valores los podemos tomar como especificaciones iniciales para nuestro modelo. Además, si se ha reportado la matriz de varianzas-covarianzas o de correlaciones, podemos emplear ésta para contrastar el ajuste del modelo entre las dos muestras. XI.3
PARÁMETROS DEL MODELO Y MÉTODOS DE ESTIMACIÓN DE LA FUNCIÓN DE DISCREPANCIA
Para realizar el cálculo, debemos tener cargado el modelo en la ventana de analysis syntax de la pantalla de Structural equation modeling . Ahora nos interesa el botón de fijar parámetros ( Set parameters ) que se halla en el extremo inferior izquierdo y da acceso a la pantalla para definir los
11
criterios y métodos de cálculo. Este botón también lo hallamos dentro de la pantalla de Path tool en su extremo inferior derecho. Como opciones que aparecen en la pantalla Analysis parameters tenemos: el tipo de datos de donde parte el análisis (matriz de varianzas-covarianzas, matriz de correlaciones o matriz de momentos), opciones para la presentación de resultados (número de decimales y especificación de los errores estándar de los parámetros), métodos de estimación de la función de discrepancia (Máxima verosimilitud, Mínimos cuadrados generalizados, combinación secuenciada de Mínimos cuadrados generalizados y Máxima verosimilitud, estimador gramiano asintóticamente libre de distribución y estimador insesgado asintóticamente libre de distribución), estandarización de los datos (antes del análisis, después del análisis y ninguna), parámetros iniciales de las variables exógenas (bien son estimados desde los datos y varían en el proceso iterativo, bien son estimados desde los datos pero permanecen fijos a lo largo del proceso iterativo o bien son especificados), criterios de convergencia para detener el proceso iterativo (coseno residual máximo y cambio relativo de la función de discrepancia), parámetros de iteración globales (número máximo de iteraciones, extensión máxima del paso, número de iteraciones de descenso escarpado y tolerancia del paso), métodos de búsqueda de línea en el vector de parámetros (interpolación cúbica, sección dorada y pasos divididos simples), parámetros de la línea de búsqueda en el vector de parámetros (máximo número y fracción de los pasos divididos simples, alfa LS cúbica, tau y precisión de búsqueda de la sección dorada) y valores iniciales (todos excepto la varianza, covarianza o correlación de las variables manifiestas exógenas toman un valor de .5 o son estimados desde la técnica de McDonald y Hartmann (1992).
Un aspecto común a todos los procedimientos de estimación es que requieren que el usuario especifique algunos valores de inicio y criterios de convergencia. Todos los métodos empezarán con un conjunto particular de estimaciones iniciales, los valores de inicio. Éstos serán cambiados de un modo sistemático de iteración a iteración. En la primera iteración, el tamaño del paso determina cuantos parámetros serán cambiados. El criterio de convergencia determina cuando el procedimiento iterativo se detendrá. Por ejemplo, el proceso puede finalizar cuando las mejoras en la función de pérdida de iteración a iteración son menores que una cantidad especificada. La función de pérdida representa una medida selecta de la discrepancia entre los datos observados y los pronosticados por la función ajustada, siendo ésta última la minimizada en un procedimiento de ajuste a un modelo teórico. Es importante señalar que el programa fija por defecto unos valores para estas especificaciones que son los más apropiados en la mayoría de los casos, los cuales deben ser mantenidos salvo que se tenga gran dominio de los procedimientos de iteración no lineales. XI.3.1 Tipos de datos para el análisis (Data to analysis ) En el sector de Data to analysis, se especifica el tipo de datos que contiene la matriz que se factoriza. Por defecto se estima el modelo desde la matriz de varianzas-covarianzas. No obstante, cuando el cálculo se ejecuta desde esta matriz es muy sensible a la heterogeneidad de los recorridos de las escalas. Así, es recomendable emplear la matriz de correlaciones que solventa este problema marcando la opción Correlations . Salvo que se empleen las variables estandarizadas. En tal caso la matriz de varianzas-covarianzas y la de correlaciones coincidirían. El programa analiza la matriz de correlación desde la teoría de estimación constreñida desarrollada por Browne (1982), Mels (1989) y Browne y Mels (1992). También, aparece una tercera opción Moments que permite definir modelos con intercepto. Así, una variable manifiesta está determinada por un factor común, un factor único y una constante. La constante representa el punto de corte de la recta de puntuaciones factoriales en los ejes de proyección de los factores.
12
Al especificar la opción moments, en el programa de sintaxis debe aparecer una variable manifiesta adicional que es Constant . Esta variable puede determinar una a una a las variables manifiestas endógenas. Tras señalar moments en Data to analysis, Constant surge entre las variables manifiesta de las ventanas de variables origen ( from) y finales (to) de la pantalla de Path wizard. Así, se puede utilizar esta herramienta para incorporarlas al programa de sintaxis. En ambas ventanas de variables marcamos Latent en el menú despegable. En la ventana de variables de origen ( from) señalamos Constant ; en la ventana de variables de destino ( to) una de las variables manifiestas, por ejemplo I1; activamos Start value si queremos especificar el valor de inicio del parámetro para Constant que sería la media de la variable manifiesta; y finalmente, presionamos en el botón de añadir ( Add) para que el comando se incorpore al programa de sintaxis ( Paths). Por ejemplo: [Constant]-44{2.1} →[I1]. Para la variable manifiesta I1 hemos introducido una constante que determina su valor, cuyo valor inicial es la media de I1 (2.1). Al ser un parámetro libre, el valor final variará, pudiendo incluso no ser significativo. Si queremos que no se cambie, entonces indicamos al programa que es un parámetro fijo: [Constant]-{2.1} →[I1]. Entonces el intercepto será la media de la variable manifiesta. También, podemos dejar el valor de Constant al determinar a I1 como un parámetro libre y omitir el valor de inicio: [Constant]-44 →[I1]. Como sabemos el programa toma como valor de inicio .5. Si los datos se analizan desde una matriz, ésta deber ser de varianzas-covarianzas (Matrix=4) y tener especificadas las medias de la variables en la línea de Means. Cada una de estas medias serán empleadas como intercepto si la relación de determinación de la constante sobre la variable manifiesta se especifica como un parámetro fijo o como valores de inicio si la relación se especifica como un parámetro libre y el valor de la media está entre llaves tras el número de orden del parámetro. IX.3.2 Opciones de resultados ( Output options ) La agrupación Output options permite controlar dos opciones de presentación de resultados. Por una parte, el número de decimales. Está fijado por defecto en 3. Con los botones de flechas se puede aumentar o disminuir los decimales. Por otra parte, si se desea o no la presentación de los errores estándar para los parámetros. Por defecto está marcada. Se puede desactivar poniendo el cursor sobre la palomilla y presionando en el botón derecho del ratón. Sólo, cuando se emplea la opción de Mínimos cuadrados ordinarios (OLS) para estimar la función de discrepancia, no se pueden calcular el error estándar de cada parámetro. Con los demás métodos, si esta opción está marcada aparecen. XI.3.3 Métodos de estimaci ón de la func ión de discrepancia (Discrepancy function ) El análisis factorial confirmatorio parte de la hipótesis de la equivalencia de los parámetros del modelo observado y el modelo propuesto. La hipótesis alternativa sería la discrepancia significativa entre ambos modelos. Tras estimar los parámetros del modelo ( θ), se crea una función diferencial F entre éstos ( θ) y los datos observados (S). A esta función F(S, θ) se denomina de discrepancia. A continuación, se contrasta si su valor es significativamente distinto de cero. Si lo es, entonces se rechaza la hipótesis nula de equivalencia. En caso contrario se mantiene. El programa STATISTICA presenta 6 métodos iterativos de estimación de la función de discrepancia. Estos métodos definen la función que es minimizada y con la que se estima los parámetros y calculan su valor. •
Máxima verosimilitud (Maximum likelihood) (ML). Requiere del supuesto de normalidad multivariada y muestras grandes y aleatorias. La finalidad del método es la minimización de la siguiente función FML(S, Σ(θ)) definida por Ln │Σ(θ)│ - Ln│S│ + Tr (S Σ(θ)-1) – p. Donde Tr() denota la traza del operador, Ln el logaritmo neperiano, │S│el determinante de la matriz S que es la matriz de varianzas-covariazas insesgadas, Σ(θ) el sumario de los parámetros del modelo propuesto y p es el número de variables manifiestas.
•
Mínimos cuadrados generalizados ( Genralized Least Squares ) (GLS). También requiere del supuesto de normalidad multivariada. La finalidad del método es la minimización de la función FGLS(S, Σ(θ)) definida por 1/2 Tr [(S - Σ(θ)S-1)]2. Donde Tr() denota la traza del operador, │S│el determinante de la matriz S que es la matriz de varianzas-covariazas insesgadas, Σ(θ) el sumario de los parámetros del modelo propuesto y p es el número de variables manifiestas.
•
Combinación secuencial de Mínimos cuadrados generalizados y Máxima verosimilitud (Genralized Least Squares - Maximum likelihood ) (GLS – ML). Combina los dos métodos anteriores y parte del supuesto de normalidad multivariada. Primero ejecuta 5 iteraciones bajo el método de Mínimos Cuadrados Generalizados y luego sobre la solución aplica el método de Máxima verosimilitud. Es la opción que aparece por defecto y es la más empleada.
•
Mínimos cuadrados ordinarios ( Ordinary Least Squares ) (OLS). Requiere del supuesto de normalidad multivariada. La finalidad del método es la minimización de la función F OLS(S, Σ(θ))
13
definida por 1/2 Tr (S - Σ(θ)). Donde Tr() denota la traza del operador, │S│el determinante de la matriz S que es la matriz de varianzas-covariazas insesgadas y Σ(θ) el sumario de los parámetros del modelo propuesto. Es un método más sencillo, pero menos preciso que los anteriores. •
Estimador insesgado asintóticamente libre de distribución ( Asymptotically Distribution Free Unbiased ) (ADFU). No requiere del supuesto de normalidad multivariada. Browne (1982, 84) presentó una fórmula para estimar la matriz de varianzas-covariazas asintótica en el contexto de datos con distribución continua usando momentos de orden cuarto. Puesto que esta fórmula no requiere especificar una forma de distribución para las variables observadas, se le denomina estimador asintótico libre de distribución si se emplea con una matriz de varianzas-covarianzas corregida. El método requiere que la matriz de varianzas-covarianzas o de correlación asintótica corregida sea gramiana, es decir, que los determinantes de los menores de su diagonal principal tenga un valor no negativo. El menor de un elemento es una submatriz que se obtiene al eliminar la fila y la columna a la que pertenece dicho elemento. En caso de que la matriz de varianzascovarianzas o de correlación asintótica corregida no sea gramiana, es decir, que el determinante del menor de algún elemento de su diagonal principal sea negativo, entonces el programa emite un mensaje de error y se requiere emplear la opción ADFG. Como estimación preeliminar a la estimación ADFU, se realiza una estimación por Mínimos cuadros generalizados (GLS).
•
Estimador gramiano asintóticamente libre de distribución ( Asymptotically Distribution Free Gramian ) (ADFG). No requiere asumir el supuesto de normalidad multivariada de las tres opciones anteriores. En esta variante, se garantiza que la matriz de varianzas-covarianzas o de correlación asintótica corregida sea una matriz gramiana no singular, es decir, con los determinantes de los menores de su diagonal principal positivos. El programa como paso preeliminar realiza una estimación por Mínimos cuadros generalizados.
Se ha de señalar que al emplear como datos una matriz de varianzas-covarianzas, de correlaciones o de momentos, los métodos de estimador asintótico libre de distribución, ya sea el gramiano (ADFG) o el insesgado (ADFU) no se pueden emplear. Estos dos métodos requieren la matriz de datos con las puntuaciones de los n sujetos en las p variables. XI.3.4 Criterios de conv ergencia (Convergency c riteria ) Respecto a los criterios de convergencia para alcanzar la solución y detener las iteraciones el programa fija por defecto un valor máximo del coseno residual de .0001 y un cambio en la función de discrepancia relativo de .000000. XI.3.5 Parámetros globales de iteración (Global iteration parameters ) En esta sección se especifica el número máximo de iteraciones, la longitud o extensión máxima de cada paso, el número de iteraciones por el método de descenso escarpado y la tolerancia en cada paso. Es importante aclarar que paso e iteración no son exactamente sinónimos, pues una iteración se puede componer de uno o más pasos. Respecto a los parámetros para las iteraciones, por defecto se fija un máximo de 30 iteraciones. Cuando se alcanza el límite fijado y el programa no logra una solución bajo los mínimos especificados, entonces emite un mensaje de error. Se puede repetir el cálculo ampliando las iteraciones. El programa admite un máximo de 1000 iteraciones. Extensión máxima del paso (Maximun step Length ). Se establece una extensión máxima o número máximo de cambios permitidos dentro del vector de parámetros en cada paso iterativo. Por defecto está fijado en 10,000 que es un número extremadamente alto para que no haya ningún problema. El programa permite el cambio dentro de un paso del 100% de los parámetros, salvo que en la ventana de Maximun step Length se especifique un número menor al que de parámetros tiene el modelo. Número de iteraciones descendentes escarpadas o con máxima pendiente ( Number of steepest descent iterations). Por defecto está anulada esta opción al aparece como valor 0. En el momento que se ponga un valor entero distinto de cero es activada. Cuando los valores iniciales de los parámetros están muy alejados de los finales, la aproximación hessiana usada en el procedimiento de Gauss-Newton puede fallar en proporcionar una dirección apropiada durante cada iteración. Una solución es emplear el método de pasos de pendiente máxima descendentes o descenso escarpado. En términos simples lo que significa esto es que el procedimiento hessiano que es un algoritmo de minimización no lineal, basado en derivadas parciales de primer y segundo orden sobre la función de pérdida, no es empleado para ayudar a encontrar la dirección para el siguiente paso. En su lugar, solamente la primera
14
información proporcionada por el gradiante o derivada de la función de discrepancia se emplea. No es conveniente introducir un gran número de iteraciones con el procedimiento descendiente de máxima pendiente o descenso escarpado, siendo de utilidad solamente cuando la rutina de iteraciones da mensaje de error, al no poder avanzar, tras unos pocos pasos. Tolerancia en cada paso ( Step tolerance). El valor de tolerancia es básicamente uno menos la correlación múltiple al cuadrado de un parámetro con los restantes parámetros. Si el parámetro es excesivamente redundante con respecto a los demás durante la iteración, la aproximación hessiana empleada se convierte en inestable o poco fiable. Así que requiere ser eliminado temporalmente del proceso iterativo. Si fijamos un valor de tolerancia muy bajo, pocos parámetros serán eliminados y puede arrojar soluciones inestables. Por el contrario, si se fija muy alto puede ocasionar la pérdida de mucha información. Un valor óptimo de tolerancia se considera que es .001. IX.3.6 Valores iniciales (Inicial values ). En esta sección aparecen dos opciones para establecer el valor inicial de los parámetros libres. La primera opción Default establece un valor de .5 para todos los parámetros libres del modelo, excepto para los de las variables exógenas. La segunda Automatic los estima desde un método derivado de la técnica descrita por McDonald y Hartmann (1992). IX.3.7 Estandarización de valores (Standarization ) En el sector inferior derecho aparece las opciones de estandarización de las variables latentes que tendrían una media de 0 y una desviación estándar de 1. Cuenta por tres opciones: • Nuevo (New) Estandariza todas las variables del modelo tanto las latentes como las manifiestas. • Viejo (Old) Se genera la solución estandarizada de las variables latentes después que el proceso iterativo es completado, es decir, se estandariza la solución obtenida. • Ninguno (None). Calcula una solución no estandarizada que es la opción fijada por defecto. No obstante, si se optó en datos para el análisis (data to analysis) por la matriz de correlación, tanto las variables manifiestas como las latentes se manejarán como estandarizadas y entonces el resultado por los tres métodos es el mismo. IX.3.8 Variables manifiestas exógenas (Manifiest exogenous ) En algunas ocasiones el modelo puede contar con una o más variables manifiestas exógenas, es decir, variables que aparecen en la base de datos, están contempladas en el modelo, pero no están determinadas por ningún factor ni variable manifiesta. Por ejemplo, una variable de deseabilidad social que está fuera de la composición de los factores propuestos, pero que determina a éstos. A tal fin, en la pantalla de Analysis parameters tenemos la sección de Manifiest exogenous . Aquí, se escoge el método de tratamiento de estas variables. El programa ofrece tres opciones: valores fijos ( Fixed), valores libres (Free) y valores establecidos por el usuario ( User ). Si se especifica Fixed los valores de determinación, correlación o varianza-covarianza de las variables manifiestas exógenas son estimados desde la base de datos y se extraen de cada proceso iterativo para que se mantengan constantes, lo que hace al modelo menos fiable. Si se emplea la opción Free , entonces estos parámetros de varianza, covarianza, de correlación o de determinación son estimados desde los datos maestrales e introducidos en los pasos iterativos. Al optarse por User se tiene que indicar al programa los valores de inicio de los parámetros de las variables exógenas (varianzas-covarianzas, correlaciones y determinación) que serán cambiados en el proceso iterativo. No obstante, se eliminamos el número de parámetro en el programa de sintaxis, el parámetro quedará fijo. Como ya hemos visto, estos parámetros se especifican empleando Path1 syntax y Path tool. XI.3.9 Método de búsqueda del parámetro o línea del vector de los parámetros a modific ar ( Line search method ) Una vez la dirección del paso ha sido elegida, el problema de minimización es básicamente reducido de un problema de k parámetros desconocidos a un problema de 1 parámetro desconocido, es esto, se reduce la extensión del paso de k a 1, por lo que se modifica sólo una línea del vector de parámetros. Hay tres métodos para elegir la extensión del paso: • Método de Interpolación cúbica ( Cubic interpolation ): Es un método rápido y bastante robusto. Funciona bien en una amplia variedad de circunstancias, así es la opción por defecto. Aplica la misma regla en cada iteración. • Sección dorada ( Golden section). Este método intenta resolver de forma específica el problema de minimización unidimensional en cada iteración. Con frecuencia converge en un número ligeramente menor de iteraciones que la interpolación cúbica, pero toma más tiempo, pues requiere más
15
•
evaluaciones funcionales en cada iteración para hallar esa sección dorada o parámetro donde el cambio es óptimo. Método de pasos divididos simples o semipasos ( simple stephalving). Es el más rápido, no obstante falla en obtener la convergencia ante ciertos problemas que son superados por los dos métodos anteriores. Si se opta por este método y aparece un mensaje de error por falta de convergencia debe optarse los dos anteriores.
XI.3.10 Tipo de parámetros s obre lo s que se aplic a el método de búsq ueda ( Line Search parameters ) Depende del método de búsqueda. Así, al escoger un método de búsqueda se activa el o los parámetros relevantes. Para el método de Interpolación cúbica se activa la opción alfa LS cúbica ( Cubil LS alpha) que controla el tamaño de la reducción de la función de discrepancia que se tomará como aceptable. El valor por defecto es .0001, el cual permite que virtualmente casi toda mejora sea considerada aceptable. Para el método de la Sección dorada, se activan las opciones de Tau ( Golden Section Tau ) y la Precisión (Golden section precision ). El primero limita el rango de amplitud que se fija en .5 y el segundo la precisión de la estimación que se fija en .1. Para el método de pasos divididos simples se activa el número máximo de pasos divididos ( Max. No. Of Stephalves) que se fija en 3 y la fracción del paso dividido (Stephalve fraction ) que establece el valor de la fracción por la que es multiplicado cada paso. Ésta se fija en .5 XI.4
CONTRASTE DE LA NORMALIDAD MULTIVARIADA
El programa ofrece pruebas para contrastar dos propiedades que cumplen las distribuciones normales: simetría y kurtosis. Con respecto a la asimetría, proporciona índices de simetría univariados tanto no corregidos como corregidos o insesgados, así como la asimetría estandarizada que se calcula con la asimetría insesgada y su varianza asintótica que se obtiene con la fórmula 6/N, siendo N el tamaño de la muestra. Los valores de asimetría deben estar lo más próximos a 0. Se facilita su interpretación desde la presentación estandarizada. Con valores menores a -2 o mayores a +2, se puede rechazar el supuesto de asimetría con una p<.01. Con respecto a la kurtosis, también se proporcionan índices de kurtosis univariados tanto no corregidos como corregidos, y el estandarizado que se estima desde el insesgado y su varianza (24/N). Igualmente que con los índices de asimetría los índices de kurtosis univariados deben estar próximos a 0. Con una valor menor a -2 o mayor a +2 en el índice estandarizado, se puede rechazar el supuesto de perfil normal o mesocúrtico con una p<.01. Además, el programa calcula 6 índices de kurtosis multivaridos: • Kurtosis multivariada de Mardia ( Mardia’s multivariate kurtosis ): Se calcula por medio de la siguiente fórmula: γ1 = 1/N ∑[(Xi – µ)’ S-1 (Xi – µ)]2 – p(p+2), donde Xi es el vector del sujeto i en la matriz de observaciones de n sujetos y p variables, µ el vector de medias muestrales, p el número de variables observadas y S la matriz de varianzas-covarianzas. • Kurtosis multivariada relativa (Relative multivariate kurtosis ): Se calcula desde la anterior por medio de la siguiente fórmula: γ2 = [γ1 + (p+ 2)] / p(p+2). • Kurtosis multivariada normalizada ( Normalizad multivariate kurtosis ). Se obtiene desde la kurtosis multivariada de Mardia con la siguiente fórmula: κ0= γ1 / [8.p.(p+2) / N]1/2 • Kappa de Mardia: Se obtiene a partir de la kurtosis multivariada de Mardia por medio de la siguiente fórmula: κ1= γ1 /p(p+2). • Kurtosis univariada de escala de medias ( Mean scaled univariate kurtosis ). Se define a partir de la kurtosis multivariada de Mardia y se calcula por medio de la siguiente fórmula: κ2=1/3p∑ γ1(j), donde j varía de 1 a p. • Kurtosis univariada de la escala de medias ajustadas ( Adjusted mean scaled univariate kurtosis). Consiste en introducir una corrección sobre la fórmula anterior para ciertos casos, así se define como: κ3= 1/3p∑g2(j), donde g 2(j)= γ1(j) si γ1(j)>-6/p+2 ó g2(j)= -6/p+2 en caso contrario. De los índices de kurtosis multivariada es más fiable y fácil de interpretar es la Kappa de Mardia que varía de 0 a 1. Cuanta más próxima a 0, mejor. Con valores mayores a .1 se considera que la combinación lineal de las variables por pares no presenta un perfil mesocúrtico. Asimismo, la kurtosis multivariada normalizada debe tener un valor entre -2 y +2 para que se mantenga el supuesto de kurtosis multivariada. XI.5
ESTADÍSTICOS DE MEJORA DEL MODELO
Nos informan sobre cuales elementos debemos reemplazar o eliminar para mejorar el ajuste del modelo.
16
XI.5.1 Estadístic os del mult iplicador de Lagrange El programa proporciona los estadísticos del multiplicador de Lagrange ( Lagrange multiplier statistics ) que son de gran utilidad para la corrección del modelo. Si se optó por correlaciones en Data to analysis, es decir, los cálculos se hacen desde la matriz de correlaciones, entonces cada variable manifiesta endógena tendrá una variable latente ficticia vinculada a ella, con la varianza constreñida a 1. Si se optó por la matriz de varianzas-covarianzas, se observa la misma restricción con la opción New en métodos de estandarización. En ambos casos los estadísticos del multiplicador de Langrange deben ser 0. Si algún valor es mayor de 0 y especialmente si sobrepasa .1, entonces no convergió correctamente la solución, al hallarse el modelo especificado de una forma inadecuada. Por lo tanto, conviene revisar el mismo en base a la variable manifiesta con un valor mayor de 0. XI.5.2 Signif icación de los parámetros finales El modelo tendrá tanto grados de libertad como parámetros le especifiquemos. Normalmente, serán los determinantes factores por cada variable manifiesta endógena, la varianza de los residuos y las correlaciones entre los factores. Con menos regularidad, también nos podemos encontrar con las correlaciones entre variables residuales o errores, las varianzas, correlaciones y coeficientes de determinación de variables manifiestas exógenas y los interceptos o constantes que determinan a las variables manifiestas endógenas. En la pantalla de resultados de estimaciones del modelo ( model estimate) aparecen los valores de estos parámetros. Al emplear datos de correlación o estandarizados, los parámetros de los determinantes factores, correlaciones y varianzas residuales oscilan de 0 a 1. Cuanto más próximo a 1, indica que es más significativo y tiene más peso. Por defecto, salvo que se indique en la pantalla de Analysis parameters lo contrario, al lado del parámetro aparece su error estándar. Al dividir el parámetro por su error estándar se obtiene aproximadamente el valor de estadístico de contraste T que se distribuye según una t de Student. La probabilidad (p) asociada al estadístico de contraste nos informa si el parámetro final es estadísticamente nulo o no. Si p<.05, indica que es significativamente distinto de cero. Si p≥.05, se mantiene la hipótesis nula de valor 0. En caso de que el parámetro de uno de los componentes del modelo sea nulo, entonces tiene que ser reemplazado por una mejor estimación (especialmente variables manifiestas), redefinido (variables latentes) o eliminado (correlaciones entre variables o residuos) para ver si mejora el ajuste del modelo. XI.6
ESTADÍSTICOS DE AJUSTE
Como estadísticos para contrastar el ajuste de los datos a un modelo teórico el paquete estadístico STATISTICA 6 nos ofrece un total de 25: 8 estadísticos básicos (el valor de la Función de Discrepancia, el coseno residual máximo, el gradiante absoluto máximo, el criterio de invariancia bajo un factor de escala constante, el criterio de invarianza bajo un factor de escala cambiante, el estadístico χ2 de ajuste al modelo teórico y el residuo estandarizado cuadrático medio), 5 índices de ajuste de no centralidad (el parámetro de no centralidad poblacional, la raíz cuadrada de la media de los errores de aproximación de Steiger-Lind (1980), los índices gamma poblacional y gamma ajustado y el índice de no centralidad de McDonald (1989)) y 12 índices de bondad de ajuste para una muestra simple (el índice general de ajuste y el índice ajustado de Jöreskog (1978), los criterios de información Akaike (1987) y bayesiano de Schwarz (1978), la χ2 para un modelo de independencia, el índice de validación cruzada de BrowneCudeck (1989), el índice de ajuste parsimonioso de James-Mulaik-Brett (1982), los índices de ajuste normado y no normalizado de Bentler-Bonet (1980), índice de ajuste comparativo de Bentler (1985) y los coeficientes Rho y Delta de Bollen (1989)). Naturalmente, cuando se contrasten dos o más muestras este último grupo de 18 índices no se puede calcular. El reporte de índices depende del método empleado para definir la función de discrepancia. Por el método de Máxima verosimilitud (ML) y GLS-ML se obtienen todos los índices. El método de Mínimos cuadrados ordinarios o no ponderados (OLS) es el más pobre en índices. En la tabla 1, se muestran la distribución de índices por método y en la primera columna (Sig.) el cumbral de significación de cada índice. Cuando se pone una flecha hacia abajo ( ↓) indica que cuanto menor o más próximo a 0 mejor. Tabla 1. - Nivel de significación de los estadísticos y estadísticos calculados en relación con el método de estimación de la función de discrepancia. GLSSignificación ML GLS OLS ADFU ADFG ML Estadísticos básicos X X X X X X ↓ Discrepancy Functi on Maximum Residual Cosine 0 X X X X X X 0 X X X X X X Maximum Absolute Gradient
17
ICSF Criterion 0 X X X 0 X X X ICS Criterion X X X Chi-Square p-level p≥.5 X X X X X X ↓ Chi-Square /Degrees of Freedom <.10 X X X RMS Standardized Residual Estadísticos basados en la No Centralidad X X X ↓ Population Noncentrality Parameter <.10 X X X Steiger-Lind RMSEA Index McDonald Noncentrality Index >.90 X X X Population Gamma Index >.90 X X Adjust ed Population Gamma Index >.90 X X Índices de ajuste de una muestra simple Joreskog GFI >.90 X X X Joreskog AGFI >.90 X X X X X X ↓ Akaike Information Criterion Schwarz's Bayesian Criterion X X X ↓ Browne-Cudeck Cross Validation Index X X X ↓ Independence Model Chi-Square X X X X X X Independence Model df >.90 X X Bentler-Bonett Normed Fit Index Bentler-Bonett Non-Normed Fit Index >.90 X X Bentler Comparative Fit Index >.90 X X >.90 X X James-Mulaik-Brett Parsimonious Fit Index Bollen's Rho >.90 X X Bollen's Delta >.90 X X
X X
X
X X
X X X X X X
X X X X X X
X X X
X X X
X X X X X
X X X X X
X X X X X X
XI.6.1 Estadísti cos básicos •
El coseno residual máximo ( Maximum Residual Cosine), el gradiante absoluto máximo ( Maximum Absolute Gradient), el criterio de invariancia bajo un factor de escala constante ( ICSF Criterion), el criterio de invarianza bajo un factor de escala cambiante ( ICS Criterion) son criterios contemplados en el proceso iterativo y cuando la solución converge son nulos (p<.000). Salvo que la solución haya tenido problemas para convergen, éstos valdrán 0.
•
Valor de la Función de Discrepancia ( Discrepancy Function Value ). Nos informa de la discrepancia entre los parámetros estimados desde los datos y los propuestos por el modelo. Cuanto menor sea su valor, refleja menor discrepancia y mejor ajuste. Su valor mínimo es 0, pero no tiene un límite superior. Se considera que valores menores a 1 indican buen ajuste.
•
El estadístico χ2 de ajuste al modelo teórico ( Chi-Square ). Es muy frecuentemente referido, pero es muy sensible al tamaño de la muestra, incrementándose en la medida que ésta crece, cuando precisamente es un requisito de AFC tamaños grandes de muestra. En la mayoría de los casos, la chi-cuadrada suele salir significativa (p<.05), es decir, se rechaza la hipótesis nula de ajuste entre los datos observados y el modelo propuesto. No obstante, su valor reside como un índice de comparación de ajuste entre modelos. Para tal fin se divide entre sus grados de libertad ( Chi-Square /Degrees of Freedom). Cuanto menor sea su valor, indica un mejor ajuste, preferentemente con valores próximos o menores a 1. Entre modelos competitivos el que tenga menos cociente es el que presenta mejor ajuste. Breckler (1990) señala que el dividir el estadístico χ2 por sus grados de libertad es una forma de corregir el efecto del tamaño de la muestra.
•
Raíz cuadrada de la media de los residuos estandarizados al cuadrado ( Root Mean Square Standard Residual ) (RMS SR). A este índice de ajuste también se le denomina Residuo estandarizado cuadrático medio. Es una medida de discrepancia en base a la varianza de los residuos. Refleja muy
18
buen ajuste con valores por debajo de .05, aceptable entre .05 y .075, mediocre entre .075 y .099 y malo por encima de .01. Se le considera como uno de los estadísticos más aptos para muestras grandes. XI.6.2 Índices de ajuste de no centralidad Nacen de la necesidad de evaluar la potencia de la prueba χ2 a la hora de mantener la hipótesis nula de ajuste y la dificultad para realizar este cálculo que se basa en un procedimiento algo arbitrario. Steiger y Lind (1980) proponen como un enfoque alternativo y en realidad más directo para evaluar la precisión del índice de ajuste que sería construir intervalos de confianza sobre parámetros de no centralidad poblacional. Así, estos índices ofrecen una estimación puntual y otra con un intervalo de confianza del 90%. •
Parámetro de no centralidad poblacional ( Population Noncentrality Parameter ). Ofrece algunas virtudes como medida de maldad de ajuste. Primero, es una suma ponderada de discrepancias entre los parámetros observados y los pronosticados por el modelo o suma ponderada de residuos. Segundo, en comparación con el criterio de información de Akaike está menos afectado por el tamaño de la muestra. Sin embargo, existen dos problemas con el uso de índices de no centralidad poblacional como un índice de maldad de ajuste poblacional. Primero, el índice no vuelve a la métrica de los parámetros estandarizados originales, a causa de la forma cuadrática de los residuos ponderados; para volver a la métrica original, se requeriría una raíz cuadrada. Segundo, falla para compensar la complejidad del modelo. A mayor complejidad y tamaño de la muestra, mejor ajuste. Un método para evaluar el ajuste poblacional que falla en compensar la complejidad inevitablemente conducirá a la elección de modelos más complejos, incluso cuando los modelos más simples se aproximan mejor a los datos. A su vez, al incrementar el tamaño muestral, con el mismo modelo, se mejora el ajuste.
•
Raíz cuadrada de la media de los errores de aproximación de Steiger-Lind (Steiger-Lind Root Mean Square of Error of Approximation ) (RMS EA). También se le denomina Error cuadrático medio de aproximación. Fue propuesto por Steiger y Lind en 1980 y toma un enfoque muy sencillo para resolver los dos problemas planteados por el Parámetro de no centralidad poblacional. Ya que la complejidad del modelo se refleja en el número de parámetros libres e inversamente en el número de grados de libertad, el Índice de no centralidad se divide por los grados de libertad. A continuación se calcula la raíz cuadrada para devolver el índice a la misma métrica que los parámetros originales estandarizados. Así, se puede interpretar como la raíz cuadrada de la media al cuadrado de los residuos. Valores menores a .05 se consideran muy buenos, entre .05 y .075 aceptables, entre .075 y .099 mediocres y malos a partir de .10.
•
Índice gamma poblacional ( Population Gamma Index ). Se puede considerar como un coeficiente de determinación poblacional ponderado para un modelo multivariado. Así, se le considera el equivalente poblacional del Índice de Bondad de Ajuste de Jöreskog-Sörbom. No obstante, falla en compensar el efecto de la complejidad del modelo. Por lo cual, para una secuencia de modelos de complejidad creciente, arrojará mejores índices de ajuste los más complejos. Se calcula por la siguiente fórmula de Steiger (1989): Γ1= p / (2.PNP + p), donde PNP es el Parámetro de No centralidad Poblacional y p el número de variables manifiestas. Se considera significativo a partir de valores de .90.
•
Índice gamma poblacional ajustado ( Adjusted Population Gamma Index ). Intenta compensar el efecto de la complejidad. Hay una corrección por los grados de libertad o tamaño de la muestra sobre el anterior y es significativo con valores mayores a .90. Se puede calcular por la siguiente fórmula Γ2 = 1 – (p*/v) (1- Γ1), siendo p*=p(p+1)/2, donde p es el número de variables manifiestas, v los grados de libertad para el modelo y Γ1 el Índice Gamma Poblacional.
•
Índice de no centralidad de McDonald ( McDonald’s Index of Noncentrality ). Fue propuesto en 1989. El índice representa una fórmula matemática para transformar el Parámetro de no centralidad poblacional (PNP) a una escala que varía de 0 a 1. No compensa completamente la parsimonia del modelo. Así, cuanto más complejo sea el modelo, mejor será el ajuste. Se calcula por la siguiente fórmula: e (-INP/2). Indica buen ajuste con valores mayores a .90.
XI.6.3 Índices de bondad de ajuste para una muestra simple •
Índice general de ajuste de Joreskog ( General Fit Index ) ( GFI). Valores mayores a .95 indican buen ajuste y entre .95 y .90 aceptable. Este índice es una estimación negativamente sesgada del Índice General de Ajuste Poblacional, es decir, tiende hacia valores bajos, así nos ofrece una imagen
19
ligeramente pesimista de la calidad del ajuste a nivel paramétrico o poblacional. Al igual que el índice χ2 es comúnmente reportado, aunque es superior como estimación el Índice Gamma Poblacional. •
Índice general de ajuste corregido de Joreskog ( Adjusted General Fit Index ) (AGFI). Hay un ajuste en base a los grados de libertad o tamaño de la muestra. Es significativo de ajuste con valores mayores a .90. A pesar del ajuste, sigue siendo una estimación negativamente sesgada del ajuste poblacional y se prefiere el Índice Gamma Poblacional Ajustado.
•
Criterio de información Akaike ( Akaike Information Criterion). Es útil principalmente para decidir cuál entre varios modelos competitivos, ordenados por complejidad o correcciones sucesivas, ofrecen la mejor aproximación a los datos. Al igual que el cociente entre chi-cuadrada y sus grados de libertad, se tomará aquel modelo que muestra el valor más bajo en el criterio Akaike. Así, cuanto menor sea su valor, mejor. El criterio se define para un modelo k: A k=FML,K + (2 Vk / N+1), donde Vk son los grados de libertad del modelo, F ML,K la función de discrepancia de máxima verosimilitud para el modelo y N el tamaño de la muestra.
•
Criterio bayesiano de Schwarz ( Scwarz’s Bayesian Criterion). Este criterio, como el de Akaike, se emplea para elegir entre varios modelos en una secuencia de distinto número de factores y relaciones entre ellos. Se escogerá el modelo que presente el índice más bajo. Igualmente, cuanto menor sea su valor, mejor. El criterio para un modelo k se define como: S k=FML,K + [VkLn(N) / N-1], donde Vk son los grados de libertad del modelo, F ML,k la función de discrepancia de máxima verosimilitud, Vk son los grados de libertad del modelo, Ln el logaritmo neperiano y N el tamaño de la muestra.
•
Índice de validación cruzada de Browne-Cudeck ( Browne-Cudeck Cross Validation Index ). Browne y Cudeck (1989) propusieron un índice de validación cruzada para decidir cual modelo escoger entre un conjunto de modelos competitivos. El índice original propuesto es parar comparar pares de muestras, una muestra donde se estima el modelo y otra independiente donde se valida. La fórmula del índice sería la siguiente: C k=FML[Sv, Σk(θ)] donde F es la función de discrepancia de máxima verosimilitud, S es la matriz de varianzas-covarianzas sobre la muestra de validación y Σk(θ) es la matriz de varianzas-covarianzas en la muestra de definición del modelo. Cuanto menor sea su valor, indica mejor ajuste. Sin embargo, posteriormente se ha introducido una modificación en el índice que lo hace aplicable a una muestra simple, no requiriendo una segunda muestra de validación. Así, el índice queda definido como: C k=FML[Sv, Σk(θ)] + 2 f k/(n-p—2) donde N es el tamaño de la muestra, p el número de variables manifiestas y f k el número de parámetros libres para el modelo.
•
χ2
•
Índice de ajuste normado de Bentler-Bonett ( Bentler-Bonett Normed Fit Index ). Es uno de los índices originales y uno de los más importantes desarrollado por Bentler y Bonnet en 1980. El índice de Bentler-Bonett mide el decremento relativo en la función de discrepancia causados por el cambio de un modelo nulo o modelo de base a un modelo más complejo. Se define por la siguiente fórmula: Bk=(F0-Fk)/F0, donde F0 donde la función de discrepancia para el modelo nulo y F k la función de discrepancia para el modelo de k factores. Este índice se aproxima a uno, cuando el ajuste es perfecto. Indica un ajuste aceptable con valores de .90. No obstante, da valores pobres para modelos parsimoniosos, comportándose mejor con modelos complejos.
•
Índice de ajuste no normado de Bentler-Bonett ( Bentler-Bonett Non-Normed Fit Index ). Este índice comparativo tiene en cuenta un modelo parsimonioso. Se calcula con la siguiente fórmula: BBNk= [(χ02/V0) – (χk2/vk)] / [(χ02/v0) - 1], donde χ02 es la chi-cuadrada para el modelo nulo, χk2 es la chicuadrado para el modelo de k factores, V 0 los grados de libertad para el modelo nulo y v k los grados de libertad para el modelo de k factores. Se aproxima a uno, cuando el ajuste es perfecto. Indica un ajuste aceptable con valores de .90.
•
Índice de ajuste comparativo de Bentler ( Bentler Comparative Fit Index ) (CFI). Este índice comparativo estima el decremento relativo en población obtenido al cambiar de un modelo nulo a un
para un modelo de independencia ( Independence Model Chi-square ). La hipótesis nula manejada por el estadístico de contraste es que las covariaciones o correlaciones poblacionales son nulas. Lo cual implica que todas las variables son independientes. Así, el modelo de independencia se emplea como modelo nulo. Si estadístico toma un valor grande y la p asociada es menor a .05, entonces indica que el modelo propuesto presenta mejor ajuste que un modelo de variables manifiestas independientes sin factores. Tiene poco valor informativo y normalmente es significativo, indicando que el modelo factorial se ajusta mejor a los datos que un modelo de variables manifiestas independientes.
20
modelo de k dimensiones. El índice puede ser calculado con la siguiente fórmula: 1 – ( τ – hatk/ τ – hat0), donde τ – hatk es un parámetro de no centralidad estimado para el modelo con k factores y τ – hat0 es el parámetro de no centralidad estimado para el modelo sin ningún factor. Es significativo con valores mayores a .80. •
Índice de ajuste parsimonioso de James-Mulaik-Brett ( James-Mulaik-Brett Parsimonious Fit Index ). Este índice fue uno de los más tempranos junto al de Steiger-Lind para compensar un modelo parsimonioso. Básicamente opera reescalando el Índice de ajuste normado de Bentler-Bonnet para compensar el modelo parsimonioso. La fórmula del índice es la siguiente: πk=vk/v0)Bk, donde v0 son los grados de libertad del modelo nulo, v k los grados de libertad del modelo de orden k y B k el índice de ajuste normado de Bentler. Valores mayores a .90 son significativos.
•
Rho de Bollen (Bollen’s Rho). Este índice de ajuste comparativo calcula la reducción relativa en la función de discrepancia por grados de libertad cuando se pasa del modelo nulo al modelo de k factores. Se calcula con la siguiente fórmula: ρk = [(F0/v0) – (Fk/vk)] / (F0/v0), donde F0 es la función de discrepancia para el modelo nulo, F k es la función de discrepancia para el modelo de k factores, v 0 los grados de libertad para el modelo nulo y v k los grados de libertad para el modelo de k factores. La Rho indica un ajuste aceptable con valores mayores a .90.
•
Delta de Bollen (Bollen’s Delta). Este índice es similar en forma al índice de Bentler-Bonnet, pero favorece a los modelos más simples (con menos grados de libertad). Se calcula con la siguiente fórmula: ∆k = (F0-Fk) / (F0-vk/N), donde F0 es la función de discrepancia para el modelo nulo, F k la función de discrepancia para el modelo de k factores y v k los grados de libertad para el modelo de k factores. La Delta indica un ajuste aceptable con valores mayores a .90.
XI.7
EVALUACIÓN DEL AJUSTE A TRAVÉS DE LAS CORRELACIONES RESIDUALES
Otra forma de evaluar el ajuste del modelo final a los datos originales y alternativa a los índices vistos es a través del estudio de los residuos de la matriz original de correlaciones o diferencia entre la matriz original de correlaciones y la reproducida. A tal fin, ESTATISTICA 6 proporciona la matriz original de correlaciones (Input matrix), la matriz de correlaciones reproducida por el modelo ( Reproduced matrix ), la matriz de residuos o diferencia entre la matriz original y reproducida ( Standarized residuals ), la matriz de residuos normalizados ( Normalizad residuals) y el gráfico de probabilidad normal de los residuos ( Normal probability plot ). Podemos acceder a estas matrices y gráfico, tras cargar los datos, definir el modelo en Analysis syntax y ejecutar el cálculo, desde la pantalla maestra de resultados ( Structural equation modeling results ), activada la pestaña de residuos (Residuals). Pantalla que podemos ver en la figura de abajo. :
Así, tenemos que los residuos se obtienen de la diferencia entre la matriz original y la reproducida y éstos aparecen en la denominada matriz de residuos estandarizados. La mayoría de los residuos deberían ser menores a .05. Así, otra forma de evaluar el ajuste del modelo es contar los residuos mayores a .05 por debajo de la diagonal principal de la matriz de correlaciones residuales ( Standarized residuals). Dividimos el número de correlaciones residuales mayores a .05 por p(p-1)/2 y multiplicamos dicha diferencia por 100, siendo p el número de variables correlacionadas. Si el porcentaje es mayor al 10%, la reproducción de la matriz es deficiente. Para normalizar los residuos, éstos se expresan en una escala normal de media 0 y desviación estándar 1, restando la media residual total y dividiendo la diferencia por la desviación estándar residual total. De este modo, podemos reconocer más fácilmente
21
cuáles son los residuos más desviados, que son aquéllos con valores menores a -1 y mayores a +1 y especialmente aquéllos con valores menores a -2 y mayores a +2. Datos especialmente relevantes para proponer modificaciones en el modelo en base a residuos muy altos. Igualmente que hicimos antes, con los valores normalizados de correlación residual podemos evaluar el ajuste del modelo contando los valores mayores a +1 y menores a -1 que se hallan por debajo de la diagonal principal de la matriz de correlaciones residuales normalizadas ( Normalizad residuals). A continuación, dividimos el número de correlaciones residuales normalizados mayores a +1 y menores a -1 por p(p-1)/2 y multiplicamos dicha diferencia por 100. Si el porcentaje es mayor al 10%, la reproducción de la matriz es deficiente. El gráfico de probabilidad normal, representa en el eje de la X (ordenadas) los valores de correlación normalizados observados y en el eje de la Y (abscisas) los valores de correlación reproducidos normalizados. Así, deberían describir una línea ascendente de 45 grados entre los valores -3 a +3 de ambos ejes para reflejar un ajuste perfecto. En caso de describir una curva podría indicar dependencia entre los residuos. XI.8APLICACIÓN DEL AFC XI.8.1 Aplicació n del AFC en una sola muestra XI.8.1.1 Especificación del mo delo de 3 factor es relacionados (3D) para la TAS-20 En este ejemplo pretendemos confirmar la estructura de tres factores relacionados de la 20-item Toronto Alexithymia Scale (TAS-20) (Bagby, Parker y Taylor, 1994). Ya sabemos, por lo visto en el apartado XI.2.1 (archivos de datos) que tras guardar un archivo de datos creado por SPSS (.sav) como (.por) lo podemos abrir perfectamente con STATISTICA 6. En la barra de menú vamos a File. Al tocar con el cursor y presionar el botón derecho del ratón se despliega un menú. Presionamos en Open y se abre una pantalla. Arriba en la ventana de (Buscar en) desplegamos el menú y seleccionamos la unidad y carpeta donde se halla el archivo. Abajo en la ventana de Tipo de archivo, desplegamos el menú y escogemos spss portable files. por . En la ventana del medio podemos ver los archivos portables dentro de la carpeta escogida. Al seleccionar con el ratón el que nos interesa, éste se activa en la ventana de abajo (Nombre del archivo). Presionamos en el botón de Abrir y el programa lo carga. Abierto el archivo de datos, vamos a la barra de menú. Desplegamos el menu de Statistics, escogemos Advanced linear/Nonlinear models para desplegar un nuevo menú donde seleccionamos Structured equation modeling . En la pantalla que emerge presionamos en el botón de Path wizard. Seleccionamos la opción de Confirmatory factor analysis y presionamos al botón de OK. Acto seguido se abre la pantalla para definir el modelo. Etiquemos los tres variables latentes como factores y definimos las variables manifiestas endógenas que los componentes (DIS formado por I2, I4, I11, I12 e I17; DES por I1, I3, I6, I7, I9, I13 e I14; PEO por I5, I8, I10, I5, I16, I18, I19 e I20). Cambiamos el nombre de las variables residuales de Delta a Error. Dejamos la opción por defecto de errores no correlacionamos. Seleccionamos la opción de factores correlacionados y los definimos. Al presionar OK, nos devuelve a la pantalla de inicio, apareciendo el modelo en la ventana de analysis syntax con el siguiente programa: (DIS)-1->[I2] (DIS)-2->[I4] (DIS)-3->[I11] (DIS)-4->[I12] (DIS)-5->[I17] (DES)-6->[I1] (DES)-7->[I3] (DES)-8->[I6] (DES)-9->[I7] (DES)-10->[I9] (DES)-11->[I13] (DES)-12->[I14] (PEO)-13->[I5] (PEO)-14->[I8] (PEO)-15->[I10] (PEO)-16->[I15] (PEO)-17->[I16] (PEO)-18->[I18] (PEO)-19->[I19] (PEO)-20->[I20]
(Error1)-->[I2] (Error2)-->[I4] (Error3)-->[I11] (Error4)-->[I12] (Error5)-->[I17] (Error6)-->[I1] (Error7)-->[I3] (Error8)-->[I6] (Error9)-->[I7] (Error10)-->[I9] (Error11)-->[I13] (Error12)-->[I14] (Error13)-->[I5] (Error14)-->[I8] (Error15)-->[I10] (Error16)-->[I15] (Error17)-->[I16] (Error18)-->[I18] (Error19)-->[I19] (Error20)-->[I20]
(Error1)-21-(Error1) (DIS)-41-(DES) (Error2)-22-(Error2) (DIS)-42-(PEO) (Error3)-23-(Error3) (DES)-43-(PEO) (Error4)-24-(Error4) (Error5)-25-(Error5) (Error6)-26-(Error6) (Error7)-27-(Error7) (Error8)-28-(Error8) (Error9)-29-(Error9) (Error10)-30-(Error10) (Error11)-31-(Error11) (Error12)-32-(Error12) (Error13)-33-(Error13) (Error14)-34-(Error14) (Error15)-35-(Error15) (Error16)-36-(Error16) (Error17)-37-(Error17) (Error18)-38-(Error18) (Error19)-39-(Error19) (Error20)-40-(Error20)
En el programa de sintaxis, aparecen primero la definición las variables latentes de los factores. El número natural que se halla entre la variable latente (DIS) y la variable manifiesta [I2] indica el número de parámetro libre a estimar. A continuación, se definen las variables latentes de los errores. Cada error
22
determina a una variable manifiesta. Por ejemplo, (Error1)-->[I2]. No llevan número de parámetro ni valor de inicio para el parámetro, así que son valores fijos unitarios. Sigue la indicación que para cada variable latente de error el programa tiene que estimar un parámetro de varianza (números de parámetro del 21 al 40). Por último, se introducen las correlaciones entre los factores (números de parámetro del 41 al 43). Así, es un modelo de 43 parámetros. No hemos especificado ningún valor de inicio en la iteración para los parámetros libres, por lo que el programa pone por defecto el valor de .5. En caso que sí los hubiéramos especificado, entonces aparecen entre una llave tras el número del coeficiente (DES)-(1) {.5}-[I1.] Vamos a respetar todas las especificaciones que aparecen por defecto en la pantalla a la que se accede desde el botón de set parameters con la excepción del tipo de datos para el análisis que especificamos correlaciones y del método para calcular la función de discrepancia que señalamos ADFU (estimador insesgado asintóticamente libre de distribución). Salimos de la pantalla presionando al botón de OK (accept parameters) . Ahora presionamos el botón OK (run model) que ejecuta el programa. IX.8.1.2 Información sobre las it eraciones para el mo delo 3D Como primera pantalla nos aparecen los resultados de las iteraciones. La solución convergió sin ningún problema en la undécima iteración. Tabla 2. - Iteraciones para el modelo 3D de la TAS-20 por el método ADFU ITN DISC RCOS LAMBDA MAXCON NRP NRC 1 0 2.954062 0.402681 1.000000 0.040070 0 0 2 1 1.276290 0.082787 1.000000 0.036042 0 0 3 2 1.230135 0.018508 1.000000 0.004988 0 0 4 3 1.228017 0.009481 1.000000 0.000735 0 0 5 4 1.227632 0.004514 1.000000 0.000065 0 0 6 5 1.227545 0.001920 1.000000 0.000032 0 0 7 6 1.227523 0.001225 1.000000 0.000006 0 0 8 7 1.227517 0.000488 1.000000 0.000002 0 0 9 8 1.227515 0.000348 1.000000 0.000000 0 0 10 9 1.227515 0.000141 1.000000 0.000000 0 0 11 10 1.227515 0.000101 1.000000 0.000000 0 0 12 11 1.227515 0.000041 1.000000 0.000000 0 0
NAIC 0 0 0 0 0 0 0 0 0 0 0 0
StepLen 0.000000 0.101645 0.023806 0.007438 0.003183 0.001625 0.000775 0.000429 0.000211 0.000121 0.000061 0.000036
Itn. Nos indica el número de la iteración en la secuencia iterativa que en nuestro ejemplo son 11, por debajo de la especificación de 30. Discrepancy. El valor de la función de discrepancia que está siendo minimizada. La que aparece en la última iteración es el valor de la función de discrepancia del modelo (1.227515). Un valor mayor a 1. Cuanto más próximo a cero, mejor. RCos. Corresponde al criterio de coseno máximo residual. Vemos que el valor desciende en la medida que avanzan las iteraciones hasta un valor de .000041 en la duodécima iteración, que está por debajo de la especificación de .0001. Lambda. Es el valor del multiplicador por paso usado en cada iteración. Un valor de 1 significa que el primer paso completo reduce la discrepancia de la función lo suficientemente para continuar con la siguiente iteración. Un valor menor que 1 significa que el programa ha tenido que emplear una búsqueda de línea en el vector de parámetros a fin de elegir la dirección del paso para hallar el parámetro donde la función de discrepancia se reduce. Valores de Lambda muy pequeños indican que la iteración está teniendo problemas para progresar hacia la convergencia de la solución. En nuestro ejemplo observamos que las 11 iteraciones avanzaron sin problema en el primer paso. En caso de problemas para encontrar la dirección o parámetro donde se minimiza la función de discrepancia se puede activar la opción de iteraciones de descenso escarpado ( Number of steepest descent iterations ) en la pantalla de Analysis parameters.
MAXCON. El valor máximo de cualquier función de constricción. Este valor solamente será nulo durante la estimación constreñida usada cuando se escoge la opción New en estandarización, o cuando se parte
23
de la matriz de correlaciones como en nuestro caso. Si las iteraciones progresan satisfactoriamente, este valor deberá descender progresivamente hasta alcanzar un valor próximo a 0. Precisamente, este avance descendente hacia un valor de 0 los observamos en nuestro ejemplo. NRP. Número de parámetros redundantes. Si algunos parámetros son redundantes con otros, el programa tiene la capacidad para detectarlo, indicando en esta columna su número en cada iteración. Dato importante para la revisión del modelo. Nuestro modelo no posee ningún parámetro redundante ni al principio ni al final. NRC. Número de constricciones redundantes. Si algunos parámetros constreñidos son redundantes, el programa es capaz de detectarlos y en esta columna nos indica su número en cada iteración. Dato importante para la revisión del modelo. Nuestro modelo asume como valor inicial para los parámetros el que pone el programa por defecto que es .5 y el resultado muestra que no hubo una restricción redundante. NAIC. Número de constricciones de desigualdad activadas o condiciones límite. Durante cada iteración, el programa mantiene ciertas constricciones de desigualdad sobre los parámetros para evitar que surjan valores imposibles. Por ejemplo, no se permite que aparezcan varianzas negativas. Si el programa detecta una varianza negativa, ajusta ésta a cero en la siguiente iteración y solamente minimiza la función de discrepancia en relación a otros parámetros. Así, en esta columna nos aparece el número de veces que el programa ha tenido que cambiar un parámetro de un valor imposible a un valor límite. En nuestro caso no hubo tal necesidad, lo cual habla a favor de su robustez, ya que estos casos pueden reflejar debilidades e inconsistencia en los datos. StepLen. Extensión del paso iterativo actual completo. En esta columna aparece en valor relativo los parámetros cambiados del total de parámetros, siendo la extensión máxima permitida 1. Normalmente, se hacen más cambios en los primeros pasos y muy pocos en los últimos. Si aparece un asterisco junto al valor, indica que el paso se llevó a cabo con el máximo de extensión permitida, es decir, en todos los parámetros. Si presionamos en el botón de OK en la pantalla de las iteraciones, nos aparece la pantalla maestra de los resultados ( Structural equation modeling results ). Desde la pestaña de Advanced tenemos 6 botones de resultados: resumen del modelo donde se hallan los parámetros estimados, estadísticos básicos, índices de no centralidad, índices para una muestra simple y estadísticos del multiplicador de LaGrange.
IX.8.1.3 Parámetros finales del modelo 3D Al presionar en el botón de resumen del modelo ( Model summary), obtenemos la tabla con los coeficientes estimados de los parámetros que en nuestro modelo eran 43. Tabla 3. - Parámetros finales del modelo 3D de la TAS-20 por el método ADFU Parameter Standard (DIS)-1->[I2] 0.882 0.015 (DIS)-2->[I4] 0.859 0.023 (DIS)-3->[I11] 0.619 0.029 (DIS)-4->[I12] 0.820 0.021 (DIS)-5->[I17] 0.706 0.024
T 60.727 38.039 21.349 39.475 29.014
Prob. 0.000 0.000 0.000 0.000 0.000
24
(DES)-6->[I1] (DES)-7->[I3] (DES)-8->[I6] (DES)-9->[I7] (DES)-10->[I9] (DES)-11->[I13] (DES)-12->[I14] (PEO)-13->[I5] (PEO)-14->[I8] (PEO)-15->[I10] (PEO)-16->[I15] (PEO)-17->[I16] (PEO)-18->[I18] (PEO)-19->[I19] (PEO)-20->[I20] (Error1)-21-(Error1) (Error2)-22-(Error2) (Error3)-23-(Error3) (Error4)-24-(Error4) (Error5)-25-(Error5) (Error6)-26-(Error6) (Error7)-27-(Error7) (Error8)-28-(Error8) (Error9)-29-(Error9) (Error10)-30-(Error10) (Error11)-31-(Error11) (Error12)-32-(Error12) (Error13)-33-(Error13) (Error14)-34-(Error14) (Error15)-35-(Error15) (Error16)-36-(Error16) (Error17)-37-(Error17) (Error18)-38-(Error18) (Error19)-39-(Error19) (Error20)-40-(Error20) (DES)-41-(DIS) (PEO)-42-(DIS) (PEO)-43-(DES)
0.686 0.340 0.628 0.552 0.729 0.773 0.690 0.527 0.342 0.439 0.377 0.572 0.486 0.633 0.399 0.223 0.262 0.617 0.327 0.502 0.530 0.884 0.606 0.695 0.469 0.402 0.524 0.722 0.883 0.807 0.858 0.673 0.764 0.599 0.841 0.889 0.513 0.566
0.021 0.038 0.032 0.033 0.023 0.020 0.025 0.056 0.043 0.076 0.042 0.036 0.050 0.035 0.039 0.026 0.039 0.036 0.034 0.034 0.029 0.026 0.040 0.036 0.033 0.031 0.034 0.059 0.029 0.067 0.032 0.041 0.048 0.044 0.031 0.021 0.033 0.039
32.362 9.072 19.545 16.817 31.977 38.585 27.848 9.478 7.967 5.763 8.993 16.080 9.767 18.057 10.242 8.708 6.758 17.217 9.592 14.634 18.238 34.622 15.031 19.186 14.116 12.964 15.348 12.315 30.113 12.051 27.079 16.519 15.815 13.489 26.997 41.600 15.431 14.621
0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000
Parameter . Son los parámetros estimados para el modelo, un total de 43 parámetros, 20 para los determinantes factoriales sobre las variables manifiestas endógenas, 20 para las varianzas de los residuos y 3 para las correlaciones de los factores. La cuantía del parámetro nos indica la importancia o peso del elemento. Standar . Es el error estándar del parámetro. A menor error estándar, más preciso es el valor del parámetro. Si al restar el error estándar al parámetro nos resulta un valor negativo, entonces el parámetro no es significativamente distinto de 0.
25
T Estadístico de contraste t de Student para contrastar la hipótesis nula de que el valor del parámetro es cero, es decir, no es significativo para el modelo. Se obtiene aproximadamente al dividir al parámetro por su error estándar. Prob. Es la probabilidad que corresponde al valor de T dentro de la distribución t de Student. Probabilidades menores a .05 nos permiten rechazar la hipótesis nula de valor nulo del parámetro. En nuestro modelo los parámetros del factor común y del factor único son significativos en cada elemento, así como los parámetros de las correlaciones entre los tres factores. XI.8.1.4 Estadístic os básicos para el mod elo 3D Si minimizamos esta pantalla o la cerramos volvemos a la pantalla maestra de resultados ( Structural equation modeling results ) con la pestaña de Advanced activada y ahora podemos acceder a los estadísticos básicos, presionando en el botón de Basic summary statistics. Tabla 4. - Estadísticos básicos para el modelo 3D de la TAS-20 por el método ADFU Discrepancy Function Maximum Residual Cosine Maximum Absolute Gradient ICSF Criterion ICS Criterion ADFU Chi-Square Negrees of Freedom p-level RMS Standardized Residual
Value 1.228 0.000 0.000 -0.000 0.000 466.456 167.000 0.000 0.119
Como estadísticos básicos tenemos: El valor de la función de discrepancia (Discrepancy Function) que es próximo a 1. Cuanto menor, mejor e idealmente próximo a 0. Coseno residual máximo (Maximum Residual Cosine ) que se ajusta a las especificaciones de menor a .0001. Gradiante absoluto máximo (Maximum Absolute Gradient ). El gradiante absoluto máximo nos da en valor absoluto el gradiente más alto por elemento al final del proceso iterativo, es decir, el potencial incremento de mejora en el proceso de minimización de los residuos o ajuste del modelo a nivel de elemento en la última iteración. Su valor es nulo, por lo que no había mejora posible. ICSF criterion. Este criterio debería ser próximo a 0 si el modelo estructural es invariante bajo un factor de escala constante ( Invariant under constant scaling factor , ICSF). La mayoría de los modelos, pero no todos, son invariantes bajo este tipo factor, como es nuestro caso. ICS Criterion. Este criterio también debe estar próximo a 0, si el modelo estructural es invariante bajo un factor con cambios de escala ( Invariant under changing scaling factor , ICS). Cuando el análisis se realiza desde la matriz de correlaciones o con datos estandarizados este índice sale nulo como vemos en nuestro caso. ADFU Chi-Square. Disponible para todos los métodos de estimación de la función de discrepancia, excepto OLS. Como nuestro método fue ADFU, de ahí que aparezca como palabra precedente a ChiSquare. Si hubiese sido Máxima verosimilitud, entonces aparecería ML. Este estadístico tiene una distribución asintótica que se ajusta a una Chi-cuadrada. Como hipótesis nula plantea la discrepancia cero entre el modelo teórico y el modelo observado. En nuestro ejemplo su valor fue de 466.456. Degrees of Freedom. Los grados de libertad corresponden al estadístico ADFU Chi-Square. En nuestro ejemplo son 167. p-level. Es el nivel de probabilidad del estadístico de contraste ADFU Chi-Square con 167 grados de libertad dentro de la distribución chi-cuadrada. Con una p<.05 se rechaza la hipótesis nula de ajuste. En nuestro ejemplo se rechaza la hipótesis nula de ajuste (p<.000). No obstante, aquí nos interesa un
26
cociente bajo entre ADFU Chi-Square y sus grados de libertad (466.456 / 167= 2.793), especialmente en comparación con modelos competitivos. Sólo en modelo con pocos parámetros y con un tamaño de muestra pequeño resulta no significativo. RMS Standardized Residual. Esta raíz cuadrada de los residuos estandarizados es una desviación estándar de los residuos. Es más conocido por residuo estandarizado cuadrático medio y se abrevia como RMS SR. Su valor es alto .119. Debería ser menor o igual a .05 y no mayor de .10. XI.8.1.5 Estadístic os de no centralidad para el m odelo 3D Si volvemos a la pantalla maestra de resultados (Structural equation modeling results ) con la pestaña de Advanced activada, podemos presionar con el ratón en el botón de estadísticos de ajuste de no centralidad (Noncentrality-based indices ). Tabla 5. - Estadísticos de no centralidad para el modelo 3D de la TAS-20 por el método ADFU Lower 90% Point Upper 90% Population Noncentrality Parameter 0.629 0.788 0.968 Steiger-Lind RMSEA Index 0.061 0.069 0.076 McDonald Noncentrality Index 0.616 0.674 0.730 Como hemos empleado el método ADFU, sólo tenemos 3 estadísticos, faltando los índices gamma poblacional (PGI) y gamma ajustado (APGI). La presentación de los índices de no centralidad toma dos formas: puntual y en intervalo con un margen de confianza del 90%. El parámetro de no centralidad (PNP), cuanto más pequeño o próximo a 0, mejor. El índice de la raíz cuadrada de la media de los errores de ajuste de Steiger-Lind o mejor conocido como error cuadrático de aproximación (RMS EA) que deber ser menor o igual a .05 y no mayor a .10. El índice de no centralidad de ajuste de McDonald cuanto más próximo a 1 mejor y es aceptable con valores de .90. Así, los dos primeros índices serían aceptables, con una estimación puntual de .788 para el parámetro de no centralidad poblacional y .069 para el como error cuadrático de aproximación. No obstante, el índice de no centralidad de McDonald con una estimación puntual de .674 resultó bajo. Al ser un modelo sencillo el índice de McDonald tiende a dar valores bajos, es decir, a infravalorar el modelo. XI.8.1.6 Estadístic os de ajuste de u na sola muestra para el mo delo 3D De regreso a la pantalla maestra de resultados ( Structural equation modeling results ), podemos presionar con el cursor en el botón de estadísticos de ajuste para una sola muestra ( Other single simple indices). Tabla 6. - Estadísticos de ajuste para una sola muestra para el modelo 3D de la TAS-20 por ADFU Value Joreskog GFI 0.894 Joreskog AGFI 0.867 Akaike Information Criterion 1.454 Schwarz's Bayesian Criterion 1.900 Browne-Cudeck Cross Validation Index 1.467 Obtenemos 5, el índice de bondad de ajuste de Joreskog (.894), el índice de bondad de ajuste corregido de Joreskog (.867), el criterio de información de Akaike (1.454), el criterio bayesiano de Schwarz (1.9) y el índice de validación cruzada de Browne-Cudeck (1.467). Los índices de Joreskog debería ser mayores a .90 y los otros tres criterios cuanto más bajos mejor, especialmente en comparación con otros modelos competitivos. Así, el ajuste es más bien pobre. Por otros métodos de estimación de la función de discrepancia, como ML, podemos obtener siete índices adicionales: La chi-cuadra para un modelo de variables manifiestas independientes o sin factores comunes que deber ser significativa (p<.05), los índices de Bentler (normado, no normado y comparativo), el índice de ajuste parsimonioso de James-Mulaik-Brett, la Rho y la Delta de Bollen que deben ser mayores a .90.
27
XI.8.1.7 Estadístic os del multiplic ador de LaGrange para el modelo 3D Desde la pantalla maestra de resultados ( Structural equation modeling results ) en la pestaña de Advanced también tenemos el botón de estadísticos del multiplicador de Lagrange ( LaGrange multiplier statistics). Tabla 7. - Estadísticos del multiplicador de LaGrange para el modelo 3D de la TAS-20 por ADFU Variante LaGrange Standard I1 1.000 0.000 -0.000 I2 1.000 -0.000 -0.000 I3 1.000 -0.000 -0.000 I4 1.000 -0.000 -0.000 I5 1.000 -0.000 -0.000 I6 1.000 0.000 -0.000 I7 1.000 -0.000 -0.000 I8 1.000 0.000 -0.000 I9 1.000 0.000 -0.000 I10 1.000 -0.000 -0.000 I11 1.000 -0.000 -0.000 I12 1.000 0.000 -0.000 I13 1.000 -0.000 -0.000 I14 1.000 -0.000 -0.000 I15 1.000 0.000 -0.000 I16 1.000 0.000 -0.000 I17 1.000 0.000 -0.000 I18 1.000 -0.000 -0.000 I19 1.000 -0.000 -0.000 I20 1.000 -0.000 -0.000 Los estadísticos del multiplicador de LaGrange para datos correlacionales tienen una varianza de 1 y sus valores deben de ser próximos a cero. Resultado que observamos en nuestro ejemplo, indicando que las restricciones respecto a las variables manifiestas endógenas eran adecuadas. XI.8.1.8 Contraste de supuesto s (normali dad mult ivariada a través de la sim etría y la kurt osis ) para el modelo 3D En la pantalla maestra de resultados ( Structural equation modeling results ), podemos presionar en la pestaña de Assumptions para ver si las variables a nivel individual como en combinación lineal por pares (multivariada) cumplen características de simetría y perfil mesocúrtico, características propias de una distribución normal. Además, tenemos el botón de Reflector matrix (matriz reflectora) que nos proporciona una matriz que es de gran de utilidad como base de datos para analizar las propiedades de invarianza del modelo. La fórmula de cálculo de la matriz reflectora depende del método de estimación de la función de discrepancia.
28
En la tabla 8, vemos que ningún elemento se puede considerar simétrico y sólo dos mesocúrticos (I6 e I17). A su vez, se puede rechazar un perfil mesocúrtico a nivel multivariado por una kappa de Mardia de .238 (>.10), así como una kurtosis multivariada de 34.424 y una kurtosis univariada corregida en una escala de medias de .425, demasiado altas (ver tabla 9). De ahí que se optó por el método del Estimador insesgado asintótico libre de distribución ( Asymptotically Distribution Free Unbiased,) (ADFU). Tabla 8. - Simetría y kurtosis univariada para el modelo 3D de la TAS-20 por el método ADFU Skewness Corrected Normalizad Kurtosis Corrected Normalized I1 0.258 0.259 2.053 -1.034 -1.032 -4.119 I2 0.437 0.439 3.482 -0.983 -0.980 -3.916 I3 2.091 2.100 16.665 4.464 4.539 17.785 I4 0.829 0.832 6.606 -0.184 -0.170 -0.732 I5 1.642 1.648 13.081 3.228 3.286 12.860 I6 0.741 0.744 5.906 -0.477 -0.468 -1.902 I7 1.397 1.402 11.130 1.761 1.800 7.015 I8 0.747 0.750 5.949 -0.618 -0.611 -2.464 I9 0.865 0.869 6.895 -0.063 -0.048 -0.249 I10 1.688 1.694 13.448 3.158 3.215 12.581 I11 0.741 0.744 5.904 -0.637 -0.630 -2.539 I12 0.809 0.812 6.446 -0.568 -0.560 -2.264 I13 1.332 1.337 10.611 1.125 1.155 4.481 I14 1.118 1.123 8.911 0.308 0.328 1.226 I15 1.222 1.227 9.736 1.206 1.238 4.804 I16 1.134 1.139 9.040 0.749 0.775 2.986 I17 0.943 0.946 7.511 -0.326 -0.314 -1.299 I18 1.612 1.619 12.847 3.103 3.161 12.365 I19 2.243 2.252 17.875 7.340 7.454 29.247 I20 1.181 1.185 9.408 0.644 0.669 2.566 Tabla 9. - Kurtosis multivariada para el modelo 3D de la TAS-20 por el método ADFU Value Mardia Coefficient of Multivariate Kurtosis 104.635 Normalized Multivariate Kurtosis 34.424 Mardia-Based Kappa 0.238 Mean Scaled Univariate Kurtosis 0.380 Adjusted Mean Scaled Univariate Kurtosis 0.425 Relative Multivariate Kurtosis 1.238
29
XI.8.1.9Residuos o diferencia entre la matriz de correlación inicial y la estimada para el modelo 3D Nuevamente, en la pantalla maestra de resultados ( Structural equation modeling results ), activamos la pestaña de residuos ( Residuals) y obtenemos la matriz de correlación original ( Input matrix), la matriz de correlación reproducida ( Reproduced matrix ), la matriz de residuos ( Standarized matrix ), la matriz de residuos normalizados ( Normalized matrix) y el gráfico de probabilidad normal ( Normal probability plot ). En la tabla 10 tenemos la matriz de correlaciones residuales que nos permite evaluar el ajuste del modelo. Contamos sólo los residuos por debajo de la diagonal principal mayores a .05 y obtenemos un número alto de 85, lo cual representa un 44% de los posibles casos (85/190 x 100). Muy alejado del 10% ideal. El mismo resultado (44%) se obtiene desde la matriz de correlaciones residuales estandarizadas. Así que el modelo reproduce pobremente la matriz de correlación inicial. Tabla 10- Matriz de correlaciones residuales ( Standarized residuals ) I1
I2
I3
I4
I5
I6
I7
I8
I9
I10
I11
I12
I13
I14
I15
I16
I17
I18
I19
I20
I1 0.08 0.01 -0.01 -0.19 -0.09 -0.05 -0.01 0.00 -0.01 -0.10 -0.09 -0.12 0.01 -0.01 -0.02 -0.05 -0.08 -0.06 -0.10 -0.04 I2 0.01 0.09 -0.06 -0.15 -0.18 -0.08 -0.04 -0.01 0.00 -0.11 -0.05 -0.14 -0.09 -0.14 0.04 -0.06 -0.10 -0.09 -0.03 -0.09 I3 -0.01 -0.06 0.41 -0.18 0.06 0.00 0.15 -0.01 0.01 0.07 -0.09 -0.05 -0.01 0.11 0.06 0.04 -0.05 -0.05 0.05 -0.03 I4 -0.19 -0.15 -0.18 0.07 -0.03 -0.21 -0.15 -0.13 -0.19 -0.04 -0.12 -0.17 -0.16 -0.21 0.03 -0.12 -0.11 -0.07 -0.04 -0.17 I5 -0.09 -0.18 0.06 -0.03 0.50 -0.11 -0.05 -0.03 -0.05 0.13 -0.09 -0.04 -0.10 -0.01 -0.05 -0.07 -0.15 -0.05 -0.01 0.02 I6 -0.05 -0.08 0.00 -0.21 -0.11 0.12 0.15 0.00 -0.04 -0.15 -0.00 -0.12 -0.01 0.07 0.04 -0.01 -0.01 -0.01 -0.04 -0.02 I7 -0.01 -0.04 0.15 -0.15 -0.05 0.15 0.37 -0.03 -0.01 -0.08 -0.03 -0.08 0.02 0.10 0.07 -0.00 -0.08 -0.05 -0.03 -0.02 I8 0.00 -0.01 -0.01 -0.13 -0.03 0.00 -0.03 0.19 0.01 -0.10 0.05 0.04 -0.06 0.01 -0.04 -0.01 0.09 -0.10 -0.09 0.10 I9 -0.01 0.00 0.01 -0.19 -0.05 -0.04 -0.01 0.01 0.22 -0.01 -0.04 -0.12 0.06 -0.02 -0.07 -0.09 -0.04 -0.06 -0.12 0.00 I10 -0.10 -0.11 0.07 -0.04 0.13 -0.15 -0.08 -0.10 -0.01 0.68 -0.15 -0.06 -0.13 -0.04 0.04 -0.08 -0.13 0.01 0.03 0.05 I11 -0.09 -0.05 -0.09 -0.12 -0.09 -0.00 -0.03 0.05 -0.04 -0.15 0.06 -0.02 -0.07 -0.11 0.04 -0.05 0.08 -0.02 -0.03 -0.09 I12 -0.12 -0.14 -0.05 -0.17 -0.04 -0.12 -0.08 0.04 -0.12 -0.06 -0.02 0.15 -0.05 -0.06 0.02 -0.07 -0.06 -0.09 -0.05 -0.02 I13 0.01 -0.09 -0.01 -0.16 -0.10 -0.01 0.02 -0.06 0.06 -0.13 -0.07 -0.05 0.25 0.06 -0.02 -0.08 0.03 -0.06 -0.12 -0.05 I14 -0.01 -0.14 0.11 -0.21 -0.01 0.07 0.10 0.01 -0.02 -0.04 -0.11 -0.06 0.06 0.24 0.00 -0.01 -0.05 -0.06 -0.03 0.06 I15 -0.02 0.04 0.06 0.03 -0.05 0.04 0.07 -0.04 -0.07 0.04 0.04 0.02 -0.02 0.00 0.19 0.10 0.13 0.02 0.02 -0.04 I16 -0.05 -0.06 0.04 -0.12 -0.07 -0.01 -0.00 -0.01 -0.09 -0.08 -0.05 -0.07 -0.08 -0.01 0.10 0.24 -0.07 -0.10 -0.11 0.07 I17 -0.08 -0.10 -0.05 -0.11 -0.15 -0.01 -0.08 0.09 -0.04 -0.13 0.08 -0.06 0.03 -0.05 0.13 -0.07 0.17 0.02 0.04 -0.05 I18 -0.06 -0.09 -0.05 -0.07 -0.05 -0.01 -0.05 -0.10 -0.06 0.01 -0.02 -0.09 -0.06 -0.06 0.02 -0.10 0.02 0.16 0.10 -0.03 I19 -0.10 -0.03 0.05 -0.04 -0.01 -0.04 -0.03 -0.09 -0.12 0.03 -0.03 -0.05 -0.12 -0.03 0.02 -0.11 0.04 0.10 0.41 -0.05 I20 -0.04 -0.09 -0.03 -0.17 0.02 -0.02 -0.02 0.10 0.00 0.05 -0.09 -0.02 -0.05 0.06 -0.04 0.07 -0.05 -0.03 -0.05 0.24
El gráfico de probabilidad normal, representa en el eje de la X (ordenadas) los valores de correlación normalizados observados y en el eje de la Y (abscisas) los valores de correlación reproducidos normalizados. Así, deberían describir una línea ascendente de 45 grados entre los valores -3 a +3 de ambos ejes para reflejar un ajuste perfecto. En caso de describir una curva podría indicar dependencia entre los residuos. Como vemos en el gráfico de abajo la recta no es perfecta, sino tiene cierta curvatura, además de demasiada amplitud. Así, el ajuste no es perfecto y parece haber cierta dependencia de los residuos. Normal Probability Plot Normalized Residuals 8 e u l a V l a m r o N d e t c e p x E
6 4 2 0 -2 -4 -10
-5
0
5
10
15 Value
20
25
30
35
30
XI.8.1.10
Comparación entre los 8 modelos
El valor del análisis factorial confirmatorio es sobre todo en la comparación de varios modelos competitivos. Ahora estimamos desde la matriz de correlación y con el método de GLS – ML ( Genralized Least Squares - Maximum likelihood ) 8 modelos para la TAS-20: Unidimensional, dos bidimensional (conjuntando DES y DIS y manteniendo como segundo factor PEO) uno con factores independientes y otro con factores correlacionados, dos modelos trifactores, uno de factores dependientes y otro independientes y tres modelo de 5 factores, uno con factores independiente, otro con factores dependientes y otro tercero con algunos factores dependientes. La asignación de variables manifiestas en los cinco factores sería: 2, 4, 11, 12 y 17 para F1; 1, 3, 6, 7, 9, 13 y 14 para F2; 15, 16, 18 y 19 para F3; 8 y 20 para F4 y 5 y 10 para F5. En el modelo de 5 factores, el factor de Pensamiento externamente orientado (PEO) se desglosa en tres. F3 refleja un pensamiento concreto sin contacto con los sentimientos, F4 una dimensión de falta de pensamiento crítico o superficialidad y F5 tendencia a analizar los problemas y estar en contacto con los sentimientos. Tabla 11. – Estadísticos de ajuste para los 8 modelos de la TAS-20 en una sola muestra AFC 1 2D 2I 3D 3I 5D 5Dr F. de Dis. 1.32 1.08 1.18 0.82 1.36 0.75 0.78 501.46 411.30 446.94 313.63 518.64 283.76 295.10 ML χ2 g.l. 170 169 170 167 170 160 164 P 0.00 0.00 0.00 0.00 0.00 0.00 0.00 2.95 2.43 2.63 1.88 3.06 1.77 1.80 ML χ2/g.l RMS SR 0.07 0.06 0.09 0.05 0.14 0.05 0.06 PNCP 1.07 0.77 0.85 0.40 0.85 0.32 0.34 RMS EA 0.08 0.07 0.07 0.05 0.07 0.04 0.04 PGI 0.90 0.93 0.92 0.96 0.92 0.97 0.97 APGI 0.88 0.91 0.90 0.95 0.90 0.96 0.96 NCI 0.58 0.68 0.65 0.82 0.65 0.85 0.84 GFI 0.87 0.89 0.88 0.92 0.88 0.93 0.93 AGFI 0.84 0.86 0.86 0.90 0.86 0.91 0.91 CFI 0.78 0.84 0.82 0.90 0.77 0.92 0.91 0.78 0.84 0.82 0.90 0.77 0.92 0.91 ∆ de Bollen Modelo E5, E10 F1xF5, R18 F2xF5 Iteraciones 4 5 6 5 6 8 6
5I 1.43 546.57 172 0.00 3.18 0.15 0.91 0.07 0.92 0.90 0.63 0.88 0.85 0.75 0.76 R10 10
Empezando por el modelo de 3 factores dependientes (3D), todos sus parámetros resultaron significativos. Como se puede observar en la tabla, el estadístico χ2 de ajuste al modelo teórico, con un valor de 313.635 y 167 grados de libertad, resultó significativo (p<.000) como es característico en muestras grandes. A pesar de esta significatividad, no permite rechazar la hipótesis nula de equivalencia de modelos, al ser un mal indicador de ajuste absoluto. Por el contrario es un buen indicador relativo. Así, este estadístico sigue siendo considerado porque al dividir su valor por sus grados de libertad (χ2/g.l) permite comparar modelos y decidir cuál se ajuste mejor a los datos en base al menor valor de este cociente. Considerando no sólo el valor de la Función de Discrepancia (F. de Dis) de .825 (cuanto menor, mejor) y el residuo estandarizado cuadrático medio (RMS SR) de .053 (próxima .05), sino ante todo los estadísticos más aptos para muestras grandes, claramente se mantiene la hipótesis de ajuste del modelo teórico a los datos. Entre los índices de ajuste más adecuados para a una muestra simple podemos destacar: El Índice General de Ajuste de Joreskog (GFI) de .923 (>.90), el Índice General de Ajuste Corregido de Joreskog (AGFI) de .903 (>.90), el Índice de Ajuste Comparativo de Bentler (CFI) de .904 (>.90) y la ∆ de Bollen de .905 (>.90). También tenemos los Índices de Ajuste de no Centralidad: El Parámetro de No Centralidad Poblacional (PNCP) con una estimación puntual de .40 e intervalar (con un 90% de confianza) de .28 a .54 (cuanto menor, mejor), el Índice RMS EA de Steiger-Lind con una estimación puntual de .049 e intervalar (90%) de .041 a .057 (<.05), el Índice Gamma Poblacional (PGI) con una estimación puntual de .962 e intervalar (90%) de .949 a .973 (>.90), el Índice Gamma Poblacional Ajustado (APGI) con una estimación puntual de .952 e intervalar (90%) de .935 a .966 (>.90). El Índice de No Centralidad de McDonald (NCI) con una estimación puntual de .82 e intervalar (90%) de .76 a .87 quedó un poco por debajo del umbral de .90, pero en el rango aceptable de .80 a .90 (Ver tabla 11). Podemos ver por el valor puntual de la Función de Discrepancia (F. de Dis), del cociente entre el estadístico χ2 y sus grados de libertad ( χ2/g.l), del Residuo estandarizado cuadrático medio (RMS SR) y el valor puntual del Error cuadrático de aproximación (RMS EA) de Steiger-Lind, el valor puntual del Parámetro de no centralidad poblacional (PNCP), así como el mayor valor del Índice Gamma Poblacional
31
(PGI), Índice Gamma Poblacional Ajustado (APGI), Índice de Bondad de Ajuste (GFI) de Joreskog, Índice de Bondad de Ajuste Ajustado (AGFI) de Joreskog, Índice Comparativo de Ajuste (CFI) de Bentler y la coeficiente Delta de Bollen, el modelo de 3 factores relacionados (3D) resulta superior a los modelos unidimensional (1), bidimensional con factores relacionados (2D) o independientes (2I), tridimensional con factores independientes (3I) y pentafactorial con factores independientes (5I). Tan sólo es superado por el modelo de 5 factores dependientes. En este último modelo, hubo dos elementos no significativos (p>.05), la interacción entre los factores 1 y 5 y la de los factores 2 y 5. Además, una tercera interacción entre los factores 1 y 4 tenía un valor de significación limítrofe (p=.048). No obstante, al revisar el modelo y dejar a los dos últimos factores (4 y 5) independientes de los dos primeros (1 y 2), no mejoraban los índices de ajuste, sino por el contrario empeoraban ligeramente (Ver tabla 11). En el modelo de 5 factores dependiente respecto al de 3 dependientes, la Función de Discrepancia (F. de Dis) baja de .82 a .75 y el cociente entre la Chi cuadrada del modelo y sus grados de libertad ( χ2/g.l) de 1.88 a 1.77. El residuo estandarizado cuadrático medio (RMS SR) se mantiene en un valor de .05. En cuanto a las estimaciones puntuales de los Índices de Ajuste de no Centralidad, el Parámetro de No Centralidad Poblacional baja de .40 a .32, el error cuadrático de aproximación (RMS EA) de Steiger-Lind baja de .05 a .04, el Índice Gamma Poblacional (PGI) sube de .96 a .97, el Índice Gamma Poblacional Ajustado (APGI) sube de .95 a .96 y el Índice de No Centralidad de McDonald (NCI) sube de .82 a .85. Finalmente, con respecto a los Índices de Bondad de Ajuste para una sola muestra, Índice de Bondad de Ajuste de Joreskog (GFI) sube de .92 a .93, el Índice de Bondad de Ajuste Ajustado (AGFI) de Joreskog sube de .90 a .91, el Índice Comparativo de Bentler (CFI) de .90 a .92 y el Coeficiente Delta de Bollen de .91 a .92. Aunque el modelo de 5 factores dependientes es el que mejor se ajusta a los datos, por la alta significatividad de modelos de 3 factores dependientes y su mayor relevancia teórica, se puede dar por confirmada la estructura trifactorial de la escala. Además, la ligera mejora de los estadísticos al pasar al modelo de 5 factores, también es atribuible a su mayor complejidad. Precisamente, los índices de varianza (RMS SR y RMS EA) y el ajustado de no centralidad (APGI) es donde menos se observa la mejora. Hemos de valorar que la descomposición del factor PEO en tres factores para definir el modelo de 5 factores no aporta relevancia interpretativa. La descomposición se fundamenta en los componentes y factores que se hallan con Análisis Factorial Exploratorio empleando el criterio Kaiser (1960) de autovalores mayores a 1 para definir el número de factores (Ver tabla 11). XI.8.2 Aplicación del AFC a varias muestras de distint a población A continuación vamos brevemente a exponer como se podrían comparar el ajuste de varios modelos en dos o más muestras. En nuestro archivo de datos debemos tener una variable que nos permite identificar la pertenencia de cada sujeto a un grupo, por ejemplo el género (1=hombre y 2=mujer). Por medio del botón de Path tool podemos modificar los modelos ya definidos y grabados para la TAS-20. Ahora vamos a añadir la división por género. Primero, presionamos en el botón de especificar grupos ( Specify groups) que se halla en el extremo izquierdo inferior de la pantalla de Structural equation modeling en que estamos trabajando. Emerge una pantalla donde aparecen dos botones, el primero Variable nos permite seleccionar la variable sexo y el segundo los valores (1 = hombre y 2 = mujer). Presionamos en OK y volvemos a la pantalla de Structural equation modeling . Ahora presionamos en el botón de Path tool. En la pantalla de Path construction tool vemos que están activados los botones de Group y Endgroup, cuando en otras ocasiones los encontramos desactivados. En la ventana del modelo ( Paths), ponemos el cursor en la primera línea. A continuación presionamos el botón de Group y se añade Group1. Vamos a la última línea, presionamos el botón de Endogroup y se añade la palabra Endgroup. Ahora copiamos abajo el mismo modelo, seleccionándolo con el cursor todo el modelo, dando al botón de copiar ( Copy) y pegando lo seleccionado tras la línea de Endgroup presionando al botón de Paste. Ya estamos listos para dar al botón de OK. Se nos pregunta si queremos borrar el texto que figura en Analysis syntax. Le decimos que sí y el nuevo modelo aparece en el recuadro de Analysis syntax. A continuación, modificamos encabezado de Group1 en el segundo grupo para que aparezca Group2. Lo hacemos escribiendo en la pantalla de Analysis syntax. En la pantalla a la que nos da acceso el botón de Set parameters , especificamos que el análisis se realice desde la matriz de correlaciones y dejamos la opción de método que está por defecto. Ahora podemos presionar en el botón de OK (run model) para estimar el ajuste del modelo a las dos muestras. Tabla 12 – Estadísticos de ajuste para los 8 modelos de la TAS-20 en dos muestras de distinta población AFC 1 2D 2I 3D 3I 5D 5Dr 5I F. de Dis. 2 2.06 2.19 1.53 2.07 1.45 1.48 2.15 750.32 774.50 822.11 573.57 779.90 543.71 554.65 808.54 ML χ2 g.l. 360 360 361 357 360 350 354 362 P 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 2.08 2.15 2.28 1.61 2.17 1.55 1.57 2.23 ML χ2/g.l RMS SR 0.09 0.10 0.12 0.08 0.15 0.08 0.08 0.16
32
PnCP RMSEA GFI AGFI NCI Modelo
1.11 0.08 0.90 0.88 0.33 E5, E10
1.01 0.07 0.91 0.89 0.37 -
1.13 0.08 0.90 0.88 0.32 -
0.48 0.05 0.95 0.95 0.62 -
0.95 0.07 0.91 0.90 0.39 -
5
12
22
7
7
Iteraciones
0.40 0.05 0.96 0.95 0.67 F1xF4, F1xF5 F2xF5 12
0.43 0.05 0.96 0.95 0.65 R18
1.03 0.08 0.91 0.89 0.36 R17
12
7
De nuevo, se obtuvieron unos buenos índices de ajuste y equivalencia en ambas muestras. Todos los parámetros para el modelo fueron significativos. La función de discrepancia fue de 1.525 (cuanto menor es el valor, mejor). El estadístico χ2 con un valor de 573.572 y 357 grados de libertad resultó significativo (p<.000), rechazándose la hipótesis nula de equivalencia de modelos, como suele ocurrir con muestras grandes. No obstante, la hipótesis de ajuste puede ser mantenida por un residuo estandarizado cuadrático medio (RMSSR) de .081 (<.10) y por los Índices de Ajuste de no Centralidad, entre los que se encuentran: el Parámetro de no Centralidad Poblacional (PnCP) tomó un valor de .48 en una estimación puntual y varía de .91 a 1.34 en una estimación intervalar (90% de confianza), quedando en un valor bajo, el Índice RMSEA de Steigner-Lind con una estimación puntual de .052 e intervalar (90%) de .043 a .061 (<.10), el Índice Gamma Poblacional (PGI) con una estimación puntual de .954 e intervalar (90%) de .938 a .968 (>.85), el Índice Gamma Poblacional Ajustado (APGI) con una estimación puntual de .946 e intervalar (90%) de .927 a .963 (>.80) y el Índice de no Centralidad (nCI) de McDonald con una estimación puntual de .62 e intervalar (90%) de .52 a .72 (>.50). Los índices de ajuste de muestra simple (GFI, AGFI, CFI, Delta de Bollen) en este caso de comparación de dos muestras no puede ser calculados (ver tabla 12). Igualmente, el modelo de 3 factores dependientes resultó superior al modelo unidimensional, de dos factores ya sean dependientes o independientes, de tres factores independientes y 5 factores independientes. Sólo era ligeramente superado por el modelo de 5 factores dependientes, cuyo índices de ajuste no mejoraban al dejar independiente los dos últimos factores (4 y 5) de los dos primeros factores (1 y 2) como se puede ver en la Tabla 12. En este modelo de 5 factores dependientes en contraste al modelo de 3 factores dependientes, la Función de Discrepancia baja de 1.53 a 1.45, el cociente entre la Chi-cuadrada del modelo y sus grados de libertad baja de 1.61 a 1.55 y la Raíz Cuadrada de los Residuos Estandarizados al Cuadrado (RMSSR) se mantiene igual en un valor de .08. En cuanto a los Índices de Ajuste de no Centralidad en su estimaciones puntuales, el Índice Gamma de Población (PGI) sube de .95 a .96 y el Índice Gamma de Población Ajustado (APGI) se mantiene igual en un valor de .95, el Índice de no Centralidad de McDonal (nCI) sube de .62 a .67, , el Índice RMSEA de Steiger-Lind se mantiene en .05 y el Párametro de no Centralidad Población (PnCP) baja de .48 a .40. A pesar del ajuste ligeramente mejor del modelo de 5 factores dependientes sobre el de 3 factores dependientes, debido a los ya buenos índices de éste último y por su mayor relevancia teórica, se puede considerar confirmada la hipótesis de ajuste. XI.8.3 Aplicación del AFC a la misma muestra tomada en distintos momento s Una tercera aplicación del análisis factorial confirmatorio, útil no sólo para establecer la estabilidad de la solución factorial, sino la fiabilidad de la escala es su empleo en situaciones de retest, donde el cuestionario o las variables se han medido en al menos dos ocasiones en los mismos sujetos. Por ejemplo, la TAS-20 se aplicó 6 meses después en una muestra de 270 sujetos. Capturadas las puntuaciones en los 20 elementos en la misma base de datos, se puede proceder a estudiar la estabilidad del modelo de tres factores relacionados, y comprobar cuál se ajusta mejor y es más estable entre los 8 modelos competitivos. Para tres factores dependientes, el modelo que aparece en el recuadro de analysis syntax sería el siguiente: (DISa)-1->[I2a] (DISa)-2->[I4a] (DISa)-3->[I11a] (DISa)-4->[I12a] (DISa)-5->[I17a] (DESa)-6->[I1a] (DESa)-7->[I3a] (DESa)-8->[I6a]
(Error1)-->[I2a] (Error2)-->[I4a] (Error3)-->[I11a] (Error4)-->[I12a] (Error5)-->[I17a] (Error6)-->[I1a] (Error7)-->[I3a] (Error8)-->[I6a]
(Error1)-21-(Error1) (Error2)-22-(Error2) (Error3)-23-(Error3) (Error4)-24-(Error4) (Error5)-25-(Error5) (Error6)-26-(Error6) (Error7)-27-(Error7) (Error8)-28-(Error8)
(DESa)-61-(DISa) (PEOa)-62-(DISa) (PEOa)-63-(DESa) (DESb)-61-(DISb) (PEOb)-62-(DISb) (PEOb)-63-(DESb) (DESa)-64-(DESb) -65-(DISb)
33
(DESa)-9->[I7a] (DESa)-10->[I9a] (DESa)-11->[I13a] (DESa)-12->[I14a] (PEOa)-13->[I5a] (PEOa)-14->[I8a] (PEOa)-15->[I10a] (PEOa)-16->[I15a] (PEOa)-17->[I16a] (PEOa)-18->[I18a] (PEOa)-19->[I19a] (PEOa)-20->[I20a] (DISb)-1->[I2b] (DISb)-2->[I4b] (DISb)-3->[I11b] (DISb)-4->[I12b] (DISb)-5->[I17b] (DESb)-6->[I1b] (DESb)-7->[I3b] (DESb)-8->[I6b] (DESb)-9->[I7b] (DESb)-10->[I9b] (DESb)-11->[I13b] (DESb)-12->[I14b] (PEOb)-13->[I5b] (PEOb)-14->[I8b] (PEOb)-15->[I10b] (PEOb)-16->[I15b] (PEOb)-17->[I16b] (PEOb)-18->[I18b] (PEOb)-19->[I19b] (PEOb)-20->[I20b]
(Error9)-->[I7a] (Error10)-->[I9a] (Error11)-->[I13a] (Error12)-->[I14a] (Error13)-->[I5a] (Error14)-->[I8a] (Error15)-->[I10a] (Error16)-->[I15a] (Error17)-->[I16a] (Error18)-->[I18a] (Error19)-->[I19] (Error20)-->[I20a] (Error21)-->[I2b] (Error22)-->[I4b] (Error23)-->[I11b] (Error24)-->[I12b] (Error25)-->[I17b] (Error26)-->[I1b] (Error27)-->[I3b] (Error28)-->[I6b] (Error29)-->[I7b] (Error30)-->[I9b] (Error31)-->[I13b] (Error32)-->[I14b] (Error33)-->[I5b] (Error34)-->[I8b] (Error35)-->[I10b] (Error36)-->[I15b] (Error37)-->[I16b] (Error38)-->[I18b] (Error39)-->[I19b] (Error40)-->[I20b]
(Error9)-29-(Error9) -66-(PEOb) (Error10)-30-(Error10) (DISa)-67-(DESb) (Error11)-31-(Error11) -68-(DISb) (Error12)-32-(Error12) -69-(PEOb) (Error13)-33-(Error13) (PEOa)-70-(DESb) (Error14)-34-(Error14) -71-(DISb) (Error15)-35-(Error15) -72-(PEOb) (Error16)-36-(Error16) (Error17)-37-(Error17) (Error18)-38-(Error18) (Error19)-39-(Error19) (Error20)-40-(Error20) (Error21)-41-(Error21) (Error22)-42-(Error22) (Error23)-43-(Error23) (Error24)-44-(Error24) (Error25)-45-(Error25) (Error26)-46-(Error26) (Error27)-47-(Error27) (Error28)-48-(Error28) (Error29)-49-(Error29) (Error30)-50-(Error30) (Error31)-51-(Error31) (Error32)-52-(Error32) (Error33)-53-(Error33) (Error34)-54-(Error34) (Error35)-55-(Error35) (Error36)-56-(Error36) (Error37)-57-(Error37) (Error38)-58-(Error38) (Error39)-59-(Error39) (Error40)-60-(Error40)
En este modelo se consideran los residuos como variables aleatorias. Así, se considera que varían de una aplicación a otra y no se postula la dependencia entre los residuos que determinan a las variables manifiestas de la primera y segunda aplicación. Si se quisiera hacer tal especificación, para el error del primer elemento se haría con el comando (Error1-73-Error21). En nuestro caso el ajuste era mejor sin errores correlacionados. El programa de sintaxis lo hemos empezado definiendo los factores latentes (DESa, DISa y PEOa) que determinan a las variables manifiestas de la primera aplicación (I1a a I20a) (números de parámetros del 1 al 20). Luego, las variables latentes (DESb, DISb y PEOb) que determinan a las variables manifiestas de la segunda aplicación (I1b a I20b), repitiendo los mismos números de parámetros (del 1 al 20). Luego se definen las variables latentes de error que determinan a las 40 variables manifiestas (20 de la primera aplicación y 20 de la segunda). Llevan los números de parámetro del 41 al 60. A continuación se definen las correlaciones entre los factores que determinan a las variables manifiestas de la primera aplicación. Llevan los números de parámetros del 61 al 63. Sigue las mismas correlaciones con los factores que determinan a las variables de la segunda aplicación, de ahí que se repitan el número de parámetros (del 61 al 63). Finalmente, se cruzan las correlaciones de los factores de las dos aplicaciones. Correlaciones que son parámetros libres y llevan los números del 64 al 72. Aunque para simplificar el modelo se pueden omitir estas correlaciones cruzadas y dejarlo en 63 parámetros. Si las correlaciones de las variables manifiestas y los factores entre la primera y la segunda aplicación se aproximase a 1, o si este problema se presentaría en la sucesivas iteraciones, no se podría aplicar el análisis factorial confirmatorio a causa de la singularidad de la matriz de correlaciones. En tal caso, no tendría ningún sentido comprobar el modelo en la segunda muestra al ser igual que la primera. En la siguiente tabla se presentan algunos de los estadísticos de ajuste del contraste para los 8 modelos considerados, calculados desde la matriz de correlación por el método que combina Mínimos cuadrados generales y Máxima verosimilitud (GLS – ML) AFC F. de Dis. ML χ2
1 2.12 1754.06
2D 2.08 1606.66
2I 2.27 1603.63
3D 1.45 1198.84
3I 2.16 1621.40
5D 1.43 1140.03
5Dr 1.63 1145.50
5I 2.21 1489.41
34
g.l. P ML χ2/g.l RMS SR PnCP RMSEA PGI APGI NCI GFI AGFI CFI ∆ de Bollen Modelo
737 0.00 2.38 0.09 1.10 0.08 0.90 0.88 0.59 0.87 0.84 0.78 0.79 E5, E10
737 0.00 2.18 0.07 0.75 0.07 0.93 0.91 0.69 0.89 0.86 0.84 0.84 -
739 0.00 2.17 0.09 0.85 0.07 0.92 0.90 0.65 0.88 0.86 0.82 0.84 -
731 0.00 1.64 0.04 0.38 0.04 0.97 0.96 0.88 0.96 0.95 0.90 0.94 -
737 0.00 2.20 0.14 0.85 0.07 0.92 0.90 0.75 0.88 0.86 0.77 0.77 -
Iteraciones
10
11
12
11
15
717 0.00 1.59 0.04 0.30 0.04 0.97 0.96 0.89 0.96 0.95 0.92 0.95 F1xF5, F2xF5 14
725 0.00 1.58 0.07 0.33 0.04 0.97 0.96 0.84 0.93 0.91 0.91 0.91 R18
741 0.00 2.01 0.15 0.81 0.07 0.92 0.90 0.63 0.88 0.85 0.75 0.77 -
11
12
La estructura de 3 factores relacionados claramente se ajusta en las dos aplicaciones, realizada una tras 6 meses de la otra. Precisamente la correlación entre las 2 escalas fue de .75. Sólo el modelo de 5 factores dependientes supera muy ligeramente en ajuste a de 3 factores dependientes. Por los excelentes índices de ajuste del modelo de 3 factores relacionados (Residuo estandarizado cuadrático medio y Error cuadrático de aproximación menores de .05, los índices de ajuste general de Jöreskog y Gamma poblacionales son mayores o iguales a .95 y la delta de Bollen de .94), y la no variación entre los modelos 3D y 5D de los índices menos sensibles a la complejidad (Error cuadrático de aproximación y residuo estandarizado cuadrático medio de .04 e índice gamma poblacional ajustado de .95), podemos afirmar que el modelo más sencillo y con mayor relevancia es el que mejor se ajusta, es decir el modelo de tres factores relacionados. Así, queda conformada la hipótesis estructural propuesta. EJERCICIOS PROPUESTOS Ejercicio 1 – Compruebe, analizando los datos como correlaciones, un modelo de tres factores relacionados para las 10 escalas clínicas del MMPI (Hathaway y McKinley, 1967). Los factores del modelo teórico serían los siguientes: El primer factor, el de psicoticismo, estaría constituido por las variables de Esquizoidismo (ES), Psicastenia (PT), Desviación psicopática (DP) y Paranoia (PA). El segundo factor, el de depresión, se hallaría formado por las variables de Depresión (D), Introversión social (IS) e Hipomanía (MA). El tercer factor, el somatomorfo, estaría integrado por las variables de Histeria (HI), Hipocondriasis (HS) y Masculinidad-Feminidad (MF). Ya que sólo en dos variables se cumple el supuesto de normalidad (Histeria e Hipomanía), emplee primero el método del Estimador gramiano asintótico libre de distribución ( As ym ptot ic all y Distr ibut ion Free Gramian ) (ADFG) para estimar la función de discrepancia. Si la matriz de partida no es gramiana, entonces opte por el del Estimador insesgado asintótico libre de distribución ( As ympt otic ally Distribution Free Unbiased ) (ADFU). Tome los datos del archivo (MMPI.sta) proporcionado en el CD. La sintaxis del modelo propuesto contempla, en primer lugar, la definición de los factores como variables latentes; correspondiendo al factor de Psicoticismo los números de coeficiente o parámetros libres a estimar del 1 al 4, al de Depresión del 5 al 7 y al Somatomorfo del 8 al 10. Un número por cada variable manifiesta que lo integra. En segundo lugar, se definen los errores como variables latentes. Cada error está asociado, o mejor dicho determina, a una variable manifiesta. Son parámetros fijos que el programa no estima. En tercer lugar, al programa se le señala que estime parámetros para la varianza de cada variable latente de error, con los números de coeficiente del 11 al 20. Por último, se introducen las correlaciones entre los factores y se especifica que son parámetros libres a estimar con los números de coeficiente del 21 al 23. (Psicoticismo)-1->[ES] (Psicoticismo)-2->[PT] (Psicoticismo)-3->[DP] (Psicoticismo)-4->[PA] (Depresión)-5->[D] (Depresión)-6->[IS] (Depresión)-7->[MA] (Somatomorfo)-8->[HS] (Somatomorfo)-9->[HI] (Somatomorfo)-10->[MF]
(Error1)-->[ES] (Error2)-->[PT] (Error3)-->[DP] (Error4)-->[PA] (Error5)-->[D] (Error6)-->[IS] (Error7)-->[MA] (Error8)-->[HS] (Error9)-->[HI] (Error10)-->[MF]
(Error1)-11-(Error1) (Error2)-12-(Error2) (Error3)-13-(Error3) (Error4)-14-(Error4) (Error5)-15-(Error5) (Error6)-16-(Error6) (Error7)-17-(Error7) (Error8)-18-(Error8) (Error9)-19-(Error9) (Error10)-20-Error10)
35
(Psicoticismo)-21-(Depresión) (Somatomorfo)-22-(Psicoticismo) (Somatomorfo)-23-(Depresión) Recuerde que en la pantalla de Analysis parameters se especifica correlations en la sección de Data to analysis y escoge la opción ADFU como método para estimar la función de discrepancia. Como podrá ver, no se puede estimar la solución por el método del estimador insesgado asintótico libre de distribución (ADFU) porque la matriz de origen no es gramiana. Así, se opta por el método del estimador gramiano asintótico libre de distribución (ADFG) que transforma la matriz de origen (de correlaciones) en una matriz gramiana, es decir, sin matriz inversa. El cálculo requirió 16 iteraciones para converger y podemos observar que el modelo tiene un ajuste más bien pobre. El residuo estandarizado cuadrático medio (RMS SR) fue de .158 y el error cuadrático de aproximación de Steiger-Lind (RMS EA) en su estimación puntual de .115, es decir, valores mayores a .10. El índice de bondad de ajuste de Joreskog (GFI) fue de .873 y el ajustado (AGFI) de .781, es decir, menores a .90. A favor del ajuste del modelo, el valor de la función de discrepancia es bajo (.515), al igual que el Parámetro de no centralidad poblacional con un estimación puntual de .427. Asimismo, el índice de no centralidad de McDonald en su estimación puntual fue de 0.808, es decir mayor a .90. El mejor índice de ajuste resultó el Criterio bayesiano de Schwarz (.891). Los 32 parámetros del modelo fueron significativos, a excepción de la variable latente error que determina la puntuación en la escala de Depresión (Error 5), cuyo parámetro estimado fue de .084 con un error estándar de estimación de .097 (t=.868, p=.385). Los estadísticos del multiplicador de LaGrange de las variables manifiestas fueron nulos, consecuente con sus parámetros significativamente distintos de cero dentro del modelo. Ejercicio 2. - A cont inuación, contraste el ajuste del mismo m odelo de tres factores relacionados empleando el método propuesto por defecto en STATISTICA: GLS – ML ( Genralized Least Squares - Maximum likelihood ), el cual combina de forma secuencial Mínimos cuadrados generalizados y Máxima verosimilitud. Realice el cálculo bien desde la matriz de correlaciones que se proporciona abajo o desde el archivo de datos (MMPI.sta). En las correcciones a este modelo puede considerarse la saturación de escala hipomanía en el factor psicoticismo en vez del factor de depresión y la independencia de los factores de psic oticis mo y d epresión. Introduzca la matriz con el formato que se muestra siguiendo las indicaciones dadas en los tres últimos párrafos del punto XI.2.1 (sobre archivos de datos). Una vez creada la matriz, la puede guardar como un archivo tipo STATISTICA Matrix file (*.smx). HS
D
HI
DP
MF
PA
PT
ES
MA
IS
HS
1
D
0.343
1
HI
0.575
0.322
1
DP
0.279
0.205
0.384
1
MF
0.119
0.239
0.188
0.133
1
PA
0.232
0.211
0.286
0.399
0.234
1
PT
0.441
0.416
0.321
0.476
0.049
0.44
1
ES
0.413
0.263
0.292
0.454
-0.074
0.356
0.693
1
MA
0.068
-0.192
-0.023
0.26
-0.116
0.124
0.225
0.334
1
IS
0.18
0.53
-0.032
0.089
0.04
0.135
0.378
0.293
-0.1
1
362
362
362
362
362
362
362
362
362
362
Means Std Dev. No. Cases Matrix
1
El programa de sintaxis para el cálculo es el mismo que el visto en el ejercicio 1. También, en la pantalla de Analysis parameters, especificamos correlations en la sección de Data to analysis y dejamos la opción de método que aparece por defecto para estimar la función de discrepancia por GLS-ML. Este método combina 5 iteraciones por Mínimos cuadrados generalizados y prosigue el cálculo por Máxima
36
verosimilitud hasta que converge la solución bajo las especificaciones estipuladas. Por este método la solución converge en la octava iteración y también se obtiene un pobre ajuste. El residuo estandarizado cuadrático medio (RMS SR) fue de .107 y el error cuadrático de aproximación de Steiger-Lind (RMS EA) en su estimación puntual fue de .142, es decir, mayores a .10. El índice de bondad de ajuste de Joreskog (AGFI) fue de .872 y el ajustado (GFI) de .780; los índices gamma poblacional (PGI) y gamma poblacional ajustado (APGI), ambos en estimación puntual fueron respectivamente de .886 y .804, es decir, menores a .90. Asimismo, el índice de no centralidad de McDonald en su estimación puntual fue de .724, es decir, menor de .80. A favor del ajuste del modelo, el valor de la función de discrepancia (.704) y el Parámetro de no centralidad poblacional en su estimación puntual (.695) fueron bajos. Todos los parámetros fueron significativos, salvo el error que determina la variable de Depresión (Error 5), ya que el parámetro del segundo factor para esta variable fue 1 (valor máximo) y consecuentemente el parámetro del error fue cero. Los estadísticos del multiplicador de LaGrange de las 10 variables manifiestas son nulos, en consonancia con la significación de las mismas. Con una de las modificaciones propuestas, al saturar la escala MA (de hipomanía) en el factor de psicoticismo, mejora algo el ajuste del modelo. El programa de sintaxis varía ligeramente: (Psicoticismo)-1->[ES] (Psicoticismo)-2->[PT] (Psicoticismo)-3->[DP] (Psicoticismo)-4->[PA] (Psicoticismo)-5->[MA] (Depresión)-6->[D] (Depresión)-7->[IS] (Somatomorfo)-8->[HS] (Somatomorfo)-9->[HI] (Somatomorfo)-10->[MF]
(Error1)-->[ES] (Error2)-->[PT] (Error3)-->[DP] (Error4)-->[PA] (Error5)-->[MA] (Error6)-->[D] (Error7)-->[IS] (Error8)-->[HS] (Error9)-->[HI] (Error10)-->[MF]
(Error1)-11-(Error1) (Error2)-12-(Error2) (Error3)-13-(Error3) (Error4)-14-(Error4) (Error5)-15-(Error5) (Error6)-16-(Error6) (Error7)-17-(Error7) (Error8)-18-(Error8) (Error9)-19-(Error9) (Error10)-20-(Error10) (Depresión)-21-(Psicoticismo) (Somatomorfo)-22-(Psicoticismo) (Somatomorfo)-23-(Depresión)
Tras ir a la pantalla de Analysis parameters, especificar correlations en la sección de Data to analysis y dejar la opción de método que aparece por defecto para estimar la función de discrepancia (GLS-ML), realizamos el cálculo. Vemos que la solución converge en la quinceava iteración. El residuo estandarizado cuadrático medio (RMS SR) fue de .088 y el error cuadrático de aproximación de SteigerLind (RMS EA) en su estimación puntual fue de .140. Sólo el primero resultó menor a .10. El índice de bondad de ajuste de Joreskog (AGFI) fue de 0.874 y el ajustado (GFI) de 0.784, y los índices gamma poblacional (PGI) y gamma poblacional ajustado (APGI), ambos en estimaciones puntuales, fueron respectivamente de .888 y .807. Mejoran, pero siguen siendo menores a .90. El índice de no centralidad de McDonald en su estimación puntual fue de 0.730; menor de .80. A favor del ajuste, el índice comparativo de Bentler y la Delta de Bollen fueron de .81, mayores a .90. Asimismo, y nuevamente, el valor de la función de discrepancia (.666) y el Parámetro de no centralidad poblacional en su estimación puntual (.631) fueron bajos. Todos los parámetros del modelo son significativos salvo el error asociado a la escala de depresión. El estadístico del multiplicador de LaGrange para cada variable latente fue nulo. Los datos indican que la solución trifactorial propuesta, con los factores interdependientes de psicoticismo, depresión y somatomorfo, no es muy clara ni robusta. Los mejores índices aparecen cuando se consideran los tres factores como relacionados y la escala de manía satura en el factor de psicoticismo o de dureza emocional, desvinculación e impulsividad. Ejercicio 3. - Contraste el modelo de tres factores relacionados (Psicoticismo – ES, PT, DP, MA y PA, Depresión – D e IS y Somatomorfo – HS, HI y MF) en la muestra de hombres y mujeres. Emplee el método ADFG o en caso que no se pueda ADFU para lo cual requiere de los datos proporcionados en el archivo MMPI.sta, así como el método GLS-ML, bien desde la matriz de correlaciones que se proporciona abajo o desde el archivo de datos con la especificación de correlaciones c omo datos de análisis. Se representa a continuación la sintaxis del modelo que sirve tanto para su cálculo desde la archivo de datos como desde la matriz de correlaciones. En el programa de sintaxis, se escribe el modelo tal como se vio en el ejercicio 2. Para el primer grupo se encabeza por el comando de Group1 y se cierra por el comando Endgroup. A continuación se repite exactamente el mismo modelo, con los mismos números de coeficientes, con el encabezamiento de Group2 y terminado con Endgroup. De este modo, indicamos al programa que se trata del mismo modelo a contrastar en dos muestras.
37
GROUP 1 (Psicoticismo)-1->[ES] (Psicoticismo)-2->[PT] (Psicoticismo)-3->[DP] (Psicoticismo)-4->[MA] (Psicoticismo)-5->[PA] (Depresión)-6->[D] (Depresión)-7->[IS] (Somatomorfo)-8->[HS] (Somatomorfo)-9->[HI] (Somatomorfo)-10->[MF]
(Error1)-->[ES] (Error2)-->[PT] (Error3)-->[DP] (Error4)-->[MA] (Error5)-->[PA] (Error6)-->[D] (Error7)-->[IS] (Error8)-->[HS] (Error9)-->[HI] (Error10)-->[MF]
(Error1)-11-(Error1) (Error2)-12-(Error2) (Error3)-13-(Error3) (Error4)-14-(Error4) (Error5)-15-(Error5) (Error6)-16-(Error6) (Error7)-17-(Error7) (Error8)-18-(Error8) (Error9)-19-(Error9) (Error10)-20-(Error10) (Depresión)-21-(Psicoticismo) (Somatomorfo)-22-(Psicoticismo) (Somatomorfo)-23-(Depresión)
ENDGROUP GROUP 2 Líneas de programa del modelo, repitiendo sin ningún cambio la del primer grupo. ENDGROUP Tras ir a la pantalla de Analysis parameters y especificar correlations en la sección de Data to analysis y como opción de método para estimar la función de discrepancia (ADFU), realizamos el cálculo. Por el método del estimador insesgado asintótico libre de distribución (ADFU), el programa emite un mensaje de error. Nos dice que no se puede aplicar porque la matriz de partida no es gramiana. Así que optamos por el método del estimador gramiano asintótico libre de distribución (ADFG) que transforma la matriz de partida (de correlaciones) para que sea gramiana. El ajuste del modelo de tres factores tanto en la muestra de hombres como en la de mujeres es pobre. La solución convergió en la quinceava iteración. En ambas muestras el parámetro para la escala de Masculinidad-Feminidad del factor somatomorfo no presenta un valor significativamente distinto de cero (t=.507, p=.612), con un parámetro estimado de .026 y un error estándar de estimación de .050. No obstante, el resto de elementos del modelo son significativos y los estadísticos del multiplicador de LaGrange de las variables manifiestas son nulos. El valor de la función de discrepancia (.561) y el parámetro de no centralidad poblacional en su estimación puntual (.346) son bajos. El residuo estandarizado cuadrático medio (RMS SR) resultó alto (.185) es mayor de .10, pero no así el error cuadrático de aproximación de Steiger-Lind (RMS EA) en su estimación puntual (.095). El índice de no centralidad de McDonald presenta en su estimación puntual un valor bajo de 708 (menor a .90). La matriz de correlaciones de las escalas del MMPI de dos grupos de hombres (n=84) y mujeres (n=275) debe tomar el formato que se presenta para sea reconocida por el programa. Una vez creada la matriz, se puede guardar como un archivo tipo STATISTICA Matrix file (*.smx). HS
D
HI
DP
MF
PA
PT
ES
MA
IS
HS
1
D
0.334
1
HI
0.491
0.267
1
DP
0.42
0.35
0.333
1
MF
0.092
0.212
0.099
0.327
1
PA
0.295
0.092
0.105
0.468
0.392
1
PT
0.485
0.291
0.218
0.507
0.206
0.522
1
ES
0.6
0.286
0.278
0.519
0.199
0.527
0.714
1
MA
0.205
-0.227
0.052
0.166
0.045
0.255
0.237
0.405
1
IS
0.299
0.525
0.008
0.257
0.202
0.276
0.46
0.442
-0.06
1
84
84
84
84
84
84
84
84
84
84
Means Std Dev. No. Cases
38
Matrix
1
HS
1
D
0.317
1
HI
0.573
0.296
1
DP
0.226
0.166
0.384
1
MF
0.007
0.095
0.061
0.056
1
PA
0.192
0.201
0.305
0.377
0.143
1
PT
0.429
0.448
0.349
0.469
0.001
0.417
1
ES
0.408
0.336
0.358
0.457
-0.003
0.349
0.71
1
MA
0.063
-0.133
-0.001
0.303
-0.008
0.122
0.232
0.274
1
IS
0.149
0.541
-0.048
0.045
0.004
0.093
0.348
0.251
-0.114
1
275
275
275
275
275
275
275
275
275
275
Means Std Dev. No. Cases Matrix
1
Por el método GLS-ML que inicia con 5 iteraciones por Mínimos cuadrados generalizados (GLS) y sigue por Máxima verosimilitud (ML) hasta que converge la solución, la convergencia se logra en la undécima iteración. El modelo de tres factores presenta un ajuste pobre tanto en hombres como mujeres. Nuevamente, en ambas muestras, el parámetro para la escala de Masculinidad-Feminidad asociada del factor somatomorfo no presenta un valor significativamente distinto de cero (t=1.175, p=.240), con un parámetro estimado de .070 y un error estándar de estimación de .060. No obstante, el resto de elementos del modelo son significativos y los estadísticos del multiplicador de LaGrange de las variables manifiestas son nulos. El valor de la función de discrepancia (.630) y el parámetro de no centralidad poblacional en su estimación puntual (.419) son bajos. El residuo estandarizado cuadrático medio (RMS SR) (.107) y el error cuadrático de aproximación de Steiger-Lind en su estimación puntual (RMS EA) (0.104) son mayores a .1. Asimismo El índice de no centralidad de McDonald presenta un valor bajo de .658 en su estimación puntual. No obstante, el índice gamma poblacional (PGI) (.923) y el ajustado (APGI) (.890) fueron mayores o próximos a .90 en sus estimaciones puntuales. Al repetir el modelo sin la variable manifiesta de Masculinidad-Feminidad (MF) no mejora el ajuste. Así, concluimos que el modelo propuesto no refleja claramente la estructura factorial de las escalas clínicas del MMPI. Ejercicio 4. – Compruebe un modelo unidimensional para las 6 escalas del DAT (Bennett, Seashore y Wesman, 1980) en una muestra de 360 sujetos. Las escalas de DAT son de razonamiento verbal (representada por VER), la de razonamiento numérico (NUM), la de razonamiento abstracto (ABS), la de razonamiento espacial (ESP), la de razonamiento mecánico (MEC) y la de velocidad y exactitud (VYE). La distribución de las escalas de razonamiento verbal (VER), razonamiento abstracto (ABS) y velocidad y exactitud (VYE) no se ajusta a una curva normal. Por lo qu e el sup uesto de norm alidad mult ivariada es algo débil. De ahí que sea necesario probar con un método que no requiere dicho supuesto. Asi, emplee el método ADFU o en caso que no pueda ADFG. Tome los datos del archivo (DAT.sta) proporcionado en el CD. Además, contraste el modelo desde la matriz de correlaciones con el método GLS-ML. Se representa a continuación la sintaxis del modelo que sirve tanto para su cálculo desde la archivo de datos como desde la matriz de correlaciones. En el programa de sintaxis, se contempla, en primer lugar, la definición de la variable latente del factor general de inteligencia académica (FG) que determina a las 6 variables manifiestas. De este modo se introducen los 6 primeros números de coeficientes o parámetros a estimar. En segundo lugar, se definen las variables latentes de los errores como parámetros fijos que el programa no estima. Cada error determina a una de las variables manifiestas. A continuación con los comandos a los que le corresponde los números de coeficiente del 7 al 12, se indica al programa que tiene que estimar los parámetros de las varianzas para los errores. No se postula ninguna correlación entre los errores.
39
(FG)-1->[VER] (FG)-2->[NUM] (FG)-3->[ABS] (FG)-4->[ESP] (FG)-5->[MEC] (FG)-6->[VYE]
(Error1)-->[VER] (Error2)-->[NUM] (Error3)-->[ABS] (Error4)-->[ESP] (Error5)-->[MEC] (Error6)-->[VYE]
(Error1)-7-(Error1) (Error2)-8-(Error2) (Error3)-9-(Error3) (Error4)-10-(Error4) (Error5)-11-(Error5) (Error6)-12-(Error6)
Recuerde que en la pantalla de Analysis parameters debe indicar que el tipo de datos de análisis es Correlations y escoger el método de estimación de la función de discrepancia. El método del estimador insesgado asintótico libre de distribución (ADFU) no se puede aplicar porque la matriz inicial de correlaciones no es gramiana. Así que se opta por el método del estimador gramiano asintótico libre de distribución (ADFG) que realiza una transforma sobre la matriz de partida para que sea gramiana. Observamos que el ajuste del modelo unidimensional es bueno. La solución convergió en la octava iteración. Todos los parámetros del modelo resultaron significativos y los estadísticos del multiplicador de LaGrange son nulos. Los valores de la función de discrepancia (.092) y del parámetro no poblacional en su estimación puntual (.067) son muy bajos. El residuo estandarizado cuadrático medio (RMS SR) fue de .089 y el error cuadrático de aproximación de Steiger-Lind (RMS EA) en su estimación puntual de .086, ambos menores a .10. El índice de bondad de ajuste de Joreskog (GFI) fue de .961 y el ajustado (AGFI) de .910 y el índice no central de McDonald en su estimación puntual de .967, es decir mayores a .90. Para poder trabajar con la matriz de correlaciones, introdúzcala con el formato que se muestra, siguiendo las indicaciones dadas en los tres últimos párrafos del punto XI.2.1. Una vez creada la matriz, la puede guardar como un archivo tipo STATISTICA Matrix file (*.smx) . VER
NUM
ABS
ESP
MEC
VYE
VER
1
NUM
0.417
1
ABS
0.433
0.435
1
ESP
0.405
0.372
0.509
1
MEC
0.426
0.311
0.402
0.549
1
VYE
0.195
0.278
0.188
0.168
0.079
1
360
360
360
360
360
360
Means Std Dev. No. Cases Matrix
1
Por el método GLS-ML que se inicia con 5 iteraciones por Mínimos cuadrados generalizados (GLS) y sigue por Máxima verosimilitud (ML) hasta que converge la solución, la convergencia se logró a la quinta iteración. Como se puede comprobar el ajuste del modelo es bueno. Todos los parámetros del modelo fueron significativos y los estadísticos del multiplicador de LaGrange de las variables manifiestas son nulos. El valor de la función de discrepancia fue muy bajo (.087), al igual que la estimación puntual del parámetro de no centralidad poblacional (.106). El residuo estandarizado cuadrático medio (RMS SR) fue muy bueno de .048, pero no así el error cuadrático de aproximación de Steiger-Lind (RMS EA) con un valor de .098 en su estimación puntual. El índice de bondad de Joreskog (GFI) fue de .964 y el ajustado (AGFI) de .916: Los índices gamma poblacional (PGI) y gamma ajustado (APGI) en su estimación puntual fueron de .972 y.934 respectivamente. Los tres índices de Bentler (normado, no normado y comparativo) oscilan de .90 a .94. Asimismo, el índice no centralidad de McDonald en su estimación puntual fue de .957. Es decir, todos ellos mayores a .90. Se puede afirmar que el modelo de factor único de inteligencia académica se confirma con las escalas del DAT. Ejercicio 5. – Compruebe un modelo unidimensional para las 6 escalas del DAT en dos muestras, una de hombres y otra de mujeres, empleando los métodos ADFU o ADFG y GLS-ML, especificando como datos para el análisis: correlaciones. Con el archivo de datos (DAT.sta)
40
proporcionado en el CD puede usar los tres métodos y con la matriz de correlaciones sólo el método GLS-ML. Se representa a continuación la sintaxis del modelo que sirve tanto para su cálculo desde la archivo de datos como desde la matriz de correlaciones. En el programa de sintaxis, se escribe el modelo tal como se vio en el ejercicio 4. Para el primer grupo se encabeza por el comando de Group1 y se cierra por el comando Endgroup. A continuación se repite exactamente el mismo modelo, con los mismos números de coeficientes, con el encabezamiento de Group2 y terminado con Endgroup. De este modo, indicamos al programa que se trata del mismo modelo a contrastar en dos muestras. Recuerde que en la pantalla de Analysis parameters debe indicar que el tipo de datos de análisis es Correlations y escoger el método de estimación de la función de discrepancia. GROUP 1 Líneas del programa del modelo FG ENDGROUP GROUP 2 Líneas de programa del modelo FG ENDGROUP El método de estimador insesgado asintótico libre de distribución (ADFU) no se puede aplicar porque la matriz de partida no es gramiana. Así que se opta por el método de estimador gramiano asintótico libre de distribución (ADFG) que realiza una transformación sobre la matriz de partida (de correlaciones) para que sea gramiana. El ajuste del modelo unidimensional tanto en la muestra de hombres como en la de mujeres es aceptable. La solución convergió en la octava iteración. En ambas muestras todos los parámetros del modelo son significativos y los estadísticos del multiplicador de LaGrange son nulos. El valor de la función de discrepancia (.140) y el parámetro de no centralidad poblacional en su estimación puntual (.072) son muy bajos. El residuo estandarizado cuadrático medio (RMS SR) resultó alto (.126), pero el error cuadrático de aproximación de Steiger-Lind (RMS EA) en su estimación puntual fue (.077) menor de .10. El índice de no centralidad de McDonald en su estimación puntual presenta un valor alto de .931. La matriz de correlaciones de las escalas del DAT de dos grupos de hombres (n=83) y mujeres (n=274) debe tomar el formato presentado para que sea leída por el programa. Una vez creada la matriz, la puede guardar como un archivo tipo STATISTICA Matrix file (*.smx). VER
NUM
ABS
ESP
MEC
VYE
VER
1
NUM
0.342
1
ABS
0.414
0.369
1
ESP
0.489
0.365
0.627
1
MEC
0.491
0.378
0.554
0.626
1
VYE
0.134
0.246
0.313
0.221
0.133
1
No. Cases
83
83
83
83
83
83
Matriz
1
VER
1
NUM
0.452
1
ABS
0.454
0.456
1
ESP
0.347
0.369
0.481
1
MEC
0.396
0.294
0.357
0.477
1
VYE
0.244
0.294
0.183
0.194
0.14
Means Std Dev.
Means
1
41
Stad Dev. No. Cases
274
274
274
274
274
274
1
Matriz
Por el método GLS-ML que inicia con 5 iteraciones por Mínimos cuadrados generalizados (GLS) y sigue por máxima verosimilitud (ML) hasta que converge la solución, la convergencia se logra en la quinta iteración. El modelo de un factor general también presenta un ajuste aceptable tanto en hombres como mujeres. En ambas muestras todos los parámetros del modelo son significativos y los estadísticos del multiplicador de LaGrange son nulos. El valor de la función de discrepancia (.130) y el parámetro de no centralidad poblacional en su estimación puntual (.066) son muy bajos. El residuo estandarizado cuadrático medio (RMS SR) y el error cuadrático de aproximación de Steiger-Lind (RMS EA) coinciden en un valor de .074 menor a .075. Los índices gamma poblacional (PGI) y gamma ajustado (APGI) en su estimación puntual fueron de .979 y .963, respectivamente y el índice de no centralidad de McDonald en su estimación puntual fue de .937. Así, los tres índices de no centralidad fueron mayores a .90. Se puede considerar que las escalas del DAT se ajustan a un modelo unidimensional en las dos muestras. Ejercicio 6. – Una utilidad adicional de SEPATH es contrastar la estabilidad de una estructura correlacional sin postular factores subyacentes Compruebe la estabilidad de la matriz de correlaciones de estas 3 escalas de inteligencia, tomadas de una muestra de 120 sujetos en dos momentos dis tintos , usando el método GLS-ML. La matriz de correlaciones de las escalas de inteligencia entre la primera y segunda aplicación debe tomar el formato que se presenta para que sea leída por el programa. Una vez creada la matriz, la puede guardar como un archivo tipo STATISTICA Matrix file (*.smx) . VER_1
NUM_1
ABS_1
VER_2
NUM_2
VER_1
1
NUM_1
0.65
1
ABS_1
0.54
0.68
1
VER_2
0.27
0.3
0.21
1
NUM_2
0.32
0.21
0.27
0.59
1
ABS_2
0.18
0.26
0.22
0.48
0.55
ABS_2
1
Means Std.Dev. No.Cases Matrix
120 1
El programa de sintaxis para definir el modelo contempla, en primer lugar, los tres pares de correlaciones de la primera muestra (tiempo 1), y se les asigna los números de coeficientes del 1 al 3. En segundo lugar, se meten los tres pares de correlaciones de la segunda muestra (tiempo 2), nuevamente con los números de coeficientes del 1 al 3. De este modo, se indica al programa que les corresponde los mismos parámetros libres que a las tres correlaciones anteriores. En tercer lugar, se introducen las correlaciones cruzadas de ambas muestras, a las que se les asigna los números de coeficiente del 4 al 12. Finalmente, se especifica el parámetro de inicio de la correlación de cada variable consigo misma {1.}. No se contempla ningún factor común. [VER_1]-1-[NUM_1] [VER_1]-2-[ABS_1] [NUM_1]-3-[ABS_1] [VER_2]-1-[NUM_2] [VER_2]-2-[ABS_2] [NUM_2]-3-[ABS_2]
[VER_1]-4-[VER_2] [VER_1]-5-[NUM_2] [VER_1]-6-[ABS_2] [NUM_1]-7-[VER_2] [NUM_1]-8-[NUM_2] [NUM_1]-9-[ABS_2] [ABS_1]-10-[VER_2] [ABS_1]-11-[NUM_2] [ABS_1]-12-[ABS_2]
[VER_1]-{1.}-[VER_1] [NUM_1]-{1.}-[NUM_1] [ABS_1]-{1.}-[ABS_1] [VER_2]-{1.}-[VER_2] [NUM_2]-{1.}-[NUM_2] [ABS_2]-{1.}-[ABS_2]
42
Tras indicar que el tipo de datos de análisis son correlaciones ( Correlations ) y escoger el método de estimación de la función de discrepancia (GLS-ML) en la pantalla de Analysis parameters, observamos un buen ajuste entre ambas estructuras correlacionales. El programa requirió tres iteraciones para alcanzar la solución. Todos los elementos del modelo tienen un parámetro significativamente distinto de cero. Al no haber variables latentes, el programa no puede calcular los estadísticos del multiplicador de LaGrange asociados a las variables manifiestas, de ahí que carecemos de este dato. El valor de la función de discrepancia fue muy bajo (.025) y el parámetro de no centralidad poblacional en su estimación puntual resultó nulo (0). Los estadísticos de varianza tomaron valores muy buenos. El residuo estandarizado cuadrático medio (RMS SR) fue de .053 y el error cuadrático de aproximación de SteigerLind (RMS EA) en su estimación puntual fue nulo. Incluso por la prueba χ2 de Pearson se puede mantener la hipótesis nula de ajuste del modelo teórico a los datos ( χ2=3.004, g.l.=3, p=.391) El índice de bondad de ajuste Jöreskog fue de .992 y el ajustado de .942. Mayores a .90. Los índices gamma poblacional (PGI) y gamma ajustado (APGI) y el índice de no centralidad de McDonald, los tres en su estimación puntual, coinciden en el valor máximo de 1. Los tres índices de Bentler (normado, no normado y comparativo) oscilan de .99 a 1. Podemos afirmar que la estructura correlacional es estable y que hay que ajuste perfecto entre los datos y el modelo correlacional propuesto. Ejercicio 7. – Compruebe la estabilidad de una estructura unidimensional, usando el método de Máxima Verosimilitud (ML), para las 3 escalas de inteligencia del ejercicio anterior, procedentes de una muestra de 120 sujetos, capturada en dos momentos distintos. Tome los datos desde la matriz c orrelacional. En el programa de sintaxis, primero, se define el factor general de inteligencia académica en la primera muestra (tiempo 1) como variable latente FG1 que determina a las variables manifiestas: VER_1, NUM_1 y ABS_1. Con los números de coeficiente del 1 al 3 se indica al programa que son parámetros libres a estimar. Luego se define el mismo modelo en la segunda muestra (tiempo 2). La variable latente (FG2) determina a las variables manifiestas VER_2, NUM_2 y ABS_2. Se asigna los mismos números de coeficientes, del 1 al 3, indicando que los parámetros estimados para las variables manifiestas determinadas por FG1 y FG2 deben coincidir. Sigue la definición de las variables latentes de error como parámetros fijos que el programa no estima. Cada variable manifiesta está determinada por una variable latente de error. Con los números de coeficiente del 4 al 9, se indica que al programa que estime un parámetro de varianza para cada error. Por último, se introduce la correlación entre los factores de ambas muestras (número de coeficiente 10). No se postula ninguna relación entre los errores. (FG1)-1->[VER_1] (FG1)-2->[NUM_1] (FG1)-3->[ABS_1] (FG2)-1->[VER_2] (FG2)-2->[NUM_2] (FG2)-3->[ABS_2]
(Error1)-->[VER_1] (Error2)-->[NUM_1] (Error3)-->[ABS_1] (Error4)-->[VER_2] (Error5)-->[NUM_2] (Error6)-->[ABS_2]
(Error1)-4-(Error1) (Error2)-5-(Error2) (Error3)-6-(Error3) (Error4)-7-(Error4) (Error5)-8-(Error5) (Error6)-9-(Error6) (FG2)-10-(FG1)
Tras indicar que el tipo de datos de análisis son correlaciones ( Correlations ) y escoger el método de estimación de la función de discrepancia (ML) en la pantalla de Analysis parameters, observamos un buen ajuste entre los datos y el modelo propuesto. La solución convergió en la sexta iteración. Todos los parámetros estimados fueron significativos y los estadísticos del multiplicador de LaGrange de las variables manifiestas se aproximan a cero, variando de .047 a .006. El Parámetro de no Centralidad Poblacional en su estimación puntual fue casi nulo (.035) y el valor de la función de discrepancia fue bajo (.135). Los índices de varianza que son próximos a .05. (RMS SR =.059 y RMS EA =.056). Incluso por la prueba χ2 de Pearson se puede mantener la hipótesis nula de ajuste del modelo teórico a los datos (χ2=16.024, g.l.=11, p=.140) Los índices de bondad de ajuste de Jöreskog (GFI) y el ajustado (AGFI) fueron respectivamente de.959 y .922. Los índices de Bentler (normado, no normado y comparativo) varían de .94 a .98. Los índices gamma poblacional (PGI) y gamma ajustado (APGI) en su estimación puntual fueron de .988 y .978. El índice de no centralidad de McDonald en su estimación puntual fue de .983. Todos ellos mayores a .90 e incluso la mayoría a .95. Se concluye que la estructura unidimensional entre las tres escalas de inteligencia es estable en el tiempo.
43
Ejercicio 8. – Replica los ejemplos presentados en el capítulo para una sola muestra con la matriz de correlaciones de los 20 elementos de la TAS-20 que a continuación se presentan. Recuerde que para que el programa la reconozca debe mostrar el formato que se presenta. Una vez creada se puede grabar como un archivo tipo STATISTICA Matrix file (*.smx). También, recuerde que no puede emplear los m étodos de estimador asintótico libre de distr ibución, ya s ea el graciano (ADFG) o el insesgado (ADFU), pues requieren los datos de los n sujetos en las p variables. I1 I2 I3 I4 I5 I6 I7 I8 I9 I10 I11 I12 I13 I14 I15 I16 I17 I18 I19 I20 I1 1.000 I2 .503 1.000 I3 .161 .134 1.000 I4 .291 .536 .013 1.000 I5: .043 -.017 .118 .122 1.000 I6: .341 .363 .155 .219 .009 1.000 I7 .274 .289 .268 .167 .042 .407 1.000 I8 .113 .121 .040 .002 .082 .104 .046 1.000 I9 .414 .483 .182 .280 .084 .338 .276 .117 1.000 I10 -.014 -.003 .109 .067 .220 -.075 -.018 -.022 .074 1.000 I11 .260 .452 .046 .366 .020 .307 .202 .145 .295 -.0711.000 I12 .314 .487 .121 .446 .099 .270 .209 .162 .310 .031 .426 1.000 I13 .445 .409 .163 .327 .039 .384 .313 .056 .489 -.038 .279 .392 1.000 I14 .387 .308 .263 .228 .110 .427 .365 .111 .364 .038 .209 .340 .458 1.000 I15 .111 .192 .108 .171 .075 .151 .156 .060 .059 .121 .144 .153 .114 .117 1.000 I16 .135 .156 .112 .086 .117 .154 .122 .142 .092 .038 .106 .122 .110 .157 .275 1.000 I17 .292 .438 .096 .416 -.025 .329 .169 .189 .323 -.047 .459 .419 .408 .292 .244 .099 1.000 I18 .105 .102 .011 .111 .116 .133 .056 .039 .098 .118 .111 .081 .108 .085 .176 .117 .163 1.000 I19 .081 .178 .125 .166 .169 .125 .092 .054 .054 .149 .115 .137 .063 .132 .184 .131 .196 .309 1.000 I20 .088 .060 .022 -.019 .151 .099 .070 .208 .129 .130 .020 .116 .081 .178 .079 .242 .062 .123 .118 1.000 Means Std Dev. No 381 381 381 381 381 381 381 381 381 381 381 381 381 381 381 381 381 381 381 381 Cases Matrix 1