Universidad Arturo Michelena Facultad de Ciencias Económicas y Sociales Escuela de Psicología Cátedra: Técnicas Psicométricas I Sección 5M
VALIDEZ: CONCEPTOS BÁSICOS E INTERPRETACIÓN
Aixa López: 25.985.784 Verónica López: 24.424.921 Victoria Veroes: 24.860.468 Tania Zambrano: 25.635.811
San Diego, Noviembre 2015
VALIDEZ: CONCEPTOS BÁSICOS
¿Qué es validez? Si un test sirve para lo que con él se pretende, se dice que es válido. Por ejemplo, un test de inteligencia es válido si mide la inteligencia. Los tests son válidos en la medida en que miden lo que dice medir. Históricamente la validez se empieza a evaluar, estudiando la comparación del contenido de la prueba con las características de la variable que se desea medir y se rige de Criterios “desempeño en la situación para la cual se desea predecir la conducta”. Luego, formó dos tendencias desde su invención, que los test estén formados en base a fundamentos teóricos del tema que se desea medir y que estos tengan la posibilidad de llevarse a comprobación empírica. Finalmente, el último punto de evaluación de la validez fue el constructo de la misma, es decir, las categorías formadas por una serie de rasgos que se perciben en la conducta de manera no directa, lo que se puede inferir a través de lo observado. Existen muchos modos de comprobar la validez unos son empíricos y otros lógico-experimentales, aunque esta no pueda expresarse en términos generales, no es posible decir coloquialmente que esta es “alta” o “baja”. Para un test ser válido necesita contar con ciertas características: Validez de criterio: Un test tiene validez empírica si se ha comprobado que sirve para alguna finalidad práctica. Por ejemplo, un test es válido para seleccionar conductores si distingue los diferentes grados de pericia en la conducción. Para comprobarla, se debe definir un criterio externo de validez. En el ejemplo comentado el criterio externo es la pericia en la conducción. El coeficiente de validez del
test es la correlación entre el test y el criterio. Si los mejores en el test son los que conducen mejor, el test tendrá un alto coeficiente de validez respecto a ese criterio, y tendremos un test empíricamente válido para seleccionar conductores. Esta validez es científicamente ciega, porque no sabemos en qué se basa la validez del test. El test es válido para seleccionar conductores, no sabemos por qué. La validez empírica puede clasificarse en: Validez predictiva: permite pronosticar o predecir convenientemente los resultados de los sujetos en el criterio que se vaya a estudiar, sirve para seleccionar a los aspirantes que con más probabilidad van a ser buenos o destacados en dicho criterio. Es utilizada frecuentemente en el área organizacional. Generalmente resulta demasiado costoso someter a prueba la validez predictiva; suele estar fuera de las posibilidades prácticas del psicólogo. Validez concurrente: Es igual que el procedimiento anterior pero los tests y el criterio se miden en el mismo periodo concurrentemente. El coeficiente de validez concurrente será la correlación entre los tests y el criterio. Nos informa hasta qué punto los buenos y los malos en el test son, en este momento, buenos y malos en el criterio. Sin embargo no nos garantiza que los aspirantes con mejores resultados en los tests después sean los mejores. Validez de contenido: expresa la relación entre el test y el criterio interno formado por la materia a que se refiere el test. La relación será más alta a medida que esté mejor representada toda la materia por el test. Esta validez se consigue a medida que hay garantías de que se han definido claramente los diversos aspectos de un cierto campo de conocimientos o destrezas que el test intenta medir .
Criticar la validez de contenido de un test implica mostrar que no representa adecuadamente el campo a que se refiere. Sujeta a la validez de contenido, existe una validez teórica, que nunca deben confundirse, ni entenderse de que son la misma, pues la teórica es todos los argumentos e información recolectada que ayudarán a construir un test valido e ítems precisos, mientras que el contenido se establece mediante un análisis factorial junto a lo seleccionado a medir. Validez teórica: Un test tiene validez teórica si mide lo que pretende medir. Lo elegido a medir está señalado por argumentos lógicos y experimentales que equivalen a su relación con un criterio interno. Es decir que cada uno de los ítems que yo redacte debe tener coherencia con lo seleccionado a medir. Profundizándonos más en una validación exitosa, se necesita de más características para tener una consistencia y heterogeneidad en cada ítem. Validez de constructo: existe para garantizar científicamente que la variable que el test intenta medir es una variable aceptable, cuyo concepto presenta suficiente consistencia lógica dentro del sistema teórico de la psicología y se apoya en suficientes comprobaciones experimentales que lo verifican. Por ejemplo, antes de ofrecer un test válido para medir la inteligencia, habrá que aclarar que tipo de inteligencia es la que el test intenta medir. Dentro de la validez de constructo existe una especie de sub grupos, si se demuestra que la investigación posee ambos tipos se puede decir que tiene una validez de constructo excelente. Y estas son:
Validez convergente: mide la correlación existente junto a otros tests que tengan los mismos constructos medidos en mi test, de ser así esta será “alta y positiva”. Validez divergente o discriminativa: mide la correlación que tiene mi tests con otros tests de diferentes constructos, esta debe no existir y de ser así, es llamada “baja y negativa”. Validez facie (aparente): se considera para medir, o aparentar que mide algo cuando en realidad no lo es. No es una validez suficiente, aunque a menudo es necesaria. Muchas veces, conviene que el test les parezca válido a los sujetos que han de contestarlo. En otras ocasiones, es fundamental que el test no parezca que mide lo que mide. Éste es el primer requisito de la validez efectiva. Para conseguir ésta no es suficiente con que el test parezca válido, es preciso que se compruebe que lo es. Aunque la validez valga la redundancia busca en un test es validar a toda costa su contenido para que sea utilizado y práctico, la mayoría de las veces se ve influenciado bajo ciertas fuentes de error. Las más comunes y que afectan a todas de igual manera son la edad, el sexo, la cultura, y el nivel socioeconómico. Existen otras más específicas pero suelen afectar a constructos más detallados y amplios, y estas pueden ser, la inteligencia emocional, el tiempo de respuesta, el nivel de instrucción, la capacidad receptivas, entre otras. Parte del control y utilidad de este concepto, es la implementación en el área cognoscitiva. A partir de la fusión entre la psicometría y los procesos derivados de la mente, se ha podido estudiar y hacer comparaciones de manera más rigurosa en el ámbito psicológico. Iniciaron su lazo mediante el uso de computadores para el estudio del procesamiento mental. A través de distintos cálculos numéricos y juegos lúdicos, podían observar el avance
metacognoscitivo de los examinados. Cómo era el conocimiento y control de sus propios procesos y cuáles abordaban para la resolución de problemas. Como se puede apreciar, la aplicación del test correcta en tiempo y válida en contenido, aporta en el proceso de la auto-comprensión holística en el individuo y su eficacia, para una mayor madurez psicológica, reestableciendo el equilibrio interno. VALIDEZ: MEDICIÓN E INTERPRETACIÓN Ahora bien, luego de seguir los pasos para la construcción de un test y que este cuente con una validación aceptada, llega el turno de la aplicación y los resultados que estos arrojen, los usuarios suelen guiarse de la validación publicada del instrumento ya que se cuenta con una validez de constructo “alta”, pero también está el caso de aquellos que desean contrarrestar pues los los resultados plasmados con los que puedan arrojar la población elegida debido a ciertos criterios locales y esto se debe a que muchas veces estos instrumentos tienen una generalización con situaciones particulares. Para la interpretación de los criterios, se necesita de los siguientes análisis: Coeficiente de validez y error de estimación El coeficiente de validez es la correlación que tenga el puntaje de la prueba con el criterio. Esta correlación se levanta en tablas o en gráficas donde expresan la probabilidad de un individuo con cierta puntuación en la prueba obtenga cierto nivel específico de desempeño en una prueba, la correlación de los datos se realiza con la fórmula Producto- Momento de Pearson. El coeficiente también tiene ciertos aspectos que hacen que este se vea afectado y dependerá de la muestra seleccionada, la edad, el sexo, ocupación y la preselección, esto hace que muchas pruebas tengan validez elevada en ciertas poblaciones y nula en otras, debido a que la pericia es distinta en los distintos escenarios. Asimismo, se ve afecto por la
heterogeneidad y la forma de la relación entre la prueba y el criterio (si es lineal o no). Con respecto a la incógnita de que tan elevado debe ser un coeficiente de validez, si bien debe de ser significativa estadísticamente, no puede determinarse si no se toman en cuenta una serie de factores, principalmente el investigador se debe asegurar que este coeficiente no fue influenciado por circunstancias de muestreo o de población. Se busca siempre que la validez sea elevada a través de la correlación, pero se sabe que estas siempre contienen un margen de error, el cual se conoce como el “error estándar de estimación”. Validez del test y teoría de la decisión La teoría estadística de la decisión fue realizada por Wald, quien comenzó hablando de las decisiones que debían tomarse en el ámbito de la producción y control de calidad en productos industriales, más adelante fue revisada y modificada por Cronbach y Glesser. La misma consiste en una técnica para tomar las mejores decisiones en situaciones especificadas, para esto se escoge un punto de corte o razón de selección, para establecer que individuos serán electos y cuáles rechazados, dicho punto de corte depende de las demandas, exigencias y necesidades de los usuarios. Los criterios dentro de la teoría de la decisión, ayudan a escoger los sujetos más destacados, catalogándolos como aptos para la ejecución de las actividades por las que están siendo estudiados. Esta teoría tuvo como antecedente los trabajos de Taylor- Russell, los cuales consistían en unas tablas estadísticas para determinar las ganancias o el impacto que traía consigo el uso de un instrumento o prueba para la selección de candidatos, lo cual se realizaba a través de una comparación con el desempeño de individuos escogidos al azar, es decir sin instrumentos.
Dichas tablas constan
de 3 condiciones que de ser cambiadas afectan
totalmente la predicción que se pueda tener y son: el coeficiente de validez de la prueba, la razón de uso y la tasa base de aplicantes. Un aspecto curioso es la utilidad de la teoría de la decisión, debido a que se ponen a prueba los criterios especificados
en situaciones particulares, lo cual se
debe a que los resultados son relativamente deseados o desfavorables. El fin de la aplicación de la teoría, es aumentar al máximo las ganancias esperadas de los resultados. Muchas veces se ha puesto en tela de juicio que tan eficientes y en cuánto podrán aumentar la productividad los sujetos seleccionados si las pruebas solo arrojan que los individuos se destacan en los criterios de la prueba, más no aseguran que estos sean expertos en el área, entonces se recomienda el uso de una prueba que contenga una validez de .50 debido a que la productividad de los sujetos es directamente proporcional a su validez. La validez de la prueba puede variar en los criterios por consecuencia de ciertos subgrupos existentes que difieren en características personales, estos son catalogados como errores de predicción y son al azar, el más fluctuante es el género, muchas veces las pruebas tienen mejor predicción en hombres que en mujeres, y se tienen casos en donde pruebas especializadas para hombres, el desempeño más alto lo han obtenido las mujeres. Otra característica pueden ser, el nivel socioeconómico, y estas son vistas como variables moderadoras, conocidas de esta manera puesto que moderan e influyen en la validez de la prueba; el énfasis en estas se realizó gracias a la teoría de la decisión, la cual permitió evidenciar que un tipo determinado de prueba puede resultar más útil en ciertos subgrupos de personas que en otras. Sin embargo los resultados de las investigaciones con respecto a las variables moderadoras no fueron favorables, es decir, no arrojaron evidencia de que estas pudiesen afectar la validez.
COMBINACIÓN DE INFORMACIÓN A PARTIR DE DIFERENTES TEST Existen criterios de alta complejidad, cuya medida depende de varios rasgos, por lo que se requiere de un tipo de prueba capaz de cubrir cada uno de estos, pero debido a la ambigüedad de los resultados que brindan las pruebas heterogéneas
es preferible utilizar un conjunto de sub pruebas
homogéneas, las cuales abarcarán cada uno de los rasgos en particular, este tipo de pruebas se conoce como baterías de test. Asimismo, debido a la dificultad de combinar las puntuaciones de los diversos instrumentos que componen una determinada batería de test, se emplean dos métodos: la ecuación de regresión múltiple, que da una puntuación basada en las puntajes obtenidos en las diferentes sub pruebas, realiza correlaciones entre las mismas así como entre el criterio y los sub test, teniendo más peso la correlación con dicho criterio; debe destacarse que la validez predictiva puede verse afectada por determinados factores irrelevantes por lo que se debe buscar la manera de suprimir dicha influencias, esto puede hacerse a través de la introducción de variables de supresión, sin embargo la mejor manera de hacerlo es a través de pruebas empíricas y directas. El otro método empleado consiste en el análisis de perfiles y puntuaciones de corte, en el mismo se eligen un conjunto de sub pruebas consideradas “apropiadas” y se establece para cada una de ella puntuaciones de corte, las cuales son aplicadas de manera estricta, es decir, cualquiera que esté por debajo de las mismas es rechazado. Este método es preferible pues permite evaluar diversas habilidades que pudiesen resultar útiles y esenciales para, por ejemplo, un determinado puesto de trabajo,
además de que permite evidenciar las deficiencias de los individuos, que pudiesen llevar al fracaso.
USO DE LOS TEST PARA DECISIONES DE CLASIFICACIÓN Los test psicológicos pueden emplearse con diversos propósitos; en primer lugar para la selección, en donde los sujetos son aceptados o rechazado; también se emplean para la colocación y clasificación, en donde no se busca aceptar o rechazar sino asignar a los sujetos a la categoría o tratamiento más adecuado, consiste en asignar un lugar o posición. La diferencia entre estos dos últimos es que el primero puede hacerse a través de una sola puntuación, de una sola prueba, mientras que el segundo requiere y comprende dos o más criterios. Con respecto a las pruebas que se encargan de clasificar, se debe tomar en cuenta la validez diferencial, esta consiste en evaluar el desempeño de un individuo en tares o empleos diferentes, en donde debe obtenerse una correlación alta con una de las tareas y las demás deben ser bajas o nulas (en situaciones ideales). En otras palabras busca evaluar y determinar para cual actividad el sujeto es más apto, o es bueno para la misma, en diferencias de otras. En el caso de que se traten de más de dos tareas o actividades se emplea la técnica estadística de funciones discriminantes, la cual sólo evalúa la pertenencia o no del individuo al grupo, no toma en cuenta el criterio. La ventaja de las pruebas de clasificación es que permiten un mejor aprovechamiento de los recursos humanos, pues permiten evaluar distintas y diversas habilidades, dentro de las cuales los individuos tienen más probabilidades de destacar en cualquiera de ellas, pueden explorarse sus diversas capacidades y de esta manera se tienen más oportunidades de escoger a los candidatos más adecuados para las distintas áreas.
ANÁLISIS ESTADÍSTICO DEL SESGO DEL SESGO DE LA PRUEBA Es importante que a la hora de realizar pruebas de carácter predictivo se tenga una alta validez predictiva del criterio en particular, sin embargo esto no siempre ocurre, como es el caso de las llamadas pruebas de culturas, las cuales, en su esfuerzo por tomar en cuenta las diferencias culturales, tienden a incluir aspectos poco relevantes para lo que se pretender predecir, es por esto que lo más conveniente resulta establecer un criterio relevante y posteriormente investigar e indagar sobre aquellos factores que pueden cambiar o modificarse por la influencia cultural. Con la palabra “sesgo” se hace referencia a aquellos errores constantes y sistemáticos que interfieren en los resultados, no causados por el azar; las investigaciones relacionadas con el mismo se realizan en torno a dos aspectos: el sesgo relacionado con los coeficientes de validez, llamado sesgo de la pendiente, puesto que al expresar las puntuaciones del criterio y de la prueba como desviaciones estándares, la pendiente que forme la línea de regresión conforma el coeficiente de correlación. Por otro lado el sesgo de intersección corresponde a la relación entre las medias del grupo en la prueba y en el criterio, con la misma busca evidenciarse si el instrumento sub predice, es decir que predice por debajo de lo que corresponde, o si sobre predice el desempeño del individuo, lo cual se refiere a si lo sobrevalora o sobreestima. Asimismo, en la actualidad se han desarrollados modelos de toma de decisiones que permitan usar de manera justa los test, tomando en cuenta las características particulares de los grupos minoritarios, buscando que los mismos no resulten perjudicados y marginados; estos modelos plantean el desarrollo de estrategias que permitan realizar instrumentos que sean
objetivos y que también permitan evaluar y apreciar la diversidad, de esta manera se pudiesen suprimir los estereotipos, así como también mejorar el auto concepto de estos individuos que pertenecen a las minorías e incrementar sus oportunidades tanto en el ámbito laboral como universitario.