Libro de Psicometria 2

PSICOLOGÍA PSICOLOGÍA INDUSTRIAL

PSICOMETRIA DOS

CARRERA DE PSICOLOGÍA INDUSTRIAL PSICOMETRIA DOS


PRESENTACION


PRESENTACION

PSICOLOGÍA PSICOLOGÍA INDUSTRIAL !omprender !omprender su utilidd utilidd en el $re psi!oló"i! psi!oló"i!  % de determinr l medi!ión psi!oló"i! en el !mpo de l psi!olo"& industril' psr$  !ono!er ls !r!ter&sti!s ($si!s % l )!* t+!ni! de di,erentes instrumentos psi!oló"i!os ne!esrios pr l !rrer %  reli-r uto.pli!!iones % !oe/lu!iones de los instrumentos estudidos pr poder !ono!erlos en ,orm pr$!ti! su mne0o' pli!!ión' !li ! li)! )!! !ió ión n e interp interpre ret t!i !ión ón % s& s& )nl )nlmen mente te !o !on! n!lui luirr !o !on n su respe!ti/ impresión di"nosti! que permit tener un /isión m$s !lr % mpli en lo re,erente  l inter/en!ión psi!oló"i! pr inter/enir en (se  resultdos1 L metodolo"&  utili-rse en el presente módulo son el A2P' A2Pro % Aprender 3!iendo' !on el o(0eti/o de presentr pro(lems  ser resueltos en el trns!urso del semestre !on los estudintes % poder !rer pro%e!tos so!io produ!ti/os inno/dores1

L Psi!ometr& II por tnto se !on/ierte en l me0or lid de l Psi!olo"&  )n de O(0eti/i-r' plnter pre!i!iones pre!i!iones Di"nósti!s' Anli Anli- -r' r' Pro( Pro(le lemt mtii-r' r' Est Est(l (le! e!er er estr estrt te" e"i is' s' Pron Pronos osti ti! !r' r' Desrrollr % e0e!utr ls m$s de!uds t+!ni!s % estrte"is pr dilu!idr dilu!idr % !ompro(r !ompro(r los ,enómenos ,enómenos ps&qui!os ps&qui!os que ri"en ri"en los !omportmientos % que requieren medids de solu!ión dentro del $m(ito or"ni-!ionl1


O24ETI5OS# Identi)!r los test psi!oló"i!os que sir/en pr e6plorr l personlidd de !uerdo  ls ne!esiddes pro,esionles Pro!esr l in,orm!ión resultnte de los Tests pr in,erir l situ!ión !tul de los in/esti"dos de !uerdo  est$ndres est(le!idos El(orr in,ormes psi!om+tri!os pr des!ri(ir ls situ!ión de los in/esti"dos en el !onte6to l(orl de !uerdo  los est$ndres est(le!idos1

ÍNDICE 717 Ls prue(s psi!oló"i!s psi!oló"i! s 71718 Importn!i Importn!i 7171

9 Conte6tos1

7171: Ni/eles

PSICOLOGÍA INDUSTRIAL

ELEMENTO 7

Con!eptuli-r los ,undmentos ($si!os de l psi!ometr& pli!d  l psi!olo"& industril !orde  los est$ndres

1.1 Las pruebas pruebas psicológicas psicológicas

El avance en la difícil tarea de comprender comprender la conducta de las personas de manera integrada se nutre del esfuerzo que realiza la psicología por articular los diferentes fundamentos teóricos con la diversidad de ámbitos de aplicación, a través de la evaluación psicológica. Para que el progreso científico de la Psicología sea cada vez más una realidad, hemos de esforzarnos por armonizar la explicación teórica  los los proc proces esos os de obse observ rvac ació ión n empí empíri rica ca,, hast hasta a logr lograr ar en much muchos os caso casoss compat compatibi ibiliz lizarl arlos. os. El proces proceso o cientí científic fico o depen depende de con!un con!untam tament ente e del modelo modelo expl explic icat ativ ivo o  del del meto metodo doló lógi gico co,,  por por ende ende del del perfe perfecc ccio iona nami mien ento to de los los instru strum mento ntos que perm ermiten ten la ob!e b!etivi tiviza zaci ció ón de los los fen fenómen menos, os,  del perfeccionamiento de la interpretación teórica de dichos fenómenos, a través del contraste entre teoría  observación. "a Psic Psicol olog ogía ía reco recono noce ce en la Psic Psicom omet etrí ría a esa esa rama rama que que se ocup ocupa a de las las cuestiones relacionadas con la medición,  si bien es cierto que las ciencias atraviesan una época de crisis de paradigmas  en especial las ciencias sociales  cond conduc uctu tual ales es,, aun aun así así pode podemo moss enco encont ntra rarr cont conten enid idos os trad tradic icio iona nale less en la

PSICOLOGÍA INDUSTRIAL a% "os procesos operacionales de medición en Psicología asociados a las escalas de medida$ el ob!etivo de la Psicometría será hallar la me!or manera de observar, clasificar  transformar categorías manifiestas en escalas &cuantitativas' partiendo de la aceptación del isomorfismo entre propiedades atribuidas a las categorías psicológicas  las propiedades atribuidas a los n(meros que las representan )#tevens, *+*% b% -onfiabilidad o precisión de los instrumentos de medida en Psicología$ es uno de los tres problemas de medida asociados a las escalas de medida que merecen atención a que si una prueba psicométrica no es confiable en su medición, su inconsistencia repercutirá negativamente no solo en la validez del instrumento sino en todos los procesos relacionales que se incluan. c% alidez de una prueba$ es la propiedad fundamental en tanto permite decir de una prueba que mide lo que pretende medir  es un &valor social sobresaliente que asume una función tanto científica como política )/essic0, *++% En la primer parte hemos de sentar pues las bases para una definición de la Psicología como aquella disciplina que estudia la conducta de las personas en interacción con su contexto, a fin de poder con esta base construir el edificio del diagnóstico  la evaluación psicológica.

Postularemos a la evaluación psicológica como un proceso de toma de decisiones cuo ob!etivo es apuntar, con precisión  validez, a la tarea de psicología aplicada para solucionar problemas individuales, sociales  ambientales. "uego, explicitaremos un recorte que implica definirla como un proceso para verificar la medida o grado en que se logran metas u ob!etivos propuestos a través de la categorización, comparación, análisis  contrastación de datos cuanti1cualitativos por medio de técnicas ob!etivas  proectivas. En este sentido su máxima expresión es el Psicodiagnóstico que utiliza el dise2o del caso (nico. 3istintas áreas  campos de aplicación de la Psicología se ven beneficiados por los avances constantes que produce la evaluación  el diagnóstico psicológico, sin embargo, existen a(n m(ltiples problemas metodológicos  teóricos como el que refle!a el tema que nos ocupa, que preocupan a los investigadores  especialistas en el área de la Psicometría.

PSICOLOGÍA INDUSTRIAL En la segunda parte nos detendremos a considerar 4qué motiva la elaboración de pruebas nuevas5 6o ha un listado exhaustivo de motivaciones que lleven a la construcción de nuevos tests, sin embargo, si analizamos las técnicas existentes encontraremos tres fuentes principales de traba!o de desarrollo de pruebas. "a primera se2ala que muchas de las pruebas de uso más generalizado se originaron en respuesta a cierta necesidad práctica. "a prueba de inteligencia 7inet se creó para identificar a los ni2os de las escuelas de París que podían necesitar lo que ho se conoce como educación especial. "a #tanford 7inet 8ntelligence #cale )Escala de 8nteligencia #tanford 7inet% se originó en la idea de proporcionar una escala tipo 7inet que pudiera utilizarse con los estadounidenses, aunque las revisiones llegaron más allá de la simple traducción del francés al inglés. "a 9echsler17ellevue 8ntelligence #cale )Escala 9echsler17ellevue de 8nteligencia% que dio origen a la colección de escalas 9echsler, apareció con la intención de ofrecer una prueba de inteligencia más adecuada que la #tanford17inet. "as pruebas :tis construidas para evaluar la enorme cantidad de reclutas durante la Primera ;uerra /undial al igual que la 9oodniversidad de /innesota. ?ambién la enorme cantidad de pruebas de aprovechamiento para su uso en las escuelas  la industria tiene una orientación altamente práctica. Estos son solo algunos e!emplos del hecho de que muchos tests se originan en respuesta a una necesidad mu práctica. @lgunos tests se construen a partir de un fundamento teórico importante como las /atrices Progresivas )?est de Aaven% que se elaboraron basadas en la teoría de #pearman sobre inteligencia. Por e!emplo, la Primar /ental =abilities ?est )prueba de -apacidades /entales Primarias% de ?hurstone, prototipo de muchas evaluaciones de inteligencia multifactoriales posteriores, se dise2ó con la intención de sustentar la teoría de ?hurstone sobre las inteligencias m(ltiples. Estos son sólo algunos e!emplos de cómo las teorías pueden generar nuevas pruebas, que primero se utilizarán tan solo para fines de investigación, pero que después se emplean en contextos aplicados. Binalmente,  este el caso que nos convoca, una gran de traba!o de elaboración de tests se dedica a adaptar o revisar los instrumentos a existentes. Por e!emplo, poco después de que @lfred 7inet introdu!era las pruebas de inteligencia en

PSICOLOGÍA INDUSTRIAL pruebas para medir la inteligencia de personas que buscaban inmigrar a Estados >nidos. =enr ;oddard )*+*C% el investigador en !efe asignado al proecta  un especialista en retraso mental pronto planteó lo significativas que son dichas pruebas cuando se usan con personas de diversos antecedentes culturales  lingDísticos. ;oddard usó intérpretes en la administración de las pruebas, empleó a un psicólogo bilingDe  administró pruebas mentales a inmigrantes seleccionados que les parecían retardados mentales a los observadores entrenados );oddard, *+*%. Por tanto, el impacto del lengua!e  la cultura en los resultados de las calificaciones de las pruebas de capacidad mental fue reconocido por los psicólogos a desde principios del #iglo FF. >na forma para que los primeros elaboradores de pruebas abordaran este hecho psicométrico de la vida fue elaborar pruebas específicas para una cultura. Es decir, la prueba sería dise2ada para ser usada con personas de una cultura pero no de otra. "as primeras versiones de algunas de las pruebas de inteligencia más conocidas son representativas de este enfoque de la elaboración de pruebas. Por e!emplo, la versión de *+C de la Escala de 8nteligencia #tanford17inet, que disfrutó de un uso extendido hasta que fue revisada en *+GH, no incluía ni2os de minorías en su muestra de estandarización. 3el mismo modo, la Escala de 8nteligencia 9echsler1 7ellevue no contenía a miembros de minorías en sus muestras de estandarización. Ia 3avid 9echsler en *+JJ se2alaba que & una gran cantidad de negros habían sido examinados durante los ensaos de estandarización pero esos datos los omitimos debido a que no sentíamos que las normas derivadas de mezclar las poblaciones podrían interpretarse sin salvedades especiales'. 3e esta manera 9echsler sostuvo que los baremos de sus pruebas cuando no incluían adultos o ni2os de minorías en las muestras de estandarización, no podían usarse para las &poblaciones de color de Estados >nidos'. @un cuando muchas pruebas publicadas eran específicas para una cultura, pronto se hizo evidente que se administraban de manera inapropiada, a personas de culturas diferentes. 6o era sorprendente encontrar que quienes, perteneciendo a culturas diferentes, respondían a esas pruebasK obtenían punta!es inferiores como grupo que las personas del grupo para el cual se elaboró  estandarizó el test. =istóricamente estos esfuerzos por revisar las pruebas existentes  adaptarlasK conservando la estructura fundamental del instrumento, han logrado extender su uso a poblaciones especiales. Ia sea por la diferencia de idioma o por la existencia de una discapacidad auditiva, visual o motriz, la elaboración o adaptación de las sio

de las edicio

istent

stitu

ter

fuente


Primera Parte 2. LOS TESTS Y LA EVALUACION PSICOLOGICA 2.1 Tests, pruebas, diag!sti"# $ e%a&ua"i! psi"#&!gi"a "as raíces de las pruebas  la evaluación psicológica contemporánea pueden encontrarse en Brancia a principios del #iglo FF. En *+H @lfred 7inet  un colega habían publicado una prueba que fue dise2ada para audar a colocar a los ni2os parisienses en edad escolar en clases apropiadas. "a prueba de 7inet tuvo consecuencias que superaron los límites de París, en poco tiempo se preparó una versión en inglés para usar en escuelas de Estados >nidos. En ese país se estaba estudiando el uso de pruebas psicológicas por primera vez en el e!ército. ?anto en la primera como en la segunda guerra mundial, las pruebas cumplieron con el ob!etivo de examinar con rapidez a grandes cantidades de reclutas en busca de problemas intelectuales  emocionales. El apogeo de las pruebas psicológicas se dio en la década de *+H  principios de la de *+GH. #e administraban pruebas en escuelas, en instituciones de salud mental, en dependencias gubernamentales, etc. &Prueba' era el término usado para referirse a todo, desde la administración de una prueba hasta la interpretación de la evaluación de la misma. Es en esta etapa histórica en que la palabra &prueba' adquiere una posición tan poderosa como la que sustenta. #in embargo, para la época de la #egunda ;uerra /undial comenzó a surgir una distinción semántica entre &prueba'  otro término más incluente &evaluación'. #i bien es cierto que subsiste a(n ho día la ambigDedad en el uso de dichos términos, para nuestros ob!etivos definiremos &evaluación psicológica' como la recopilación e integración de datos relacionados con la psicología con el propósito de hacer una valoración psicológica, lograda con el uso de herramientas como pruebas, entrevistas, estudios de caso, observación conductual  aparatos  procedimientos de medición dise2ados en forma especial )-ohen  #
PSICOLOGÍA INDUSTRIAL conceptualización. #in embargo, siguiendo a @nastasi M >rbina )*++N% entendemos que un test es un instrumento de evaluación cuantitativa de los atributos psicológicos de un individuo. "a @sociación de Psicólogos @mericanos )*+++%, propone una conceptualización abarcativa  exhaustiva al definir a un &?est' como &un procedimiento evaluativo por medio del cual una muestra de comportamiento de un dominio especificado es obtenida  posteriormente evaluada  puntuada empleando un proceso estandarizado'. 3efiniremos las situaciones de diagnóstico como aquellas en las que se produce el conocimiento mediato, no directo, sino a través de indicadores que son observables comportamentales  O o clínicos, de personas concretas, no de grupos ni de colectividades )Pelechano 7arberá, *+NN%

2.2. Siete supuest#s e &as pruebas $ &a e%a&ua"i! psi"#&!gi"a Existen una serie de suposiciones básicas rescatadas por -ohen M #n rasgo se ha definido como &cualquier forma distinguible, relativamente perdurable, en la que un individuo varía de otro' );uilford, *++%. "os estados también distinguen a una persona de otra pero son relativamente menos perdurables )-haplin et al., *+NN% @quí la situación es importante puesto que un comportamiento puede tomarse de una manera en un contexto )una persona que habla con 3ios en la iglesia%  de otra manera )desviado% si realiza el mismo comportamiento en un contexto inadecuado )ba2o p(blico%. ?ambién la forma exacta en que se manifiesta un rasgo particular depende de la situación por e!emplo un delincuente puede comportarse de manera sumisa ante un oficial  más violenta ante un familiar. L. "os rasgos  estados psicológicos pueden cuantificarse  medirse$ "a ponderación del valor comparativo de los reactivos de una prueba ocurre como resultado de una interacción comple!a entre muchos factores$ consideraciones técnicas, en forma en que se ha definido un constructo

PSICOLOGÍA INDUSTRIAL C. Pueden ser (tiles diversos enfoques para medir aspectos del mismo ob!eto de estudio$ Pueden existir varias pruebas  técnicas de medición diferentes para medir el mismo constructo. @lgunas pruebas son me!ores que otras, en general, deberá demostrarse la utilidad de las pruebas para los escenarios en los que deberán ser aplicadas seg(n su dise2o original  luego demostrarse de nuevo para otros escenarios adicionales en los que no se contemple su uso. J. "a evaluación puede se2alar fenómenos que requieren una maor atención o estudio$ una suposición en la medición es que las herramientas de evaluación pueden usarse con propósitos de diagnóstico. Puede definirse diagnóstico en forma amplia como una conclusión alcanzada con base en la evidencia  opinión por medio de un proceso de distinción de la naturaleza de algo  descartar conclusiones alternativas. 3iagnóstico se usa en un sentido amplio con la identificación de fenómenos psicológicos o conductuales para un maor estudio. . 3iversas fuentes de información enriquecen  son parte del proceso de evaluación$ "os datos de una prueba de inteligencia pueden ser (tiles para entender a un estudiante, un preso, un empleado o un paciente en terapia o cualquier persona que demande una evaluación pero para el proceso de toma de decisiones se requerirá información adicional como por e!emplo sobre su historia familiar. G. 3iversas fuentes de error son parte del proceso de evaluación$ Error en el contexto de las pruebas  la evaluación se refiere a algo que se considera un componente del proceso de medición. En este contexto &error' se refiere a la suposición de que factores distintos al que pretende medir la prueba influirán en el desempe2o de ésta. 3ebido a que el error es una variable en cualquier proceso de evaluación psicológica, a menudo hablamos de varianza de error. Por e!emplo, el punta!e que obtiene una persona en una prueba de inteligencia puede estar su!eto a debate respecto al grado en que la puntuación obtenida refle!a en verdad el -8 del evaluado  el grado en que refle!a la varianza de error. "as fuentes potenciales de error son mu variadas, como por e!emplo que el evaluado tenga gripe cuando responde la prueba. ?anto el evaluado como el evaluador son fuentes de varianza de error si tenemos en cuenta por e!emplo el grado de experticia que demuestran en la administración de una prueba. ?ambién las pruebas mismas son fuentes de varianza de error por ser unas me!ores que otras

PSICOLOGÍA INDUSTRIAL '. "as pruebas  otras técnicas de medición tienen venta!as  desventa!as$ #i se quieren usar pruebas adecuadas se deberá tener en cuenta$ cómo se elaboró la prueba, las condiciones para su aplicación, cómo  a quién se debe administrar, cómo deberían interpretarse los resultados de la prueba  a quienes,  cuál es el significado de la puntuación. Ello implica conocer las limitaciones de las pruebas  compensarlas con datos de otras fuentes.


(. )*ui+, u+ $ p#r u+ e%a&uar.1.)*ui+es s# &as partes-

*. El que construe la prueba uienes se dedican a elaborar pruebas, brindan una amplia variedad de antecedentes  detalles respecto del proceso de elaboración. #in embargo, la @P@ )@merican Pschological @ssociation% estima que más de LH.HHH pruebas nuevas se elaboran cada a2o  abarcan pruebas elaboradas para un estudio de investigación específico, revisiones de anteriores publicadas , etc. Aeconociendo que las pruebas  las decisiones tomadas como resultado de su administración pueden tener un impacto significativo en las vidas de las personas que responden las pruebas, varias organizaciones publicaron normas de comportamiento ético referidas a la elaboración  uso responsable de pruebas. "as más conocidas son las 6ormas o #tandards for Educational and Pschological ?esting elaboradas por la @sociación Estadounidense de 8nvestigación Educativa, la @sociación Psicológica Estadounidense  el -onse!o 6acional sobre /edición en Educación. L. El que usa la prueba #i bien las pruebas son usadas por una variedad de profesionales, todos deberán cumplir los principios éticos correspondientes. "a prueba debe guardarse para que su contenido específico no sea dado a conocer con anticipación. 3escripciones previas a la administración de la prueba, de los materiales que contiene la misma, en el caso de pruebas de inteligencia, no son aconse!ables pues podrían comprometer los resultados. El que administra la prueba debe estar familiarizado con los materiales  procedimientos de la prueba  tener todos los materiales necesarios para administrarla en forma apropiada. ?ambién debe asegurarse de que el salón en el que se realice la prueba sea el adecuado, evitando condiciones distractoras como ruido excesivo, calor, frío, interrupciones, luz solar deslumbrante, hacinamiento, ventilación inadecuada, etc. Es fundamental la empatía entre el evaluador  el evaluado. En el contexto de situación de prueba, la empatía puede definirse como una relación de traba!o entre evaluador1evaluado. "ograr la empatía con el evaluado no debe alterar las condiciones de administración de la prueba. Existen otros factores que pueden influir en el desempe2o en pruebas de

PSICOLOGÍA INDUSTRIAL C. El que responde la prueba$ "as personas evaluadas enfocan una situación de evaluación de diferentes formas  los administradores deben ser sensibles a la diversidad de respuestas posibles ante una situación de prueba. El evaluado en situación de diagnóstico o evaluación puede variar en$ a% ansiedad experimentada  grado en que ésta podría afectar los resultados b% capacidad  disposición para cooperar con el evaluador o comprender las instrucciones escritas. c% el dolor físico o la angustia emocional que esté sufriendo el evaluado. d% malestar e incomodidad derivado de no haber comido suficiente o por otras condiciones físicas. e% grado en que está alerta  despierto  no somnoliento f% grado en que estén predispuestos a estar de acuerdo o en desacuerdo cuando se les presenten los reactivos g% grado en que han recibido preparación previa. h% importancia que atribuan a describirse a sí mismos en forma buena o mala i% grado de &suerte' que tiene el evaluado al responder sin conocer de lo que responde. ?ambién el evaluado tiene derechos en situaciones de evaluación como por e!emplo a dar su consentimiento para ser evaluado, a que los resultados sean confidenciales  a ser informado de los resultados. 1.2.

)E u+ tip# de "#te/t#s se rea&i0a e%a&ua"i#es-

*. -ontexto clínico "as pruebas  otros métodos de evaluación se usan en forma amplia en escenarios como los hospitales p(blicos, consultorios privados, clínicas privadas  el sello de las pruebas en este contexto es que solo se usa con un individuo a la vez, las pruebas colectivas solo se usan en el screening o rastrilla!e de casos que requieren una maor evaluación psicológica.

PSICOLOGÍA INDUSTRIAL @ menudo se usan pruebas en escenarios educativos para diagnosticar problemas de aprendiza!e. "as medidas de inteligencia  logro aplicadas en forma individual se usan con más frecuencia con propósitos de diagnóstico  por lo general son administradas por profesionales con capacitación. Existen otras pruebas que se administran a los aspirantes a un nuevo ingreso, por e!emplo a las >niversidades o Posgrados. ?ambién se usan las pruebas en un contexto de orientación vocacional o de counseling. C. -ontexto !urídico "os tribunales se basan en datos de pruebas psicológicas  testimonios de expertos relacionados como una fuente de información para audar a responder si la persona es competente para ser en!uiciada o para saber si un acusado distinguía el bien del mal en el momento de cometer el delito. J. -ontexto organizacional En el mundo de los negocios, las pruebas se usan en particular en el área de recursos humanos. "os psicólogos usan pruebas  procedimientos de medición para evaluar cualquier conocimiento o habilidades en las que necesite ser evaluado un empleado, un candidato a ser empleado, para tomar decisiones de ascensos, transferencias,  elegibilidad para una maor capacitación. . :tros contextos En el área de psicología del consumidor también se usan pruebas, al igual que para evaluar a personas con discapacidad o con deficiencias neuropsicológicas.

(. E%a&ua"i! de &a Ca&idad de &as pruebas C#iabi&idad $ Va&ide0 #abemos cuáles son las pruebas más usadas pero además necesitamos saber cuáles son las me!ores pruebas 4qué implica una buena prueba5 /ás allá de la simple lógica existen criterios técnicos que usan los profesionales al evaluar para estimar la solidez psicométrica de los instrumentos. "a Psicometría como ciencia de la medición psicológica estudia la confiabilidad  la validez de las pruebas.


>na buena prueba es confiable, es decir es consistente  es precisa. "as pruebas psicológicas son confiables en grados diversos. En el dominio de las mediciones comportamentales, la variabilidad es mucho maor dada las características del ob!eto epistémico  de los instrumentos de medición utilizados. "as diferencias en el desempe2o de un su!eto en sucesivas ocasiones pueden estar causadas por diversas razones$ distinta motivación en las diversas situaciones en que fue evaluado, distintos niveles de cansancio o de ansiedad, estar más o menos familiarizado con el contenido del test, etc. Por todo ello, los punta!es de una persona no serán perfectamente consistentes de una ocasión a la siguiente  decimos que la medición contiene cierta cantidad de error. Es decir que el punta!e que obtiene una persona en una prueba inclue el punta!e real de la persona  un margen de error que puede aumentar o disminuir dicha puntuación verdadera. Este error de medición, aleatorio e impredecible, se distingue de los errores sistemáticos que también afectan el desempe2o de los evaluados por un test, pero de una manera más consistente que aleatoria. "os errores sistemáticos pueden a% afectar a todas las observaciones por igual  ser un error constante, o b% afectar a cierto tipo de observaciones de manera diferente que a otras  ser un sesgo. El error aleatorio, por su parte, es mu difícil de predecir  controlar pues está relacionado con factores casuales que pueden provenir tanto de aspectos técnicos de la medición psicológica como de la variación natural de la conducta humana )-ortada de Qohan, *+++%

(.1.1

3a"t#res ue determia &a a&ta de "#iabi&idad

#i bien son m(ltiples las causas por las cuales los punta!es obtenidos por un evaluado pueden no ser confiables, sintetizaremos solamente algunas fuentes de error cuo conocimiento será (til para comprender el proceso de adaptación de los tests. a4 A& "#struir # adaptar u test se debe prestar atención a la selección de los ítems  a la formulación de las consignas, pero principalmente se debe cuidar el muestreo del contenido para evitar que sea tendencioso o insuficiente. :tra fuente importante de error son los efectos de la adivinación, es decir, los tests son más confiables a medida que aumenta el n(mero de respuestas alternativas )-ortada de Qohan, *+++%.

PSICOLOGÍA INDUSTRIAL estandarizadas desde la construcción del test hasta en su administración, especialmente en lo referido al control de los tiempos para la realización del mismo. :tro punto a considerar son las influencias fortuitas que pueden afectar la motivación o la atención del evaluado como por e!emplo preocupaciones personales, afecciones físicas transitorias, etc. d% A& e%a&uar u test se deben sostener los criterios de evaluación, no es posible cambiar los criterios de corrección por e!emplo luego de haber calificado a una serie de evaluados, en función de un criterio sub!etivo del evaluador.

(.1.2. T+"i"as para medir &a "#iabi&idad Existen diversos tipos de procedimientos para evaluar la confiabilidad de un instrumento que solamente serán mencionados, en este caso$ test1retest o examen1reexamen, formas alternas, paralelas o equivalentes, división por mitades, consistencia interna )Quder1Aichardson  coeficiente alfa%  entre evaluadores

(. 2. Va&ide0 #e refiere a lo que mide una prueba  no puede expresarse en general sino que debe consignarse el uso particular para el que se planea utilizar el instrumento. ?odos los procedimientos utilizados para determinar la validez se interesan en las relaciones entre e!ecución en las pruebas  otros factores observados independientemente de las características de la conducta considerada. =istóricamente, uno de los primeros usos de las pruebas fue la evaluación de lo que los individuos habían aprendido en determinadas áreas de contenido  por ello se comparaba el contenido de esas categorías de pruebas con el del área que pretendían probar. "uego, el énfasis recaó en la predicción  actualmente existen dos tendencias una hacia el fortalecimiento de la orientación teórica  la otra hacia una estrecha vinculación entre la teoría  la verificación psicológicas mediante la comprobación empírica  experimental de las hipótesis.

PSICOLOGÍA INDUSTRIAL "os procedimientos de validación por la descripción del contenido comprenden el examen sistemático del contenido de la prueba para determinar si cubre una muestra representativa del área de conducta que debe medirse. El área de conducta por examinar debe analizarse sistemáticamente para garantizar que los reactivos cubran todos los aspectos importantes  en la proporción correcta. #e debe tener en cuenta no sobregeneralizar ni incluir factores irrelevantes en los resultados. 7ásicamente se deben contestar dos preguntas$ a% 4cubre la prueba una muestra representativa de las habilidades  conocimientos especificados5 b% 4el desempe2o en la prueba está razonablemente libre de la influencia de variables irrelevantes5 alidez de facie$ la validez de contenido no debe confundirse con la validez aparente que no es validez en el sentido técnico porque no se refiere a lo que la prueba verdaderamente mide sino a lo que &parece' medir. @unque usar el término &validez' puede resultar confuso, la validez de facie es en sí misma un rasgo deseable de los instrumentos, porque a lude a que la prueba &parece válida' para quien la administra, quien la responde  para otros observadores. Esta validez puede me!orarse replanteando los reactivos para que parezcan relevantes  plausibles en medio particular en que serán usados por e!emplo es posible elaborar una prueba de aritmética para personal naval en la terminología náutica sin alterar con ello las funciones medidas.

(.2.2.Va&ide0 e 5e&a"i! a u Criteri# "os procedimientos de validación de criterio1predicción indican la efectividad de la prueba para predecir el desempe2o del individuo en actividades específicas. "a medida de criterio contra la que se validan los resultados del instrumento puede obtenerse aproximadamente al mismo tiempo que los resultados de la prueba o después de un intervalo establecido. "as relaciones temporales entre el criterio  la prueba permiten diferenciar la validación concurrente  la predictiva. "a validez predictiva permite anticiparse sobre un intervalo  la información que proporciona es mu pertinente para las pruebas usadas en selección  clasificación de personal, diagnóstico de reincidencia en el área forense, ingreso al secundario o a la universidad de estudiantes. :tros e!emplos son el uso de las pruebas para descartar su!etos que pueden desarrollar trastornos emocionales en ambientes de

PSICOLOGÍA INDUSTRIAL -on la validación concurrente, en cambio, la prueba se aplica a personas que a cuentan con datos de criterio, por e!emplo comparando los resultados obtenidos en la prueba por aspirantes universitarios con los promedios académicos al momento del examen. "a distinción lógica entre la validez concurrente  la predictiva se basa en los ob!etivos más que en el tiempo. "a validación concurrente es adecuada para las pruebas que se emplean para &diagnosticar' el estado actual más que para predecir los resultados futuros. #e debe tener en cuenta la contaminación del criterio como fuente de error en la validación de la prueba, es decir, una precaución esencial es asegurar que los propios resultados no influan en la condición del criterio de cualquier individuo. Es por ello que los resultados deben mantenerse estrictamente confidenciales. /edidas de criterio$ >na prueba puede validarse si se la compara con tantos criterios como usos específicos existan para ella, sin embargo, los criterios empleados para encontrar las distintas clases de validez que se informan en los manuales caen en determinadas categorías. Para las pruebas de inteligencia, por e!emplo, el índice de aprovechamiento académico, razón por la cual se describen como medidas de aptitud académica. "os índices específicos utilizados como medidas de criterio son$ las calificaciones escolares, los resultados de pruebas de aprovechamiento, los registros de promoción  de graduación, los honores  reconocimientos especiales  las valoraciones de docentes e instructores sobre la &inteligencia' de los individuos. Para los !óvenes el promedio del primer a2o d estudio, para adultos los a2os de escolaridad completa, como variante del criterio de aprovechamiento académico a que se espera que los individuos más inteligentes prolonguen su educación por más tiempo  que los otros abandonen antes la educación. Para muchos propósitos la medida de criterio más satisfactoria es la que se basa en registros de seguimiento del desempe2o laboral real, criterio empleado en la validación de tests de inteligencia general. Es com(n que se citen las correlaciones entre una prueba nueva  pruebas validadas previamente como evidencia de validez. Existen otros procedimientos de validación que no desarrollaremos como el método de grupos contrastados o las valoraciones de expertos como psiquiatras, maestros, supervisores laborales, etc. ;eneralización de la validez$ cuando en los estudios de validación industrial se correlacionaron las pruebas estandarizadas de aptitud con el desempe2o en los sto

sta

te simil

tró

iabilidad de lo

PSICOLOGÍA INDUSTRIAL setenta la &especificidad situacional' de los requisitos psicológicos era considerada una seria limitación de la utilidad de las pruebas estandarizadas para la selección de personal. "uego se demostró que el tama2o peque2o de la muestra, la poca confiabilidad del criterio  la restricción del rango en las muestras seleccionadas producían cierto enga2o estadístico. @l aplicar sus técnicas de reciente desarrollo a los datos de muchas muestras extraídas de un gran n(mero de especialidades ocupacionales, #chmidt, =unter  sus colaboradores pudieron demostrar que la validez de las pruebas de aptitud verbal, numérica  de razonamiento pueden generalizarse entre ocupaciones mucho más de lo que se había reconocido. "as pruebas incluidas en esos estudios cubrían principalmente la clase de contenido  habilidades muestreadas en las pruebas tradicionales de inteligencia. El meta1 análisis como procedimiento que permite integrar los resultados de investigaciones realizadas en momentos o lugares diferentes  sopesarlos sobre la base de las características sustantivas  metodológicas relevantes de cada estudio. Este procedimiento permite calcular los efectos del tama2o, la magnitud o la medida.

(.2.. Va&ide0 de C#stru"t# Esta expresión se introduce por primera vez en *+J en las &Aecomendaciones técnicas para las pruebas psicológicas  las técnicas de diagnóstico' )@P@, *+J% "a validez de constructo ha centrado la atención en la función que cumple la t eoría psicológica en la elaboración de la prueba  en la necesidad de formular hipótesis que puedan ser comprobadas o refutadas en el proceso de validación. "a validez de constructo de un instrumento es el grado en el que puede afirmarse que mide un constructo o rasgo teórico. Aequiere de la acumulación gradual de diversas fuentes de información. -ambios en el desarrollo$ la diferenciación por edad es un importante criterio utilizado en la validación de una serie de pruebas tradicionales de inteligencia. >n e!emplo es el #tanford17inet en donde se espera que durante la ni2ez las habilidades aumenten con la edad, por lo tanto si la prueba es válida sus resultados deberían mostrar dicho incrementos pues se basa en el supuesto de que &la inteligencia aumenta con la edad' al menos hasta la madurez. >na prueba validada con el criterio evolutivo mide características conductuales que se incrementan con la edad en las condiciones existente en el entorno en el que se estandarizó el instrumento. -omo diferentes culturas pueden estimular  fomentar

PSICOLOGÍA INDUSTRIAL -orrelaciones con otras pruebas$ se citan las correlaciones entre una prueba nueva  otros instrumentos similares como evidencia de que la nueva mide aproximadamente la misma área de conducta que otras que llevan el mismo nombre como pruebas de &inteligencia'. @nálisis factorial$ desarrollado como medio para identificar rasgos psicológicos, es relevante para los procedimientos de validación de constructo. Es una refinada técnica estadística para analizar las interrelaciones de los datos conductuales  reducir el n(mero de variables o categorías en cuos términos puede describirse el desempe2o de cada individuo a un n(mero relativamente peque2o de factores o rasgos comunes. >na vez que los factores se han identificado, sirven para describir la composición factorial de las pruebas. -ada instrumento puede entonces caracterizarse en función de los factores principales que determinan sus calificaciones, !unto con el peso o carga de cada uno  la correlación de la prueba con cada factor, que suele expresarse como validez factorial de la prueba.

-onsistencia interna$ la característica esencial de este método es que el criterio no es otro que la calificación total del propio instrumento. En cada reactivo se compara la e!ecución del grupo criterio superior con el desempe2o del grupo inferior. "os reactivos que no logran mostrar una proporción significativamente maor de &aciertos' en el grupo superior que en el inferior se consideran inválidos  se revisan o eliminan. ?ambién se utilizan procedimientos de correlación, como la correlación de las calificaciones de los subtests con el resultado total. Por e!emplo muchas pruebas de inteligencia constan de subpruebas que se aplican por separado )vocabulario, aritmética, completamiento de figuras, etc.%  cuos resultados se combinan para encontrar el resultado total. En la elaboración de estas pruebas, a menudo se correlacionan las calificaciones de cada subtest con la calificación total  se elimina cualquier subtest cua correlación con ésta sea demasiado ba!a. El grado de homogeneidad de la prueba tiene relevancia para la validez de constructo porque contribue a caracterizar el área de conducta o rasgo que muestra. alidez convergente  discriminante$ En un minucioso análisis de la validación de constructo, 3. -ampbell )*+GH% se2aló que para demostrar la validez de constructo

PSICOLOGÍA INDUSTRIAL la validez convergente  discriminanteK e!emplo de la primera la correlación de una prueba de razonamiento cuantitativo con las calificaciones obtenidas luego en un curso de matemáticasK  de la segunda si la correlación es ba!a e insignificante con los resultados de una prueba de comprensión de lectura. 8ntervenciones experimentales$ experimentos sobre el efecto de variables seleccionadas en los resultados de la prueba constituen otra fuente de datos para la validación de constructo. /odelamiento de ecuaciones estructurales$ investigar cómo es que un constructo o rasgo personal identificado conduce a un buen o mal desempe2o contribue sustancialmente a la comprensión de por qué una prueba tiene una elevada o ba!a validez en una situación dada. Bacilita dicho análisis un procedimiento estadístico conocido como modelamiento de ecuaciones estructurales que está relacionado con el análisis de &paths'. Este modelamiento utiliza ecuaciones de regresión para predecir las variables dependientes a partir de las independientes en los dise2os de series de tiempos u otros modelos causales. Este procedimiento usa correlaciones parciales para encontrar los coeficientes de regresión, lo que le

permite incorporar todas las correlaciones entre las variables  considera los errores de medición  de muestreo e inclue las previsiones para reconocer al menos la posibilidad de otras variables causales no medidas. #e dise2a un modelo de relaciones causales hipotéticas que quieren probarse, teóricamente racionales,  el modelo calcula relaciones causales entre constructor más que entre variables aisladas. El uso de constructos proporciona estimaciones más estables  confiables que cancelan los errores  las varianzas específicas de los indicadores separados. -ontribuciones de la Psicología -ognitiva$ la década del setenta planteó un acercamiento entre la Psicología experimental  la Psicometría que así empieza a hacer aportaciones importantes a la comprensión de los constructos evaluados por las pruebas de inteligencia. Ia en los cincuenta los psicólogos cognitivos empezaron a aplicar los conceptos del procesamiento de información al estudio de la solución de problemas en el ser humano. Entre las tareas investigadas con esos métodos se incluen rompecabezas, problemas de lógica, álgebra  física. "as

PSICOLOGÍA INDUSTRIAL relevante  la forma en que se representa en la memoria  se recupera cuando se necesita. ?ambién se está dando importancia a la metacognición que se refiere al control que el individuo e!erce sobre su elección de procesos, representaciones  estrategias para realizar tareas. Ia en los setenta, psicólogos cognitivos empezaron a aplicar ese análisis de tareas  técnicas de simulación por computadora a la exploración de lo que miden las pruebas de inteligencia. "a investigación auda al avance en la elaboración  uso de las pruebas. El análisis de las tareas cognitivas incluidas en los reactivos de una prueba puede realizarse por el análisis del protocolo que pide a los individuos que &piensen en voz alta' mientras realizan una tarea o resuelven un problema. Este procedimiento puede llevar a encontrar que el mismo reactivo puede evocar procesos cognitivos diferentes en examinados con experiencia  antecedentes distintos. El aporte principal es haber focalizado la atención en los procesos de respuesta en vez de concentrarse en los productos finales del pensamiento. El análisis de la e!ecución en la prueba en términos de los procesos cognitivos específicos, sin duda, me!orará nuestra comprensión de lo que miden las pruebas. El analizar el desempe2o individual a nivel de los procesos elementales permitirá identificar los puntos fuertes  débiles de cada persona  por ende aumentará el uso diagnóstico de las pruebas )#ternberg  9eil, *+NH%. En resumen, la relación entre psicometría  P. -ognitiva es complementaria desde el punto de vista de la investigación  práctica aplicadaK  recíproca desde el punto de vista de la teoría  la investigación básica. -ada una puede aclarar  enriquecer a la otra  ambas aumentan la comprensión de la conducta inteligente.

(.2.(. C#ei"iete de %a&ide0 El coeficiente de validez es la correlación entre la puntuación de la prueba  la medida de criterio. "os datos empleados al calcular cualquier coeficiente de validez también pueden expresarse como tablas o gráficos de espectancias que muestran la probabilidad de que un individuo que obtiene cierta puntuación en la prueba obtenga un nivel especificado de desempe2o en el de criterio.

PSICOLOGÍA INDUSTRIAL -ondiciones que afectan a los coeficientes de validez$ resulta esencial especificar la naturaleza del grupo en el que se calculó el coeficiente de validez. "a misma prueba puede medir diferentes funciones cuando se aplica a individuos que difieren en características importantes )edad, género, nivel educativo, ocupación, etc.%. "as pruebas dise2adas para emplearse con diversas poblaciones deben citar en los manuales técnicos los datos apropiados sobre la posibilidad de generalizar. /ás a(n en una población en la que haa grandes diferencias en las puntuaciones de la prueba, el coeficiente de validez puede diferir de manera considerable en diversas partes del rango de calificación  debe supervisarse en los subgrupos apropiados )"ee M Bole, *+NG%. Existen otros puntos a tener en cuenta tales como$ la heterogeneidad de la muestra, la preselección o intencionalidad de la muestra, la diferente forma de relación entre la prueba  el criterio, etc.

(.2.6.Va&ide0 de &a prueba $ te#r7a de &a de"isi! @lgunos de los conceptos básicos de la teoría de la decisión han demostrado su utilidad para replantear  aclarar algunos interrogantes sobre las pruebas. >na característica de la teoría de la decisión es que las pruebas se eval(an en términos de su eficacia en una situación particular. "a evaluación no solo toma en consideración la validez de la prueba para predecir un criterio particular, sino también otros parámetros como la tasa base  la razón de selección. :tro parámetro importante es la relativa utilidad de los resultados esperados. Por e!emplo en las decisiones educativas se deben tener en cuenta las metas institucionales, los valores sociales  otros factores relativamente intangibles. "as decisiones individuales deben considerar las preferencias  el sistema de valores del individuo. "a teoría de la decisión no introduce al proceso de decisión el problema de los valores, solamente lo hace explícito. "os sistemas de valores siempre han estado presentes en las decisiones. "a teoría de la decisión ha permitido centrar la atención en la comple!idad de los factores que determinan la contribución de determinado instrumento a una situación particular. El coeficiente de validez por sí mismo no puede indicar si se debe usar o no una prueba, a que es sólo uno de los factores por ser considerados al evaluar el impacto de la prueba sobre la eficacia del proceso total de la toma de decisiones. ariables moderadoras$ "a validez de una prueba para determinado criterio puede variar entre subgrupos que difieren en características personales. El modelo

PSICOLOGÍA INDUSTRIAL individuos. "a flexibilidad de la aproximación introducida por la teoría de la decisión estimuló la exploración de los modelos predictivos que incluían la interacción entre personas  pruebas  que implica que la misma prueba puede ser un me!or predictor para ciertas clases o subcon!untos de personas que para otrasK por e!emplo, cierta prueba puede ser un me!or predictor de criterio de desempe2o de hombres que de mu!eres o bien un me!or predictor para personas de nivel socioeconómico ba!o que del nivel alto. En esos e!emplos, género  nivel socioeconómico se conocen como variables moderadoras a que moderan la validez de la prueba )#aunders, *+G%."os intereses  la motivación pueden funcionar como variables moderadoras de modo que si una persona tiene poco interés en un traba!o, su desempe2o será malo cualquiera sea la puntuación que haa obtenido en las pruebas de aptitudes. >n descubrimiento constante fue una diferencia de género en la predicción de grados académicos. ?anto en educación inicial como media  mucho más en nivel universitario, existen correlaciones maores para las mu!eres que para los hombres entre las puntuaciones de las pruebas  el rendimiento académico.

(.2.8. C#mbia"i! de i#rma"i! a partir de dieretes pruebas Para la predicción de criterios prácticos, a menudo se requieren varias pruebas. "os criterios son, en su maoría, comple!os  la medida de criterio depende de varios rasgos diferentes. #i se dise2ara una prueba para medir este criterio tendría que ser mu heterogénea, pero es más conveniente una prueba relativamente homogénea porque produce puntuaciones menos ambiguas. Por ende, a menudo es preferible usar una combinación de pruebas relativamente homogéneas, cada una de las cuales cubra un aspecto diferente del criterio, en lugar de aplicar una sola con reactivos mu mezclados. @ las pruebas que se emplean en una serie especialmente seleccionadas para predecir un solo criterio se las conoce como baterías de pruebas. El problema principal del uso de tales baterías tiene que ver con la forma en que se combinan las puntuaciones de estos distintos instrumentos para llegar a una decisión con respecto a cada individuo.

(.. Va&ide0 $ uti&idad pr9"ti"a de &#s Tests para de"isi#es de "&asii"a"i!

PSICOLOGÍA INDUSTRIAL asignados. El diagnóstico clínico es un problema de clasificación a que el propósito principal consiste en tomar una decisión por e!emplo sobre la clase de terapia más apropiada. alidez diferencial$ En la evaluación de una batería de clasificación, la principal consideración es su validez diferencial comparada con criterios separados. El ob!eto de la batería es predecir la diferencia en la e!ecución de cada persona en dos o más empleos, programas de capacitación u otras situaciones de criterio. "as pruebas que se eligen para integrar la batería producen coeficientes de validez mu diferentes para los criterios separados, por e!emplo en un problema de clasificación de dos criterios la prueba ideal tendría una correlación elevada con un criterio  una correlación cero o negativa con el otro. "as pruebas de inteligencia general son relativamente pobres para los propósitos de clasificación porque su predicción del éxito en la maor parte de las áreas es más o menos igual de buena, por lo tanto sus correlaciones con los criterios que deben ser diferenciados son demasiado similares. >n individuo que califique alto en una prueba de inteligencia sería clasificado como exitoso en cualquier tarea, lo que vuelve imposible predecir en cuál haría me!or papel

PSICOLOGÍA INDUSTRIAL CONST5UCCI:N Y A;APTACI:N ;E LOS TESTS 1. ;ise<# $ E&ab#ra"i! de &#s Tests "a elaboración de las pruebas es un tema comple!o que implica la aplicación de principios establecidosK la obtención de una buena prueba no es una cuestión fortuita sino la respuesta a diversos interrogantes como los que se describen a continuación$ R

4ué es lo que la prueba medirá seg(n su dise2o5

R

4-uál es el ob!etivo de la prueba5

R

4Existe necesidad de esta prueba5

R

4uién usará esta prueba5

R

4ué contenido abarcará esta prueba5

R

4-ómo se aplicará la prueba5

R

4-uál es el formato ideal de la prueba5

R

43ebería elaborarse más de una forma de la prueba5

R

4ué capacitación especial se requerirá de los administradores de la prueba para aplicarla o interpretarla5

R

4ué clases de respuestas se requerirán de quienes respondan la prueba5

R

4-ómo se interpretarán los resultados de la prueba5

GRUPO ; 1.1.

Te#r7as de &#s Tests

Existen diversos paradigmas o modelos que permiten explicar el significado de las puntuaciones obtenidas con los ?ests. El análisis o modelado de las matrices de datos obtenidas da como resultado$

PSICOLOGÍA INDUSTRIAL R

la estimación del nivel en que poseen los su!etos la)s% característica)s% que mide el test )valores escalares de los su!etos%

R

la estimación de los parámetros de los items )valores escalares de los items%. El problema central de la teoría de los tests es la relación que existe entre$

R

el nivel del su!eto en la variable inobservable que se desea estudiar 

R

su puntuación observada en el test.

Es decir que el ob!etivo de cualquier teoría de tests es realizar inferencias sobre el nivel en que los su!etos poseen la característica o rasgo inobservable que mide el test, a partir de las respuestas que éstos han dado a los elementos que forman el mismo. @sí para medir o estimar las características latentes de los su!etos es necesario relacionar éstas con la actuación observable en una prueba  esta relación debe de ser adecuadamente descrita por una función matemática. "as distintas teorías de tests difieren !ustamente en la función que utilizan para relacionar la actuación observable en el test con el nivel del su!eto en la variable inobservable. I sirven para dar cuenta del error de medida inherente a toda medición psicológica o estimación del errorK  proporcionar una estimación del rasgo o característica evaluada )estimación del rasgo%

a4Te#r7a C&9si"a de &#s Tests "a ?eoría -lásica de los ?ests, iniciada por #pearman, sostiene que la puntuación observable de una persona en un test es una función de dos componentes$ su punta!e verdadero )inobservable%  el error de medición implícito en la prueba. El ?-? )modelo lineal de la teoría clásica% es un modelo de puntuación verdadera como valor esperado, esperado como concepto matemático, probabilístico. Es decir, el punta!e verdadero de un su!eto en un test sería el promedio aritmético de las puntuaciones empíricas obtenidas en infinitas aplicaciones )/u2iz, LHH*%.

PSICOLOGÍA INDUSTRIAL "a ?eoría -lásica de los ?ests )?-?% es, en síntesis, el con!unto de principios teóricos  métodos cuantitativos derivados de ellos, que fundamentan la construcción, aplicación, validación e interpretación de distintos tipos de tests  que permiten derivar escalas estandarizadas aplicables a una población )=ambleton, *++J%. "os principios en que se basa son relativamente simples  se aplican tanto a las pruebas de desempe2o, como a las de aptitud. 3urante sus diferentes fases de desarrollo, se han elaborado procedimientos de análisis cuantitativo que han sido de gran utilidad, destacándose en lo general, tres grandes etapas que se identifican por su ob!eto de interés primordial, así como por los métodos cuantitativos  tipos de análisis teóricos que utilizan. "a primera etapa que -attell )*+NG% denomina itemetría, se caracteriza principalmente por la construcción de pruebas conformadas por reactivos cuas propiedades estadísticas eran el centro de atención principal. "os tests se consideraban como el producto de la integración de un con!unto de reactivos cuas propiedades estadísticas tenían que ser determinadas antes de que se les incluera en esa prueba particular. Esto propició que el concepto de confiabilidad adquiriera prominencia como la principal virtud de la escala  se medía a partir de la correlación entre los reactivos individuales  el instrumento en su con!unto. #i la correlación era alta, se decía que los reactivos eran los adecuados. #in embargo, con frecuencia resultaba que la correlación no era tan buena,  el resultando era que se obtenían reactivos deficientes  la prueba en su con!unto era de escaso valor. El concepto mismo de confiabilidad implicaba al de error de la medida  tuvieron que desarrollarse procedimientos distintos para determinar la confiabilidad del test de una manera más precisa. ?al fue el caso de los procedimientos de pruebas paralelas  de división por mitades. "a itemetría hizo contribuciones valiosas a la psicología debido al énfasis que puso en el análisis del error. Entre sus contribuciones se encuentran varios conceptos sobre precisión de la medida, las técnicas para el tratamiento del error  el uso generalizado del error estándar de la medida como la medida básica del error. @demás, dio lugar a contribuciones tales como las fórmulas de #pearman17ro
PSICOLOGÍA INDUSTRIAL que -attell )*+NG% denomina psicometría estructural  se caracteriza por el uso de las nuevas herramientas estadísticas tales como el análisis factorial con sus diversas variantes técnicas, como un medio para encontrar la Sestructura naturalS de las habilidades en el contexto de los factores culturales, la dotación genética, la personalidad, los rasgos, los motivos dinámicos  las dimensiones que dan lugar a la acción  al comportamiento. #u ob!etivo primordial no era como tal, aplicar pruebas, sino determinar la relación que ha entre los conceptos clínicos sobre personalidad,  los fundamentos de la investigación experimental multivariada )cuantitativa por naturaleza%, así como analizar las interacciones dinámicas entre los rasgos  los estadíos de la personalidad. "os tests se consideraban significativos en la medida que armonizaban con los constructos teóricos formulados conceptualmente.

"a etapa funcional en el desarrollo de los tests es aquella que Strasciende a las aplicaciones inmediatas  simplistas que identificaban a las estadísticas con factores conductuales,



profundiza en las

lees  formulaciones conceptuales del

comportamiento$ que relaciona rasgos, procesos  estados psicológicos con las mediciones  estrategias estructuralesS )-attell, *+NG%. Ese tipo de lees, seg(n -attell, se refieren a las relaciones sistemáticas  consistentes obtenidas de los estudios empíricos sobre el desarrollo, en el conocimiento acerca de los rasgos determinados en forma hereditaria, de los rasgos modificables por las experiencias  el aprendiza!e  de la modulación de los estados psicológicos producidos por las relaciones psicofisiológicas. En resumen, el desarrollo de la teoría clásica de los tests ha procedido de etapas orientadas en forma pragmática para desarrollar tests  validar reactivos, )donde los constructos psicológicos teóricos se definían operacionalmente como Saquéllo que mide la prueba xS%K hacia etapas conceptualmente más elaboradas en que los tests se derivan de teorías del comportamiento más articuladas  donde cada reactivo tiene un significado conceptual definido en un contexto teórico particular. "imitaciones de la ?eoría -lásica de los ?ests$ 3e acuerdo a la ?eoría -lásica de los ?ests )?-?%, la elaboración de pruebas de desempe2o máximo involucra la selección de reactivos de acuerdo a su contenido, nivel de dificultad  poder de discriminación. "os reactivos más deseables son los que poseen un nivel maor de discriminación. El nivel de

PSICOLOGÍA INDUSTRIAL dificultad por su parte, se a!usta de acuerdo a$ *. El propósito de la prueba, K L. El criterio preestablecido para el grupo al cual se aplicará la prueba. "os índices estadísticos empleados por la ?-? no se mantienen constantes cuando se aplican a poblaciones que difieren en habilidad respecto de la población empleada para obtener las normas del test. Por lo tanto, el éxito de las técnicas clásicas de selección de reactivos depende de qué tan parecida es la población con la cual se obtuvieron los índices respecto de la población a la que se pretenden aplicar. #i la diferencia es grande, los índices obtenidos de los ítems no serán apropiados para la población ob!etivo. En otros términos, la teoría clásica de los tests no puede predecir cómo responderá un individuo a los ítems a menos que esos ítems haan sido previamente administrados a personas similares )"ord, *+NH% 3urante el traba!o práctico de elaboración de tests, normalmente el grupo a partir del cual se obtienen los índices  el grupo al cual el test va dirigido, difieren considerablemente. >n caso especial en el cual los índices clásicos de los reactivos se obtienen a partir de grupos que difieren de la población a la que van dirigidos, puede verse al estructurar bancos de reactivos. @l elaborar un banco de reactivos, las características de los ítems que van a ser incluidos en el banco, deben ser determinadas. "os ítems con frecuencia denominados SexperimentalesS, se incluen en un test que es administrado a un grupo de personas de tal manera que se obtienen como resultado, los índices de esos reactivos. Por supuesto, no todos los reactivos experimentales serán incluidos en un test particular. Por lo tanto, se crean m(ltiples formas del test, cada uno de los cuales contiene diferentes reactivos experimentales  las diferentes formas se aplican a grupos distintos de examinados. 3ado que generalmente no es posible asegurar que las diferentes formas del examen sean administradas a grupos equivalentes, los índices de los reactivos experimentales que se aplicaron a grupos distintos no pueden ser equivalentes )=ambleton M #
PSICOLOGÍA INDUSTRIAL la confiabilidad de la prueba  por lo consiguiente, tampoco su participación al error estándar de la medida )=ambleton, #
b4 Te#r7a de &a Geera&i0abi&idad -ronbach  ;laser )*+L% postularon la ?eoría de la ;eneralizabilidad )?;% que es una extensión del modelo clásico en el que diversas mediciones del mismo individuo pueden variar tanto por efecto de una variación en lo que se mide como por el error de medición )6unnall  7ernstein, *++%. En esta teoría las decisiones sobre la bondad de un instrumento se basan en estudiar las fuentes  tipos de error, utilizando el análisis de varianza. -uando se mide una variable se trata de generalizar los resultados a un dominio o universo confiable de observaciones. El punta!e del universo es seme!ante al punta!e verdadero en el modelo clásico. "a diferencia es que en la ?-? se considera que la varianza de error es de una sola clase , en cambio, la ?; reconoce que existen otros universos de generalización  por lo tanto muchos punta!es de universo posibles. #olo cuando el universo se ha definido podemos afirmar cuáles son las fuentes de variación que producen error. "as diferentes fuentes de error en esta teoría se denominan facetas, término que introdu!o -ronbach para designar cada una de las características de la situación de medición que pueden cambiar de un momento a otro , por tanto, hacer variar los resultados obtenidos. #eg(n esta teoría los punta!es observados solo poseen interés si son representativos de todos los punta!es posibles de un mismo universo. Población es el con!unto de personas

PSICOLOGÍA INDUSTRIAL de las que se extrae una muestraK  >niverso es el con!unto de todos los ítems posibles de un constructoK  >niverso de -ondiciones de /edición al con!unto de todas las facetas estudiadas. "as distintas fuentes de variaciones asociadas a las facetas  a sus interacciones se estima que contribuen a la varianza de error  disminuen la generalizabilidad de los punta!es observados en las personas evaluadas.

"4Te#r7a de 5espuesta a& =tem "a literatura sobre tests registra en los (ltimos CH a2os un desplazamiento progresivo del esquema proporcionado por la ?eoría -lásica de los ?ests, hacia el contexto  los procedimientos delineados por la ?eoría de Aespuestas al Ttem )?A8% U3el inglés$ Ttem Aesponse ?heor 1 8A?V. Esta teoría, fue desarrollada para resolver varios de los problemas que presentaba la ?-? )=ambleton M #
PSICOLOGÍA INDUSTRIAL prueba  a su vez, la habilidad de los examinados depende del nivel de dificultad de la prueba. 3e la misma forma, el nivel de discriminación de los reactivos  los coeficientes de validez  confiabilidad de la prueba se definen también en base a las características del grupo particular de examinados. @sí, las características del test  de los reactivos cambian a medida que cambia el contexto de la prueba. Por lo tanto, es mu difícil comparar examinados a quienes se aplican diferentes testsK o a(n, comparar ítems cuas características se obtuvieron utilizando diferentes grupos de examinados. Esto significa que los coeficientes de los reactivos son dependientes del grupo al mismo tiempo que son dependientes del test. Esta clase de dependencia es la que se trata de eliminar mediante la ?A8. :tro problema de la ?-? es que es centrada1en1el1test, más que centrada1en1el1 reactivo. 6o se toma en consideración cómo responde el examinado a un reactivo dado,  por lo tanto, no se tienen bases para determinar qué tan bien podría desempe2arse un examinado particular ante un reactivo individual. Es decir, la ?-? no permite hacer predicciones acerca de cómo se comportará un individuo o grupo particular ante un reactivo dado. Esta posibilidad de predicción es importante en una gran variedad de situaciones como por e!emplo, cuando se intenta predecir el comportamiento de un profesional ante diferentes tipos de situaciones prácticas. 3e acuerdo a =ambleton, #
expresa a

nivel

del reactivo

/ás que a

nivel

del testK

El modelo no requiere de pruebas paralelas para determinar el índice de

confiabilidadK  .

Provee una

medida de

la

"os postulados básicos de la ?A8 son$

precisión de

-ada índice

de

habilidad.

PSICOLOGÍA INDUSTRIAL *% El resultado de un evaluado en un ítem puede ser explicado por un con!unto de factores llamados rasgos latentes o aptitudes L% "a relación entre la respuesta de un su!eto a un ítem  el rasgo latente que subace puede describirse como una función monotónica creciente que se llama función característica del ítem o curva característica del ítem )--8% Esta función específica que a medida que la aptitud aumenta la probabilidad de una respuesta correcta al ítem también aumenta. C% "as estimaciones de la aptitud obtenidas con distintos ítems serían iguales  las estimaciones de los parámetros de los ítems obtenidos en distintas muestras de examinados serán iguales. Es decir que en la ?A8 los parámetros de aptitud  de los ítem son invariantes. "a e!ecución de un examinado en una prueba puede ser predichos por un con!unto de rasgos, rasgos latentes  habilidadesK  )L% la relación entre las respuestas de los examinados a los reactivos  el con!unto de rasgos que subacen a la respuesta ante el reactivo, pueden describirse por una función monotónicamente incrementada llamada función característica del reactivo o curva característica del ítem )--8%. Esta función específica que a medida que el nivel del rasgo incrementa, también incrementa la probabilidad de una respuesta correcta ante ese reactivo.S )p.% #on supuestos de la ?A8$ *. "a unidimensionalidad del rasgo latente$ que las respuestas del examinado estén determinadas por una (nica variable denominada Aasgo. E!.$ >n ítem de un test espacial medirá solo habilidad espacial  no ninguna otra cosa )Berreres ?raver, LHH% L. "a independencia local$ "as respuestas de un evaluado a cualquier par de ítem son independientes  la probabilidad de responder correctamente a un ítem es independiente de la probabilidad de responder correctamente cualquier otro ítem )Berreres ?raver, LHH%. Existen muchos modelos de la ?A8, pero los básicos son$ 1

/odelo "ogístico de un parámetro o /odelo de Aasch que está medido en la misma escala que el parámetro zeta que representa el nivel de habilidad, el parámetro b representa la dificultad del ítem. -uanto maor sea el valor

PSICOLOGÍA INDUSTRIAL de b, más difícil será el ítem a que maor será el nivel de habilidad necesario para tener una probabilidad de acertar de H. 1

/odelo "ogístico de dos parámetros o /odelo de 7irnbaum que indica en qué medida el ítem diferencia entre examinados con un nivel alto  ba!o de habilidad. -uanto maor sea el valor de a, maor poder discriminativo del ítem, parámetro a que representa la discriminación del ítem.

1

/odelo "ogístico de tres parámetros incorpora !unto con el a  el b al c que representa la probabilidad de acertar el ítem que tienen las personas con un nivel de habilidad mu ba!oK o parámetro del pseudo azar.

Para construir una prueba de acuerdo a los principios de la ?A8, es necesario construir un banco de reactivos con parámetros estimados para cada ítem, de acuerdo al modelo seleccionado. El procedimiento recomendado por "ord )*+% consiste en los siguientes cuatro pasos$

*. 3ecidir acerca de la forma deseada de la función de información de la prueba o curva de información deseada )target information curve%. L. #eleccionar los reactivos del banco cua curva de información deseada cae ba!o el área de la curva de información de la prueba, de tal manera que saturen el área ba!o la curva de la función deseada de la prueba. C. -onforme se adicionan reactivos a la prueba, se recalcula la curva de información de la prueba con los reactivos seleccionados hasta ese momento. J. -ontinuar la selección de los reactivos hasta que la función de información de la prueba se aproxime a la función de información deseada con un grado satisfactorio.S )p. LC% #in embargo, la ?A8 no se encuentra libre de problemas  su aplicación contiene ciertos puntos riesgosos debido a que el uso de criterios estadísticos para la selección de los reactivos no asegura una prueba con contenidos completamente válidos. 3eficiencias en

PSICOLOGÍA INDUSTRIAL los procedimientos de selección de los contenidos pueden generar una prueba con un ba!o nivel de validez de contenido )=ambleton, #na prueba construida con ítems de valores elevados puede ser que no corresponda a los de la prueba esperada. -omo consecuencia, la función de información de la prueba será sobrevalorada  por lo tanto, habrá que a2adir varios reactivos adicionales para compensar esta sobrevaloración. #in embargo, una de las venta!as de la construcción de los tests de acuerdo a los modelos de la ?A8 es que se pueden elaborar tests individualizados, es decir, &a la medida' de los su!etos que permiten inferir en cada uno de los evaluados un verdadero valor del rasgo de la manera más precisa.

SE>TO 8 1.2. ;eii"i! de& ;#mii# de& Test #iguiendo a ?ornimbeni et al. )LHHJ% la construcción de una escala de medición de alg(n aspecto del comportamiento humano requiere previamente un exhaustivo análisis conceptual del dominio o rasgo a medir. Para estos autores se debe obtener definiciones conceptuales a!ustadas del rasgo en cuestión  decidir cuál tipo de indicadores operacionales son adecuados para describirlo. ?odas las dimensiones importantes del rasgo estudiado deben incluirse. #i se trata de una prueba para medir &rendimiento', la

PSICOLOGÍA INDUSTRIAL definición del dominio puede realizarse delimitando el universo de situaciones a ser evaluadas. @sí por e!emplo, en el caso de un examen de Estadística, el universo abarcaría los ob!etivos  contenidos del programa de la asignatura. En la medición del rendimiento se pueden utilizar pruebas referidas a criterios o referidas a normas. "os procedimientos de construcción de las pruebas referidas a criterios difieren de aquellos usados tradicionalmente en las pruebas de rendimiento. Para la elaboración de pruebas por normas, se parte de la construcción de una tabla de especificaciones que es una tabla de doble entrada por medio de la cual se relacionan los ob!etivos cuo logro se desea evaluar con los contenidos específicos correspondientes. @ partir de esta tabla se determina la cantidad de ítems que conformará la prueba  se lleva a cabo su redacción. En la construcción de una prueba con referencia a criterios, en cambio, no se realiza una tabla de especificaciones, sino que se define  delimita el dominio de conductas correspondientes a cada ob!etivo. #iguiendo dicha definición se elaboran los ítems que evaluarán ese dominio de conductas  todos los desempe2os individuales serán referidos a ese dominio. ?al como lo establece Pophan )*+% citado por ?ornimbeni et al.)LHHJ% por dominio debe entenderse &el con!unto de conductas que debería exhibir el alumno en relación con un ob!etivo dado, si éste ha sido alcanzado'. Es decir, todas aquellas tareas que el alumno debería poder realizar si el ob!etivo ha sido logrado. Para =ambleton  Aogers )*++*% citados por los mismos autores, el &dominio' puede ser de conductas, ob!etivos, destrezas  competencias  la amplitud del dominio varía en función de la finalidad del test. #i el dominio comprende más de un ob!etivo pueden construirse subtests para cada ob!etivo,  se eval(a el rendimiento de los su!etos en cada uno de ellos. Para la especificación del dominio de conductas o clase de tareas que el individuo debe realizar, seguiremos el esquema propuesto por ?ornimbeni et al )LHHJ% que proponen$ i. 3efinición del ob!etivo$ #e establece cuál o cuáles serán los ob!etivos que se evaluarán a través de la prueba, por e!emplo, la habilidad de &comprensión', que inclue aquellas conductas o respuestas que se refieren (nicamente a una comprensión de los mensa!es literales contenidos en la comunicación. ii. 3escripción del ob!etivo$ #e define en términos de conductas observables el o los ob!etivos a ser evaluados. En el e!emplo

PSICOLOGÍA INDUSTRIAL anterior se especificaría un ob!etivo de la habilidad de comprensión tal como &ser capaz de analizar el propósito del autor  su punto de vista examinando una comunicación escrita'. iii. Especificación de las características de la situación de evaluación$ se especifican todos aquellos aspectos a tener en cuenta en la situación de evaluación, por e!emplo, en un texto de divulgación científica, seleccionar el párrafo e identificar la oración donde se expresa la intención del autor. iv. -aracterísticas de la respuesta$ #e especifica cuál es la respuesta que se espera del su!eto, en este caso, que seleccione de manera correcta el párrafo  la oración correspondiente.

1..

Se&e""i! $ e&ab#ra"i! de &as Es"a&as

"a medición es la asignación numérica de acuerdo con reglas  las escalas son las reglas de medición. "a elaboración de escalas puede definirse como el proceso de establecimiento de reglas para la asignación numérica en la medición. : sea es el proceso por el cual se dise2a  calibra un dispositivo de medición  la forma en que se asignan n(meros, valores de escala, a diferentes cantidades del rasgo o atributo que se está midiendo. @l prolífico ". ?hurstone se le acredita la adaptación de los métodos de elaboración de escalas psicofísicas al estudio de variables psicológicas. "as escalas son instrumentos usados para medir algo, ese algo en psicometría es un &rasgo' o atributo psicológico. "as escalas pueden clasificarse a lo largo de un continuo del nivel de medición  denominarse por sus naturalezas como nominales, ordinales, de intervalo o de razón. uienes elaboran las pruebas dise2an un método de medición, es decir, hacen la escala de una prueba, en la forma que creen que se adapta me!or a la manera en que han conceptualizado la medición del rasgo o rasgos que son su ob!etivo. 6o ha un (nico método para la elaboración de escalas, el que una escala sea de naturaleza nominal, ordinal, de intervalo o de razón dependerá en parte de los ob!etivos de la escala  de la legitimidad matemática de las manipulaciones  transformaciones de los datos resultantes.

PSICOLOGÍA INDUSTRIAL Existen &escalas de estimación' que son agrupamientos de palabras, afirmaciones o símbolos en los que !uicios relativos a la intensidad de un rasgo, actitud o emoción particular es indicada por quien responde la prueba. >n tipo de &escala de estimación sumatoria', la escala "i0ert se usa en forma extensa dentro de la psicología, por lo general en escala de actitudes. "as escalas "i0ert son relativamente fáciles de elaborar, cada reactivo presenta cinco respuestas alternativas, por lo general, en un tipo de continuo entre acuerdo  desacuerdo o aprobación  desaprobación. "as escalas "i0ert son confiables, lo cual puede explicar su popularidad. :tro método de elaboración de escalas que produce datos ordinales es el método de comparaciones apareadas. @ quienes responden la prueba se les presentan pares de estímulos  se les pide que los comparen  seleccionen uno por medio de alguna regla. :tra forma de derivar información ordinal por medio de un sistema de elaboración de escalas implica tareas de clasificación. En estos enfoques se presentan tar!etas impresas, dibu!os, fotografías, u otros estímulos  se les pide a los evaluados que los clasifiquen desde las más hasta las menos !ustificables o que los !erarquicen. ?odos los métodos anteriores producen datos ordinales, el método de intervalos aparentemente iguales descripto por ?hurstone es un método de elaboración de escalas para obtener datos que se supone son de intervalo. El método de elaboración de escalas particular empleado en la elaboración de un test dependerá de las variables que se van a medir, el grupo para el que se pretende la prueba )por e!emplo los ni2os pueden requerir un método de elaboración de escalas menos complicado que los adultos%  las preferencias del elaborador de la prueba.

1.(.

5eda""i! de =tems

#eg(n lo afirman ?ornimbeni et al. )LHHJ% existen pautas convencionales para la redacción de ítems de prueba. Estas incluen recomendaciones tales como$ redactar ítems congruentes con el ob!etivo de medición  evitar los ítems demasiado largos )de más de

PSICOLOGÍA INDUSTRIAL LH vocablos%, las oraciones comple!as con ambigDedades de sentido, las frases con dobles negaciones, el uso de expresiones extremas )nunca, siempre, todos%  utilizar el lengua!e más apropiado al nivel de maduración  educativo de la población ):sterlind, *++H%. Para 6unnall )*++*% los dos errores más comunes en la redacción de ítems son$ a% ambigDedad )preguntas difusas que admiten varias respuestas%  b% trivialidad )centrarse en aspectos poco importantes del rasgo o dominio en cuestión% Existen formatos de selección de respuesta  de construcción de respuesta, los primeros facilitan la calificación automatizada  pueden aplicarse con facilidad a gran cantidad de evaluados. El formato de selección de respuesta en presentar una elección de respuestas  requerir la selección de una alternativa. Existen tres tipos$ los ítem de opción m(ltiple, los ítem de relación  los ítem de verdaderoOfalso. >n reactivo de opción m(ltiple consta de tres elementos un enunciado o base del ítem, una alternativa u opción correcta o clave  varias alternativas u opciones incorrectas llamadas distractores.

1.6.

5e%isi! de& Test p#r E/pert#s

?al como lo explican ?ornimbeni et al. )LHHJ%, la maoría de los autores recomiendan que los items preliminares de un test sean revisados por expertos en construcción de pruebas, en el dominio o rasgo a medir  en el nivel de comprensión de la población a la cual se apunta con la prueba. "as tres características que los expertos deben evaluar en cada ítem son$ a% claridad semántica  corrección gramatical b%adecuación de su dificultad al nivel educativo  evolutivo de las personas c% congruencia con el rasgo o dominio medido Este (ltimo ítem es el principal parámetro  se refiere al grado de consistencia que debe existir entre un ítem particular  las metas esenciales de la prueba dado que esto será un factor posterior de confiabilidad  validez ):esterlind, *++H%. @ los !ueces se les pide que eval(en la calidad  consistencia de los items  se descartan aquellos con puntuaciones medias más ba!as  con escaso grado de acuerdo, respectivamente. #e recomienda que

PSICOLOGÍA INDUSTRIAL los ítem seleccionados sean aquellos en que, al menos, un GHW de los !ueces coinciden )=errera Ao!as, *++C% Es (til también incluir preguntas que demanden información cualitativa sobre los ítems lo que puede facilitar un me!oramiento en el fracaso de algunos de ellos.

1.8.

A9&isis $ Se&e""i! de =tems

#iguiendo a ?ornimbeni et al. )LHHJ% podemos afirmar que existen varios procedimientos de análisis de los ítems de una prueba preliminar. ?odos ellos se ocupan esencialmente de$ a% la distribución de los punta!es de cada ítem  b% la relación estadística entre el ítem  la prueba total. ?al como lo plantean los autores mencionados, el primer paso para obtener información psicométrica sobre los items de pruebas homogéneas consiste en administrar los elementos preliminares a una muestra amplia )superior a CHH su!etos% que sea representativa de la población que se quiere evaluar en la prueba final. Para descartar los ítems que no funcionan bien debe contarse con una cantidad de su!etos por lo menos cinco veces superior al n(mero inicial de reactivos  aproximadamente el doble de ítem de los que aparecerán en la versión definitiva de la medida. "a determinación del numero muestral necesario para realizar análisis de ítem  los estudios de validez  confiabilidad de un test es un punto conflictivo debido a las dificultades existentes para seleccionar participantes en determinados contextos de aplicación de la psicología o con determinadas poblaciones. El ideal, coincidiendo con los autores mencionados, ronda entre los CHH a JHH su!etos para estudios correlacionales pero este n(mero no es condición suficiente de buenos índices psicométricos )por e!emplo un alfa superior a .NH%. Existen otros factores intervinientes como el entrenamiento de los evaluadores o la heterogeneidad de la muestra que pueden incrementar los valores de confiabilidad  validez  compensar tama2os maestrales inferiores al estándar mencionado )Pa!ares, =artle  aliente, LHH*%. El procedimiento más empleado en el análisis inicial de reactivos es la correlación de cada uno de ellos con el punta!e total de la prueba. #i el test consta de diversas subescalas, cada ítem debe correlacionarse con el punta!e total de esa parte, no con el punta!e total de la prueba. El estadístico usual es el producto momento de Pearson ) r % o correlación punto biserial si se trata de ítem dicotómicos )siOno, verdaderoOfalso%. "os ítem

PSICOLOGÍA INDUSTRIAL con correlaciones no significativas o ba!as )inferiores a .CH% se eliminan o se revisan  se conservan los menos ambiguos, ni fáciles ni dificultosos  más relacionados con el constructo )6unnall  7ernstein, *++%. -uando ha items con varias alternativas de respuesta es aconse!able obtener las correlaciones de cada una de las alternativas con el punta!e de la prueba total, sobre todo en aquellos de correlación ba!a o negativa. "os me!ores distractores serán aquellos que obtengan correlaciones negativas con los punta!es de la prueba, es decir, que sean seleccionados por quienes tienen punta!es ba!os en la prueba )=errera Ao!as, *++C%. En las pruebas de habilidades )ítems dicotómicos% es importante conocer el índice de dificultad de cada ítem, o sea el porcenta!e de personas que responden acertadamente al reactivo analizado. El índice de dificultad de los reactivos tiene un rango de H a *  se simboliza como p. >n reactivo cuo p es H está indicando que ning(n su!eto contestó correctamente  un reactivo con p igual a * es aquel que todos los su!etos respondieron correctamente. El valor óptimo de p para un reactivo depende de varios factores, tales como los ob!etivos de la prueba  la cantidad de alternativas de respuesta. #i el propósito del test es identificar sólo un porcenta!e reducido de los me!ores postulantes para un empleo, por e!emplo, entonces los items de la prueba deberían ser lo suficientemente difíciles  tener un valor medio1ba!o de p. Para pruebas convencionales de habilidades se recomiendan valores p entre .LH  .NH )@i0en, LHHC% "a proporción de acierto de un ítem es un estimador adecuado de la dificultad de un ítem. #in embargo, esta información ha que complementarla con la distribución de frecuencias en todas las opciones de respuesta )en elecciones m(ltiples%  las estimaciones de proporción para diferentes rangos de puntuación en la prueba total. En escalas con formatos tipo "i0ert, los reactivos donde la maoría de los evaluados responde con las máximas o mínimas categorías )p.e!. * o *H% indican que tales items carecen de suficiente dificultad )atractivo% o son excesivamente difíciles para los evaluados. -on la misma lógica deben eliminarse los reactivos donde la maoría de los su!etos de la muestra obtiene el mismo punta!e puesto que tales elementos de prueba no discriminan entre los evaluados )7andura, LHH*%

PSICOLOGÍA INDUSTRIAL "as pruebas referidas a criterios, como explica /artínez @rias )*++% se eval(an  seleccionan los items de una forma particular, diferente a las pruebas referidas a normas. El análisis se realiza comparando los resultados de un grupo antes de aplicar un programa de aprendiza!e  después del mismo, o comparando dos grupos similares, uno de ellos, que recibió capacitación  el otro no. @l calcular el índice de dificultad los resultados esperados son, items con alta dificultad para los grupos que no han pasado por el proceso de aprendiza!e,  ba!a dificultad para los que han sido sometidos al proceso de instrucción. En cuanto al índice de discriminación, obtenido por la comparación entre grupos, se espera máxima discriminación entre los grupos  mínima entre los individuos de un mismo grupo. >na vez realizada la aplicación de la prueba piloto  habiendo obtenido resultados estadísticos sobre el comportamiento de cada ítem se podrán tomar decisiones sobre cuáles de ellos deben integrar la forma final del test  hacer estimaciones de su confiabilidad  validez mediante algunos de los procedimientos a conocidos. "a lógica de este proceso de análisis es obtener pruebas lo más homogéneas posibles, es decir, donde todos los reactivos se relacionen con un n(cleo com(n de medición que es el constructo o dominio, información que se obtiene aplicando a los reactivos de una escala el coeficiente alfa de -ronbach, por e!emplo. El con!unto de ítems seleccionados después de examinar la correlación ítem1total de cada uno, es analizado con este procedimiento de homogeneidad )alfa o QA1LH%  debemos asegurarnos valores de.NH o superiores. "os ítems con correlaciones ba!as con el punta!e total se pueden remover para incrementar el valor del alfa. #i bien un coeficiente alfa elevado es una condición necesaria de unidimensionalidad esta propiedad solo es garantizada por el análisis factorial );oldberg, *+++% El paso decisivo para asegurar la unidimensionalidad de cualquier escala homogénea  el primer paso en un con!unto inicial de ítem heterogéneos )sin un explícito marco teórico previo% es el análisis factorial )/artínez @rias, *++%. El análisis factorial es esencialmente un método para agrupar las variables que se correlacionan fuertemente entre sí  cuas correlaciones con las variables de otros agrupamientos es menor, LHHC%. #eg(n Qlline )LHHH% el análisis factorial es un método estadístico en el cual las variaciones en los punta!es de un n(mero de variables son explicadas por un n(mero más reducido de

PSICOLOGÍA INDUSTRIAL dimensiones o constructor )factores%. &El análisis factorial es una técnica analítica que permite reducir un n(mero extenso de variables interrelacionadas a una cantidad peque2a de dimensiones latentes.' );lutting et al. LHHL% >na distinción inicial importante es la que debe realizarse entre análisis factorial exploratorio  confirmatorio. En el primero se extraen factores sin una estructura teórica previa con!eturada de modo explícito. En cambio el enfoque confirmatorio, los factores son definidos a priori en base a un modelo teórico  en este caso, el análisis intenta verificar qué tan bien se adaptan los datos observables a ese modelo. @ntes de realizar un análisis factorial debe determinarse si los items están suficientemente interrelacionados. Existen algunas pruebas estadísticas que pueden emplearse con esa finalidad. >nas de las más empleadas son el test de esfericidad de 7artlett  la medida de adecuación del muestreo de Qaiser1/aer1:li0in que se interpreta de manera seme!ante al coeficiente de confiabilidad, es decir, con un rango de H a *  considerando los valores superiores a .NH como mu adecuados. #i es así, se puede aplicar el análisis factorial en sus diferentes variantes. "os principales métodos exploratorios para extraer factores son$ @nálisis de -omponentes Principales, E!es Principales  el de /áxima Probabilidad. Este (ltimo mu usado por representar un enfoque estadístico inferencial en psicometría. El método P- explica la maor cantidad de varianza posible en los datos observados  es por consiguiente un método más descriptivo que inferencial. El método de e!es principales es análogo al anterior para los mismos fines. El análisis factorial debe realizarse sobre muestras extensas no inferiores a CHH su!etos para obtener datos (tiles. @demás se debe contar idealmente con *H veces el n(mero de su!etos por variable o al menos  veces ese n(mero )6unnall, *++*%. "a selección del n(mero correcto de factores es una de las decisiones más dificultosas del análisis factorial. "uego de extraer los factores iniciales, se realiza un procedimiento de rotación que permite eliminar los pesos negativos importantes  reducir el n(mero de cargas factoriales de cada variable en los diversos factores )@nastasi, *++N%. "as rotaciones colocan a las variables más cerca de los factores dise2ados para explicarlas, concentran

PSICOLOGÍA INDUSTRIAL la varianza de las variables en menos factores , en general, proporcionan un medio para facilitar la interpretación de la solución factorial obtenida. "os factores rotados explican la misma varianza que el con!unto de los factores )no rotados% pero la estructura de las cargas factoriales se modifica  son más simples de interpretar, debido al aumento de las cargas positivas extremas )ba!as  altas%. "a tarea final del análisis factorial es interpretar  nominar los factores. Esto se logra inspeccionando el patrón de cargas factoriales ba!as  altas de cada variable sobre los distintos factores  mediante el conocimiento que se posea de las variables implicadas. -uando los factores obtenidos están correlacionados es posible someter sus correlaciones al mismo análisis estadístico que utilizamos con las correlaciones entre ítems. Podemos realizar un análisis factorial de los factores obtenidos por rotación oblicua  derivar factores de segundo orden o superior, es el caso del *G PB donde los factores iniciales son *G pero un nuevo análisis reduce el modelo a  factores de segundo orden asimilables al modelo de cinco grandes factores del 8nventario 6E:1P8A. En el enfoque psicométrico actual, el análisis factorial se utiliza más como estrategia confirmatoria de un modelo teórico previo, en especial, dentro del marco metodológico del /odelo de Ecuaciones Estructurales. 3e modo contrario se corre el riesgo de obtener estructuras puramente empíricas dependientes de la muestra escogida  no replicables con facilidad. Estas estrategias analizadas son congruentes con la ?eoría -lásica de los ?ests. El análisis desde el enfoque de la ?eoría de Aespuesta al Ttem emplea estrategias tales como$ discriminar distintos niveles del rasgo medido, asegurar la homogeneidad mediante los índices de discriminación o minimizar el funcionamiento diferencial de los ítems de prueba );oldberg, *+++%. En este momento se pueden complementar ambos criterios los de la ?-?  los de la ?A8 como etapa de transición ante los nuevos desarrollos de esta (ltima.

peptimo 2. A;APTACI:N ;E LOS TESTS 2.1.

?+t#d#s de Adapta"i! de &#s Tests

PSICOLOGÍA INDUSTRIAL @ctualmente se reconoce que la adaptación de un ?est es un proceso mucho más comple!o que la mera traducción de ese test en un idioma diferente. >na adaptación implica considerar no sólo las palabras utilizadas al traducir la prueba sino también las variables culturales involucradas. "a traducción del inglés al espa2ol del siguiente ítem del 6E: P8A &8
PSICOLOGÍA INDUSTRIAL de denominación confrontacional, utilizados en neuropsicología, donde se utilizan láminas con dibu!os de ob!etos que el evaluado debe nombrar. Estos ob!etos tienen distinta frecuencia de observación en la vida diaria de un su!eto  por ello van a variar considerablemente de una cultura a otra. Es el caso de la adaptación @rgentina del ?est de 3enominación de 7oston )@llegri et. @l *++%. En la versión original la figura de una bellota está ubicada en el lugar n(mero CL mientras que en la versión @rgentina tal lámina se encuentra sobre el final en el n(mero H. El ensamble también se da cuando el constructo no está representado de forma adecuada por la versión original en la cultura a la que se quiere adaptar la prueba. "os aborda!es indigenistas de la medición de la personalidad, por e!emplo, han promovido el dise2o de tests distintos para abarcar aspectos de la personalidad no contemplados en las teorías occidentales. ?al es el caso del 8nventario -hino de Evaluación de la Personalidad, que contiene dimensiones indigenistas de la personalidad tales como &armonía

2.2.

T+"i"as de Tradu""i!

El proceso de traducción es comple!o e implica mas que la traducción lineal de las palabras escritas a un nuevo lengua!e. Existen dos métodos comunes$ la traducción directa o for
2.. ?+t#d#s para estab&e"er &a Eui%a&e"ia etre Tests

PSICOLOGÍA INDUSTRIAL >na vez que se ha traducido convenientemente una prueba es necesario realizar un estudio para establecer si esta traducción en la prueba es equivalente a la original. Para ello habrá de implementarse un dise2o experimental  un análisis de datos obtenidos a través de ese dise2o. =ambleton ) LHH% se2ala que existen básicamente C métodos. *%@dministración de la prueba en el idioma original  de la prueba traducida a su!etos bilingDes$ En este caso se le administrara ambas versiones de la prueba ) la original  su traducción al nuevo idioma% a su!etos que hablan ambos idiomas. #i por e!emplo, deseamos traducir el test de 8nteligencia de 9echsler para @dultos, ersión 888 desde el ingles al Espa2ol, administraremos la versión en 8ngles  la versión en Espa2ol a los evaluados que hablen ambos idiomas. Este método seg(n =ambleton, posee venta!as  desventa!as. Entre las primeras se pueden mencionar que pueden controlarse las diferencias de las características de los participantes en el test ) por e!emplo su habilidad% a que ambas pruebas son administradas a la misma persona. Entre las desventa!as, este autor que este dise2o esta basado en la premisa de que los su!etos son igualmente competentes en ambos idiomas, lo cual es difícil de sostener. Es probable, entonces, que puedan observarse diferencias entre ambas versiones debido a una menor capacidad de algunas personas para entender los ítems en alguno de los dos idiomas. "a segunda gran desventa!a de este dise2o es que no puede asegurarse que los bilingDes posean el mismo nivel de competencia que la población general. Por el hecho de conocer otro idioma es probable que se trate de personas con una maor capacidad intelectual o me!or educación. =ambleton, también se2ala una variación de este método que conserva las misma venta!as  desventa!as pero que es más fácil de implementar. "a misma consiste en administrar al azar una ) no ambas% de las versiones del test ) en espa2ol o en ingles% a los participantes bilingDes. L%@dministración de la versión original  su traducción inversa a monolingDes en el idioma original$ #iguiendo nuestro e!emplo anterior, planteado por las autoras ) ?ornimbeni et. @l. LHHJ% se le administraría la versión original del 9@8# Y 888  la versión obtenida de la traducción inversa a su!etos cuo idioma natal es el ingles. "a equivalencia de los ítems se determina comparando el desempe2o de cada su!eto en cada ítem de ambas versiones. 6uevamente, la venta!a esta en el control de las diferencias en las características de los participantes. "a primer gran desventa!a esta en que este dise2o no

PSICOLOGÍA INDUSTRIAL permite obtener datos con la versión en el idioma meta ) target% del test ) espa2ol en el e!emplo%. 3e esta manera no es posible obtener punta!es de su!etos que hablen el idioma al que se intenta traducir el test. "a segunda gran desventa!a de este dise2o reside en el hecho de la posible falta de independencia entre los punta!es obtenidos a que es probable que exista un efecto de aprendiza!e luego de la administración de la primer versión de la prueba, especialmente si la primera es la original. "a administración al azar de una de las versiones en el primer lugar puede reducir la importancia del efecto de aprendiza!e. C%@dministración de la versión original a monolingDes que hablan el idioma original  de la versión traducida a monolingDes que hablan el idioma al que ha sido traducida la prueba$ #iguiendo con el e!emplo enunciado por ?ornimbeni et. @l )LHHJ%, se administraría la versión en ingles del 9@8# Y 888 a evaluados cuo idioma natal es el Espa2ol. >na posible dificultad reside en asumir que los su!etos de ambas muestras poseen una habilidad comparable. sin embargo, =ambleton sugiere que tal obstáculo puede superarse si los análisis son desarrollados con la ?eoría 3e Aespuesta al Ttem, en la cual se asume que utilizando distintos con!untos de ítem pueden obtenerse las mismas estimaciones de aptitud . 8gualmente, administrando esos ítem a distintas muestras de examinados las estimaciones de parámetros obtenidas serán iguales. >na vez obtenidos los datos por medio de los dise2os revisados existen varias posibilidades estadísticas para su análisis. 7ásicamente el análisis estará destinado a identificar la existencia de Buncionamiento 3iferencial de items ) B38% es decir, ítem que se comportan en forma diferente a través de las diversas muestras transculturales. Por e!emplo, en las investigaciones citada de ?anzer ) *++% en donde el investigador le administro dos cuestionarios sobre autoconcepto académico de lectura  matemáticas. En los resultados pudo observarse que a pesar de que la prueba mostraba la misma estructura factorial para ambos grupos culturales, cuando las escalas de los ítems de competenciaO facilidad se traba!aban en forma individual podían observarse grandes diferencias entre ambos grupos culturales. El autor especulo con que tal diferencia sé debía a un factor cultural de modestia, la cual es una virtud deseable dentro de la cultura de #ingapur, fuertemente influenciada por la cultura china. @sí, los singaporeanos eran más renuentes a mostrar una actitud autoelogio o !actancia. Esta investigación además,

PSICOLOGÍA INDUSTRIAL de ser un e!emplo de B38, muestra también la insuficiencia de comparar las estructuras factoriales de las pruebas cuando son aplicadas transculturalmente. -omo puede observarse en estos resultados, es necesario siempre realizar un análisis de )B38% a que a pesar de conservar una misma estructura factorial un grupo puede mostrar valores mucho más ba!os que otro en determinados ítem. Existen diversos métodos en los que se puede analizar el comportamiento de los ítems. @lgunos métodos dentro de la ?-? tales como los métodos de suma de chi1cuadrado o el de /antel  =aenzel que fuera adaptado para el B38 por =olland  ?haer ) *+NN%  que es en la actualidad él mas utilizado a estos fines. El análisis puede desarrollarse dentro de la ?A8 en donde el mismo se centrara en las probabilidades que tiene una persona con un determinado nivel de habilidad de contestar un ítem en forma correcta. El modelo de Aasch, de un solo parámetro es él más popular.

2.( 3uetes de Sesg# #i deseamos usar las pruebas para predecir resultados en alguna situación futura como por e!emplo en el desempe2o de un aspirante a la universidad, necesitamos instrumentos con alta validez predictiva del criterio particular. Este requisito suele descuidarse en el desarrollo de las llamadas & pruebas libres de influencia cultural'. En un esfuerzo por incluir en esas pruebas solo las funciones comunes a diferentes culturas o subculturas, puede elegirse un contenido que tenga poca relevancia para el criterio que se pretenda predecir. >na me!or solución es elegir un contenido relevante para el criterio e investigar luego las posibles diferencias poblacionales de la efectividad de la prueba para el propósito pretendido. 3esde mediados de la década de los setenta se ha observado una rápida acumulación de investigaciones sobre problemas de sesgo de la prueba. En este contexto, el termino & sesgo' se emplea en su bien establecido sentido estadístico, para desganar un error constante o sistemático en contraste con uno que se debe al azar. "as principales preguntas que se han planteado con respecto al sesgo de la prueba tiene que ver con el coeficiente de validez ) sesgo de la pendiente%  la relación entre las medias del grupo en

PSICOLOGÍA INDUSTRIAL la prueba  en el criterio ) sesgo de intersección%. #i una prueba produce un coeficiente de validez significativamente diferente en dos grupos, la diferencia se describe como sesgo de la pendiente  esta clase de diferencia entre grupos se conoce como &validez diferencial'. >na prueba exhibe sesgo de intersección si sistemáticamente subpredice o sobrepredice una e!ecución del criterio para un grupo particular. El problema del sesgo de la intersección se relaciona mas con lo que ha sido llamado & equidad de la prueba'. @unque los términos & equidad'  & sesgo' de la prueba a veces se usan indistintamente para cubrir todos los aspectos del uso del instrumento con minorías culturales. /odelos de decisión para el uso !usto de las pruebas$ ;radualmente empezó a cambiar el interés de la investigación en la evaluación del sesgo de las pruebas al dise2o de estrategias de selección para su uso !usto con minorías culturales. Entre las metas por reconciliar están las de proporcionar iguales oportunidades a todos los individuos , elevar al máximo la tasa del éxito  la productividad, incrementar la mezcla demográfica  la representatividad  extender el tratamiento preferencial a grupos desfavorecidos por inequidades anteriores. an de i!ver  ?anzer ) *++% identificaron diferentes fuentes de sesgo , que a continuación se explicitan$ a% Sesg# de "#stru"t# Este tipo de sesgo se da & cuando el constructo medido no es idéntico a través de los grupos culturales...' ) p.p. LGJ, an de i!ver  ?anzer, *++%. "a importancia que cada cultura otorga a ciertas conductas se encuentra en esta categoría. -onductas de ética  civismo que en algunas sociedades pueden ser normales en otras pueden constituir un verdadero rasgo de rigidez  aseme!arse a una conducta obsesivo compulsivo. b% Sesg# met#d#&!gi"#

PSICOLOGÍA INDUSTRIAL Este sesgo reconoce tres formas. El sesgo de muestra$ que se da cuando las muestras son incomparables entre si. "a cantidad de a2os de escolaridad que poseen los su!etos de una muestra es una variable determinante en el desempe2o del mismo en un test determinado, especialmente si se trata de un test de habilidad. El nivel sociocultural, la motivación, la composición por género  edad de los su!etos son otras variables que pueden hacer incomparables a dos muestras que pueden mostrar resultados mu diferentes en un test determinado. El sesgo en el instrumento$ que puede provenir de las características del instrumento. "a familiaridad que los su!etos tienen con los estímulos presentados tiene una gran importancia. @lgunos estímulos tales como ob!etos, dibu!os, figuras u otros elementos utilizados en algunas culturas no existen en otras o son irrelevantes. El ítem de e!emplo en el #ub. ?est de :rdenamiento de lámina 98#- 888 que muestra a una mu!er frente a una máquina expendedora de latas de gaseosa tiene mu poco valor en culturas árabes, por e!emplo, o en zonas rurales de nuestro país. El idioma es otra fuente de sesgo de instrumento. "a traducción de un idioma a otro frecuentemente subestimada, es un problema importante que requiere una metodología específica a seguir. "os problemas son maores cuanto más diferencias ha entre idiomas como entre el inglés  el chino o el árabe, idiomas cua lectura se realiza de izquierda a derecha a diferencia del de derecha a izquierda. ?ambién la disposición del texto tiene importancia en el completamiento de frases o de interpretación de textos, maor es el problema cuando implican conectar letras  n(meros siguiendo un orden alfabético o numérico  los caracteres de idiomas como el espa2ol, ruso, griego. Zrabe, hebreo o chino son tan diferentes. ?ambién entre los idiomas occidentales existen diferencias como que en ingles no existe la &2' que el alfabeto sueco contiene mas vocales,  en portugués existen distintos tipo de a. "os métodos de respuesta constituen otra fuente de sesgo del instrumento. "as laminas de respuestas del ?est de /atrices Progresivas de Aaven que implica completar una secuencia lógica con una figura opcional, incluen la figura faltante al final de la segunda fila, con lo que asume una lectura de izquierda a derecha. Este hecho fue demostrado por -arpenter, [ust  #hell ) *++H% en un mu preciso estudio que implica una serie de desventa!as para los su!etos de las culturas árabes quienes involuntariamente van a intentar resolver la prueba de derecha a izquierda, forma en que se lee su idioma.

PSICOLOGÍA INDUSTRIAL El sesgo de administración$ inclue problemas tales como dificultades en la comunicación, es decir, dificultades para que el entrevistado entienda las instrucciones del entrevistador a sea por la dificultad de las palabras utilizadas, el modo de explicación de las instrucciones o un inadecuado mane!o del idioma de alguna de las partes. ?ambién se incluen las alteraciones en la manera de administrar las pruebas. 6ormalmente los manuales incluen instrucciones de administración que en muchos casos no son adecuadas para la población a aplicar. "os administradores del ?est entonces adaptan esas instrucciones seg(n su criterio personal. :tro punto importante es el uso de cronómetros que produce serias alteraciones en los resultados. #esgo de ítem$ #e produce cuando el mismo tiene diferentes significados en distintas culturas. -iertos grupos culturales pueden obtener punta!es significativamente distintos en un ítem determinado a pesar de obtener un punta!e total similar. "a deseabilidad social o la relevancia cultural, entre otros factores, pueden producir el sesgo de ítem. ?anzer ) *++% demostró que aunque la estructura factorial de un ?est de autoconcepto académico era similar cuando se lo aplico a estudiantes australianos  singaporeanos, existían diferencias sustanciales entre estas muestras cuando se compararon algunos ítem específicamente. Este tipo de sesgos también act(a en test neuropiscologicos.

Ter"era Parte A;APTACI:N ;E TESTS ;E UNA CULTU5A A OT5A ;ire"tri"es para &a tradu""i! @ Adapta"i! de &#s Test @daptadas de la 8nternational ?est -omisión )8?-%

1 .C#te/t# -*. "os efectos de las diferencias culturales que no sean relevantes para los ob!etivos centrales del estudio deberían minimizarse en la medida de lo posible. -L. 3ebería de evaluarse la cuantía del solapamiento de los constructos en las poblaciones de interés.

PSICOLOGÍA INDUSTRIAL 2. Adapta"i! de &#s tests 3*. "os constructoresO editores de tests deberían de asegurarse que el proceso de adaptación tiene en cuenta las diferencias lingDísticas  culturales entre las poblaciones a las que se dirigen las versiones adaptadas de los tests. 3. L. "os constructores O editores de los tests deberían de proporcionar datos que garanticen que el lengua!e utilizado en las instrucciones, en los propios ítem  en el manual del tests, son apropiados para todas la poblaciones culturales e idiomáticas a las que va dirigido el tests. 3. C. "os constructores O editores de tests deberían de aportar evidencia de que las técnicas de evaluación elegidas, los formatos de los ítems, las reglas de los tests  los procedimientos son familiares a todas las poblaciones a las que van dirigidos. 3. J. "os constructores O editores de tests deberían de facilitar evidencia de que el contenido de los ítems  los materiales de los estímulos son familiares a todas las poblaciones a las que van dirigidos. 3. . "os constructores O editores de tests deberían

de aportar una !ustificación

racional sistemática, tanto lingDística como psicológica, para me!orar la precisión del proceso de adaptación, así como reunir datos acerca de la equivalencia de todas las versiones en los distintos idiomas. 3.G. "os constructores O editores de tests deberían de asegurarse que el dise2o de recogida de datos permite el uso de técnicas estadísticas apropiadas para establecer la equivalencia entre los ítems correspondientes a las diferentes versiones idiomáticas del test. 3. . "os constructores O editores de tests deberían aplicar técnicas estadísticas apropiadas para *% establecer la equivalencia entre las diferentes versiones de un test, 

PSICOLOGÍA INDUSTRIAL L% identificar componentes problemáticos o aspectos del test que puedan ser inadecuados para alguna de las poblaciones a las que va destinado el test. 3. N. "os constructores O editores de tests deberían de proporcional información sobre la evaluación de la validez en todas las poblaciones ob!etivo a las que va dirigido el test adaptado. 3. +. "os constructores O editores de tests deberían de aportar datos estadísticos sobre la equivalencia de los tests para todas las poblaciones a las que van dirigidos. 3. *H. 6o deben utilizarse preguntas no equivalentes en todas las versiones dirigidas a diferentes poblaciones cuando se prepara una escala com(n, o cuando se comparan estas poblaciones. #in embargo, pueden ser (tiles para reforzar la validez de contenido de las puntuaciones de cada población por separado.

. Ap&i"a"i! @.* "os constructores  los aplicadores de los tests deberían tratar de prever los tipos de problemas que cabe esperar,  tomar las medidas oportunas para evitarlos mediante la preparación de materiales e instrucciones adecuados. @.L uienes aplican los tests deberían de ser sensibles a cierto numero de Editores relacionados con los materiales utilizados para los estímulos, los procedimientos de aplicación,  las formas de respuesta, que pueden reducir la validez de las inferencias extraídas de las puntuaciones. @.C @quellos aspectos del entorno que influen en la paliación del test deberían de mantenerse lo mas parecidos posibles para todas las poblaciones a las que va dirigido el test. @.J "as instrucciones para la aplicación del test en el idioma fuente  en el ob!etivo deben minimizar la influencia de variación no deseada.

PSICOLOGÍA INDUSTRIAL @. El manual del test debería de especificar todos los aspectos del test  de su aplicación que han de revisarse al utilizarlo en un nuevo contexto cultural. @.G El aplicador no debe de interferir, debiendo minimizarse su influencia sobre los examinados. 3eben de seguirse al pie de la letra las reglas explicitas descritas en el manual del test.

(. Iterpreta"i! de &as putua"i#es *. * -uando se adapta un test para utilizarlo en otra población, debe de facilitarse la documentación sobre los cambios , así como los datos acerca de la equivalencia entre las versiones. *. L. "as diferencias entre las puntuaciones obtenidas por las muestras a las que se aplicó el test no deben de tomarse sin más directamente. El investigador tiene la responsabilidad de sustanciar las diferencias con otros datos empíricos. *. C. "as comparaciones entre poblaciones solo pueden hacerse al nivel de la invarianza que se haa establecido para la escala en la que se expresan las puntuaciones. *. J. El constructor del test debería de proporcionar información especifica acerca de las distintas formas en las que los contextos socioculturales  ecológicos de las poblaciones pueden afectar al rendimiento en el test ,  debería sugerir procedimientos para tener en cuenta estos efectos en la interpretación de los resultados.

2. CONCLUSIONES "a utilización de los tests psicológicos construidos en otros contextos culturales es una practica frecuente no solo en nuestro medio sino en todo el mundo . El uso de un test en un contexto cultural diferente, donde se usa un lengua!e distinto  se esta familiarizado con estímulos mu diversos, produce dificultades traducibles como fuentes de sesgo. "a existencia de sesgo puede tener consecuencias iatrogénicas al aplicar los tests  al obtener resultados totalmente erróneos. En un ámbito clínico podemos asumir la

Libro de Psicometria 2

Recommend Documents