SEGUNDA EDICIÓN
Métodos de investigación y estadística en psicología
w-
¡. 'r
L
%
-
'*
• ,
i
V
EL LIBRO MUERE CUANDO LO FOTOCOPIAS AMIGO LECTOR:
La obra que usted tiene en sus manos posee un gran valor. En ella, su autor ha vertido conocimientos, experiencia y mucho trabajo. El editor ha procurado una presentación digna de su contenido y está poniendo todo su em peño y recursos para que sea ampliamente difundida, a través de su red de comer cialización. Al fotocopiar este libro, el autor y el editor dejan de percibir lo que corresponde a la inversión que han realizado y se desalienta la creación de nuevas obras. Rechace cualquier ejemplar « pirata » o fotocopia ilegal de este libro, pues de lo contrario estará contribuyendo al lucre»de quienes se aprovechan ilegítimamente del esfuer zo del autor y del editor. La reproducción no autorizada de obras protegidas por el derecho de autor no sólo es un delito, sino que aténta contra la creatividad y la difusión de la cultura. Para mayor información comuniqúese con nosotros:
Editorial EbManual Moderno, S.A. de C.V. Av. Sonora 206 iCol. Hipódromo Ó6100 México, D.F.
SEGUNDA EDICIÓN EN ESPAÑOL • TRADUCIDA DE LA
Métodos de investigación y estadística en psicología HUGH COOLICAN Traducción puesta al día según la 2a. Ed. por; Psic. Mireya García Mulsa Escuela Nacional de Estudios Profesionales Iztacala Universidad Nacional Autónoma de México Editor responsable: Lic. Ma. Eugenia Gómez López Editorial El Manual Moderno
Editorial El manual moderno, S.A.de C.V. m éxico, D .F .- Santafé de Bogotá
Título original de la obra: R e search m eth o d s an d statistics in psychology C opyright © 1994, Hugh Coolican ISBN 0 340 60082 9 Published in English language by Hodder & Stoughton Educational, 338 Euston Road, London NW1 3BH M étodos de investigación y estadística en psicología © 1997 ISBN 968-426-743-6 Editorial El Manual M oderno, S.A. de C.V., Av. Sonora 206, Col. Hipódromo, Deleg. Cuauhtémoc, 06100 M éxico, D.F. M iem bro de la Cám ara Nacional de la Industria Editorial M exicana, Reg. núm. 39 Im preso en M éxico en los talleres de Program as Educativos, S.A. de C.V., Calz. Chabacano No. 65, Local A, Col. Asturias, 06850 M éxico, D.F. Todos los derechos reservados. N inguna parte de esta publicación puede ser reproducida, alm acenada en sistem a alguno de tarjetas perforadas o transm itida por otro medio —electrónico, mecánico, fotocopiador, registrador, etcétera— sin perm iso previo por escrito de la Editorial. All rights reserved. N o part o f this publication m ay be reproduced, stored in a retrieval system, or transm itted in any form or by any means, electronic, m echanical, photocopying, recording or otherwise, w ithout the prior permission in w ritting from the Publisher. E d ito rial E l m anual m oderno, S .A . de .V C
Agradecimientos
A Peter Richardson y Kevin Buchanan de] Colegio Nene por haber revisado diversos segmentos del material; a Martin Tolley, también del Colegio Nene, por sus comentarios y ejemplos invaluables; a Kate Arnold, de Nene, por su información sobre ética; a Nicky Hayes (Universidad de Huddersfield), Karen Henwood (Universidad de Brunei), Derek Edwards y Jonathan Potter (Universidad de Loughborough), Paula Nicolson (Universi dad de Sheffield) por su valiosa información acerca de los métodos cualitativos; a Shelley Gooding (ATP) por la información del Statpak; a Davis Howell (Universidad de Ver mont) por la información de estadística y para terminar, a Bob Potter, Bert Brummell y John Hunt por sus cuestionamientos que produjeron modificaciones. Agradezco en especial a Richard Gross por sus continuos y muy valiosos consejos y apoyo, y a Tim Gregson-Williams y Louise Tooms por su invaluable apoyo editorial. Por último, mi agradecimiento y absoluta admiración a todos los estudiantes que conocí y que sufrieron mis trucos (y “bromas”) y que me permitieron conocer lo que este libro requería. El autor y los editores también queremos agradecer a las siguientes instituciones y personas por su autorización para reproducir material en este libro: The British Psycho logical Society y al Dr. S. Halliday por el cuadro 7-2; a J. Wiley & Sons por la figura 10-1 (adaptada); a Blackwell y el Journal o f Personality and Social Psychology por las figuras 13-5 y 13-6; a British Psychological Society y al Profesor Chapman por la figura 13-8; al Journal o f Personality and Social Psychology y a Harcourt Brace Jovanovich por la figura 21-2 (adaptada). Estamos muy agradecidos con Longman. Group UK Ltd., en nombre del albacea literario del difunto Sir Ronald A. Fisher, FRS y del Dr. Frank Yates. FRS, por su autorización para reproducir las tablas de “Números Aleatorios” , “ Valores Críticos de Chi Cuadrada” y “ Valores Críticos de t” del libro Statistical Tables fo r Biological, Agricultural and Medical Research (6a. edición, 1974).
Dedicatoria
A todos aquellos que contribuyeron para lograr que este libro llegara a su segunda edición, pero en particular, a Rama (con amor) por su apoyo infinito y, principalmente, a Kiran, quien nos ha dado tantísimas sorpresas.
Prefacio a la primera edición
D e sp u é s dei dominio del conductismo en la psicología angloestadounidense durante medio siglo, la impresión que ha quedado reflejada en muchos textos sobre diseños de investigación, es que el método experimental es la herramienta central de lainvestigación psicológica. De hecho, un-vistazo a través de las revistas ilustrará un amplio despliegue de instrumentos de recolección de datos para su uso fuera del laboratorio y más allá del campo de experimentación. Este libro lleva al lector a través de los detalles del método experimental, y además analiza muchas de las críticas que ha recibido, en particular, el argumento de que su empleo como un paradigma ha conducido hacia algunos modelos psicológicos áridos y faltos de realidad, como lo ha sido la insistencia empírica en la cuantificación. También se introduce al lector, con cierta profundidad, al método no experimental, en donde los libros a nivel licenciatura tienden a ser bastante superficiales. Pero además, lleva al lector más allá de los requerimientos mínimos actuales de ese nivel y lo introduce al mundo de 1as aproximaciones cualitativas. ' Establecido lo anterior, el libro está escrito en un estilo que parecerá “ amigable” y cómodo para la persona que apenas comienza sus estudios de psicología. Para e1 principiante será útil leer primero la parte I, ya que esta sección presenta los aspectos fundamentales del método científico y las técnicas de medición y recolección de datos acerca de las personas. Posteriormente, cualquier lector puede y debe utilizarlo como un manual para meterse en el lugar apropiado respecto a los problemas y proyectos actuales de investigación, aunque necesitará consultar los primeros capítulos de la sección de estadística, con el fin de entender el fundamento teórico y el procedimiento de las pruebas de significación. He tratado de escribir las secciones de estadística tal como las enseño, teniendo muy en mente al nervioso estudiante de matemáticas. Con frecuencia, las personas que creen tener un pensamiento matemático deficiente, encuentran la estadística bastante menos difícil de lo que temían, y las pruebas en este libro, que concuerdan con los requerimientos
IX
X • Métodos de investigación y estadística.
(Prefacio a la primera edición)
del nivel de licenciatura, implican el uso de muy pocas operaciones matemáticas. Excepto por algunos ejemplos ilustrativos, todos los conceptos estadísticos se introducen mediante datos psicológicos realistas, algunos de los cuales provienen de estudios recientes realiza dos por estudiantes. Este libro proporcionará al estudiante de nivel universitario todo lo necesario, no sólo para la selección de métodos y tratamientos estadísticos aplicables al trabajo práctico y a preguntas estructuradas sobre ejemplos de investigación, sino también para enfrentar problemas generales de métodos científicos y de investigación. También los estudiantes de niveles superiores, cautelosos sobre la estadística como lo está un vasto número de principiantes en psicología, encontrarán en este libro una vía accesible hacia esa área. Las preguntas a lo largo del texto intentan comprometer al lector en un pensamiento activo acerca del tema en cuestión, a menudo estimulando la predicción de problemas antes de que se presenten. Las preguntas finales estructuradas imitan a las encontradas en los documentos de varios comités de evaluación. Espero que, a través del empleo de este libro, el lector se anime a disfrutar la investigación, a no verla como una carga intimidante, sino, de hecho, como el motor de la teoría sin la cual quedaríamos con una amplia gama de ideas verdaderamente fascinan tes acerca de la conducta y la experiencia humanas, pero sin los medios para decir cuáles son pura fantasía y cuáles podrían llevamos a modelos de la conducta humana fundamen tados en la realidad. Si hay en este libro puntos que desee cuestionar, por favor establezca contacto a través del editor.
H ugh Coolicas
Prefacio a la Segunda Edición
C u a n d o escribí la Primera Edición de este libro, lo hice como un profesor de nivel licenciatura que sabía que todos necesitábamos un libro extenso sobre métodos y estadística, que en ese momento no existía en las dimensiones apropiadas. Quedé gratamente sorprendido al encontrar un gran número de instituciones de educación superior que utilizaban el libro como texto introductorio. En respuesta a los intereses de los estudiantes de niveles superiores, ahora incluyo capítulos de pruebas de significación para tres condiciones o más, tanto no paramétricas como empleando el ANOVA. Estas últimas llevan al estudiante al mundo de las interacciones que son posibles con el uso de más de una variable independiente. Sin embargo, el punto acerca de las “matemáticas” implicadas en la estadística psicológica, aún sigue vigente. Los cálculos encierran tan sólo aquellas operaciones que se encuentran en cualquier calculadora elemental: suma, resta, multiplicación, división, elevación al cuadrado, raíz cuadrada y decimales. El capítulo acerca de otras pruebas útiles más complejas, sólo significa una guía para los lectores que se aventuran hacia la investigación estadística y diseños más complejos. A pesar de que la introducción a procedimientos de pruebas más complejos tiende a cargar más este libro hacia la estadística; la importancia de todo el espectro de posibles métodos de investigación en psicología permanece como tema central. Así, incluyo una breve introducción de la influencia actual, si acaso controversial, de los enfoques cualitativos del análisis del discurso y la reflexividad, junto con varias adiciones menores a la variedad de métodos. El lector encontrará una actualización general de la investi gación empleada para ejemplificar los métodos. Como un interés en el aprendizaje de los estudiantes comprometidos con este texto, incluyo un glosario al final de cada capítulo que funciona como un ejercicio de autoevaluación, aunque los profesores de licenciatura deberán recalcar que no se espera que los estudiantes estén familiarizados con cada uno de los términos clave que se manejan. La definición en el glosario para estos términos se encuentra con facilidad al consultar el
X II • Métodos de investigación y estadística. . .
(Prefacio a la segunda edición)
índice principal y remitirse a la página que se encuentra escrita en negritas. Para hacer frente a la cantidad de peticiones sobre los informes de muestra de los estudiantes, que fomentó la primera edición, escribí un informe ficticio a un nivel “promedio” (eso creo) e incluí posibles comentarios de quien califica, tanto serios como quisquillosos. Para finalizar, me anticipo y recibo con beneplácito, al igual que en la primera edición, los cuestionamientos y comentarios críticos al respecto. Dichos cuestionamientos causaron que alterara, o tal vez complicara, diversos puntos que se plantearon en la primera edición. Por ejemplo, eliminamos la corrección de Yates, encontramos limitantes a la fórmula clásica de la rho de Spearman, aprendimos que la correlación con variables dicotómicas (y por ende, nominales) es posible, entre otras cosas. Estos aspectos no afectan en absoluto lo que los estudiantes requieren aprender para presentar un examen, pero sí puede alterar los procedimientos que se emplean en los informes prácticos. Sin embargo, resistí la tentación de adentrarme en muchos otros debates sutiles.o en precisiones, sencillamente porque el objetivo principal de este libro sigue siendo, por supuesto, esclarecer y no confundir con aspectos densos. Espero que este objetivo se alcance con la inclusión de “trucos” más didácticos desarrollados después de la edición anterior, y por último, con algunas de mis ilustraciones favoritas. ¡Si sólo algunas de ellas pudieran moverse!
Hugh Co o ucas
Contenido
A gradecim ientos .............................................................................................................................. V D e d ic a to r ia ..................................................................................................................................... v u Prefacio a la prim era e d i c i ó n .................................................................................................. Prefacio a la segunda e d i c i ó n ........................................................................................ ... .
IX xi
PARTE I INTRODUCCIÓN Capítulo
1. Psicología e investigación.......................................
Capítulo
2. Variables y definiciones
Capítulo
3. M uestras y grupos
3
........................................................................25
................................................................................. 39
PARTE II MÉTODOS Capítulo
4. Algunos temas g e n e ra le s ........................................................................ 57
Capítulo
5. Método experimental I: Naturaleza del m é t o d o ..................
77
Capítulo
6. Método experimental II: Diseños experim entales............................................................................ 95
Capítulo
7. Métodos observacionales......................................................................109
Capítulo
8. Planteamiento de preguntas I: Entrevistas y e n c u e s ta s .......................................................................... 135
XIII
XIV • Métodos de investigación y estadística
(Contenido)
Capítulo 9. Planteamiento de preguntas II: Cuestionarios, escalas y pruebas...........................................................161 Capítulo 10. Estudios com parativos.......................................................................... 191 Capítulo 11. Nuevos paradigm as................................................................................ 203
PARTE III MANEJO DE DA TOS Capítulo 12. M edición...................................................................................................223 Capítulo 13. Estadística d escr ip tiv a ....................................................................... 239
PARTE IV EMPLEO DE DATOS PARA PROBAR PREDICCIONES SECCIÓN I INTRODUCCIÓN A PRUEBAS DE SIGNIFICACIÓN Capítulo 14. Probabilidad y significación............................................................... 281 SECCIÓN II PRUEBAS SIMPLES DE DIFERENCIA — NO PARAMETRICAS Capítulo 15. Pruebas de nivel nom inal......................................................................307 Capítulo 16. Pruebas de nivel o r d in a l......................................................................323 SECCIÓN III PRUEBAS SIMPLES DE DIFERENCIA — PARAMÉTRICAS Capítulo 17. Pruebas a nivel de intervalo/razón..................................................... 335 SECCIÓN IV CORRELACIÓN Capítulo 18. Correlación y su sign ificación ............................................................355 SECC ÓN V PRUEBAS PARA MÁS DE DOS CONDICIONES Capítulo 19. Pruebas no paramétricas—más de dos condiciones . . . . . . .
.387
Capítulo 20. ANOVA unidireccional..........................................................................395 Capítulo 21. ANOVA m ultifactorial..........................................................................415 Capítulo 22. ANOVA de medidas repetidas............................................................. 429 Capítulo 23. Otras pruebas multivariadas complejas útiles .—un breve resum en................................................................................ 443 SECCIÓN VI ¿QUÉ ANÁLISIS UTILIZAR? Capítulo 24. Elección de una prueba apropiada
.................................................. 453
Capítulo 25. Análisis de datos cualitativos............................................................... 463
Contenido • X V
/
PARTEr V r ETICA Y PRACTICA
Capitulo 26. Aspectos éticos y humanismo en la investigación . . psicológica............. ... . ................................... . . .... , . . . . . . . 447 Capítulo 27. Planeación de prácticas...................... ...
. . . ■ . . . i . . 495
Capítulo 28. Redacción del informe p r á c tic o ............................................... : . . 501 Apéndice 1. Preguntas estructuradas............................................ ... ................ ... 523 Apéndice 2. Tablas estadísticas
...............................................................
Apéndice 3. Respuestas a los ejercicios y preguntas estructuradas................... 559 Referencias .................................................................................. ín d ic e ...........................................................................
537
INTRODUCCIÓN Capítulo 1. Psicología e in v e s tig a c ió n ............................................................ 3 Capítulo 2. Variables y definiciones Capítulo 3. Muestras y grupos
............................................................25
...................................................................... 39
Psicología e investigación*• La presente introducción establece el escenario para la investigación en psicología. Las ideas principales son que: • • • •
Los investigadores en psicología generalmente se apegan al enfoque científico. Esto implica probar la lógica de hipótesis que se producen de teorías replicables. Las hipótesis necesitan precisarse antes de probarse. La investigación científica es una actividad continua y social que implica la promoción y verificación de las ideas entre colegas. • Los investigadores emplean estadísticas probabilísticas para decidir si los efectos son "signifi cativos” o no. • La investigación se debe planear con cuidado, poniendo atención en el diseño, variables, muestras y análisis de datos subsecuentes. Si todas estas áreas no se planean completamente, los resultados pueden ser ambiguos o inútiles. • Algunos investigadores tienen fuertes objeciones para emplear métodos científicos tradicionales en el estudio de personas, y apoyan métodos cualitativos y de “nuevos paradigmas”, que no implican la evaluación rígida y preplaneada de la hipótesis.
Alumno: Catedrático: Alumno:
Me gustaría inscribirme en psicología, por favor. ¿Te das cuenta de que ello implica un poco de estadística, y de que tendrás que hacer algo de trabajo experimental y escribir informes de prácticas? O h ...
C u a n d o se inscribe a un curso de psicología, el alumno potencial muy a menudo se arrepiente por el descubrimiento de que el programa incluye una porción de tamaño
4 • Métodos de investigación y estadística.
(Capítulo I)
regular de estadística, y de qüe implica investigación práctica, experimentos y elabo ración de informes. Mi experiencia como tutor ha sido encontrar que los estudiantes de psicología están, ya sea “escapando” de la escuela al tomar cursos de extensión univer sitaria o, tentativamente, regresando después de años de haberse alejado del estudio académico. Ambos tipos de estudiantes con frecuencia se desploman al saber que esta nueva y emocionante asignatura los pondrá de regreso en dos de las áreas que más les disgustaban en la escuela. Una es matemáticas, pero ¡pierda cuidado!, la estadística, de hecho, requerirá sólo un poco de las matemáticas de un programa tradicional, y se realizará con datos reales reunidos por usted mismo. Las calculadoras y las computadoras hacen el trabajo numérico en la actualidad. La otra área es ciencia. ¡Es extraño que de todas las ciencias —naturales y sociales— la que nos concierne directamente como individuos en la sociedad es la menos probable de encontrar en las escuelas, en donde los maestros están preparando a los jóvenes para la vida social, entre otras cosas! También es extraño que un alumno pueda estudiar todas las ciencias naturales “ difíciles” : física, química, biología, y hasta ahora nunca se le haya pedido considerar ' qué es una ciencia, sino hasta que estudian psicología o sociología. Por supuesto, ésas son generalizaciones. Algunas escuelas enseñan psicología. Otras en la actualidad enseñan los principios que subyacen a la investigación psicológica. Algunos de nosotros en realidad disfrutamos la ciencia y las matemáticas en la escuela. Si usted también las disfrutó, encontrará algunas partes de este libro bastante accesibles. Pero ¿me permiten establecer una de mis más acariciadas creencias en este momento, para disgusto de aquellos que odian los números y piensan que todo esto va a ser abrumador o, todavía peor, aburrido? Muchas de las ideas y conceptos introducidos en este libro ya estarán en su mente de manera informal, incluso temas “difíciles” como la probabilidad. Mi trabajo, en parte, consiste en dar nombre a algunos conceptos que usted con facilidad deducirá por sí mismo. En otros momentos, esto consistirá en formalizar y ajustar las ideas que usted haya reunido a través de la experiencia. Por ejemplo, usted ya tiene una idea clara de cuántos gatos, entre diez, eligirán comida para gatos "Poshpaws " en preferencia a otra marca, con el fin de convencemos de que es una diferencia real y no una casualidad. Es probable que usted pueda analizar con bastante competencia lo que se considera ya como una muestra representativa de personas para un estudio particular. De regreso al estudiante en prospecto, es usual que tenga poca idea acerca de qué tipo de investigación hacen los psicólogos. La noción de “ experimentos” algunas veces produce ansiedad. ¿Seremos condicionados o nos lavarán el cerebro? Si ignoramos las imágenes de la industria fílmica en blanco y negro, y pensamos con cuidado en lo que los investigadores en psicología podrían hacer, podemos evocar una imagen del estudio en las calles. Si pensamos de nuevo, es posible sugerir que los psicólogos observan la conducta de las personas. Concuerdo con Gross (1992), quien dice que, en una fiesta, si uno admite que enseña, o incluso estudia psicología, una reacción probable será: “ ¡Oh! será mejor que tenga cuidado con lo que diga de ahora en adelante.” Otra posibilidad es: “Supongo que usted estará analizando mi conducta” (dicho a la vez que el interlocutor da un vacilante paso hacia atrás) todo por la errónea suposición de que los psicólogos van por ahí haciendo profundas y misteriosas interpre taciones de las acciones humanas conforme ocurren. (¡Si usted conoce a alguien que haga esto, pregúntele algo acerca de la evidencia que usa, después de que haya terminado con este libro!) La noción de tal análisis está conectada en forma vaga con Freud, quien, aunque de manera ordinaria se le retrata como un Sherlock Holmes psiquiátrico, utilizó muy pocos de los tipos de investigación resaltados en este libro, aunque sí realizó entrevistas no estructuradas y aplicó el método de estudio de casos (capítulo 8).
Psicología e investigación • 5
¿ENTONCES CUÁL ES LA NATURALEZA DE LA INVESTIGACIÓN PSICOLÓGICA?
Aunque hay furiosos e interminables debates acerca de qué es la ciencia y qué tipo de ciencia, en su caso, debe ser la psicología, la mayoría de los psicólogos concordará en que la investigación debe ser científica en algunos aspectos, siendo los principales que sea objetiva, controlada y verificable. Hay muchas definiciones de ciencia pero, para el pre sente propósito, la de Allport (1947) es útil. La ciencia, sostiene, tiene los objetivos de: . . . entender, predecir y controlar por arriba de los niveles logrados en exclusiva por el sentido común. ¿Qué es lo que Allport, o cualquier otro, quiere decir por “sentido común” ? ¿No son algunas cosas que ciegan lo obvio? ¿No es indiscutible que los niños nacen con diferentes personalidades, por ejemplo? Echemos una mirada a otras afirmaciones populares de sentido común. Antes de leer mi comentario al lado derecho del cuadro 1-1 , piense en cualquier desafío que usted quiera hacer a las afirmaciones hechas. ¿Qué evidencia le gustaría considerar? He utilizado estas afirmaciones, incluyendo las controvertibles, porque son justo el tipo de cosas que las personas suponen de manera confiada, aun sin una evidencia sólida. Son “corazonadas” disfrazadas de hechos. Yo las llamo “certezas o teorías de sofá” porque ahí es donde a menudo se originan. Espero que usted vea por qué necesitamos de una evidencia a partir de la investi gación. Un papel desempeñado por el estudio científico consiste en desvanecer los mitos del “ sentido común” mediante la verificación de los hechos. Otro es producir resultados “contraintuitivos” como los del reactivo cinco. Permítame decir un poco más acerca de lo que es la investigación científica y disipar así algunos mitos al respecto.
M IT 01: “LA INVESTIGACIÓN CIENTÍFICA ES LA RECOLECCIÓN DE HECHOS” Toda investigación supone una recolección de datos, pero éste no es el único propósito. Primero que nada, los hechos no son datos. Los hechos no hablan por sí mismos. Cuando la gente dice que sí lo hacen, está omitiendo mencionar la teoría antecedente esencial o las suposiciones que están haciendo. Algo que se rompe de forma súbita nos hace correr hacia la cocina. La acusada está agachada frente a nosotros, ojos abiertos y temerosos. Sus manos están rojas y pegajosas. Un cuchillo yace sobre el piso. También está un tarro de conserva y su contenido derramado. La acusada estaba a punto de lamer sus minúsculos dedos.
Espero que usted haya hecho algunas suposiciones falsas antes de que se mencionara la jalea. Pero, tal como está, ¿los hechos en sí nos dicen que Jenny estaba robando conserva?
6 • Métodos de investigación y estadística.
(Capítulo 1)
Cuadro 1-1. Suposiciones de sentido común tinto maternal — verá con qué fuerza ellas quieren estar con su hijo y pro tegerlo
2 Michelle es r signos astrolc en la astroloc,
i al predecir los lebe haber algo
3 Muchos bateadores salen en 98 o 99 — debe ser la presión psicológica 4 Las mujeres son menos lógicas, más su gestionables y son peores conduc toras que los varones
5 Yo no obedecería a alguien si me di jera que dañe gravemente a otra per sona, en caso de que tuviera la positarlo bilidad dé
6 “El problema detenertantosinmigrantes de raza negra es que él país es demasiado pequeño” (citado de lla madas telefónicas de C all N ick Ross en BBC Radio 4, 3-11-92)
¿Hemos verificado cómo se sentirán los varones después de pasar varios meses solos con un bebé? ¿El término "instinto" contribuye a nues tro entendimiento, o simplemente describe lo que las madres hacen, o tal vez sientan? ¿Todas las madres se sienten así? ¿Ya verificamos que Michelle acierta muchas más veces que cualquier otra persona que sólo está adivinando? ¿Ya contamos las veces que se equivoca? ¿Hemos comparado el número de batea dores que se salen con todos los demás totales altos? En general, las mujeres tienen las mis mas puntuaciones que los varones en pruebas de lógica. Ellas son “sugestiona bles” de la misma manera, aunque es más probable que los muchachos concuerden con puntos de vista que ellos nos sos tienen, pero que sus compañeros mantie nen. Estadísticamente es más probable que las mujeres obedezcan las reglas de tránsito y tengan accidentes menos caros. ¿Por qué más una propietaria sería un punto de venta? Cerca de 62% de las personas que podían haber quedado exentas de un experimento continuaron obedeciendo a un experimentador que les pidió dar choques eléctricos a un “aprendiz”, que se había quedado callado después de qritar de manera horrible En 1991, la población total de individuos de raza negra en el Reino Unido (cari beños, africanos e indígenas asiáticos sub continentales) fue un poco menor a 5 por ciento. Casi todos los días, desde la Se gunda Guerra Mundial, más personas han abandonado la Gran Bretaña, qué las que han ingresado para vivir. De todas maneras, ¿de quién es el país?
Quizá el gato tiró el tarro y Jenny estaba tratando de recogerlo. Constantemente su ponemos mucho más allá de los datos presentes con el fin de explicarlos (cuadro 1-2). Los hechos son DATOS interpretados a través de la TEO R ÍA . Los D ATOS son lo que obtenemos a través de la observación EM PÍRICA, donde “ empírica” se refiere a la información obtenida a través de nuestros sentidos. Es difícil obtener datos en bruto. Casi siempre interpretamos de inmediato. El tiempo que le tome a usted correr 100 metros
Psicología e investigación • 7
Cuadro 1 -2 . ¿Temer o desactivar la bomba? En psicología, con frecuencia desafiamos la aceptación simplista de los hechos “enfrente de nuestra vista”. Un famoso oficial desactivador de bombas le Contó a Sue Lawley, en D esert Island Discs, que en una ocasión él trataba de desalojar de forma rápida a la gente del área de una bomba activada. Un periódico publicó su fotografía en la que caminaba con los brazos extendidos, con la inscripción que decía: “miembro aterrado del público escapa de la bomba”, mientras que otro diario lo identificó de manera correcta como el calmado pero preocupado experto que realmente es. ,
(o, al menos, la posición de las manecillas del reloj) es un dato en bruto. Mi aseveración de que usted es “rápido” es interpretación. Si nos sentamos en la playa mirando al cielo nocturno y vemos una “ estrella” moviéndose constantemente, “ sabemos” que es un satélite, pero sólo porque estamos manejando mentalmente mucho conocimiento as tronómico procedente de nuestra cultura. Los datos se interpretan a través de lo que los psicólogos llaman con frecuencia un “esquema” que se refiere a los prejuicios, estereotipos e ideas generales aprendidos acerca del mundo y de acuerdo a nuestros propósitos y motivaciones actuales. Es difícil ver, como adultos desarrollados, cómo podemos evitar este proceso. Sin embargo, más que la desesperación de alcanzar cualquier verdad psicológica, la mayoría de los investi gadores comparten terrenos comunes en el seguimiento de algunos principios básicos de la ciencia contemporánea que regresan al uso revolucionario del método empírico para comenzar a cuestionar el funcionamiento del mundo de una manera consistente.
Método empírico Este método en su presentación original tenía dos etapas: 1 Recolección de datos, en forma directa, a través de nuestros sentidos externos, sin preconceptos acerca de cómo están ordenados o qué los explica. 2 Inducció n de patrones y relaciones dentro de los datos.
Inducción significa cambiar de observaciones individuales a afirmaciones de patrones generales (algunas veces llamadas “ leyes” ). Si a 30 metros el marciano hiciera observaciones empíricas en la Tierra (los mar cianos tienen un sexo), enfocaría su atención en los diversos tubos que se agitan alre dedor, algunos en el aire, otros en la tierra o debajo de ella, y se detuviera muy a menudo para recolectar pequeños insectos y desprenderse de otros. El marciano podría concluir, entonces, que los tubos eran formas importantes de vida y que los pequeños insectos recolectados eran com ida... ¿y los que desechó...? Ahora hemos ido más allá del método empírico original. El marciano está cons truyendo teoría. Éste es un intento para explicar por qué se producen patrones, qué fuerzas o procesos subyacen a ellos. Es inevitable que el pensamiento humano vaya más allá de los patrones y combinacio nes descubiertas en los análisis de datos y se pregunte: pero “¿porqué?” También es ingenuo suponer que alguna vez podríamos recolectar datos sin algo de teoría como antecedente en nuestras cabezas, como traté de demostrar anteriormente. Medawar (1963) ha discu tido este punto fuertemente al igual que Bruner, quien señala que cuando percibimos el mundo, siempre y de manera inevitable “ vamos más allá de la información dada” .
8 • Métodos de investigación y estadística.
(Capítulo 1)
Prueba de teorías: método hipotético-deductivo Puede probarse esta teoría marciana, de que los insectos son alimento para los tubos. Si éstos no consiguen insectos por mucho tiempo, deberían morir. Esta predicción es una HIPÓ TESIS. Ésta es una afirmación de cuál debería ser el caso s i una cierta teoría e s verdadera. La prueba de la hipótesis puede demostrar que los tubos pueden durar indefinidamente sin insectos. Por consiguiente, se descarta la hipótesis y la teoría requiere alteración o destitución. Esta manera de pensar es común en nuestra vida cotidiana. Aquí hay otro ejemplo: Suponga que usted y su amigo encuentran que cada lunes por la mañana el espejo lateral de su automóvil está fuera de su posición habitual. Usted sospecha del barrendero que realiza el aseo ese día. Su amigo le dice: “Está bien, si estás tan seguro, verifiquémoslo el próximo martes. La próxima semana vendrá un día después porque es festivo.” La lógica aquí es esencial para el pensamiento crítico en la investigación psicológica. • La teoría investigada es que el barrendero golpea el espejo. • La hipótesis a probar es que golpearán el espejo el próximo martes. • Nuestra prueba de la hipótesis es revisar si golpean el espejo el próximo martes. • Si golpean el espejo, la teoría estará sustentada. • Si no golpean el espejo, la teoría será errónea. Observe, aquí sólo dijimos “sustentada” , y no “probada como verdadera” o algo parecido que sea definitivo. Esto es porque puede haber una razón alternativa por la que golpean el espejo. Tal vez el niño que pasa en bicicleta a esa misma hora lo golpea. Éste es un ejemplo de “confusión” al que nos referiremos de manera más formal en el próximo capítulo. Si usted y su amigo fueran científicos serios, regularían este asunto (se levan tarían más temprano). Así se demuestra la necesidad de establecer un control completo sobre la situación de prueba siempre que sea posible. Decimos “ sustentado” , entonces, más que “ confirmado” , porque B (el barrendero) pudo no haber causado E (golpear el espejo) —que es nuestra teoría. Algún otro evento pudo haber sido la causa, por ejemplo, N (el niño en bicicleta). Con frecuencia pensamos que tenemos la evidencia de que X causó Y, aunque en realidad, Y pudo causar X. Usted puede pensar que un fusible fundido fue la causa de que se dañara su lavadora, 1a que ahora ya no funciona, cuando en realidad, la sobrecarga de la máquina causó que se fundiera el fusible. En la investigación psicológica, la teoría de que las madres platican con sus hijas jóvenes más (que con los muchachos), porque las muchachas son por naturaleza más locuaces, y la teoría opuesta, que las hijas jóvenes son más locuaces porque sus madres hablan más con ellas, se apoyan en la evidencia de que las madres en verdad hablan más con sus hijas. La evidencia es más útil cuando se apoya una teoría y no a su contraria. El destacado cómico Ben Elton (1989) está en esto cuando dice: Muchos aborígenes acaban como borrachínes, de lo cual se desprende que la gente diga: “no es extraño que sean tan pobres, la mitad de ellos son borrachos”. Por supuesto tendría más sentido decir “no porque la mitad de ellos sean dipsómanos, es que son tan pobres”.
Psicología e investigación • 9
Lógica deductiva El probar la teoría se basa en los argumentos lógicos que se utilizaron antes. Éstos son ejemplos de DEDUCCIÓN. Resumidas a un descamado esqueleto, son:
A p lic a d o a la prueba de te o ría
A plicado ál barrendero y al p roblem a del esp ejo
1 Si X es verdadera, entonces Y debe ser verdadera
1 Si A es verdadera, en tonces la hipótesis H se confirma
1 Si el barrendero golpea el espejo, entonces se golpeará el espejo el próximo martes
2 Y no es verdadera
2 H no se confirma
2 No golpearon el espejo
3 Entonces X es ver dadera
3 Teoría A es errónea*
3 Entonces no es el barren dero
2 Y es verdadera
2 H se confirma
2 Sí golpearon el espejo
3 X aún puede ser ver dadera
3 Teoría A pudiera ser ver dadera
3 Tal vez es el barrendero
* En este punto, de acuerdo a la “ línea oficial” , los científicos deberían desechar la teoría con la predicción falsa. De hecho, muchos científicos famosos, incluyendo a N ew ton y Einstein, y la m ayoría de los que no son tan famosos, se han apegado a teorías a p e s a r de los resultados contradictorios, debido a una “ corazonada” . Esta ha dem ostrado ser correcta en algunos casos. La belleza de una teoría p u e d e sobrepasar a la lógica pura en la práctica científica real.
A menudo es inútil obtener más y más del mismo apoyo para su teoría. Si yo sostengo que todos los cisnes son blancos porque el sol blanquea sus plumas, se hace un poco tedioso si sigo señalando cada vez que veo uno blanco: “Te lo dije” . Todo lo que necesitamos es un cisne negro para echar abajo mi teoría. Si su hipótesis no se confirma, no siempre es necesario abandonar la teoría que la predijo, de la misma manera que lo haríamos con mi teoría simple de los cisnes. Con frecuencia usted tendrá que adaptar su teoría para explicar nuevos datos. Por ejemplo, su amiga puede tener un gesto complaciente. “ ¿Sabías que fue la promoción semanal del Consejo ‘sea servicial con su cliente’ y los recolectores ganaban bonos si no habían quejas?” Usted responde: “ ¡Bah!, entonces eso no es bueno para una prueba” . Aquí, de nuevo, vemos la necesidad de mantener un control completo sobre la situación de prueba, con el fin de mantener los eventos externos lo más constantes posible. “No importa” , dice su amiga, “siempre podemos incluir esto en nuestro ensayo de psicología sobre el método científico” , Las teorías en la ciencia no siempre se “prueban verdaderas” y rara vez evalúan todas las evidencias claras. Con frecuencia existe un balance a favor con diversas anomalías aún por explicar. Las teorías tienden a “ sobrevivir” o no frente a otras, dependiendo de
10 • Métodos de investigación y estadística...
(Capítulo 1)
la cualidad y no sólo de la cantidad de evidencia que sustentan. Sin embargo, para cada pedazo de evidencia sustentable, en la ciencia social existe, con frecuencia, una explica ción alternativa. Se puede argumentar que la semejanza en inteligencia entre padres e hijos es una evidencia para suponer que la inteligencia se transmite de manera genética. Sin embargo, esta evidencia sustenta por igual el punto de vista de que los niños aprenden sus habilidades a través de sus padres; la semejanza entre niños y padres adoptivos es un reto para esta teoría.
Revocabilidad Popper (1959) ha argumentado que para que cualquier teoría se considere como tal, debemos, por lo menos, ver la posibilidad de cómo podría revocarse, aunque no lo hagamos; después de todo, ¡puede ser verdadera! Como ejemplo, considere la creencia que alguna vez fue muy difundida de que Paul McCartney había muerto hace algunos años (no sé si todavía existe algún grupo que crea esto). Suponga que producimos un Paul de carne y hueso. No funcionaría, por supuesto que es un reemplazo astuto. Imagine que mostramos que no existe algún certificado de defunción expedido en algún lado alrededor de la fecha de su supuesto fallecimiento. Entonces, claro, hubo un encu brimiento; se elaboró bajo un nombre distinto. Suponga que obtenemos una evidencia del DNA del Paul actual y es exactamente igual al DNA del Paul real. Otra respuesta, las muestras se cambiaron tras bambalinas. . . y así sucesivamente. Esta teoría es inútil ya que existe muy poca evidencia de sustento y ningún medio de revocación aceptado. La teoría freudiana con frecuencia recibe ataques por esta misma debilidad. La formación reacti- va puede disculpar muchos otros pedazos peijudiciales de evidencia contradictoria. Alguna vez un escritor explicó el simbolismo sexual del juego de ajedrez y argumentó que la misma hostilidad de los jugadores era la evidencia para la validez de esta explicación. Se defendían contra las amenazas poderosas de la verdad. Las mujeres que claman públicamente que no desean que sus bebés sean varones, contrariamente a la teoría de la “ envidia del pene”, están reaccionando internamente contra la amenaza real de que el deseo que abrigan, originado por la envidia a su padre, aflore, por lo que argumentan lo contrario. Con este tipo de explicaciones, cualquier evidencia de desear o no tener hijos varones se considera sustento para la teoría. Por tanto, es irrevocable y, por ende, improbable desde la perspectiva de Popper.
Método científico convencional Si se juntan el método empírico de la inducción y el método hipotético-deductivo, obtenemos que tradicionalmente se les toma como el “método científico”, aceptado por muchos psicólogos investigadores como la manera de seguir las pisadas de las exitosas ciencias naturales. Los pasos del método se muestran en el cuadro 1-3. Los proyectos de investigación científica, entonces, pueden concentrarse en las etapas iniciales o finales de este proceso. Podrían ser estudios exploratorios, que buscan datos a partir de los cuales crean teorías, o bien, ser estudios de pnieba de hipótesis, enfocados a probar o desafiar una teoría. Existen muchas dudas y críticas acerca de este modelo de investigación científica, demasiado detalladas como para comentarlas ahora, aunque varios aspectos del argu-
Psicología e investigación • 11
1 Observación, recolección y ordenamiento de datos X
2 Inducción de las generalizaciones, leyes 3 Desarrollo de teorías explicativas 4 Deducción de hipótesis para probar teorías 5 Prueba de hipótesis 6 Sustento o adaptación de la teoría
mentó se retomarán a lo largo de este libro, de manera particular en el capítulo 11. El lector puede consultar a Gross (1992) o Valentine (1992).
MITO 2: “LA INVESTIGACIÓN CIENTÍFICA IMPLICA DESCUBRIMIENTOS NOTABLES Y AVANCES” Si tan sólo la investigación fuera tan simple como lo fue el problema del barrendero, la vida produciría más avances cada día. Por desgracia, los legos sólo oyen de los descu brimientos clásicos. De hecho, la investigación trabaja con ahínco todo el tiempo, en gran medida de acuerdo con la figura 1-1. Aunque de la lectura acerca de la investigación es fácil pensar en un proyecto único, que inicie y termine en puntos específicos de tiempo, en el mundo de la investigación hay un ciclo constante. Un proyecto se desarrolla a partir de la combinación de las tendencias actuales en el pensamiento (o teoría) y los métodos de investigación, otras teorías competitivas del pasado y, por lo menos dentro de la psicología, de acontecimientos importantes en la vida del mundo social. El investigador podría replicar (repetir) un estudio de alguien más con el fin de verificarlo. O podría extenderlo a otras áreas, o modificarlo porque tiene fallas. De vez en cuando un investigador abre brecha por completo en un nuevo terreno, pero la gran mayoría se desenvuelve en el estado actual de la escena. Las políticas y la economía entran en la etapa del financiamiento. El personal de investigación en las universidades, colegios u hospitales tiene que justificar sus salarios y el gasto del proyecto. Los fondos vendrán de alguno de los siguientes rubros: fondos de investigación de la universidad, colegio u hospital; gobierno central o local; compañías privadas; instituciones de caridad; y el esporádico benefactor privado. Ellos y los empleadores directos del investigador deberán estar satisfechos con que la investigación sea valiosa para ellos, para la sociedad o para el conocimiento científico general. La verdadera prueba o “realización” del proyecto puede tomar muy poco tiempo comparado con toda la planeación y preparación junto con el análisis de los resultados y la redacción del informe. Algunos procédimientos, como un experimento o cuestionario, pueden ensayarse con una pequeña muestra de personas, con el fin de resaltar dificulta des inesperadas o ambigüedades que deberán adaptarse antes de que empiece el proceso de verdadera recolección de datos. A esto se le conoce como PILOTEO. El investigador
12 • Métodos de investigación y estadística. . .
(Capítulo I)
Provecto de investigación Paneación
Ejecución
Comisión enea
Análisis de resultados
Elaboración del informe
¿Los hallazgos son importantes?
Abandono
Apoyo financiero
¿Se alcanzaron de manera sabsfactona los objetivos de la investigación?
Comité editorial
Verificar el diseño; Modificarlo si es necesario Realizarlo de nuevo
Publicación
i .
Propuesta de la investigación
Evento en e mundo social
ideas Replicación, Modificación, Refutación, Clarificación, Extensión, Nuevo fundamento
Modificación o sustento de la teoría
Mundo de ia investigación
Figura 1-1. Ciclo de la investigación
emplazará e n s a y o s p il o t o de un experimento o p il o t e a r á un cuestionario, por ejemplo. El informe se publicará en un revista especializada si es exitoso. El término “ exitoso” es difícil de definir aquí. No siempre significa que los objetivos originales se hayan alcanzado por completo. Las sorpresas que ocurren durante la investigación bien pueden hacerla importante, aunque usualmente éstas llevarían al investigador a repensar, volver a plantearla y realizar de nuevo, con base en nuevas introspecciones. Como vimos anteriormente, la falla al confirmar nuestra hipótesis puede ser una importante fuente de información. Lo que importa, sobre todo, es que los resultados de la investigación sean una contribución útil o, importante al conocimiento actual y al desarrollo de la teoría. E sa importancia la decidirá el comité editorial de una revista académica (como el British Journal o f Psychology) que hará revisar el informe, de manera usual, por expertos “ ciegos” a la identidad del investigador.
Psicología e investigación • 13
Entonces, la teoría se adaptará a la luz de los resultados de la investigación. Algunos académicos pueden argumentar que el diseño fue tan diferente de la investigación previa, que el cuestionamiento planteado a la teoría puede ignorarse. Otros desearán dudar de los resultados e incluso podrían solicitar al investigador que Ies proporcione “ datos en bruto” , es decir, el total de los datos registrados sin procesar. Algunos querrán repetir el estudio; otros, modificarlo. . . y así estaremos de regreso a donde empezamos el ciclo de investigación.
MITO 3: “LA INVESTIGACIÓN CIENTIFICA SÓLO TRATA DE EXPERIMENTOS” Un experimento implica el control y manipulación de las condiciones o “variables” por parte del investigador, como lo veremos en el capítulo 5. La astronomía, una de las ciencias más antiguas, no pudo usar muchos experimentos sino hasta una fecha más o menos reciente, cuando los avances tecnológicos permitieron pruebas directas de las condiciones en el espacio. La astronomía se ha basado principal mente en la observación para probar sus teorías del movimiento planetario y las organizaciones estelares. Es por completo posible probar hipótesis sin un experimento. Muchas pruebas psicológicas se conducen mediante la observación de lo que hacen los niños, preguntando lo que piensa la gente y así de manera sucesiva. Por ejemplo, la evidencia acerca de conductores varones y mujeres se obtuvo mediante la observación de su comportamiento real y las estadísticas de las compañías aseguradoras.
MITO 4: “LOS CIENTÍFICOS TIENEN QUE SER IMPARCIALES” Es verdad que los investigadores tratan de anular los prejuicios de la manera en que realizan un experimento y cómo se reúnen y analizan los datos. No obstante, son tendenciosos en cuanto a la teoría. Ellos interpretan los datos ambiguos de modo que se ajusten lo mejor posible a su teoría en particular. Esto pasa siempre que estamos en una acalorada discusión y decimos cosas como “Ah, pero eso podría ser porque . . .” . Los investigadores creen en su teoría e intentan producir evidencia que la apoye. Mitroff (1974) entrevistó a un grupo de científicos y todos concordaron en que la noción de científico sin compromiso, puro de manera objetiva, era ingenua. Ellos argumentaron que: . . . con el fin de ser un buen científico, uno tiene que tener tendencias. El me jor científico, dijeron, no sólo tiene puntos de vista, sino también los defiende con gusto. Sus conceptos acerca de un científico no implicaron que haría trampa creando datos experimentales o falsificándolos; más bien hace todo lo que pueda para defender su hipótesis favorita contra una temprana y, quizá injustificada, muerte causada por la introducción de datos inesperados.
14 • Métodos de investigación y estadística.
(Capitulo 1)
¿NOS UBICAMOS EN LA INVESTIGACIÓN PSICOLÓGICA AHORA?
Sí. Necesitábamos ver algunas ideas comunes del lenguaje y la lógica de la investigación científica, puesto que la mayoría de los investigadores, aunque no todos, presumen de seguir un modelo científico. Ahora, contestemos algunas preguntas acerca de la utilidad práctica de la investigación psicológica. '
¿CUÁL ES EL SUJETO DE ESTUDIO DE LA INVESTIGACIÓN PSICOLÓGICA? La respuesta fácil es “ los seres humanos” . La respuesta controvertida es “ la conducta humana”, puesto que psicología es, literalmente (en griego), el estudio de la mente. Este no es un libro que lo llevará al gran debate sobre la relación entre mente y cuerpo o si e! estudio de la mente es, de algún modo, posible. Esto está disponible en libros generates (véase Gross 1992, Valentine 1992). Cualquiera que sea el tipo de psicología que usted estudie debería introducirse a fas diversas y principales “escuelas” de psicología (psicoanalítica, conductista, cognosci tiva, humanista . ..). Es importante señalar aquí, sin embargo, que cada escuela identifi caría de manera diferente el foco principal de su materia de estudio: conducta, la roen® consciente, incluso la mente inconsciente. Por tanto, cada escuela ha desarrollado diferentes métodos de investigación. No obstante, los datos iniciales en bruto que los psicólogos recolectan de los seres humanos sólo pueden ser conducta observable (inclusive respuestas fisiológicas) o lenguaje (informe verbal).
¿POR QUÉ LOS PSICÓLOGOS HACEN INVESTIGACIÓN? Toda la investigación tiene el objetivo general de recolectar datos para ampliar e! conocimiento. Para ser específico, la investigación usualmente tendrá uno de dos grandes propósitos: reunir datos puramente descriptivos o probar hipótesis.
Investigación descriptiva Una parte de la investigación puede establecer las edades en las que grandes muestras de niños alcanzan ciertos aspectos relevantes del desarrollo del lenguaje, o puede ser nn estudio (capítulo 8) de las actitudes reales de los adultos hacia el uso de armas nucleares. Si los resultados se expresan de manera numérica, entonces se les conoce como c u a n t i t a t i v o s y haríamos uso de la ESTADÍSTICA DESCRIPTIVA (capítulo 1 3 ) para presentar im resumen de los datos. Si la investigación presenta un informe de los contenidos de entrevistas o estudios de caso (capítulo 8), o de detalladas observaciones (capítulo 7), entonces los datos pueden ser, en gran medida, c u a l i t a t i v o s (capítulos 4, 11 y 25). aunque algunas partes muy bien podrían cuantificarse.
Psicología e investigación • 15
Si vamos al nivel 3 del cuadro 1-3, los datos descriptivos bien pueden analizarse con el fin de generar hipótesis, modelos, teorías u otras ideas y tendencias de investigación.
Prueba de hipótgsis Una gran cantidad de investigaciones se realizan para analizar una o más HIPÓTESIS DE INVESTIGA CIÓN, al mostrar que ya existen diferencias ó relaciones entre la gente, o que pueden crearse a través de manipulación experimental. En un experimento, la hipótesis de investigación se llamaría HIPÓTESIS EXPERIM ENTAL. Las pruebas de las diferencias 'o relaciones entre grupos de datos se realizan utilizando la ESTADÍSTICA INFERENCIAL (capítulos 15 a 24). Permítame describir dos ejemplos de PRUEBA DE HIPÓ TESIS, una surgida en el laboratorio y otra en “ el campo” . 1 EN EL LABORATORIO: UNA PRUEBA DE LA TEORÍA DE LA MEMORIA A CORTO PLAZO. El modelo de la memoria a corto plazo (CP) y a largo plazo (LP) fue una
teoría popular en el decenio de 1960.^ Ésta asumía que la poca cantidad de información, digamos 7 u 8 dígitos o unas pocas palabras no relacionadas, que podemos mantener en la mente consciente en cualquier momento (nuestra memoria a corto plazo), se transfiere a almacenamiento a LP por medio de la repetición de ensayos de cada reactivo en el almacenamiento a CP. Mientras más ensayos se realizaban con un reactivo, mejor era el grado de almacenamiento y, por consiguiente, se recordaba con mayor facilidad. El reto para este modelo es que la simple repetición de reactivos no es eficiente y de hecho, rara vez la gente lo hace, aunque se le den instrucciones. Los seres humanos tienden a hacer significativa la información que reciben. La repetición de palabras, por ejemplo, no las hace más significativas en sí mismas. Una manera en la que podría hacerse más significativa una lista de palabras no relacionadas es formar una vivida imagen mental de cada una y eslabonarla a la siguiente de manera bizarra. Si “rueda” es seguida de “avión”, por ejemplo, imagine un pequeño avión de dulce con franjas volando a través del centro de la rueda previamente imaginada. De lo anterior se puede hacer una predicción. Nuestra hipótesis por probar es: “ Las personas recuerdan mucho mejor los reactivos cuando aprenden por asociación de imágenes que por repetición.” Cada vez que se realice este experimento, la hipótesis estará apoyada con claridad. La mayoría de las personas es mucho mejor cuando utiliza la imaginería. Éste no es el resultado obvio que podría parecer. Muchas personas se sienten bastante más cómodas al repetir cosas. Ellas predicen que el método “tonto” las contundirá. Sin embargo, si así fuera, la información se pegaría mejor aún. Así, ¿es un método útil para revisar exámenes? Para hacer que sus notas tengan sentido, juegue con ellas, es mucho mejor que leerlas y repetirlas. Las listas de los ejemplos también se pueden almacenar de esta manera. 2 EN EL CAMPO: UNA PRUEBA DE PRIVACIÓN MATERNA. B ow lby (1951) propuso una teoría controvertible acerca de que los pequeños tienen una natural (esto es, biológica o innata) tendencia a desarrollar un vínculo especial con una sola perso na, por lo común la madre, diferente en tipo y calidad de cualquier otro que desarrolle.
16 • Métodos de investigación y estadística.
(Capítulo 1)
¿Qué predice esta teoría? Bueno, aparejado con otros argumentos, Bowlby fue capaz de predecir que los pequeños incapaces de desarrollar tal apego, o aquellos para quienes éste se dañara durante los primeros años de vida, en forma especial antes de los tres años, tendrían más probabilidad que otros de presentar desadaptación. Bowlby produjo varios ejemplos de niños privados con gravedad, que mostraban una desadaptación mayor. Por consiguiente, podía apoyar su teoría. En este caso, no le hizo algo a la gente y demostró el resultado (que es lo que hace un experimento como con anterioridad se ha señalado acerca de la memoria). Predijo algo, lo demostró y después relacionó estos resultados con lo que les había ocurrido a los niños en el pasado. Pero recuerde que el apoyo continuo no prueba que una teoría sea correcta. Rutter (1971) desafió la teoría con la evidencia de que unos niños de la Isla de Wight (quienes sufrieron privación temprana, incluso muerte de sus madres) no tenían más probabilidad de ser calificados como desadaptados que otros, mientras que la separación no hubiera implicado continuas dificultades sociales dentro de la familia. Aquí, la teoría de Bowlby tiene que adaptarse a la luz de la evidencia contradictoria.
¡Las hipótesis no son objetivos ni teorías! Los investigadores plantean sus hipótesis con extremada precisión y claridad. Un ejemplo de esto es la hipótesis de la memoria en el caso anterior. Hay ciertos tipos de hipótesis que pueden facilitarle escribirlas en sus informes de práctica: 1 No se incluye teoría: no decimos “ Las personas recordarán más porque. . . (la imaginería hace a las palabras más significativas, etcétera). . . ” . Sólo afirmamos lo que esperamos que suceda. 2 Los efectos se definen con precisión. No decimos “La memoria mejorará . . definimos de m anera exacta cómo se medirá el mejoramiento, “ . . . las personas recordarán de forma significativa más reactivos . . . ” . En el capítulo 2 abordamos el tema de la definición y precisión. Aquí se introduce el término “ significación” . Se desarrollará por completo en el capítulo 14. Por ahora digamos que significa que estamos prediciendo una diferencia lo bastante grande para no considerarla una chiripa. Es decir, una diferencia tan amplia que podemos desechar la idea de que es una ocurrencia al azar. Los investigadores se referirían a ello como “ el rechazo de la HIPÓTESIS N U L A ” .
Hipótesis nula Los estudiantes siempre encuentran extraño que los psicólogos investigadores enfaticen tanto la lógica de la hipótesis nula y su aceptación o rechazo. Esta concepción no es sencilla y ha generado debates amplios, y a veces hostiles, desde hace años. Una razón para su importancia es que la evidencia psicológica se apoya con firmeza en la teoría de la probabilidad, por ejemplo, las decisiones sobre la naturaleza genuina de los efectos se basan en la probabilidad matemática. Por ello, también este concepto se tratará con profundidad en el capítulo 14. Mientras tanto, considere el siguiente debate. Usted y un amigo acaban de comprar unas cajas de cerillos (“ contenido promedio 40 piezas”). Por estar aburridos o ser maSoquistas ambos deciden contarlos. Resulta que su amigo tiene 45 mientras que usted tan sólo 36. “ ¡Claro” , usted exclama, “sólo porque el vendedor
Psicología e investigación • 17
de periódico no me quiso cambiar el billete de $50.” Su amigo trata de explicarle que siempre habrá variantes alrededor del promedio de 40 y que el número de usted de hecho está más cerca de la media que él de él. “Pero tú tienes 9 cerillos más que yo” , usted argumenta. “ Bueno, estoy seguro que el despachador no la trae contra ti y ni está a favor mío; no tenemos tiempo de verificar todas las cajas como tú propones.” Lo que sucede es que usted está haciendo una reclamación poco obvia sobre la realidad, retando su status quo sin otra referencia más que los cerillos. Así que depende de usted que proporcione algunos buenos “hechos” con los cuales argumentar su caso. Lo que usted tiene es una diferencia del promedio absoluto. Pero, ¿es una diferencia lo bastante grande como para convencer a cualquiera qué no es tan sólo una variación aleatoria? Es obvio que no convence a su amigo. Él se queda con la “ hipótesis nula” de que el promedio del contenido en realidad es 40 (y que la diferencia de usted se puede esperar del azar de manera razonable). Veamos otro ejemplo de investigación de campo. Penny y Robinson (1986) propusieron la teoría de que los jóvenes fuman, én parte, para reducir el estrés. La hi pótesis que píobarón fue que los fumadores podían diferir de los no fumadores en la medición de la ansiedad (Inventario de Rasgos de Ansiedad de Spielberger). Observe la precisión. La teoría no está en la hipótesis y la medición del estrés se define con claridad. En el capítulo 9 analizaremos medidas psicológicas como ésta. Aquí, la hipótesis nula es, entonces, que los fumadores y no fumadores tienen una diferencia real de cero en esta escala. Ahora, cualquier prueba de dos grupos siempre producirá alguna diferencia, tal y como la prueba de dos botellas de líquido lavatrastes de manera inevitable producirá una pequeña diferencia en el número de platos lavados. De nuevo la pregunta es ¿los grupos difieren lo suficiente para rechazar el punto de vista del status quo de que son similares? Esta idea es un tanto como aquella de que se es inocente hasta que se pruebe lo contrario. Por lo general, existe algún tipo de evidencia en contra de un acusado, pero si no es lo bastante fuerte, permanecerá el punto de vista de la inocencia, por incómoda que parezca. Esto no significa que los investigadores se rindan con facilidad. Con frecuencia hablan de “ mantener” o sólo “no rechazar” la hipótesis nula. Entonces, la hipótesis nula no se manejará en forma automática como verdadera. En el caso de la an siedad y el fumar, la hipótesis nula se rechazó; los fumadores resultaron de manera significativa más altos en esta medición de la ansiedad que los no fumadores. En el ejemplo anterior de la privación materna, podemos observar que, después de la prueba, Rutter argumenta que la hipótesis nula (ninguna diferencia entre los niños privados y no privados) no se puede rechazar, mientras que los resultados de Bowlby se emplearon para sustentar el rechazo. Otro ejemplo transcultural lo proporciona Joe (1991) en el capítulo 10. Observe la manera en que podríamos utilizar la lógica del pensamiento de la hipótesis nula en la vida diaria, como se describe en el cuadro 1-4.
Hipótesis de una y dos colas (o de “uno y dos lados”, o “direccional” y “no direccional”) Si los fumadores utilizan los cigarros para reducir el estrés, usted puede argumentar que más que tener una ansiedad alta, la deben tener baja ¡siempre y cuando tengan una buena dotación de cigarros! Entonces, Penny y Robinson pudieran predecir que los fumadores pueden tener una ansiedad más alta o más baja. Esta hipótesis se conoce como de “dos colas” (algunos la denominan de “dos lados” o “no direccional”), donde no se predice la dirección del efecto. La hipótesis de una cola sí predice la dirección, por ejemplo, que
18 • Métodos de investigación y estadística.
(Capítulo 1)
Cuadro 1-4. Hipótesis n u la — ante todo, ja verdad en lo alto P e n s a m ien to cotid iano
Pensam iento d e investigación form al
Las mujeres no tienen oportunidad de promoción gerencial en esta oficina. En las últimas cuatro entrevistas han escogido a varones de un lista dos mujeres y dos varones
Hipótesis de interés: se elige a más varones para puestos gerenciales
Bien, en cada ocasión, había el mismo número de candidatos femeninos que masculinos, así es que debieron elegir el mismo número de mujeres que de varones. ¡Esto hace dos!
Exprese la hipótesis nula de manera estadística. Con frecuencia, la diferen cia entre los dos conjuntos de puntos es de cero. Aquí es que la diferencia entre mujeres y varones seleccionados será de cero
¡Oh, sf! Es lo que quise decir desde el principio. Debieran haber p ó r lo menos dos m ujeres gerentes nuevas de aquella tanda de selección
Nota: Si hubieran habido tres mujeres
Bueno, sólo excepto dos compensan la pasada ventaja masculina. ¿Ahora, nin guna oe cuairo es una diferencia sufi ciente sobre dos de cuatro, para darnos una evidencia fuerte de tendencias de selección?
candidatas y un solo varón en cada ocasión, la hipótesis nula hubiera predicho tres mujeres seleccionadas en total Conduzca la prueba estadística para determinar la probabilidad de que las figuras actuales pudieran diferir lo mismo de lo que la hipótesis nula pre dice
las personas que utilizan la imaginería recuerdan más palabras. De nuevo, el pensamiento subyacente es estadístico y lo ampliaremos más en el capítulo 14.
¿Cuándo es “exitosa” una prueba de hipótesis? La decisión se basa completamente en una PRUEBA DE SIG NIFICACIÓN, la cual estima la probabilidad de que la hipótesis nula sea verdadera. Analizaremos esto en el capítulo 14. Sin embargo, observe que, en el caso de Rutter, la demostración de una diferencia no sustancial puede ser muy importante. A pesar de que las mujeres jóvenes en forma consistente valoran a su CI como inferior al de los varones jóvenes, es importante demostrar que, de hecho, no existe una diferencia real en el CI. Los alumnos que realizan prácticas con frecuencia se desalientan cuando no ocurre lo que predicen. Sienten como si el proyecto no hubiera funcionado. Algunos alumnos míos fallaron en mostrar, contra sus expectativas, que las “generaciones de adultos” eran
Psicología e investigación • 19
más negativas acerca de la homosexualidad que la de ellos. Les expliqué que con se guridad era una información importante el que las “generaciones de adultos” fueran tan liberales como ellos (o, quizás, que su generación fuera igual de hostil). Si la prueba de hipótesis “ falla” , nosotros del mismo modo aceptamos la hipótesis nula como información importante o evaluamos en forma crítica el diseño del proyecto y buscamos sus debilidades. ¿Quizá preguntamos a las personas equivocadas o hicimos las preguntas inadecuadas? ¿Fueron las instrucciones lo bastante claras? ¿Pusimos a prueba de manera adecuada a todos de la misma forma? El proceso de evaluar nuestro diseño y procedimiento es educativo en sí mismo y forma una parte importante del informe de investigación: la “discusión” . Se esboza todo el proceso de la elaboración de un informe escrito en el capítulo 28.
¿CÓMO REALIZAN INVESTIGACIÓN LOS PSICÓLOGOS? ¡Ésta es una pregunta importante y fundamental, una introducción al resto del libro! Un gran número de psicólogos utiliza el método experimental o alguna forma de investigación de cam po bien controlada, incluyendo estrictas medidas en el proceso de recolección de datos. Sin embargo, en el capítulo 11, consideraremos por qué un número creciente de psicólogos rechaza la utilización del experimento y tiende a favorecer métodos que engloban datos cualitativos; información acerca de las personas de una manera descrip tiva, no numérica. Algunos de estos psicólogos también rechazan el método científico como lo he descrito aquí. Aceptan que ésta ha sido una manera exitosa de estudiar la materia inerte, pero buscan un enfoque alterno para alcanzar el entendimiento dé nosotros mismos. Otros, reinterpretan a la “ciencia” como se aplica en psicología. Una cosa que podemos decir es, sin embargo, que cualquiera que sea la perspectiva del investigador, hay maneras básicas de obtener información sobre las personas. Usted puede incluso preguntarles, observarlas o entrometerse. Éstas se incluyen en “Hacer preguntas” , “ Métodos observacionales”, “Método experimental” (parte I y II).
PLANEACIÓN DE LA INVESTIGACIÓN
Para ponemos en marcha, y para que se me permita presentar el resto del libro, demos una mirada a las áreas de decisión claves que cualquiera enfrenta al realizar investigación. Las he identificado en la figura 1-2. De modo básico, los cuatro cuadros son respuestas a las preguntas: Variables: Diseño: M uestras: Análisis:
¿QUÉ debemos estudiar? (¿Qué características humanas, bajo qué condiciones?) ¿CÓMO las estudiaremos? ¿A QUIÉN estudiaremos? ¿QUÉ tipo de evidencia obtendremos, de qué manera?
Antes de que las veamos un poco más de cerca, (rale de planear una parle de investigación que pruebe (de manera aproximada) la hipótesis de que la “gente es más Irritable en climas calurosos".
20 • Métodos de investigación y estadística.
(Capítulo I)
Figura 1-2. Áreas clave de decisión en la investigación.
VARIABLES Las variables son artificiosas. Son cosas que se pueden alterar de modo que podamos hacer comparaciones como “¿es usted más limpio que yo?” El calor es una variable en nuestro estudio. ¿Cómo las definiremos? ¿Cómo estaremos seguros de que no son la humedad, ni la temperatura las responsables de cualquier irritabilidad? Pero el problema real consiste en cómo medir “irritabilidad” . Podríamos, por supuesto, desarrollar algún tipo de cuestionario. La construcción de éstos se trata en el capítulo 9. Podríamos observar la conducta de las personas en su trabajo en días calurosos y fríos. ¿Hay más discusiones? ¿Hay más insultos o gritos? Podríamos observar estos eventos en las calles o en algunas familias. El capítulo 7 tratará acerca de los métodos de observación. Podríamos incluso traer personas “ al laboratorio’’ y ver si tienden a contestar nuestro cuestionario de manera diferente bajo un cambio de temperatura bien controlado. Po dríamos observar sus conductas a ratos mientras realizan tareas frustrantes (por ejemplo, balancear lápices en una superficie qué se mueva de manera leve) y podríamos pedirles evaluar esta tarea bajo las dos condiciones de temperatura. Me parece tan básica la dificultad para definir variables, que establecen exactamente qué es lo que queremos decir con un término y cómo, si es que acaso intentamos medir lo, que le asigné el primer capítulo de la parte principal del libro (capítulo 2).
DISEÑO Decidir acerca de la medición de variables nos ha llevado a tomar decisiones acerca del
DISEÑO. Éste consiste en la estructura y estrategia globales de la investigación. Las decisiones acerca de la medición de la irritabilidad pueden determinar si realizamos un estudio de laboratorio o de “campo” . Si queremos irritabilidad real, podríamos medirla tal como ocurre de modo natural, “en el campo” . Si optamos por la opción de laboratorio arriba descrita, realizaríamos un experimento. Sin embargo, éste se puede llevar a cabo utilizando varios diseños. ¿Haremos, por ejemplo, que el mismo grupo de personas realice la tarea frustrante bajo las dos condiciones de temperatura? Si así fuera, ¿no podrían ellos
Psicología e investigación • 21
obtener práctica en la tarea, lo cual provocará cambios en su ejecución más difíciles de interpretar? La variedad de diseños experimentales se aborda en el capítulo 6. Hay varias restricciones al elegir el diseño: 1 RECURSOS. El investigador puede no tener el financiamiento, ni el personal ni el
tiempo para realizar un estudio a largo plazo. El equipo técnico más apropiado podría ser demasiado caro. Los recursos no se pueden extender para pruebas en diferentes culturas. Un estudio en el escenario natural -digamos un hospital- podría consu mir demasiado tiempo o descartarse por falta de permiso. Quizá sólo podría hacerse en el laboratorio. . 2 N a t u r a l e z a d e l o b j e t iv o d e i n v e s t ig a c ió n . Si la investigación desea estudiar los efectos de la privación materna en niños de tres años de edad, ciertos métodos son descartables. No podemos experimentar privando artificialmente a los niños de sus madres (espero que usted esté de acuerdo) y no podemos interrogar a un niño de tres años con gran profundidad. Nos quedaríamos con la mejor opción de observar la conducta de los niños, aunque algunos investigadores han preferido experimentar con animales en vez de con humanos. Los aspectos éticos de tales decisiones se analizan con mayor detalle en el capítulo 26. 3 I n v e s t i g a c i ó n p r e v ia . Si intentamos r e p e tir un estudio previo debemos utilizar el mismo método. Una p a r te de éste puede requerir el mismo método, debido a que se agregará un grupo extra, o puede requerir el uso de un método diferente el cual complementa al primero. Por ejemplo, podemos demostrar que el efecto descubierto en el laboratorio puede reproducirse en un escenario natural. 4 ACTITUD DEL INVESTIGADOR HACIA LA INVESTIGACIÓN CIENTÍFICA. Pueden haber debates hostiles entre psicólogos con diferentes antecedentes teóricos de investigación. Algunos tienen absoluta confianza en el escenario de laboratorio controlado de manera estricta, tratando de emular a las “duras” ciencias físicas en cuanto al aislamiento y medición precisa de variables. Otros prefieren el escenario más realista de “campo” , mientras que hay un creciente cuerpo de investigadores en las tradiciones humanistas, “ investigación de acción”, o una aproximación al “nuevo paradigma” , quienes favorecen los métodos cualitativos. Veremos más de cerca este debate en la sección de métodos.
MUESTRAS Éstas son las personas con las que vamos a trabajar o a quienes vamos a estudiar. Si nosotros realizamos investigaciones sobre oficinistas (en días calurosos o fríos) po dríamos estar mostrando que sólo este tipo de personas se pone más irritable con el calor. ¿Y qué pasa con los constructores o las enfermeras? Si seleccionamos una muestra para nuestro experimento de laboratorio, ¿qué factores debemos tomar en consideración al tratar de hacer el grupo representativo de la mayoría de la gente? ¿Es posible esto? Tales son los problemas del “muestreo” y se les aborda en el capítulo 3. He aquí un comentario sobre terminología. Es común referirse a las personas estudiadas en la investigación psicológica, de modo especial en experimentos, como “sujetos” . Hay objeciones a esto, en forma particular por parte de los psicólogos, quienes argumentan que se está generando un falso modelo del ser humano, por referirse (y posiblemente tratar) a las personas estudiadas de esta manera científica, fría y distante.
22 • Métodos de investigación y estadística.
(Capítulo 1)
La “Revisión de los principios éticos para conducir investigación con participantes humanos” de la British Psychological Society comenzó su aplicación desde febrero de 1992. Éstos incluyen el principio de que, en los terrenos de la cortesía y gratitud a los participantes, la terminología empleada acerca de ellos debe ser respetuosa (aunque los psicólogos tradicionalistas no quisieron utilizar el término “sujetos” de manera peyorativa). Los principios se adoptaron de manera formal en octubre de 1992. Sin embargo, en el resto de ese afio y hasta mediados de 1933, en el British Journal o f Psychology sólo en una ocasión se empleó el término “participantes” de entre más de 30 informes, así que aún estamos en fase de transición al respecto. Alguna terminología importante utiliza “ sujetos” , en especial “variables de los sujetos” (capítulo 3) y “entre” o “intrasujetos” (capítulos 20 a 22). Con base en mi interés por la claridad, incluí ambos términos en el capítulo 3, pero retomé los antiguos en los capítulos 20 a 22 para no confundir al lector sin confrontar mi texto con el de otros en algún tema estadístico complejo. De cualquier modo, en esta Segunda Edición usted encontrará que eliminé el término “ sujetos” salvo cuando se encuentre entrecomillado.
ANÁLISIS El diseño elegido y el método de medición de variables tendrán un efecto directo en el análisis estadístico y en otros que sean posibles al final de la recolección de los datos. En un estudio destinado a poner a prueba en forma directa una hipótesis, es insustancial adelantarse con un diseño y procedimiento, sólo para encontrar que los resultados pueden analizarse escasamente con el fin de apoyar la hipótesis. Hay un principio referido a las computadoras que dice: “ basura entra, basura sale” . También se aplica aquí. Si el cuestionario contiene reactivos del tipo “¿Cómo se siente usted?” , ¿qué va a hacerse con la gran cantidad de datos incuantificables? Las reflexiones sobre el análisis no deben suprimir la creatividad, pero es importante mantenerlas como punto central de la planeación.
UN ÚLTIMO COMENTARIO ACERCA DE LA NATURALEZA DE LA INVESTIGACIÓN CIENTÍFICA (POR AHORA) A través de este libro, y en el trabajo práctico, ¿me permiten sugerir que el lector tenga en mente las siguientes palabras de Rogers (1961)? Si se toman con seriedad y se practican de corazón, cualesquiera que sean las objeciones contra los diversos métodos, no creo que el seguidor de esta idea esté lejos de “hacer ciencia” . La investigación científica tiene que considerarse como lo que en verdad es: una manera de evitar que me engañe a mí mismo respecto de mis cora zonadas subjetivas, formadas de modo creativo, que se han desarrollado a partir de la relación entre mi material y yo. Nota: Al final de cada capítulo en este libro encontrará un grupo de definiciones para los términos que se introdujeron. Si desea utilizarlos como autoevaluación, cubra la columna del lado derecho. Usted puede anotar su respuesta o nada más verificarla después de leer cada una. Las franjas blancas encierran grupos de términos similares, como sucede con los diversos tipos de hipótesis.
Psicología e investigación • 23
Información no interpretada de mane ra relativa, que se recibe a través de los sentidos Argumento lógico donde las conclusio nes se obtienen en forma automática de las premisas Métodos para el resumen numérico de un conjunto de datos de muestra Estructura y estrategia generales de una parte de la investiciación Observación, registro y organización de datos (captados por ios sentíaos), que crean formas que revelarán algún pa trón Predicción precisa sobre la relación entre datos para medirse; de modo normal se hace para sustentar expli caciones teóricas más generales
Hipótesis probada en un experimento en particular Predicción de los datos que no varían de manera significativa, en el sentido de la teoría en investigación que los sustenta; con frecuencia, la predicción es que la diferencia o correlación será cero Hipótesis en donde la dirección de la diferencia, o relacií fice antes de la prueba Hipótesis probada en una ps cial de la investigación Hipótesis en donde la dirección de las diferencias, o la relación, no se predice antes de la prueba
24 • Métodos de investigación y estadística.
(Capítulo I)
GLOSARIO Método de registro de observaciones y regularidades que desarrollan teo rías, para explicar las regularidades y la prueba de predicciones obteni das de esas teorías
método hipotético-dedüctivo
Métodos para evaluar la probabili dad de ocurrencia al azar de ciertas diferencias o relaciones en los datos
estadística infe rencia!
Manera de estimación de una re lación entre variables utilizando un grupo limitado de medidas de mues tra
inducción
Probar un prototipo de estudio o cuestionario en una pequeña muéstra con el fin de descubrir errores u obstáculos en el diseño, o para de sarrollar instrumentos prácticos de medición
piloteo; ensayos piloto
Datos recolectados que no son sus ceptibles de medición numérica o resumen
datos cualitativos
Datos recolectados que son sus ceptibles de medición numérica o resumen Personas u objetos, que se toman como un pequeño subgrupo que ejemplifica a la población mayor Método utilizado para verificar la verdad o falsedad de explicaciones teóricas del porqué ocurren los eventos Explicación propuesta de eventos observables Fenómeno (cosa que se encuentra en el mundo) que sufre cambios ob servables
teoría
Variables y definiciones*• Este capítulo es una introducción al lenguaje y conceptos de medición empleados en la ciencia social. • Las variables son eventos Identificados que cambian de valor. • Muchos conceptos explicativos en psicología no son observables de manera directa, pero se consideran como constructores hipotéticos, como en otras ciencias. • Las variables a medir requieren una definición "operaclonal" precisa (pasos que se toman para medir el fenómeno), para que los investigadores puedan comunicar de manera efectiva sus hallazgos. • Las variables independientes se supone que afectan las variables dependientes, en especial cuando se controlan en experimentos. • Se deben explicar y, si es posible, controlar otras variables que afectan los eventos en observa ción, de modo especial en el trabajo experimental. Los errores aleatorios tienen efectos impre decibles en la variable dependiente, mientras que los errores constantes afectan de manera consistente. • La confusión ocurre cuando una variable relacionada con la variable independiente oscurece un efecto real, o produce la falsa impresión de que la variable independiente provoca cambios observables.
U n a variable es cualquier cosa que varíe. Una definición bastante circular, lo sé, pero nos pone en marcha. Listemos algunas cosas que varían: 1 Estatura - varía conforme usted crece - varía entre individuos. 2 Tiempo - para responder con “ sí” o “no” a las preguntas - para resolver un juego de anagramas. 3 El partido político por el que votan las personas. 4 Sus sentimientos hacia su pareja o sus padres. 5 Extraversión. 6 Actitudes hacia los vándalos. 7 Ansiedad.
26 • Métodos de investigación y estadística
(Capítulo 2)
Obsérvese que la mayoría de ellas puede variar -tan to dentro de uno mismo de un mo mento a otro -entre diferentes individuos en la socie dad Una variable puede tomar varios o muchos valores a lo largo de un rango. El valor dado a menudo es numérico, pero no es forzoso. En el ejemplo 3, los diferentes valores son nombres. La esencia de estudiar cualquier cosa (emociones, aves, geología) es la observación de los cambios en las variables. Si nada cambiara no habría nada que observar. La esencia de la ciencia es relacionar estos cambios en las variables con cambios en otras.
MEDICIÓN DE VARIABLES Algunas de las variables antes citadas son fáciles de medir y estamos familiarizados con el tipo de instrumentos de medición que se requieren. La estatura es una de ellas y el tiempo otra, aunque el equipo requerido para medir “tiempos de reacción” (como en el ejemplo 2) es bastante complejo debido a los muy breves intervalos implicados. Algunas variables son familiares en concepto, pero el medirlas de forma numérica parece una cosa muy difícil o imposible de hacer, como en el caso de la actitud o la ansiedad. Sin embargo, a menudo hacemos estimaciones de las actitudes de otros cuando hacemos declaraciones como “Él se opone con fuerza a que la gente fume” o “ Ella no parecía estar particularmente en contra de la idea de vivir en Manchester” . Las variables como extraversión o disonancia son, en principio, extrañas y parecen imposibles de medir. Esto se debe a que los psicólogos las inventaron ante la necesidad de un concepto unificador que explique las observaciones de la gente. Si hemos de trabajar con variables como actitud y ansiedad, debemos especificarlas con precisión; en parte porque queremos ser precisos al medir sus cambios, y porque deseamos comunicamos con otros acerca de nuestros hallazgos. Si deseamos que se tome con seriedad nuestro trabajo, debe ser posible que otros vuelvan a obtener nuestros resultados, utilizando los mismos procedimientos de medición. ¿Pero qué son “actitud” y “ ansiedad” ?
DEFINICIÓN DE VARIABLES PSICOLÓGICAS Primero intente escribir su propia definición de: a) Inteligencia. b) Ansiedad. c) Superstición. Tal vez fue difícil. Ahora, dé algunos ejemplos de personas que manifiestan esas características. Con probabilidad lo anterior fue bastante difícil, en especial para el primer término. ¿Por qué tenemos tanta dificultad para definir términos que utilizamos a diario con un buen
Variables y definiciones • 27
entendimiento? Usted debe haber utilizado estos términos muchas veces en sus comuni caciones con otros, digamos, por ejemplo: Creo que Rosa tiene mucha inteligencia Roberto se pone ansioso siempre que se le acerca un perro ¿Son las personas menos supersticiosas ahora que antes?
CONSTRUCTOS PSICOLÓGICOS Espero que le resulte un poco más fácil proporcionar ejemplos de personas que sean inteligentes, ansiosas o supersticiosas. Recuerde, dije en el capítulo 1 que la información de las personas debe provenir, de alguna manera, de lo que ellos dicen o hacen. Cuando jóvenes, somos pequeños psicólogos. Creamos un concepto de “ inteligencia” o “an siedad” al aprender cuáles son sus signos: morderse los labios, temblor en las manos, voz temblorosa en el último de los casos, por ejemplo. Observe que aprendemos que ciertas cosas se hacen “ inteligentemente” : hacer sumas de manera correcta o rápida, terminar un rompecabezas. A las personas que hacen estas cosas consistentemente se les llama “ inteligentes” (el adverbio se convirtió en adjetivo). Ahora no hay más que un paso para afirmaciones como la hecha sobre Rosa, en donde tenemos un sustantivo en lugar de un adjetivo. Es fácil pensar en la inteligencia como algo que tiene cualidades sustantivas o que existe con independencia ya que podemos utilizarlo como sustantivo. Podemos decir “ ¿Qué es X T ’ El filósofo griego Platón incursionó en este tipo de problemas haciendo preguntas como: ¿Qué es justicia? La tendencia a tratar un concepto abstracto como si tuviera existencia independiente se conoce como REIFICACIÓN. Algunos psicólogos (especialmente el conductista Skinner, quien asumió una posi ción empirista extrema) argumentarían que los eventos observables (como el morderse los labios) y, para la ansiedad, los cambios internos medidos en forma directa (como el aumento en la frecuencia cardiaca o la secreción de adrenalina) es de todo lo que tenemos que preocupamos. La ansiedad es todos estos eventos, no más. Dirían que no necesitamos asumir conceptos extra sobre estas cosas que podemos observar y medir. Suponer la existencia de estructuras intemas o procesos como “ actitud” o “pulsión” es “mentalista” , no objetivo ni científico. Otros psicólogos argumentarían que hay más. Que la actitud de una persona, por ejemplo, es más que la suma de las afirmaciones y acciones hacia el objeto de la actitud. Objetarían que el concepto es útil para el desarrollo de la teoría, aun cuando sean incapaces de atraparlo y medirlo con certeza. Se comportan, de hecho, como los científicos “ duros” de la física. Ningún físico ha visto alguna vez de manera directa un átomo o un quark. Esto no es físicamente posible. (Puede ser imposible ver alguna vez la “ inteligencia”, pero ése es otro problema.) Lo que hacen los físicos es a su m ir que los átomos y los quarks existen, y entonces agotan toda la evidencia física que se explica mediante ellos. Los quarks son CONSTRUCTOS HIPOTÉTICOS y sobrevivirán como parte de una teoría general en tanto la cantidad que expliquen sea bastante mayor a la que contradigan. Al hacer un abordaje cuidadoso, los psicólogos tratan los conceptos de inteligencia, ansiedad o actitud como constructed hipotéticos también. A su m en que existen como
28 • Métodos de investigación y estadística
(Capítulo 2)
factores que explican fenómenos observables. Si después de una investigación que trate tanto de apoyar como de refutar la existencia de los constructos las explicaciones basadas en éstos siguen siendo practicables, entonces los constructos pueden permanecer como entidades teóricas. Se asume un estado de ansiedad al observar la sudoración, el balbuceo y temblor de una persona. Pero no vemos la “ansiedad” como tal. La ansiedad es, por consiguiente, un constructo hipotético.
ORGANIZACIÓN DE CONSTRUCTOS Un constructo puede estar eslabonado con otros valores en un marco explicativo desde el cual son posibles y evaluables más predicciones. Podríamos, por ejemplo, inferir poca autoestima en personas que son muy hostiles con miembros de grupos étnicos minori tarios. La poca autoestima podría, a su vez, relacionarse con la crianza autoritaria, lo cual podría sujetarse a comprobación. Podríamos, entonces, buscar una relación entre crianza autoritaria y conducta prejuiciosa, como se muestra en la figura 2-1. Si los psicólogos han de utilizar tales constructos en su trabajo de investigación y teorización, es obvio que deben ser muy cuidadosos al explicar cómo se les ha de tratar en tanto que variables. Sus definiciones deben ser precisas. Incluso para las variables
Constructos explicativos
Crianza estricta (autoritaria)
Baja autoestima
Los psicólogos pueden predecir y demostrar que existe relación entre estos dos eventos observables o medibles
Necesidad de sentirse superior
Comportamiento discrimatorio hacia miembros de grupos étnicos minoritarios
Mundo público (observable en forma directa)
o a im lia n
Actitud negativa hacia grupos étnicos minoritarios
Mundo mental (no observable de manera directa)
Figura 2 -1 . Marco explicativo de la hostilidad hacia grupos étnicos minoritarios.
Variables y definiciones • 29
medibles con facilidad, tales como capacidad de memoria a corto plazo, las definiciones deben ser claras. Una dificultad particular para los psicólogos es que existe una gran cantidad de términos para variables sobre las que desearían investigar, las cuales existen en el inglés cotidiano con una amplia variación en sus posibles significados. Anaííce con un colega, o piense e rí los tórmínós mdsSlSos a contrnüádóri: Identidad Instinto Reforzamiento Egocéntrico Actitud Neurótico Atención Conformidad Inconsciente Conciencia ¿Cómo se pueden medir o determinar cualquiera de éstos?
DEFINICIONES OPERACIONALES En busca de la objetividad, los científicos que conducen investigaciones tratan de volver operacionales sus variables. Una definición OPERACIONAL de una variable X nos da la serie de actividades requeridas p ara m edir X. Es como un juego de instrucciones. Por ejemplo, en física, la presión se define precisamente como peso o masa por unidad de área. Para medir la presión tenemos que encontrar el peso que recae sobre un área y dividirlo por ésta. Incluso al medir la estatura de una persona, si queremos estar de acuerdo con las mediciones de otros, necesitaremos especificar condiciones, tales como qué se tomará como parte superior de la cabeza y cómo debe pararse la persona. Aunque en general la estatura y el tiempo no nos representan un profundo problema puesto que las unidades de medición ya están clara y universalmente definidas. ■ En cierta parte de una investigación sobre memoria podríamos definir la capacidad de memoria a corto plazo como: “ la lista más larga de dígitos que el participante recuerde a la perfección en más de 80% de los ensayos” . Aquí, en cada ensayo, el participante trata de recordar la secuencia de dígitos presentados en el orden en el que se le dieron. Ocurrirían varios ensayos con secuencias de 3 a, digamos, 12 dígitos. Al final, es más o menos simple calcular nuestra medida de capacidad de memoria a corto plazo, de acuerdo con nuestra definición operacional. Si un investigador hubiera medido la conducta “ controladora” de las madres con sus hijos, tendría que proporcionar el esquema de codificación dado a los asistentes para hacer los registros durante las observaciones. Esto podría incluir categorías de “restricción física”, “amonestación verbal” , “demanda verbal” y así sucesivamente, con ejemplos detallados dados a los observadores durante el entrenamiento. El ejemplo notorio, dentro de la investigación psicológica, es la definición de inteligencia como: “ la que se mide por la prueba de inteligencia (determinada) que se empleó” . Puesto que las pruebas de inteligencia difieren, es obvio que en psicología carecemos del acuerdo universal del que disfrutan los físicos. Se podría argüir que los físicos tienen muchas maneras de medir la presión, pero saben lo que la presión es. De la misma manera, ¿no pueden los psicólogos tener muchas formas de medir la inteligen cia? Sí, pero éstos no se encuentran en (a misma posición. Los físicos obtienen casi los mismos resultados con sus diversas mediciones alternativas. Los psicólogos, por otra
30 • Métodos de investigación y estadística
(Capítulo 2)
parte, continúan utilizando estas pruebas para tratar de establecer un acuerdo sobre la naturaleza de la inteligencia misma. (Véase Análisis factorial en el capítulo 9.) Una definición operacional nos da un método más o menos válido para medir alguna parte de un constructo hipotético. Rara vez cubre el todo de lo que de manera usual se entiende por constructo. Es difícil imaginar una definición operacional que pudiera expresar el rico y diverso significado de la inteligencia humana. Pero para cualquier sección de investigación debemos establecer exactamente lo que estamos considerando como una medida del constructo en el que estamos interesados. Como un ejemplo, con sidere un proyecto realizado por algunos estudiantes que colocaron una escalera contra una pared y observaron a los varones y mujeres que la rodeaban. Para esta investigación, la “conducta supersticiosa” fue operacional (restringida) como el hecho de no pasar por debajo de la escalera. Imagine que está a punto de empezar a poner a prueba las hipótesis señaladas más abajo. En cada caso, trate de dar definiciones operacionales para las variables implicadas. Si le es de ayuda, pregúntese a si mismo “¿Qué consideraría como agresión en este estudio? ¿Cómo se mediría con exactitud?” Piense con cuidado, y después señale el procedimiento exacto que utilizaría para realizar la medición de las variables. 1 Los niños castigados en forma física son más agresivos 2 El deterioro de la memoria puede ser resultado del estrés en el trabajo 3 El desarrollo del lenguaje se adelanta en niños cuyos padres proporcionan mucha estimulación visual y auditiva 4 Es más probable que las personas cumplan una petición de Una persona en quien confian 5 Es más probable que las personas a las que se les dijo que un bebé era niño lo describan de acuerdo con el estereotipo popular de varón, que aquéllas á las que se les dijo que era mujer
Aquí hay algunas ideas: 1 Castigo físico: número de veces por semana que los padres informan que golpean a sus hijos: un cuestionario a los padres sobre actitudes hacia el castigo físico. Agresión: número de veces que el niño inicia una conducta desordenada observa ble en el patio de juegos de la escuela; número de juguetes violentos solicitados en las cartas dirigidas a Santa Claus. 2 Estrés: ocupaciones definidas como más estresantes mientras más enfermedades, ataques al corazón, etcétera, se informen en asociación con ellas. La memoria puede definirse como en la página anterior, o los participantes pueden mantener un diario de incidentes susceptibles de olvidarse. 3 Desarrollo del lenguaje: extensión de las frases del niño; cantidad de vocabula rio, etcétera. Estimulación: número de veces que el progenitor inicia un juego sensorial, entre otras actividades similares, durante la observación realizada en el hogar. 4 Acatamiento: si la persona en estudio obedece la petición del investigador para cambiar de calle. Confianza: definida en términos de vestido y rol. En un caso, el investigador va vestido de modo elegante con maletín de doctor. En el otro, con
Variables y definiciones • 31
ropas raídas. También podría utilizarse el índice de evaluación después del encuentro por la persona blanco. 5 Respuesta estereotipada: número de veces que el participante, al describir al infante, utiliza términos provenientes de un listado que se elaboró al preguntar a un panel del público en general qué rasgos de los infantes son característicos del sexo masculino y cuáles del femenino.
VARIABLES DEPENDIENTES E INDEPENDIENTES En el experimento acerca de la memoria descrito en el capítulo 1 existen dos variables. Una que manipuló el experimentador y que tiene sólo dos valores: aprendizaje por repetición o aprendizaje por imaginería. Observe que esta variable no tiene valores numéricos como tales, sino que se define de manera operacional. La otra variable, que se definió de manera operacional, era el número de reactivos recordados de manera correcta, en cualquier orden, durante dos minutos. Al considerar estas dos variables, ¿cuál de las siguientes afirmaciones le parece a usted más coherente? 1 “El modo de aprendizaje depende del número de reactivos que se recuerdan" 2 “El número de reactivos que se recuerdan depende del modo de aprendizaje"
Espero que no sea muy difícil, ahora, una de estas variables se conoce como la variable de (comúnmente VD para abreviar) y la otra se conoce como la variable INDEPENDIENTE (VI). Espero que sea obvio que, dado que el número de reactivos recordados depende de qué modo de aprendizaje se utilizó, se le llame la VARIABLE DEPENDIENTE. La variable de la que depende se conoce como la variable inde pendiente . La cual no es afectada por la VD, ya que es independiente de ella. La VD es, esperamos, afectada por la VI. Suponga que le damos a los sujetos una lista de palabras para aprender bajo dos condiciones. En una tienen 30 segundos para aprender y en la otra tienen un minuto. Estos valores diferentes de la VI se conocen de manera común como NIVELES. El tiempo dado para el aprendizaje (VI) esperamos que se relacione con el número de palabras recordadas de modo correcto (VD). Ésta es la hipótesis a probar. pendiente
Figura 2 -2 . Relación de VI y VD.
32 • Métodos de investigación y estadística
vi
(Capítulo 2)
VD
1 Nivel de estimulación proporcionado por los padres 2 Sexo declarado del infante
Indice de desarrollo del lenguaje. --------------------------------------- ► Términos utilizados para describir al infante
Figura 2 -3 . Ejemplos específicos de relaciones de VI-VD.
Trate de identificar la VI y la VD en los ejemplos dados en la página 30.
Un proceso fundamental en la investigación científica ha sido el relacionar la VI con la VD a través de la manipulación experimental, manteniendo constantes las otras variables relevantes, mientras sólo cambia la VI. Algunos libros de psicología suponen que las VI y VD se aplican sólo a los experimentos. Sin embargo, los términos que se originan en las matemáticas son comunes a toda investigación científica y se relacionan con cualquier variación eslabonada. En un experimento la VI está completamente bajo control del experim entador: es lo que éste manipula. En otra investigación, se supone que la VI, por ejemplo, la cantidad de castigo físico o la socialización relacionada con el rol sexual, ha variado más allá de cualquier control del investigador. Estos puntos se exploran con más detalle en el capítulo 5.
En nuestro experimento de “imaginería o ensayo” encontramos que el grupo que utilizó imaginería en realidad recuerda muchas más palabras que el grupo que uti lizó ensayos. Dos preguntas: 1 ¿Qué interferiría con su capacidad para dar su mejor desempeño en cualquiera de estas dos tareas de memoria? 2 ¿Podría algo más que la imaginería ser responsable de las diferencias?
VARIABLES EXTRAÑAS Éste es un término general que se refiere a cualquier otra variable diferente a la VI, la cual podría tener efecto sobre la VD. Tiende a utilizarse principalmente en experimentos donde por lo regular estaríamos interesados en controlar los efectos indeseables de todas las variables, excepto la VI, de modo que podamos comparar las condiciones de manera imparcial. Si se controlan todas las variables, manteniéndolas sin alteración, entonces cualquier cambio en la VD se puede atribuir con mayor confianza a ios cambios en ia VI. Los efectos indeseados de las variables extrañas se conocen como “errores” . Observe la figura 2-4. Imagine que cada dibujo muestra las emanaciones de una vaporera.
Variables y definiciones • 33
Error aleatorio alto; error bajo/no constante
Error aleatorio bajo; error constante alto
Error aleatorio bajo; error bajo/no constante
Error aleatorio alto; error constante alto
Figura 2 -4 . Errores constantes y aleatorios.
En la figura 2-4b existen pocos errores. En la figura 2-4c parece existir un error sistemático. Si se pudieran corregir, todas las emanaciones serían precisas. En la figura 2-4a no parece haber ningún error sistemático, pero las emanaciones varían demasiado en relación con el centro, en un patrón aleatorio semejante. En la figura 2-4d ¡sólo podemos sonreír! Las emanaciones varían al azar y salen de manera sistemática fuera del centro. Ahora veremos la manera en que estos dos tipos de error constante (sistemático) y ERROR aleatorio se manejan en la investigación.
Error aleatorio (o variable aleatoria) Tal vez su respuesta a la pregunta 1 incluyó alguna de las siguientes • • • •
La manera en que se sentía ese día. La atmósfera sofocante del cuarto. El ruido del calefactor. El hecho de que usted acababa de salir de un examen de Sociología.
El calefactor puede encenderse y apagarse por medio del termostato. Los aparatos expe rimentales pueden variar de modo ligero su comportamiento de un ensayo a otro. Uno de los técnicos puede toser mientras usted trata de concentrarse. Algunas de las variables anteriores le afectan sólo a usted como participante. Otras varían para todos los sujetos. Algunas personas pondrán más atención que otras. Las palabras presentadas tienen diferentes significados para cada persona. Las diferencias de estas dos últimas “ perso nas” se conocen como variables de los participantes (o sujetos ) (capítulo 3). Todas estas variables no son predecibles (bueno, ¡algo podría haberse hecho respecto del calefactor!). Algunas veces se les llama “variables estorbosas” . Son de efecto aleatorio. Esperamos que no afecten una condición más que la otra. De hecho, suponemos que se equilibrarán poco más o menos en los dos grupos, en parte, debido a que le asignamos a los sujetos de manera aleatoria las condiciones (capítulo 3). Siempre que sea posible, se hace todo para retirar las variables que sean amenazantes en forma obvia. Sin embargo, por lo general, no pueden eliminarse por completo los errores aleatorios. Tenemos que esperar a que se equilibren. Por consiguiente, los errores aleatorios son variables extrañas, no sistemáticas.
34 • Métodos de investigación y estadística
(Capítulo 2)
Error constante Para la pregunta 2 ¿sugirió usted que; • ¿Los participantes pudieron ser mejores al usar la imaginería, porque fue la segunda condición y ya tenían práctica? • ¿La lista de palabras utilizada en la condición de imaginería podría haber sido más fácil? • ¿Son más interesantes y, por consiguiente, más motivantes las instrucciones bajo la condición de imaginería? En estos ejemplos está operando de m anera sistemática una variable. Ésta afecta el desempeño en una condición más que en la otra. Esto se conoce como ERROR CONSTANTE. Si el efecto de una variable extraña es sistemático, esto es serio, porque podríamos suponer que la VI ha afectado la VD cuando no ha sido así. Suponga que los bebés que yacen en un catre ven patrones visuales más complejos. Suponga, sin embargo, que los patrones complejos siempre se presentaron del lado derecho, con un patrón simple a la izquierda. Quizá el catre haga más cómodo ver hacia la derecha. Acaso los bebés tengan una tendencia natural para que prefieran mirar hacia la derecha. Éste es un error constante, el cual es bastante simple de controlar. No tenemos que saber que izquierda o derecha marca una diferencia. Para estar seguros, podríamos presentar la mitad de los diseños complejos hacia la izquierda y la mitad hacia la derecha, de manera impredecible, para desechar esa posibilidad. Éste es un ejemplo de ALEATORIZACIÓN de la posición de los estímulos (véase el capítulo 6 para esta y otras maneras de manejar el error constante).
Confusión (o variables confusas) El punto fundamental que hemos manejado en la sección anterior es que siempre qué se observan diferencias o relaciones en los resultados es posible que una variable distinta a la independiente produjera el efecto. En el ejemplo anterior, los lados derecho e izquierdo actúan como una VI incontrolable. Si se hubiera hecho impredecible el lado donde aparece el diseño complejo y simple, se hubiera eliminado el problema. Sin embargo, esto no se hizo y nuestro experimento se dice que es CONFUSO. Observe en la figura 2-5 que por lo menos tres explicaciones a nuestros resultados ahora son posibles. La figura 2-5c hace referencia a dos posibilidades. La primera, que tal vez algunos bebés prefieren mirar a la derecha, mientras que otros prefieren patrones más complejos. La segunda, que tal vez la combinación del lado derecho y el patrón complejo inclinan el balance hacia la preferencia de la mayoría de los bebés. Las consideraciones en la figura 2-5 presentan otra posibilidad. Imagine que nuestros resultados fueran inconclusos, y que no se hubiera encontrado alguna diferencia signifi cativa en la preferencia de patrones. Sin embargo, suponga también que, al ser todo equitativo, los bebés sí prefieran patrones más complejos (de hecho así es). La constante presentación de patrones complejos hacia la derecha hubieran originado resultados inconclusos, ya que con el catre que se utilizó los bebés estaban mucho más cómodos mirando hacia la izquierda. Ahora tenemos un ejemplo de confusión que oscurece un efecto válido, más que uno que produce un efecto artificial.
Variables y definiciones • 35
Patrón -► causa complejo miradas fijas (siempre está más prolonen el lado gadas derecho)
Figura 2 -5 . Explicaciones alternativas al efecto de miradas fijas.
La confusión es un aspecto frecuente en nuestros intentos por comprender y explicar el mundo que nos rodea. Hace algún tiempo, al comenzar las vacaciones de invierno, un amigo me dijo que el cambiar a café descafeinado me podría reducir algunos efectos físicos de tensión que yo padecía. Para mi sorpresa, después de un par de semanas, esos efectos desaparecieron. El lector atento hubiera adivinado que la probable variable confusa en este ejemplo es el periodo de vacaciones, en el cual es también posible cierta relajación. Existe una segunda explicación posible para este efecto. Pude esperar el resultado más horrible con el cambio al café descafeinado. Este deseo pudo haber causado que revalorara mis sentimientos internos; posibilidad que uno siempre debe tener en mente al realizar investigación en psicología, cuando los participantes saben de antemano los cambios que se esperan en la conducta. Esto se conoce como efecto placebo y lo abordaremos en el capítulo 3. Se dice que la confusión ocurre, pues, siempre que la naturaleza verdadera de un efecto se oscurece por la operación de variables indeseadas. Con mucha frecuencia, el investigador no reconoce estas variables, pero surgen después de una concienzuda inspección al estudio realizada por otros. En el experimento de imaginería, las mismas imágenes tal vez no produjeron las mejoras. Quizá fueron los lazos significativos aunados a la historia que las personas crearon para cada palabra. ¿Cómo verificaríamos esta hipótesis? Algunos alumnos a los que les daba clase sugirieron que le preguntáramos a personas invidentes de nacimiento si podían crear estos lazos. Estoy seguro de que.esto habría funcionado. De hecho funciona en personas que manifiestan tener formación muy deficiente de imágenes visuales. Éstas mejoran tanto como otras que utilizan relaciones con imágenes. Así es que siempre debemos tener cuidado de no saltar a conclusiones acerca de que la varia ble que pensamos es la que estamos probando, o de hecho, la que creó los efectos demos-trados.
Mire de nuevo el ejercicio de ia página 26. Imagine que cada ejemplo de investigación que se llevó a cabo sustenta el vínculo entre VI y VD (por ejemplo, los grupos bajo mayor estrés tienen una menor ejecución de memoria). ¿Puede usted pensar en alguna variable confusa para cada '■ ejemplo que tal vez explique este vínculo?
36 • Métodos de investigación y estadística. . .
(Capítulo 2)
CONFUSIÓN EN LA INVESTIGACIÓN NO EXPERIMENTAL En el trabajo no experimental, el investigador no controla la VI. Éste mide variables que ya existen en la gente y en la sociedad, como son la clase social de determinados niños y su rendimiento académico. Una de las razones para hacer investigación psicológica es desafiar las suposiciones del “ sentido común ” que a menudo las personas hacen entre una VI y una VD observadas. Es fácil suponer, por ejemplo, que los escasos recursos en casa son responsables del mal desempeño académico, cuando se descubre una relación entre estas dos variables. Pero es más probable que aquéllos con pocos recursos vivan en áreas con escuelas más pobres, mismas que atraen a personal menos calificado. La relación se confunde por estas últimas variables. Una confusión similar ocurrió cuando Bowlby (1953) observó que los niños sin mamá, y criados en instituciones, con frecuencia desarrollan serios problemas psicológi cos. Él atribuyó la causa de estos problemas casi por completo a la carencia de un vínculo materno único. Verificaciones posteriores revelaron que junto con la falta de la figura materna estaban el régimen de cuidado, una grave carencia de estimulación social y sensorial, una reducida oportunidad de educación y otras pocas variables que con probabilidad contribuían a posteriores dificultades en la adaptación. En el mundo de la psicología ocupacional se dio a conocer de manera reciente un éxito resonante (Jack, 1992) del British Home Stores, en relación con el mejoramiento del desempeño de su personal a través de un programa completo de entrenamiento (utilizando National Vocational Qualifications) e incentivos. Un indicador de este mejoramiento parece ser altamente significativo: la rotación del personal de tiempo completo decayó de 50% en 1989 a 1990 a 24% en 1990 a 1991. Por desgracia, este periodo coincidió con un cambio masivo en el desempleo general, por lo que no se puede desechar como variable confusa. Manipuladas en el experimento, "niveles" de VI
"¡gura 2 -6 . Resumen de variables y errores.
Variables y definiciones • 3 7
38 • Métodos de investigación y estadística. . .
(Capítulo 2)
E j e r c ic io s 1 Identifique las variables dependientes e independientes que se asumen en las siguientes afirmaciones: , a) Los mensajes de la propaganda pueden influir en las actitudes. b) El ruido afecta la eficiencia en él trabajo. c) La hora del día afecta los lapsos de atención. d) La ejecución se mejora con la práctica.
e) Al sonreír es más probable que se reciban sonrisas. f) La agresión puede ser el resultado de la frustración.
g) El orden de nacimiento en la familia influye en el logro intelectual y la personalidad individual. h) La conducta de las personas cuando forman parte de una multitud es diferente a la que se tiene al estar solo. 2 En el ejercicio 1, ¿cuál podría ser una definición operacional de: “ruido", "lapso de atención" y “sonrisa”? 3 Se evalúan dos grupos de niños de seis años respecto a su sociabilidad y capacidades cognoscitivas. Un grupo ha recibido algún tipo de educación preescolar durante al menos un año antes de iniciar la escuela. El otro no ha recibido ninguna experiencia escolar. El grupo con educación preescolar es superior en todas las variables. a) Identifique las variables independientes y dependientes. b) Identifique las posibles variables confusas. c) Esboce formas en las cuales las variables confusas podrían eliminarse, así como posibles explicaciones de las diferencias. ■
Muestras y grupos Este capitulo se refiere a cómo se selecciona a las personas para estudios en investigación psi cológica, y con qué bases se dividen en varios grupos que se requieren para la experimentación científica Ideal. Los aspectos que se abordarán son: • Las muestras deben ser representativas de aquellos con quienes se pueden generalizar los resultados. • La selección aleatoria proporciona muestras representativas sólo con números grandes. • Varias técnicas de selección no aleatorias (estratificada, por cantidad, de conglomerados, muestreo de bola de nieve, casos críticos) luchan por alcanzar representatlvldad o por lo menos, muestras pequeñas útiles. Las muestras autoselectivas y de oportunidad pueden estar sesgadas. • El tamaño de la muestra para los experimentos es un tema de mucho debate; las muestras grandes no son siempre las mejores. • En el trabajo experimental estricto se debe mantener al mínimo la variación en la ejecución de los participantes. • Los grupos control y grupos placebo sirven como comparativos, y muestran lo que puede ocurrir en condiciones experimentales donde se incluye sólo la variable independiente.
MUESTRAS Imagine que acaba de regresar del aeropuerto con una amiga de la India, quien va a quedarse con usted un par de semanas, y ella enciende la televisión. Para horror de usted, están transmitiendo uno de los peores programas de juegos que se pueda imaginar y usted se apresura a decirle que eso no es típico de la programación de la TV británica. Suponga de nuevo que usted está midiendo actitudes hacia los sindicatos y decide utilizar el centro de recreo de la universidad para seleccionar personas que contesten su cuestionario. Sin que usted lo sepa, los varones y mujeres que elige son principalmente personas con posiciones
40 • Métodos de investigación y estadística
(Capítulo 3)
sindicales en un curso de capacitación para habilidades en los negocios. En ambos casos se ha seleccionado una muestra no representativa. En cada caso, nuestro punto de vista de la realidad puede distorsionarse.
MUESTRAS Y POBLACIONES Uno de los principales objetivos del estudio científico es generalizar a partir de ejemplos. Un psicólogo puede interesarse en establecer alguna cualidad para toda conducta humana, o en las características de un cierto grupo, tal como la de aquéllos con fuerte confianza en sí mismos o que han tenido educación preescolar. En cada caso, la POBLACIÓN son todos los miembros existentes en ese grupo. Puesto que la población misma por lo regular será demasiado grande para investigar a cada individuo que la compone, lo normal sería seleccionar una muestra de ella para trabajar. Una población no necesariamente consiste de personas. Un biólogo puede interesarse en una población que consiste en todas las coles de un campo. Un psicólogo puede estar midiendo los tiempos de reacción de los su jetos, en cuyo caso la población son los tiempos (no las personas), y es infinita, dados todos los tiempos que se pueden producir. La población particular en la que estamos interesados (gerentes, por ejemplo), y de la cual sacaremos nuestra muestra, se conoce como población OBJETIVO.
SESGO EN EL MUESTREO Necesitamos que nuestra muestra sea típica de la población acerca de la cual deseamos generalizar nuestros resultados. Si estudiamos ia conducta de varones y mujeres al volante, observando a conductores en un pueblo a las 11:45 am o a las 3:30 pm, nuestra muestra de mujeres conductoras probablemente tendrá un mayor número de lo normal de autos con niños pequeños en la parte de atrás. Este peso de una muestra con una sobrerrepresentación de una categoría particular se conoce como SESGO EN EL MUESTREO. La muestra evaluada en el centro de recreo de la universidad es una muestra influida si esperamos adquirir de ella una estimación general de la actual actitud pública hacia los sindicatos. De acuerdo con Ora (1965), muchos estudios experimentales pueden estar sesgados porque en las muestras utilizadas hay voluntarios. Ora ertcontró que los voluntarios diferían de manera significativa de la norma en las siguientes características: dependencia de otros; inseguridad; agresividad; introversión; neurosis e influencia por parte de otros. El estudiante es otra fuente común de sesgo en el muestreo. Se estima que casi 75% de los estudios de investigación psicológica, tanto estadounidense como británica, se realiza con estudiantes (Valentine, 1992). Para ser sinceros, las estimaciones se basan en estudios que se llevaron a cabo a fines del decenio de 1960 y a principios del de 1970. Cerca de la mitad de los participantes del Reino Unido fueron voluntarios. Sería incorrecto decir que muchos de los participantes de Estados Unidos fueron “ voluntarios” . En gran número de instituciones de ese país se requiere que los estudiantes de psicología participen en cierto número de proyectos de investigación. El “ voluntariado” sólo tiene que ver con estudios muy particulares, este sistema ya opera en ciertos planteles de educación superior del Reino Unido.
40 • Métodos de investigación y estadística
(Capítulo 3)
sindicales en un curso de capacitación para habilidades en los negocios. En ambos casos se ha seleccionado una muestra no representativa. En cada caso, nuestro punto de vista de la realidad puede distorsionarse.
MUESTRAS Y POBLACIONES Uno de los principales objetivos del estudio científico es generalizar a partir de ejemplos. Un psicólogo puede interesarse en establecer alguna cualidad para toda conducta humana, o en las características de un cierto grupo, tal como la de aquéllos con fuerte confianza en sí mismos o que han tenido educación preescolar. En cada caso, la POBLACIÓN son todos los miembros existentes en ese grupo. Puesto que la población misma por lo regular será demasiado grande para investigar a cada individuo que la compone, lo normal sería seleccionar una MUESTRA de ella para trabajar. Una población no necesariamente consiste de personas. Un biólogo puede interesarse en una población que consiste en todas las coles de un campo. Un psicólogo puede estar midiendo los tiempos de reacción de los su jetos, en cuyo caso la población son los tiempos (no las personas), y es infinita, dados todos los tiempos que se pueden producir. La población particular en la que estamos interesados (gerentes, por ejemplo), y de la cual sacaremos nuestra muestra, se conoce como POBLACIÓN objetivo .
SESGO EN EL MUESTREO Necesitamos que nuestra muestra sea típica de la población acerca de la cual deseamos generalizar nuestros resultados. Si estudiamos la conducta de varones y mujeres al volante, observando a conductores en un pueblo a las 11:45 am o a las 3:30 pm, nuestra muestra de mujeres conductoras probablemente tendrá un mayor número de lo normal de autos con niños pequeños en la parte de atrás. Este peso de una muestra con una sobrerrepresentación de una categoría particular se conoce como SESGO EN EL MUESTREO. La muestra evaluada en el centro de recreo de la universidad es una muestra influida si esperamos adquirir de ella una estimación general de la actual actitud pública hacia los sindicatos. De acuerdo con Ora (1965), muchos estudios experimentales pueden estar sesgados porque en las muestras utilizadas hay voluntarios. Ora encontró que los voluntarios diferían de manera significativa de la norma en las siguientes características: dependencia de otros; inseguridad; agresividad; introversión; neurosis e influencia por parte de otros. El estudiante es otra fuente común de sesgo en el muestreo. Se estima que casi 75% de los estudios de investigación psicológica, tanto estadounidense como británica, se realiza con estudiantes (Valentine, 1992). Para ser sinceros, las estimaciones se basan en estudios que se llevaron a cabo a fines del decenio de 1960 y a principios del de 1970. Cerca de la mitad de los participantes del Reino Unido fueron voluntarios. Sería incorrecto decir que muchos de los participantes de Estados Unidos fueron “voluntarios” . En gran número de instituciones de ese país se requiere que los estudiantes de psicología participen en cierto número de proyectos de investigación. El “voluntariado” sólo tiene que ver con estudios muy particulares, este sistema ya opera en ciertos planteles de educación superior del Reino Unido.
Muestras y grupos • 41
VARIABLES DEL PARTICIPANTE (O “VARIABLES DEL SUJETO”) E i muchos experimentos de laboratorio no se considera como un asunto importante la -r*nraleza de los individuos bajo prueba. A menudo la investigación se interesa de manera específica en un efecto experimental, en una diferencia entre condiciones más que en lipas de personas. En este caso, el investigador necesita, en cierto sentido, “un grupo promedio de personas” para cada condición.
Un grupo experimental busca una lista de palabras que rimen con “árbol” (free) mientras se cuenta en retroceso de siete en siete. Un grupo control hace lo mismo peto no tiene que contar. La ejecución del grupo control es superior. ¿Podría deberse esta diferencia a algo más que la sola distracción al contar? Espero que una de sus posibles explicaciones fuera que el grupo control pudo haber sido mejor con el sonido de las palabras. Pudo haber algunos buenos poetas y autores de canciones entre ellds. Esto pudo haber ocurrido por casualidad cuando se asignó a las personas a sus grupos respectivos. De ser así, se diría que el estudio es confuso debido a las VARIABLES D EL PARTICIPAN TE (O SU JETO ). Éstas son variaciones entre las personas que actúan como participantes y que son relevantes para el estudio en cuestión. Hasta antes del cambio en la terminología que explicamos con anterioridad, éstas se conocían como “ variables del sujeto” .
Grupo A
Grupo B
Figura 3-1. Las variables del participante pueden afectar el experimento acerca de la dieta
42 • Métodos de investigación y estadística.
(Capítulo 3)
MUESTREO MUESTRAS REPRESENTATIVAS Lo que necesitamos, entonces, son muestras representativas de la población de la cual se extraen. La hipótesis por comprobar con frecuencia determina la población objetivo para cada muestra. Podríamos necesitar una muestra de varones y otra de mujeres. O po dríamos requerir muestras de niños de 8 y 12 años, o un grupo de niños que ve latelevisión más de 20 horas a la semana y otro que la ve menos de cinco. Sin embargo, ¿cómo vamos a asegurar, dentro de cada una de estas poblaciones, que los individuos seleccionados serán representativos de su categoría? A decir verdad, una muestra representativa en realidad es un ideal abstracto inalcanzable en la práctica. La meta práctica que nos podemos fijar es retirar tanto SESGO EN LA m uestra como sea po sible. Necesitamos aseguramos de que ningún miembro de la población objetivo tenga mayor probabilidad que otros de formar parte de nuestra muestra. Una manera de lograr esta meta es obtener una verdadera MUESTRA aleatoria , dado que ésta se define de manera estricta como una m uestra en la cual cada miembro de la población objetivo tiene la misma oportunidad de ser incluido.
¿QUÉ SIGNIFICA ALEATORIO? Aleatorio no sólo es azaroso. El significado estricto de Id secuenciación aleatoria es que ningún evento se puede predecir a través de alguna secuencia precedente. La elección humana al azar puede tener algún patrón subyacente del que no nos percatamos. Esto no se aplica a la mariposa. La evolución natural la ha hecho dar una secuencia aleatoria interminable de giros al vuelo (salvo cuando está herida), lo que hace imposible predecir el movimiento hasta para su depredador más poderoso.
Figura 3-2. Muestra sesgada.
Muestras y grupos • 43
MUESTRAS ALEATORIAS
¿Cuál de los siguientes procedimientos cree usted que, formaría una muestra aleatoria de personas? a) Pedir a cualquier persona en la calle que conteste un cuestionario. (Población objetivo: la calle.) b) Seleccionar cada quinta casa en una calle. (Población objetivo: el público en general.) c) Seleccionar el registro escolar cada décimo nombre. (Población objetivo: la escuela.) d) Clavar un alfiler en una lista de nombres. (Población objetivo: los nombres de la lista.) e) Seleccionar papeletas dentro de un sombrero que contiene los nombres de todos los estudiantes de la Universidad Wobbly y pedirle a los que resulten seleccionados que contesten un cuestionario sobre conducta sexual. (Poblar ción objetivo: estudiantes de la Universidad Wobbly.)
La respuesta es que ninguno de estos métodos producirá una muestra aleatoria compro bada. En el reactivo (a) podemos evitar a las personas que no queremos mirar, o ellas nos pueden evitar a nosotros. En los reactivos (b) y (c) es obvio que no se satisface la definición (aunque estos métodos se conocen algunas veces como m uestreo CUASIALEA TORIO o MUESTREO SISTEMÁTICO). En (d) tenemos menos probabilidad de clavar el alfiler en la parte superior o inferior de la hoja. En (e) la selección inicial es aleatoria, pero la muestra terminará sin contener a aquéllos que se rehúsen a tomar parte. Si ningún tipo de persona en especial (maestro, drogadicto, niños entre 4 y 5 años de edad. . .) es el sujeto de la investigación, entonces, de manera técnica, una muestra aleatoria grande es la única manera de asegurar que se obtiene una muestra representativa de la población. Sin embargo, la mayoría de la investigación psicológica no utiliza muestras aleatorias. Un método común es sacar un desplegado en la prensa local; o más aún, reclutar personas por contacto directo, y el más ordinario de todos es utilizar estudiantes. Una línea muy frecuente en los informes de prácticas de los estudiantes es que “ se seleccionó una muestra aleatoria” . Esto nunca ha sido verdad en toda mi experiencia, salvo que la población haya sido del ciclo escolar, o los colegas, tal vez. Lo que los estudiantes pueden hacer de forma razonable es tratar de obtener una muestra tan aleatoria como sea posible, o hacer la muestra bastante representativa mediante la selección de individuos de las subcategorías importantes (algunos de la clase trabajadora, otros de clase media, y así sucesivamente), tal como se describe más abajo en “muestreo estratificado” . De cualquier manera, es importante analizar este asunto cuando se interpretan los resultados y se evalúa la propia investigación. Los artículos abarcados en la encuesta citada por Valentine no establecieron ningún ejemplo reluciente. Cabe la posibilidad de que 85% empleara métodos de muestreo inadecuados y, de éstos, sólo 5% analizará las correspondientes debilidades e implica ciones.
44 • Métodos de investigación y estadística
(Capítulo 3)
CÓMO MUESTREAR DE MANERA ALEATORIA Selección por computadora La computadora puede generar una lista de números aleatorios. Éstos son números que no tienen ninguna relación secuencial recíproca, y los cuales se eligen con igual frecuen cia. Dado un grupo de nombres, la computadora los utilizaría para seleccionar un grupo al azar.
Tablas de números aleatorios De forma alternativa, podemos utilizar la computadora para generar una serie de números que registramos y utilizamos para hacer cualquier selección nosotros mismos. Esta tabla aparece con el número 1 en el apéndice 2. Se empieza en cualquier parte de ésta y, moviéndose ya sea de manera vertical u horizontal, se produce una secuencia de números aleatorios. Para seleccionar a cinco personas de un grupo de 50, dé a cada uno un número del 1 al 50 y elija un punto en la tabla moviéndose de modo vertical u horizontal. Selec cione a las personas que tengan los primeros cinco números que suijan conforme se mueve a través de la tabla.
Selección manual Las bolas numeradas en una sesión de Bingo, o los números de una ruleta giratoria, por lo común se seleccionan casi de manera aleatoria al igual que los boletos de una rifa sacados de un barril o sombrero, en tanto que estén doblados de modo que no se sienta ninguna diferencia de uno a otro. Usted puede seleccionar de esta manera una muestra de 20 de una población universitaria, pero necesitaría una caja grande en lugar del tan popular “ sombrero”, para las respuestas a las preguntas sobre selección aleatoria. Estos métodos de selección aleatoria pueden someterse a otros usos, además de la selección inicial de la muestra.
Distribución aleatoria a los grupos experimentales Podemos necesitar que se dividan a 40 participantes en dos grupos de 20. Para asegurar, tanto como sea posible, que las variedades del participante se esparcen con uniformidad en los dos grupos, necesitamos dar a cada uno la misma oportunidad de estar en alguno de los grupos. De hecho, estamos seleccionando una muestra de 20 entre una población de 40, y esto se puede hacer como se describió en los métodos antes mencionados.
Ordenamiento aleatorio .Podemos poner 20 palabras en una lista de memoria en orden aleatorio. Para hacer esto, dé a cada una un número como se describió antes. Después ponga los números aleatorios en orden numérico, manteniendo la palabra en él. Estas palabras estarán ahora ordenadas de manera aleatoria.
Muestras y grupos • 45
Figura 3 -3 . Muestras aleatoria, estratificada y de cantidad.
Secuencia aleatoria de ensayos En el experimento de la preferencia de infantes ante patrones simples y complejos, descrito en el capítulo anterior, vimos la necesidad de presentar la figura compleja tanto a la derecha como a la izquierda de modo aleatorio. Aquí se puede decidir el orden, nombrando a los primero 20 ensayos “ izquierda” y a los restantes “ derecha” . Ahora, dé a los 40 ensayos un número aleatorio. Póngalos en orden y la secuenciación izquierdaderecha será aleatoria.
ASEGURAR UNA MUESTRA REPRESENTATIVA
Si un investigador a cargo de una encuesta de grandes dimensiones (capítulo 8) quisiera asegurar que se seleccionen tantos tipos de personas de un pueblo como sea posible para la muestra, ¿cuál de los siguientes métodos para contactar personas lograría el mayor acceso? a) Utilizar el directorio telefónico.
b ) Seleccionarlos de entre todas las casas c) Utilizar el padrón electoral. d) Preguntarle a las personas en la calle.
Espero que esté de acuerdo en que el padrón electoral nos brinda la sección menos tendenciosa y más amplia de la población, aunque no incluirá a los que estén prisioneros, los que no tienen hogar, los nuevos residentes y las personas bajo atención psiquiátrica. El directorio telefónico elimina a quienes no tienen teléfono y la selección de casas elimina a quienes viven en conjuntos residenciales. La calle no contendrá a las personas que están trabajando, a aquéllos con alguna incapacidad grave, a menos que tengan un ayudante, y así de modo sucesivo.
46 • Métodos de investigación y estadística.
(Capítulo 3)
Entonces si utilizamos métodos de aleatorización casi perfectos como el padrón electoral, en teoría debe resultar una muestra representativa. Deberíamos tener suficientes varones y mujeres mayores de 60 años, diabéticos, jóvenes profesionistas, miembros de varios grupos étnicos, etcétera, en proporción a la frecuencia con que aparecen en el pueblo como un todo. Esto sólo pasará, sin embargo, si la muestra fuera lo bastante grande, en lo que espero concuerde conmigo, al menos después de leer más adelante la sección acerca de tamaños de la muestra.
MUESTREO ESTRATIFICADO Podríamos no estar en posibilidad de utilizar el padrón electoral, o podemos estar tomando una muestra demasiado pequeña para esperar que sea representativa ai azar. En tales casos podemos partir de un completo muestreo aleatorio. Podemos predefinir los grupos de personas de los cuales necesitamos representación. Si usted quiere una muestra representativa de estudiantes dentro de su escuela, puede decidir la inclusión de estudiantes de administración, arte, publicidad, etcétera, en propor ción a su cantidad. Si 10% de la población de la escuela comprende estudiantes de arte, entonces 10% de su muestra serán estudiantes de arte. Si la muestra fuera de 50 estudiantes, entonces cinco se elegirían aleatoriamente del departamento de arte. Los estratos de la población que identificamos como relevantes pueden variar de acuerdo con la investigación en particular que estamos conduciendo. Si, por ejemplo, estamos investigando el tema de las actitudes hacia el desempleo, querremos asegurar una representación proporcional de empleados y desempleados, como si para el aborto quisiéramos tener la representación de varias religiones. Si la investigación tiene un foco local, entonces las propiedades locales y no las nacionales Serán relevantes. En la práctica, con una investigación a pequeña escala y muestras limitadas, sólo se pueden acomodar pocos estratos relevantes.
MUESTREO POR CANTIDAD Este método ha sido popular entre compañías de investigación de mercados y encuestadores de opinión. Consiste en obtener personas de un estrato, en proporción a su presencia en la población general, pero dejando la selección de cada estrato por entero a los arreglos con quien el entrevistador considere, y aunque sea poco probable que utilice métodos aleatorios, dejará de entrevistar a varones de entre 18 y 21 años, por ejemplo, cuando se alcance la cuota de entrevistados. -
MUESTRAS POR CONGLOMERADOS Puede suceder que, en un pueblo en particular, cierta área geográfica se pueda describir mayoritariamente como clase trabajadora, otra como clase media y otra como china. En este caso los “conglomerados” (bloques de casas o calles completas) pueden seleccio narse de cada una de las áreas, y se incluirá en la muestra tanta gente como sea posible de cada conglomerado. Esto, se dice, produce gran número de entrevistados de una manera económica, ya que se reduce el viaje del investigador, pero queda abierto a la crítica del que cada conglomerado no es tan representativo como se pretendía.
Muestras y grupos • 47
HJESTREO DE BOLA DE NIEVE 5 * se refiere a un método empleado en las técnicas más cualitativas (capítulo 11), en ± o d e se requiere mucha información para tener un punto de vista global acerca de un ssrema organizacional, o para averiguar qué está pasando sobre cierto problema como sz-3. el alcoholismo. Un investigador puede seleccionar y entrevistar a varias personas czve, quienes pueden guiar hacia más contactos importantes para su entrevista.
CASOS CRÍTICOS Un caso especial puede algunas veces destacar cosas que se pueden relacionar con la mayoría de los casos no especiales. Los estudios de Freud sobre personas con neurosis je hicieron llegar a importantes introspecciones acerca del inconsciente, que funcionan en la mente de cualquiera. Los investigadores interesados en el aprendizaje perceptual buscan casos donde las personas hayan recuperado en forma notable la visión, quizá a Través de una operación innovadora.
MUESTRA AUTOSELECTIVA Puede recordar a los estudiantes que colocaron una escalera contra la pared y observaron cuántos varones y mujeres la rodearon. Los investigadores no pudieron seleccionar la muestra en esta investigación. Tuvieron que atenerse a tomar como muestra a las personas que caminaban por la calle en ese momento. Varios estudios abarcan este tipo de muestras. En un estudio, se le preguntó a las personas que utilizaban una cabina telefónica si habían recogido una moneda dejada a propósito ahí por los investigadores. La variable inde pendiente fue ver si la persona se alteraba o no al preguntársele. La variable dependiente fue ver si admitían o no haber recogido la moneda. Por supuesto, los voluntarios para estudios experimentales son una muestra autoseleccionada.
Figura 3-4. Muestras de conglomerados.
48 • Métodos de investigación y estadística.
(Capítulo 3)
Figura 3 -5 . Muestra de bola de nieve.
MUESTRA POR OPORTUNIDAD O CONVENIENCIA El trabajo práctico de los estudiantes a menudo se realiza con otros de ellos. De ese modo se lleva a cabo mucha de la investigación en las universidades. Si usted utiliza a otros estudiantes de su clase como muestra, usted los está utilizando como una muestra por oportunidad. Sucede que son las personas de quien usted puede apoderarse. Las muestras disponibles en un “ experimento natural” (capítulo 5) también son de naturaleza oportunista. Si hay oportunidad de estudiar niños que están a punto de ex perimentar una innovación educativa, el investigador no tiene control sobre la muestra.
TAMAÑO DE LA MUESTRA Uno de los reactivos más populares en el paquete de respuestas preparadas de muchos estudiantes para sugerir modificaciones a esta investigación es: “ El investigador debió evaluar a más sujetos” . Si se ha demostrado una diferencia significativa entre dos grupos, ésta no es necesaria a menos que (i) tengamos buenas razones para sospechar de sesgo en el muestreo o (ii) estemos repitiendo el estudio (capítulo 4).
Figura 3-6. ¿Una muestra de oportunidad?
Muestras y grupos • 49
Si la investigación no ha mostrado diferencias significativas, podemos sospechar que -K s r a s muestras están influidas. ¿Pero es una buena idea simplemente agregar más asneas a las muestras evaluadas?
¿ranmento en FAVOR de muestras grandes Es más fácil producir muestras sesgadas cuando son pequeñas. Espero que este ejemplo r? aclare. Si usted tuviera que seleccionar cinco personas de un grupo que contiene cinco cari!icos, cinco musulmanes, cinco hindúes y cinco budistas, sería más probable que m ie ra una determinada tendencia religiosa en su muestra que si selecciona a diez •personas. Por ejemplo, si se elige sólo a cinco personas, todas ellas podrían ser católicas, Tero con 10 esto es imposible. E n g e n era l, m ien tra s m á s g r a n d e sea la m u estra , m e n o r p ro b a b ilid a d h a b r á d e n t r una m u estra sesg a d a .
¿Significa esto que siempre debemos evaluar tanto sujetos como sea posible? Otro «OTnento para muestras grandes se demuestra con el siguiente ejemplo. Suponga que bay de algún modo más personas en pro que en contra del aborto en el país en general. Siendo la proporción de 6 a 5. Una estrategia de muestra pequeña que produzca 12 en Tro y 10 en contra no convencerá a nadie de que esta diferencia representa la realidad, Tero una diferencia de 360 a 300 sf sería representativa. Aunque aún no hemos cubierto s parte de probabilidad, espero que el juicio adquirido por usted acerca de los factores rreunstanciales concuerde con esto.
Argumento en CONTRA de las muestras grandes Una razón por la que no siempre podemos tomar muestras grandes es económica, relacionada con tiempo y dinero. Pero otra limitación es que las muestras grandes pueden oscurecer una variable participante relevante o un efecto específico. Suponga, por ejemplo, una tarea que si se realiza en la condición B, produce aumentos sobre la condición A, pero sólo para los participantes zurdos (por ejemplo, los zurdos están en desventaja cuando escriben de izquierda a derecha con tinta que tiene que secar). Las contribuciones a las puntuaciones totales se ilustran por las dos columnas de zurdos en la figura 3-7. Aquí, el aumento en la puntuación de todos los sujetos en la condición B se debe casi por completo a la diferencia para los participantes zurdos [la distancia X mostrada por las dos columnas de en medio (b) en la figura 3-7], Si sólo se consideraran los participantes zurdos, la diferencia sería significativa (no sólo por casualidad), pero la diferencia global para toda la muestra no lo es. La diferencia mostrada por las dos columnas de diestros (c) de la figura 3-7, en donde se evaluaron muchas más personas es significativa. Sin embargo, el investigador puede concluir que hay una ligera pero significativa diferencia en todos los participantes. Un efecto específico e interesante (los agudos aumentos para los zurdos) se está oscureciendo simplemente por haber tomado más participantes, en lugar de detenerse después de la primera “ falla” para examinar posibles variables participantes (el ser zurdo o diestro) que están escondiendo el efecto. , Una muestra grande, entonces, puede disfrazar una importante variable participante que necesita eliminarse. Las muestras grandes también pueden disfrazar las flaquezas en el diseño de un experimento. Si está presente un gran número de variables no controladas, entonces las
50 • Métodos de investigación y estadística..
(Capítulo 3)
Figura 3 -7 . Puntuaciones de la tarea para sujetos zurdos y diestros.
diferencias entre dos grupos pequeños parecen insignificantes'(quizá variación por casualidad). Se pueden necesitar muestras grandes para demostrar que la diferencia es consistente. En los estudios de campo (fuera del laboratorio, véase el capítulo 5) podríamos tener que trabajar con esta falta de control, pero en los experimentos de laboratorio, tales variables confusas o aleatorias pueden controlarse, de modo que las muestras pequeñas demostrarán la diferencia real. Se ha discutido que el tamaño óptimo de la muestra, cuando investigamos una VI experimental de la que se supone tiene un efecto similar en la mayoría de la gente, es de aproximadamente 25 a 30. Si no se demuestra significancia, entonces el experimentador investiga las variables participantes y el diseño del estudio.
GRUPOS GRUPOS CONTROL Y GRUPOS EXPERIMENTALES Suponga que estamos interesados en tratar de reducir el prejuicio racial en niños, mediante el uso de un programa de entrenamiento especifico. Des pués de un año, las actitudes de los niños son en verdad más positivas de lo que eran al principio. ¿Podemos decir que el procedimiento funcionó de manera obvia? ¿Hay una explicación alternativa de la reducción en el pre juicio? ¿Dónde está la variable confusa? Bien, quizá los niños habrían alcanzado esta mayor madurez intelectual sin el tratamiento, a través de la creciente complejidad de sus encuentros con el ambiente. Necesitamos comparar el desarrollo de estos niños con el de los de un grupo que no experimenta el programa. Este último grupo sería conocido como g r u po co ntr o l y el que recibe el programa, como GRUPO EXPERIMENTAL O GRUPO DE TRATAMIENTO.
Muestras y grupos • 51
AI seleccionar estos dos grupos, debemos ser cuidadosos para evitar confundimos 39B las variables del participante y aseguramos de que éstas son equivalentes en comicscíó n . Podemos elegir cada uno de manera aleatoria por completo, o con base en la ^ •orificación. En algunos estudios como éste, podría elegirse a los participantes como j a es igualados (capítulo 6), de°modo que para cada niño en un grupo, haya otro con quien _ti '¡pararlo en otro, equiparables en cuanto a características particulares como edad, sexo, rase social y así sucesivamente.
GRUPO PLACEBO O grupo experimental en el ejemplo anterior puede haber reducido su rendimiento en respuestas prejuiciadas porque supieron que estaban en un programa experimental, en es pecial si ellos sabían qué resultados esperaba el experimentador. En ensayos sobre nuevos fármacos, a algunas personas se les dan pastillas o soluciones de sal con el propósito de ver si con la sola expectativa de mejorar y el conocimiento de haber recibido una cura, producirán por sí solas una mejoría. De manera similar, los psicólogos crean Grupos Placebo con el fin de eliminar la posibilidad de que los resultados se confundan por las variables de expectativa. Un diseño experimental común dentro de la psicología fisiológica ha sido inyectar a los sujetos una sustancia que simula las reacciones psicológicas que ocurren cuando los individuos están emocionalmente excitados. Luego un grupo de control experimenta todo lo del grupo inyectado (experimental), excepto la inyección. El grupo placebo recibe una ampolleta con una sustancia no dañina y sin efectos fisiológicos. Después se observan las reacciones y, si tanto el grupo control como el placebo difieren de la misma manera del grupo experimental, podemos rechazar la expectación como causa de las diferencias. A algunos de los niños en el estudio del prejuicio antes descrito se les podría dar un programa no relacionado con la reducción del mismo, y también informarles sobre los resultados esperados con el fin de que sirvan como grupo placebo.
GLOSARIO (continuación) Caso especial (por lo regular una persona) que/quien destaca un fenómeno especial para su estudio
caso critico
grupos Grupo utilizado como medida de linea base contra el cual se evalúa la ejecución del grupo experimental, de tratamiento o de criterio Grupo que récibe valores de la VI en un experimento o cuaslexperimento
experimental o de tratamiento
52 • Métodos de investigación y estadística.
(Capítulo 3)
GLOSARIO (continuación) Grupo que no recibe el “tratamien to” crítico pero sí todo lo demás que recibe el grupo experimental, y que (en ocasiones) se les hace creer que su tratamiento tendrá efecto; se utiliza para verificar efectos de expectativa
placebo
Variables que difieren entre grupos de personas y pueden requerir que se controlen con el fin de demostrar algún efecto de la VI
variables del partici pante (o sujeto) ■
Efecto en los participantes por el sólo hecho de saber que se espéra que tengan un cambio en su con ducta Todos los miembros posibles de un grupo del cual se toma la muestra Número que no tiene en lo absoluto ninguna relación con los otros nú meros de su grupo Grupo seleccionado de una pobla ción para su estudio o experimen tación
Muestra en la que miembros de un subgrupo de la población objetivo están sub o sobrerrepresentados Muestra seleccionada de un área específica como representativa de la población Muestra seleccionada por ser de fácil acceso para la prueba M uestra seleccionada al tomar cualquier número de caso Muestra seleccionada de manera tal que el grupo especificado aparezca en igual proporción al tamaño de la población blanco; la selección cesa cuando se ha encontrado cantidad suficiente de subgrupos específicos
Muestras y grupos • 53
--------------------- -------------------------------------------------------------------------------------
GLOSARIO (continuación) Vuestra seleccionada donde cada -íém b ro de la población objetivo lene la misma oportunidad de ser ©egida Wjestra seleccionada para que los grupos específicos sean propordonaes en tamaño a la pobladón objetivo
aleatoria.
—
representativa
Tendenda sistemática hada, sobreo subrepresentadón de algunas categorias (de personas) en una muestra
sesgo en é l muésfreo
Muestra selecdonada para estudio con base en su propia acdón al llegar ai punto de muestreo
autoselectiva
Muestra seleccionada para estudio al preguntar características claves para que la gente diga cuál piensa que sería importante o útil induir Muestra selecdonada para que los grupos específicos aparezcan en igual propordón al tamaño de la pobladón objetivo; los casos al inte rior de cada subgrupo se selecdonan con base aleatoria El grupo (a menudo, teórico) de todos los casos posibles del cual, se espera, se tome una muestra
de bola de nieve
estratificada
población objetivo
E j e r c ic io s
1 Un experimentador demuestra que los participantes en un experimento sobre conformismo suelen dar una respuesta obviamente incorrecta a preguntas simples, cuando otros seis aliados del experimentador han dado la misma respuesta equivocada acordada con antici pación. ¿Qué más puede hacer el experimentador para demostrar que los participantes reales en verdad se están adecuando a la presión del grupo? 2 El objetivo de una investigación particular es comparar las actitudes de las madres de clase media y clase trabajadora, hacia la disciplina en la crianza de los niños. ¿Qué factores deberían de tomarse en consideración al seleccionar dos muestras comparables (además de la clase social)?
54 • Métodos de investigación y estadística...
(Capítulo 3)
3 Un psicólogo convoca en el boletín de la universidad a estudiantes que deseen participar en un experimento relacionado con los efectos del consumo del alcohol sobre el apetito. ¿Por qué razón la muestra reunida no podría ser una selección aleatoria de estudiantes? 4 ¿Cómo podría seleccionarse una adecuada muestra aleatoria de estudiantes de negocios en el condado de Suffex con alguno de estos métodos? a) Seleccionar de manera aleatoria una universidad y utilizar a todos los estudiantes de administración que tenga. b) Agrupar a todos los alumnos de administración dentro de cada universidad por la inicial del apellido (A, B .. ,Z). Seleccionar una persona de manera aleatoria de cada grupo de iniciales en cada universidad. c) Poner los nombres de todos los estudiantes de administración de todas las universidades en un sombrero muy grande, agitarlo y sacar nombres sin mirar. 5 Un psicólogo visita un grupo de 20 familias con un niño de cuatro años y entrena a la madre para utilizar un programa especial que promueve la capacidad para la lectura. Los resultados en la capacidad de lectura a la edad de seis años se comparan con los de un grupo control, a quienes no se visitó ni entrenó. Un asistente del experimentador sugiere que se debió haber incluido un tercer grupo de familias en el estudio. ¿Qué tipo de grupo piensa usted que sugiere aquél? 6 Una conferenciante en psicología requiere dos grupos para participar en un experimento de memoria. Divide a los estudiantes a la mitad separando la parte izquierda de la parte derecha de la clase. La izquierda recibe instrucciones especiales y hace mejor una tarea de solución de problemas. La conferenciante sostiene que, por consiguiente, las instrucciones son efectivas. Sus estudiantes argumentan que pudo operar una variable confusa. ¿En qué están pensando, quizás? ■
Capítulo 4. Algunos temas generales . .
57
Capítulo 5. Método experimental I . . . .
77
Capítulo 6. Método experimental II . . . .
95
Capítulo 7. Métodos observacionales . .
109
Capítulo 8. Planteamiento de preguntas I
135
Capítulo 9. Planteamiento de preguntas II
161
Capítulo 10. Estudios comparativos . . .
191
Capítulo 11. Nuevos p a ra d ig m a s .............
203
Algunos temas generales Este capítulo introduce los temas generales de confiabilidad, validez, estandarización y, la dimensión cualitativa-cuantitativa en investigación.
• Confiabilidad es la consistencia de una medida para producir resultados similares en diferentes ocasiones pero comparables.
• Validez tiene que ver con que si una medida en realidad está midiendo lo que se supone debe medir. • En el trabajo experimental en particular existen debates acerca de las “amenazas a la validez
Interna y externa”. • “Validéz interna” se refiere al hecho de si un efecto es genuino, o es el resultado de estadísticas •
•
•
•
aplicadas de modo incorrecto, de sesgo en el muestreo o de variables extrañas sin relación con la VI. “Validez externa” se refiere a si un efecto se generaliza de una persona o lugar específicos, y mediciones de variables probadas en una población a otras poblaciones, lugares, y a otras me diciones de variables, tal vez más completas. El principal mensaje de este capítulo no es que los estudiantes sepan (ahora) cómo inmiscuirse en debates divididos sobre lo que es con exactitud interno y externo, o este o aquel tipo de validez. El punto es estudiar los diversos tipos de ''amenazas" y tratar de evitarlos en el trabajo práctico, o al menos analizarlos al redactar el estudio. Los procedimientos estandarizados reducen la variación en la ejecución de las personas, excluye el sesgo de diferentes tratamientos de grupos, y hace posible la replicación. La replicación es fundamental para establecer credibilidad científica. El metaanálisis es la revisión estadística de muchas pruebas sobre la misma hipótesis, con el fin de establecer la magnitud de la validez de réplica, y para producir revisiones objetivas de los resultados en áreas centrales.
58 • Métodos de investigación y estadística
(Capítulo 4)
• Se introduce la dimensión cualitativa-cuantitativa como una división fundamental dentro de la teoría de los métodos en la investigación de la psicología contemporánea. Nos referimos a esta dimensión como las variaciones en la investigación, al grado de que emplea aspectos de cualquiera de estos enfoques. Algunos investigadores los consideran como enfoques comple mentarios más que antagónicos.
H a s ta ahora, hemos analizado el tipo de cosas que deseamos medir o controlar en los estudios de investigación y el tipo de grupos que se requieren en ellos. Siempre que los psicólogos discuten sobre mediciones, en forma de escalas, pruebas, encuestas, etcétera, sobresale el aspecto de si las mediciones son CONFIABLES y v á l i d a s . Ambos conceptos se analizan con detalle en el capítulo 9, donde se aplicarán a las pruebas psicológicas. Sin embargo, los siguientes capítulos se refieren a todos los métodos de la investigación psicológica y, en ocasiones, tendremos que referimos al significado general de estos términos y de otros. .
CON FIABILIDAD
Cualquier medida que usemos en la vida debe ser confiable, de otra manera es inútil. Usted no querrá que el velocímetro de su automóvil o la graduación de un termómetro le den diferentes lecturas para los mismos valores en ocasiones distintas. Esto se aplica a mediciones en psicología al igual que en cualquier otra ciencia. Entonces, los cuestio narios deben producir los mismos resultados cuando se vuelvan a aplicar a las mismas personas en momentos distintos (siempre y cuando no les haya sucedido algo significativo entre las pruebas) y los diferentes observadores que miden la agresión en niños deben obtener valores similares.
VALIDEZ
Además de ser consistentes, debemos tener la certeza de que nuestro instrumento de medición mide lo que se supone debe medir. Usted no deseará que el velocímetro mida la presión del aceite, o que el termómetro mida la humedad del ambiente. En psicología, este aspecto tiene una importancia crucial ya que, como se vio en el capítulo de las “variables” , con frecuencia resulta difícil estar de acuerdo con lo que un concepto “ es en realidad” , además, las cosas en psicología no son tan tangibles como en física o química. Entonces, la validez es la herramienta para saber si la medición en psicología en realidad evalúa el fenómeno en estudio.
VALIDEZ INTERNA Y EXTERNA Existen dos significados un tanto especiales para el término “ validez” , ahora tan po putar en debates de psicología, acerca del diseño de estudios de investigación, de manera
Algunos temas generales • 59
particular en experimentos. Campbell y Stanley introdujeron estos términos en el decenio ée i960 y produjeron argumentos prefinidos, difíciles y, en ocasiones, hostiles acerca de sus rarificados y de la importancia de los diversos tipos de validez. No es momento de T-Ttundizar en esto, pero la razón por la que incluyo algunas ideas generales es para r.udaraos a enfocar y categorizar los problemas que existen al diseñar investigaciones, ? que nos acercará lo más posible a conocer lo que se aplica y lo que no en el terreno de '3 psicología. Dije “ lo más posible” , ya que existe un tema subyacente que estoy seguro saben cuál es, y que se refiere al hecho de que la investigación científica en psicología, como en otras ciencias, no alcanza la verdad exacta en el mundo de la teoría. Muchas personas argumentarán que lo mejor que se puede hacer es desechar lo que no es ver dadero. Podemos estar seguros de que una hipótesis nula no es verdadera, pero nunca podremos tener la certeza del porqué hubo diferencia en nuestros resultados. ¿Fue en realidad la VI o algo más el responsable? Éste es un buen punto para comenzar nuestro análisis acerca de la validez intema y externa. Antes de entrar en materia, ¿le gustaría intentar y generar algunas ideas básicas echando un vistazo al ejercicio que sigue?
Considere el siguiente proyecto llevado a cabo por un estudiante del Colegio Rip-off, donde el personal es responsable de 60 alumnos por clase, una hora a la semana y, por eso, tiene muy poco tiempo para registrar lo que los estudiantes someten a prueba. Tamara cree que puede entrenar a las personas para que dibujen mejor. Para ello, escoge a sus amigos estudiantes para que participen en su estudio, el cual Incluye un grupo de entrenamiento y otro como grupo control. Ella les explica que el entrenamiento será un poco largo, por lo que aquellos que sean personas ocupadas deberán pertenecer al grupo control, ya que sólo se presentarán a las sesiones de prueba. Ambos grupos se evalúan en cuanto a sus habilidades artísticas al inicio y al final del periodo de prueba, y el mejoramiento se mide como la diferencia entre estos dos valores. La prueba consiste en copiar un dibujo de Mickey Mouse. Surge un pequeño problema; Tamara perdió el dibujo original de la preevaluación, pero estaba segura por completo de que el que utilizaría en la pos evaluación sería casi el mismo. También se dio cuenta de que ella sola no podía conducir todo el entrenamiento, así que llamó a un ayudante con conocimientos artísticos, al que le dio una idea general de cómo funcionaba su método de entrenamiento. El grupo de entrenamiento tuvo 10 sesiones de una hora, y al final, Tamara sintió que todo había salido bien, aunque varios desertaron debido a sus ocupaciones. Un participante del grupo control enfatizó lo amigable que eran todos y que incluso habían visto al grupo de entrenamiento divirtiéndose en el bar cada semana después de las sesiones. Algunas de las personas en entrenamiento asistieron por la noche a una clase de dibujo, ya que querían tener un buen desempeño en la prueba final. Algunos otros estaban inscritos en cursos sobre salud y comenzaron a tomar un módulo en arte creativo, lo que consideraron muy oportuno. La diferencia final entre los grupos fue muy pequeña, pero aun así, el grupo de entrenamiento lo hizo mejor. Tamara aborrece la estadística, así que decidió presentar los datos tal y como se registraron. Ella aún no llega a la sección de pruebas de significancia en su estudio autodidáctico en el Colegio Rip-off. Ahora, por favor, liste todos los aspectos en los que Tamara se equivocó en este estudio. De m anera particular, anote todas las razones por las cuales pudo obtener las diferencias, salvo por el plan de entrenamiento específico que utilizó.
60 • Métodos de investigación y estadística
(Capítulo 4)
“AMENAZAS” A LA VALIDEZ Espero que, a pesar de que usted no tenga mucha idea de la investigación experimental o científica, el proyecto de Tamara haya sido un golpe a su sentido de investigación objetiva, real y equilibrada. Es obvio que existen muchos medios por los cuales Tamara pudo obtener diferencias, pero no a causa de su programa particular de entrenamiento. Estos aspectos, distintos a la VI, que pueden producir cambios, son los que Campbell y Stanley llaman “ amenazas a la validez” . Llegó el momento de distinguir entre amenazas internas y externas:
Amenazas a la validez intema ¿El diseño del estudio resalta en realidad el efecto de una variable sobre la otra? ¿Hubo un efecto genuino?
Amenazas a la validez externa ¿Hasta qué punto es factible generalizar estos datos a otras personas, lugares, momentos y las instancias de las variables medidas?
VALIDEZ INTERNA Dentro de este concepto surgen dos preguntas: 1 ¿Aquí hay un efecto real? ¿La diferencia en las mediciones de la variable dependiente es seria? (Es decir, ¿existe una diferencia estadística “real” ?) 2 ¿El efecto lo causó la VI o algo más? Si la diferencia se trata como estadísticamente válida, ¿ocurrió porque la IV ejerció efecto directo, o por su manipulación o simplemente al correr el estudio se produjo otro efecto oculto? 1 Esta pregunta tiene que ver principalmente con la significancia estadística, la que abordaremos en los capítulos 14 al 23. Se refiere a que digamos: “ Claro que hubo diferencia, pero es tan pequeña que pudo ser el destino”, algo así como el tipo de preguntas que hacemos ante una hilera de platos para un comercial de líquido lavatrastes. Ahora, observe el cuadro 4-1 donde si utilizamos la prueba estadística equivocada, una prueba que no satisfaga los supuestos, que realice demasiadas pruebas con los mismos datos o introduzca muchos errores aleatorios al ambiente experimental o al procedimiento, no podremos decir con certeza que cualquier diferencia encontrada es real. Los errores aleatorios se pueden manejar hasta cierto grado al emplear un PROCEDIM IENTO ESTANDARIZADO que abordaremos al terminar esta sección de validez. 2 Observe en el cuadro 4-1 que las amenazas no estadísticas a la validez interna se refieren a las razones por las que ocurren diferencias, a pesar de que la IV no las causó. Algunas de ellas tienen que ver con obtener un desequilibrio de personas para una condición. Trataremos este problema en el capítulo 6 -Diseños experi-
Algunos temas generales • 61
Caadro 4-1 . Amenazas a la validez interna y externa en estudios de investigación A m e n a za s a la v a lid e z interna
Descripción Diversas pruebas tienen sensibilidad variante pa ra detectar diferencias
Com entarios Mencionada en las es tadísticas de los capí tulos 14 a 24
Las pruebas no deben utilizarse si los datos no se ajustan a los supues tos
Mencionada en las es tadísticas de capítulos 14 a 24
= e scar”/én fasis en el
Múltiples pruebas de los mismos datos incremen tan la posibilidad de ob tener un resultado "signi ficativo” por chiripa— véa se página 384
Para estos tres puntos estadísticos observe que Tamara no se mo lestó en probar sus da tos y que las diferen cias fueron pequeñas
Confiabilidad de medicio nes
La confiabilidad se des cribe en este capítulo y en el 9
Mencionado en las pá ginas 58 y 179
Confiabilidad de procedi mientos
Estandarización de pro cedimientos — descrito en este capítulo
Tamara parece no ha ber dado instrucciones precisas a su entrena dor adicional
Errores aleatorios en el escenario de investiga ción
Descrito en él capítulo 3
Variación en los partici pantes
Problema descrito en es te capítulo
M encionado tam bién en el capitulo 3
Historia
Eventos que suceden a los participantes durante la investigación, que afec tan los resultados, pero no están relacionados con la VI
Algunos de los entrena dos por Tamara toma ron un módulo de arte
Maduración
Los participantes pue den madurar durante el estudio
Un problema en estu dios de desarrollo in fantil, en especial don de no existe un grupo control adecuado
Evaluación
Los participantes pue den llegar a “aprender se” las pruebas si son repetidas
Las personas entrena das por Tam ara pu dieron practicar el di bujo de Mickey Mouse o recordar sus errores iniciales
= r c feo de prueba estade menor poder . dación de los supuestos 5r las pruebas estadísti-
¡ utilizadas
62 • Métodos de investigación y estadística. . .
(Capitulo 4)
Cuadro 4 -1 . Amenazas a la validez intema y externa en estudios (continuación) A m e n a za a la v alid e z interna
Las mediciones pueden cambiar su efecto entre la primera y la segunda eva luaciones. Un problema especial si los participan tes se acercan al "tope" (véase página 269) al finai del estudio. No muestran su capacidad real
Tamara cambió su medi ción debido a que perdió la pnmera versión
Sucede cuando más per sonas de un tipo ingresan a un grupo para el estudio — un gran problema en investigaciones de campo donde muchos factores in deseados pueden diferir entre, digamos, dos grupos de niños bajo estudio
En el estudio de Tamara aquellos que estaban más ocupados se autoselecclonaron para Ingresar al grupo control. También, como los estudiantes sa bían de qué se trataba, los más perspicaces ingresa ron al grupo de entrena miento
Deserción
Más de un tipo de persona puede desertar de uno de ios g, jpos
Más estudiantes del gru po de entrenamiento de Tamara desertaron debido al tiempo que les tomaba
Imitación dél tratamiento
Los participantes del gru ño control pueden saber lo que el grupo en tratamien to está haciendo
Si se ayuda a las madres a estimulara sus hijos, la téonica puede llegara pasar a las madres del grupo con trol simplemente por su contacto en la comunidad
Rivalidad o desmorali zación del grupo control
Los participantes "con trol” pueden esfozárse por tener una ejecución tan buena como el grupo "tratamiento” o pueden resentir el “tratamiento''
Algunos estudiantes con trol de Tamara parecen resentir no estar en el grupo de entrenamiento
¿Hasta qué grado las me diciones empleadas se adecúan en realidad al epto en estudio?
Mencionado en este ca pítulo. ¿Qué tan certera o completa es Tamara al medir la capacidad “ar tística”? Imagínese que la habilidad del nado sin cronizado se juzgara tan sólo por el tiempo que las nadadoras pudieran per> manecer bajo el agua
Algunos temas generales • 63
Cuadro 4 -1 . Amenazas a la validez interna y externa en estudios (continuación)
La “idea burda” que Ta mara comentó a su ayu dante lo que era el entre namiento sugiere que no estaba bien definido Se mejora la validez de constructo al elegir una variedad de mediciones del mismo concepto
De hecho, es mejor que las personas den su “sen tencia” de un criminal fic ticio por escrito y en pú blico, y tal vez hacerlos que valoren la culpa bilidad o "criminalidad”, también
Adivinar la hipótesis
Los participantes en “tra tamiento” pueden adivi nar lo que se espera de ellos en el estudio
Los entrenados por Ta mara claro que sabían lo que se esperaba que hicieran
Comprensión' de la eva luación (“agradar al ex perimentador" o “vérse bien”)
Adivinar la hipótesis pue de conducir a intentar complacer al experimen tador o a hacer un buen papel
V éase “características de la demanda” página 88. Observe que los en trenados por Tamara in tentaron tener una bue na ejecución Véase también página 87
Expectativa del experi mentador Nivel de la variable inde pendiente (VI)
Los niveles de la VI utili zados pueden no ser lo suficientemente distan tes. Es mejor emplear diversos niveles (en tra bajos más avanzados)
Una y tres tazas de café pueden no marcar dife rencia, pero una y diez sí. Tal vez es mejor intentar con una, cuatro, siete y diez
Generalización a la po blación. Generalización a otras poblaciones
M encionadas en este capítulo
Véase también capítulo 3
Generalización a otros entornos; “validez eco lógica”
Mencionada en este ca pítulo
¿Él entrenam iento de Tamara funcionará fuera dé la universidad?
64 • Métodos de investigación y estadística
(Capitulo 4)
mentales. Dése cuenta de que la rivalidad o resentimiento del grupo control, y otros, se considera una amenaza a la validez interna, puesto que el tratam iento no causa algún efecto en el grupo de entrenamiento. El grupo control crea la diferencia. El grupo control de Tamara pudo dibujar con desgano debido a que algunos se sintieron un tanto desplazados. Entonces, este factor no tiene nada que ver con el programa en sí, por lo que no se puede decir que haya causado las dife rencias que se encontraron.
VALIDEZ EXTERNA Imagine que la VI es la responsable del cambio. Por diversas razones, que espero sean en verdad obvias, los resultados de tan “ exitoso” estudio no se pueden generalizar al resto de situaciones sin tomar en cuenta algunas consideraciones serias. Existen cuatro aspectos principales que limitan la generalización. Podemos preguntar: 1 ¿Esto mismo sucederá con otro tipo de personas o con todas las personas de donde obtuvimos nuestra muestra? 2 ¿Esto mismo sucederá en otros lugares? 3 ¿Esto sucederá en otros momentos? (Considere los famosos estudios sobre conformidad de Asch en el decenio de 1950. ¿Las personas se conforman ahora como antes?) 4 ¿Esto sucederá con otras mediciones? (por ejemplo, la “discriminación racial” puede evaluarse al pedirle a la gente la sentencia para un ficticio “ criminal” de raza negra o blanca. ¿Se podría alcanzar el mismo efecto si se hubiera utilizado un cuestionario en su lugar?) Bracht y Glass (1968) consideran la pregunta 1 como “ validez de población” , y la 2 como “ VALIDEZ ECOLÓGICA” . He manejado este último como un “ término clave”, ya que, a diferencia del primero, es un término muy popular, a pesar de que su acotación original (Brunswik, 1947) se limitaba a la percepción. Es un término con el que tendrá mucho contacto en otros libros de texto y en discusiones en el salón de clase, en especial, en el terreno del estudio de laboratorio en psicología.
Validez de población Piense con qué frecuencia usted se ha molestado por las aseveraciones en los noticieros o artículos de revistas que, con base en un solo estudio, enfatizan . . vemos que las mujeres (hacen esto y lo otro), mientras que los varones (esto y aquello) . . . ” Es obvio que un experimento de clase no se puede generalizar a todos los estudiantes, ni a todos los otros grupos de personas. La importancia de este asunto varía en relación con el tipo de estudio. La validez externa es de suma importancia para los investigadores aplicados, quienes desean saber si un programa (de entrenamiento o terapia, tal vez) “ funciona” , y se preocupan menos de la variable exacta (conceptual), responsable del efecto.
Validez ecológica Un problema bastante serio que se presenta en la investigación psicológica de laboratorio es que con frecuencia resulta muy difícil observar cómo los resultados se pueden
Algunos temas generales • 65
s e ñ a liz a r a situaciones de la vida real, a conductas que ocurren de modo natural én Mréréntes cotidianos. Según Bracht y Glass, la “validez ecológica” en un estudio tiene que ^=-con el grado de generalización a otros ambientes o lugares. Un estudio tiene mayor ■«Esdez ecológica si es generalizable a situaciones de campo, más allá del laboratorio; t c t u d estudio de campo, en ambiente natural, no tiene “validez ecológica” de manera MExnática. Esto depende si es generalizada a otros entornos naturales (más adelante se Trercionan algunos ambientes naturales un tanto artificiales y limitados). Por desgracia, s e término se emplea hoy en día de manera distinta y algunos textos atribuyen la validez apológica sólo cuando un estudio es “natural” , donde los datos obtenidos son “realistas” , mr. cuando los resultados no sean de manera obvia válidos para otro contexto. Sin orbargo, si usted argumenta que muchos experimentos en psicología son criticados febido a la falta de validez ecológica, ya que sus resultados no se pueden replicar en irrom os de la vida real, está en lo correcto. Carlsmith y colaboradores (1976) emplearon ¿ término REALISM O m u n d a n o para referirse al tipo de investigación lo más cercana a á vida real, mientras que REALISM O EXPERIM ENTAL, para aquella organización experi mental, y por tanto “ artificial”, pero tan comprometedora y acaparadora de atención que justifica cualquier artificialidad. Como un ejemplo de limitaciones de laboratorio tenemos las famosas demostracio n es de conformidad de Asch, que se condujeron entre extraños, quienes tenían que juzgar ía extensión de unas líneas sin entablar discusión. La conformidad realista casi siempre implica interacción social y de familiaridad con los propios compañeros. Los estudios de Asch demostrarían más validez ecológica si pudiéramos reproducir el efecto, digamos, entre los amigos en un escenario de salón de clases. Milgram (1961) incrementó la conformidad de manera simple al permitir que los participantes escucharan la grabación en cinta de las críticas a sus propios juicios de no conformidad. También, en ocasiones, resulta difícil medir lo que se considera “ ambiente natural” . Mucho de la conducta humana sucede en lo que no es el entorno natural del individuo en cuestión; por ejemplo, el consultorio del médico, una visita a la estación de policía o al interior del avión. Para algunos participantes, el laboratorio puede ser tan poco natural como muchos otros lugares. En el estudio de Ainsworth (1971) acerca del apego infantil, se observó la conducta cuando la madre estaba presente, cuando estaba ausente, cuando un extraño estaba presente y cuando la madre regresaba. Desde el punto de vista del infante, tal vez no resultó trascendente dónde se llevara a cabo el estudio —en la guardería, en el parque o el laboratorio— (¡que, a pesar de todo, era muy similar a la guardería!). Con frecuencia, el infante estuvo en situaciones igual de extrañas y, lo que importó de sobremanera fue si su madre estaba o no. Volveremos a esta línea de análisis cuando consideremos las ventajas y desventajas del laboratorio en el próximo capítulo. Si el bebé se comporta en el laboratorio de la misma manera como lo hace en su casa, entonces el estudio tiene una alta validez ecológica.
Validez de constructo El otro aspecto del cuadro 4-1 que quiero enfatizar ahora es el concerniente a la generalización a través de mediciones comentadas en el punto 4 anterior. Lo principal es saber hasta qué punto nuestra medición de un concepto en estudio refleja en realidad la dimensión de ese concepto Tenemos que regresar al aspecto de los constructos hipotéticos y definiciones operacionales comentados en el capítulo sobre “variables” . ¿ C u á l f u e e x a c t a m e n t e s u m e d i c i ó n ? Esto se puede prestar a un debate acalorado desde el punto de vista práctico de la psicología, en el cual no profundizaré ahora por
66 • Métodos de investigación y estadística
(Capítulo 4)
consideración a los estudiantes que apenas se inician; es la amenaza de definiciones débiles de las variables y el sesgo “monométodo” . Ya se dijo en el capítulo 3 cuán importante es definir exactamente lo que usted considera como VI y VD en su proyecto. Los peores crímenes implican la VD. ¡Con frecuencia, los profesores escriben con desesperación “ ¿cómo se midió esto?” a un costado de la hipótesis o de los objetivos del informe de práctica! Algunos ejemplos son “ la agresión incrementará . . . . tendrán mejor memoria” , “ . . . son sexistas en sus actitudes” . Lo que de manera usual se ha demostrado es que un grupo de niños golpea más a sus compañeros, que se recuerda un mayor número de palabras, que se han empleado más términos “ femeninos” que “masculinos” para describir a un bebé o una ocupación particular. Sólo se menciona en la definición una (pequeña) parte del concepto total. Pareciera que somos un poco delicaditos, como el caso de Stephen Fry y Hugh Laurie, quienes regañaron a la mesera porque ¡les trajo un vaso de cristal con agua cuando ellos pidieron un vaso de agua! Pero en psicología es crucial no argumentar que se descubrió o demostró algo cuando no es así. Considere la práctica de clase común en psicología, donde se elabora un cuestionario, digamos, acerca de la homosexualidad. Esto se analiza como una medición de “ actitud” . Sin embargo, casi todas las definiciones sobre “ actitudes” incluyen algo de creencias perdurables, a pesar de que sólo hemos medido el punto de vista de una persona en un momento específico. ¿Ellos pensarán lo mismo la próxima semana? ¿Qué hemos medido con exactitud? De cualquier modo, ¿nuestro cuestionario abordó algo parecido al rango completo y profundo como es una “ actitud hacia la homosexualidad” ? También resulta imprudente hacer una generalización de un (“mono” ) método. Las mediciones tomadas en papel no se pueden generalizar al comportamiento de la gente en toda su vida fuera del salón de clases o del laboratorio. La gente puede “parecer buena” en el papel (“deseabilidad social, que se analizará en el capítulo 8), pero seguir discrimi nando en su vida diaria, contando chistes “ homofóbicos” y demás.
Existen dos aspectos principales en el debate acerca de la Calidez. Uno es un debate desgastante acerca de qué amenazas deben colocarse y en qué categoría. La otra tiene que ver con los aspectos prácticos del diseño de la investigación. Como mencioné con anterioridad, la razón para profundizar un poco en este asunto es enfocar su atención hacia lo cuidadoso que debe ser al definir sus variables y al diseñar su estudio. Esto es para que no termine con datos inservibles sobre algo de lo que no se puede decir mucho, por tener diversas interpretaciones o porque no se tienen las comparaciones necesarias para hacer aseveraciones verdaderas acerca de las diferencias. En relación con el debate sobre categorías, aún no se ponen de acuerdo los expertos. El lector que esté más interesado en este debate deberá acercarse a las lecturas siguientes. La primera es la presentación original de los términos. La segunda es un texto bastante posterior y más accesible con un capítulo sobre el tema. Campbell, D.T. and Stanley, J.C . (1966) Experimental and Quas¡-Experimental De signs fo r Research Chicago: Rand McNally. Cook, T.D. and Campbell, D.T. (1979) Quasi-Experimentation: Design and Analysis Issues fo r Field Settings Boston: Houghton Mifflin.
Algunos temas generales • 67
PROCEDIMIENTO ESTANDARIZADO
El ideal ahora es que para cada aspecto común del procedimiento experimental cada participante tenga exactamente la misma experiencia. Existen por lo menos tres razones fuertes para desear un procedimiento estandarizado. 1 Deseamos mantener al mínimo la v a r i a c i ó n indeseada en la ejecución de los participantes, para que las diferencias reales no se enmascaren. 2 No deseamos que la diferencia en el tratamiento de los grupos confunda el efecto de la variable independiente. 3 Los buenos experimentos científicos deben registrarse para que otros los puedan REPLICAR.
1 Variación en los participantes
Con frecuencia, en la enseñanza de la psicología, la manera es introducir una idea interesante que probar (por ejemplo, ¿los fumadores son ansiosos?), explicar lo que se debe hacer y después mandar a los estudiantes a que hagan pruebas con sus amigos, familiares, con quien puedan atrapar (la típica muestra de oportunidad). Con regularidad esto es todo lo que se puede hacer, proporcionar recursos escolares. Sin embargo, ¿alguien cree que bajo estas circunstancias el procedimiento será estándar? De principio, diferentes evaluadores entran en acción. Aun para el mismo evaluador, con el mejor deseo del mundo, le resulta difícil correr un procedimiento idéntico con su papá a la hora del té y con su novio(a) después esa misma tarde. Los investigadores a sueldo se esfuerzan un poco más; sin embargo, sería ingenuo suponer que los rasgos del evaluador (acento, vestimenta, apariencia, etcétera), su comportamiento o el ambiente físico que lo rodea no produzcan errores aleatorios indeseados. Por otro lado, el error aleatorio producirá mayor nivel de lo que se conoce como variación entre las puntuaciones de los participantes, lo que dificulta más la demostración de las diferencias estadísticas reales, como lo veremos más adelante en la sección de estadística. Esto es, pues, una amenaza a la validez interna, ya que es una razón por la que no podemos demostrar una diferencia real. 2 Confusión
Existen muchas razones por las cuales el grupo control de Tamara se trató de manera distinta. Cualquiera de estos factores pudiera ser responsable de cualquier diferencia que se encontrara. La prueba de fuego sería que las personas en entrenamiento tuvieran una mejor ejecución bajo exactamente las mismas condiciones que el grupo no entrenado. Barber (1976) da un ejemplo de lo que él llama “ efecto del procedimiento indefinido del investigador” . También incluye el problema de lo que llamaremos “ prejuicio del experimentador” , en el próximo capítulo. El estudio (Raffetto, 1967) condujo aun grupo de experimentadores (personas que llevan á cabo las investigaciones para los investi gadores) a creer que la privación sensorial genera muchos informes de alucinaciones y, al otro grupo, a creer en lo opuesto. Entonces, los experimentadores entrevistaron a personas que habían pasado por privación sensorial. Las instrucciones para las entrevistas se dejaron vagas a propósito. Los experimentadores informaron resultados de acuerdo con lo que se les había hecho creer: más informes de alucinaciones en los experimen tadores que esperaban encontrar esto.
68 • Métodos de investigación y estadística
(Capítulo 4)
Aun con procedimientos estandarizados, los experimentadores no siempre los siguen. Friedman (1967) argumenta que esto se debe, en parte, a que los experimentadores no reconocen que la interacción social y la comunicación no verbal juegan un papel importante en el procedimiento de un experimento. Cuando un participante es femenino, los experimentadores varones suelen llamarla por su nombre, sonríen y la miran direc tamente. Los procedimientos generales no le dicen al experimentador cómo saluda a los participantes, involucrarse en bromas casuales, acercar la silla y cuándo sonreír. Observe que el “procedimiento indefinido” , como tal, es una amenaza a la validez interna, ya que tiende a crear más variación en la ejecución de las personas, pero la “ predisposición del experimentador” (o expectativa) se maneja como amenaza a la validez externa. Esto se debe a que no estamos seguros de que el mismo efecto de predisposición del experimentador pueda ocurrir en otras situaciones de investigación. Esta predisposi ción varía con la VI, más no es la VI. No se desea y tiene un efecto de confusión. 3 Replicación En el método científico tradicional, la replicación juega un papel importante. No hace mucho tiempo, hubo gran excitación en el mundo de la física cuando un grupo de investigadores argumentaron que produjeron con éxito una “ fusión en frío” —pro cedimiento mediante el cual se liberarían potencialmente enormes cantidades de energía barata— a temperatura ambiente. Se dio a conocer la replicación por científicos diferen tes. Pero unaréplicano es suficiente. Varios intentos más fracasaron y, tan sólo tres meses después del júbilo, el efecto se puso de regreso en su lugar, nada más como parte de un futuro imaginario. Si usted me dice que ha demostrado que con un entrenamiento especial cualquier persona puede capacitarse en telepatía, yo tendré que ver su evidencia y experimentar el fenómeno por mí mismo. No es que no confíe en usted, pero se requiere que otros verifiquen su aseveración o miren fríamente los procesos que, por estar tan emocionados, fallamos al analizarlos de modo cercano. Tal vez yo encuentre una explicación alternativa de lo que sucede o señale un defecto en su procedimiento. Entonces, en el interés de la replicación, es fundamental que yo. pueda seguir su procedimiento exacto. En otras palabras, esto es un reto a la validez interna de su aparente efecto de entrenamiento. Es por ello que sus profesores son estrictos acerca de su definición de variables y se preocupan, de igual manera, porque usted registre cada detalle esencial de su pro cedimiento y la manera en que lo condujo. No son quisquillosos; lo alientan a comunicarse de manera efectiva, y lo dotan de habilidades que le ayudarán a defender su proyecto de la crítica.
REPLICACIÓN Y VALIDEZ EXTERNA Cada vez que un efecto se comprueba en muestras que no son muy diferentes de la original se tiene una prueba para conocer qué tan bien se generaliza ese efecto hacia el resto de la población de donde provino la muestra. En ocasiones intentamos replicar a través de poblaciones, para ver si el efecto es el mismo en Y que en X, por ejemplo, en directivos que en estudiantes. El estudio Milgram (1961), que citamos con anterioridad, fue una replicación en Noruega y Francia, y es un ejemplo de investigación transcultural (capítulo 10). Estos dos casos de generalización sustentan la validez externa del efecto, en términos de Campbell.
Algunos temas generales • 69
METAANÁLISIS Por desgracia, para el modelo científico de psicología al que se adhieren muchos colegas, la excepción es más que la regla para encontrar un procedimiento que “ funcione” de modo confiable cada vez que se pruebe. La investigación en el mundo de la psicología está rodeada de resultados conflictivos y áreas de controversia teórica, con frecuencia, disputados arduamente. A continuación se mencionan algunas áreas en las que, de modo literal, cientos de estudiantes se introducen y, aun sin acercamos a conclusiones defini tivas sobre las relaciones que investigan: • • • • • • •
Diferencias entre sexos y origen de las diferencias en el rol de sexos. Orígenes de la inteligencia; genético o aprendido. Posición socioeconómica y el logro educativo u ocupacional. Conformismo y su relación con otras variables de la personalidad. Disonancia cognoscitiva (y explicaciones alternativas). Desarrollo del lenguaje y la estimulación de los padres. Privación afectiva de los padres y trastorno emocional.
Gran parte del conflicto en los resultados surge del hecho de que los estudios emplean una amplia variedad de métodos, definiciones de variables, diversas muestras, etcétera. Es tradición conducir periódicamente REVISIONES BIBLIOGRÁFICAS de un área específica de investigación, tal como las citadas antes. Ejemplos de éstas las encontrará en el Annual Review o f Psychology que se publica cada año. El problema aquí es que los revisores pue den ser altamente selectivos e inclinarse de modo subjetivo hacia ciertos estudios. Pueden interpretar los resultados con su propio enfoque teórico y no considerar las características comunes en algunos de los estudios que pueden reflejar consistencias o divergencias. En otras palabras, la revisión tradicional de estudios científicos en psicología ha sido bastante acientífica. El metaanálisis es un enfoque relativamente reciente a este problema que utiliza un conjunto de técnicas estadísticas, con el fin de emplear los resultados de cientos de estudios con la misma hipótesis, como si fueran un nuevo “ conjunto de datos” . Los resultados de cada estudio se manejan como los resultados individuales de un participante en un estudio único. Los procedimientos estadísticos están más allá del objetivo de este libro, pero aquí están dos ejemplos de investigación de metaanálisis. En uno de los estudios más famosos de este tipo, Smith y Glass (1977) concluyeron cerca de 400 estudios acerca de la eficacia de la psicoterapia (¿funciona?). El hallazgo principal fue que el promedio de pacientes en terapia mostró mejoras superiores a 75% en relación con pacientes sin terapia, y que las terapias conductuales y no conductuales no mostraron diferencias significativas en sus efectos. Bom (1987) metaanalizó 189 estudios transculturales acerca de diferencias en sexos en medición de inteligencia tipo Turnstone. En general, se hallaron diferencias tradicio nales en sexos, pero éstas fueron pequeñas, encontrándose también diferencias significa tivas entre conjuntos de culturas. El metaanálisis considera el tamaño de la muestra y diversos rasgos estadísticos de los datos de cada estudio. Existen muchos argumentos sobre rasgos que se pierden en el análisis, como aquel de Presby (1978) que menciona que algunas terapias no conductuales encubiertas por Smith y Glass son mejores que otras. En general, el punto es que el metaanálisis parece ser una manera de unir y mejorar el conocimiento (la meta general de la ciencia) en un tema donde no se pueden aceptar técnicas estandarizadas y común mente aceptadas por las ciencias naturales.
70 • Métodos de investigación y estadística
(Capítulo 4)
PROCEDIMIENTOS ESTANDARIZADOS E INVESTIGACIÓN CUALITATIVA Como veremos en un momento más, existen métodos de investigación en psicología donde la exigencia de un procedimiento estandarizado rígido podría terminar con el tipo de relación que los investigadores buscan en las personas que ellos estudian o con las que trabajan. Dichos métodos tienden a sacrificar aspectos del diseño de la validez en favor de datos más ricos y realistas, un debate que ahora nos toca considerar.
DIMENSIÓNCUANTITATIVO-CUALITATIVA En el capítulo sobre variables y en el capítulo 1 introduje una aproximación tradicional al estudio científico y a la medición en la investigación psicológica. Ésta incluiría un énfasis sobre lo directa y físicamente observable, el supuesto de que las relaciones causales deben analizarse de manera lógica y el uso de métodos cuantitativos siempre que sea posible; hablando de manera coloquial, el PO SIT IV ISM O . No todos concuerdan en que éste sea el método apropiado para el estudio de seres humanos activos y no de materia inerte. Mencioné esto en forma breve al final del capítulo 1. Algunos argumentan que es posible una aproximación c u a l i t a t i v a en la investigación de los fenómenos psicológicos.
CUANTIFICACIÓN Y EXPERIENCIA CUALITATIVA “ Cuantificación” significa medir sobre una base numérica, en todo caso sólo por fre cuencia. Siempre que contamos o categorizamos nosotros, cuantificamos. Separar a las personas de acuerdo con su signo astrológico es cuantificación. De la misma manera se le da una calificación a un ensayo. Una investigación cualitativa, en contraste, enfatiza los significados, experiencias (a menudo verbalmente descritas), descripciones y así sucesivamente. Los datos en bruto serán en modo exacto lo que la gente ha dicho (en una entrevista o conversación grabada), o una descripción de lo que se haya observado. Los datos cualitativos pueden cuantificarse después en algunamedida, pero una “ aproximación cualitativa” tiende a valorar los datos como cualitativos. Es un poco como la diferencia entre contar las formas y colores de una pila de dulces, sentirlos, jugar con ellos y comerlos. O contar atardeceres en vez de contemplarlos. La diferencia entre cada uno puede ser cuantificable de alguna manera, pero tales mediciones no expresarán la importancia y especial impacto de unos respecto de otros. Por estricta definición, una variable sólo puede ser cuantitativa. Conforme cambia toma diferentes valores. Puede haber sólo dos valores, por ejemplo: varón y mujer. Un positivista argüiría que los psicólogos sólo pueden estudiar variables porque el contraste y la comparación se pueden lograr de modo único en donde hay cambio; lo que cambia es una variable y éstas tienen que ser cuantificables.
Algunos temas generales • 71
Reason y Rowan (1981) plantean con elocuencia sus objeciones en una declaración sobre lo que ellos llaman “cuantofrenia” : Hay demasiada medición. Algunas cosas que son precisas en forma numérica no son verdad; y algunas cosas que no son numéricas, son verdaderas. El investigador ortodoxo produce resultados que son significativos para la estadística, pero insignificantes para los humanos; en la investigación humana es mucho mejor estar interesado a profundidad que aburrido.
Ésta es una declaración arrasadora, que hace parecer como si toda la investigación que no utilice los métodos que el autor prefiere es “humanamente insignificante” . Mucha investigacióaposiblemente exacta y aburrida nos ha dicho mucho acerca de los procesos perceptuales, por ejemplo. Sin embargo no se habría hecho la declaración si dentro de la historia de la investigación psicológica no hubiera un exceso de énfasis en la medición objetiva y observación directa de cada concepto, de tal modo que importantes temas, no susceptibles a este tratamiento, se devaluaran. Acerca del tema de la “emoción”, poco se relaciona con el entendimiento cotidiano que se hace de ese término. Hallará extraños estudios en los que se inyectan fármacos a las personas y se les pone como un actor feliz o enojado, y estudios en los que a la gente se le da información falsa acerca de los eventos que olvidan con facilidad, tales como su ritmo cardiaco o respiratorio. Estas cosas son cuantificables, como lo son las respuestas que tales sujetos dan a los cuestionarios estructurados.
VARIACIÓN EN LOS CONTEXTOS DE INVESTIGACIÓN El debate acerca de la investigación cualitativa representa, en cierto grado, las diferencias de interés de las maneras en que la psicología se debería aplicar o practicar. Si usted está interesado en la exactitud de la percepción humana para detectar cambios de color, o en la capacidad para procesar la información sensorial que se capta a diferentes proporcio nes, entonces parece razonable conducir una investigación experimental muy controlada, y que utilice un fuerte grado de cuantificación exacta. Si su área es la psicología aplicada al ejercicio del trabajo social, los cambios de lucidez con la edad y la experiencia del duelo hacen más probable que usted encuentre métodos cualitativos y datos de mayor uso. Pero el debate también representa desacuerdos fundamentales sobre cuál es el modelo más apropiado para entender la conducta humana y, por consiguiente, la mejor manera de promover nuestro entendimiento. Investigaremos este punto en el capítulo 11. A menudo se encuentra una posición comprometida al argumentar que la recolección de datos cualitativos de modo sustancial, así como su inspección y análisis durante el estudio pueden llevar a la estimulación de nuevas introspecciones, las cuales pueden entonces investigarse más a fondo por métodos cuantitativos. Sin embargo, esto podría aún considerarse como una aproximación positivista en lo fundamental. Un viejo ejemplo de este razonamiento sucedió en cierta investigación que estudió los efectos del desempleo prolongado en Austria durante los años de 1930 (Jahoda-Lazarsfeld y Zeisl, 1932). Un pequeño, en plática informal con el experimentador, expresó el deseo de llegar a ser el jefe de una tribu india, pero agregó: “ Temo que será difícil conseguir el trabajo” . Los investigadores desarrollaron y evaluaron de manera cuantita tiva la hipótesis de que el desempleo paterno tiene un efecto limitante sobre las fantasías infantiles. Los hijos de padres desempleados mencionaron en forma significativa menos
72 • Métodos de investigación y estadística.
(Capítulo 4)
artículos caros en sus cartas navideñas, comparados con las de niños de padres con empleo. (¡Suponemos, por supuesto, que los grupos paternos fueron igualados por clase social!) Recientemente han habido ejemplos de análisis cuantitativo que precede a un diseño principal cualitativo, como cuando Reicher y Emler (1986) condujeron entrevistas cualitativas en grupos identificados originalmente a través de una encuesta cuantitativa.
CUALITATIVO <----------------------
Subjetiva* Amplia
Método c u a n t it a t iv o
----------------------►
Información
Objetiva estrecha
Validez intema Alta ------►
Baja « -----Realista Natural’
No estructurado ◄------------------------
Escenario
Diseño
Artificial
Estructurado -------------------►
Realismo
Validez de constructo Alta
Baja
Figura 4-1. Variaciones en construcción y control -estudios cualitativos y cuantitativos. Notas: * A lg u n o s d e fe n s o re s d e l m é to d o c u a lita tiv o a rg u y e n d e m a n e ra d e c id id a q u e su s m é to d o s n o in v o c a n d e m o d o n e c e s a rio u n a m a y o r s u b je tiv id a d . L o s n ú m e ro s p u e d e n u tiliz a rs e c o n su b je tiv id a d , c o m o c u a n d o lo s “ c la s ific a d o re s e n tr e n a d o s ” u tiliz a n e s c a la s d e c a lific a c ió n p a r a “ c o d if ic a r ” la c o n d u c ta o b se rv a d a . L a e x p lic a c ió n d e s c rip tiv a d e u n a p e r s o n a m a l tra ta d a p u e d e r e d a c ta rs e d e f o rm a o b je tiv a y s e p u e d e v e rific a r p e r s o n a lm e n te p a ra c o n f i r m a r s u e x a c titu d y f id e lid a d . L a s r a z o n e s m á s i m p o r ta n te s p r o p ia s d e u n a p e r s o n a p a r a r e c h a z a r el a b o rto p o d ría n c o n s id e ra rs e c o m o d a to s m á s o b je tiv o s q u e u n n ú m e ro q u e la s u b iq u e c o m o c in c o d e n tr o d e u n a e s c a la d e 0 a 3 0 p a ra c u a n tif ic a r a c titu d e s h a c ia el a b o rto . 1 L o s e s tu d io s n a tu ra lis ta s ( lo s q u e s e re a liz a n e n a m b ie n te s n a tu r a le s ) p u e d e n u tiliz a r p ro c e d im ie n to s d e re c o le c c ió n d e d a to s c u a n tific a d o s p o r c o m p le to . S in e m b a rg o , los e s tu d io s c u a lita tiv o s casi sie m p re te n d e rá n a s e r n a tu ra lista s .
Algunos temas generales • 73
VALORES RELATIVOS DE ESTUDIOS CUANTITATIVOS Y CUALITATIVOS En general, los métodos que son más herméticos y rigurosos dan pie a datos más confiables y con validez interna, efectos replicables y a un reclamo de mayor objetividad. Sin embargo, los resultados están abiertos a la crítica de proporcionar información restringida no realista, ya que se utilizan medidas que atrapan sólo una delgada porción del concepto originalmente bajo estudio. Las investigaciones más cualitativas, con controles menos rígidos y realizadas en circunstancias más cotidianas rinden resultados más ricos e información más realista. Sin embargo, con frecuencia se argumenta que tienen mayor validez ecológica aunque carezcan de validez en otro sentido (por ejemplo, interna). Los datos también pueden ser menos confiables y más subjetivos. Los métodos de control menos rígido producirán cantidades y tipos de información no predecibles que el experimentador tiene que cernir, organizar y seleccionar por orden de importancia. Tales métodos dejan más espacio para que el experimentador maniobre al interrogar a los participantes, así como al decidir qué observaciones valen más la pena, fomentando de este modo más interacción humana natural y menos pomposa, con resultados más realistas. El precio es una mayor tendencia individual y una menor comparabilidad entre los estudios. Estos estudios pueden variar en su construcción y control a través de todas las dimen siones mostradas en la figura 4-1. Como se muestra, las dimensiones cualitativo-cuantitativas tienden a correlacionarse con otras dimensiones, y es bueno tener esto presente conforme avancemos en los métodos utilizados por lo común en la investigación psicológica actual. Las aproximaciones cualitativas se integrarán en los capítulos sobre observación y planteamiento de preguntas. Otras se cubren en el capítulo 11.
GLOSARIO Efecto de captura de aten ción, experimento interesan te que compensa la artifidalidad o “características de la demanda” (capítulo 5)
realismo experimental
Análisis estadístico de múlti ples estudios con hipótesis iguales o muy similares; una versión más objetiva de la revisión bibliográfica tradi cional de todos los estudios acerca de i pecífica
metaanál
Efecto de ui e inves tigación qui leja a la vida cotidiana, pero que no se compromete de modo ne cesario con los participantes
realismo mundano
74 • Métodos de investigación y estadística
(Capítulo 4)
GLOSARIO (continuación) Creencia metodológica de que la des cripción de fenómenos que ocurren en el mundo, incluyendo experiencias hu manas y comportamiento social, se re duce a hechos observables (en el mayor de los extremos, “datos de los senti dos”) y la relación matemática entre ellos Instancia metodológica que sostiene que la información sobre eventos y experiencias hum anas pierden la mayor parte de su significado y valor para la investigación y su entendi miento, si se reducen a formas numéri cas
positivismo
enfoque cualitativo
Información obtenida que no se reduce o se expresa en forma numérica
datos cualitativos
Información obtenida que se reduce o expresa a formas numéricas
datos cuantitativos
Grado en el que se pueden repetir los hallazgos o mediciones con resultados similares
confiabilidad
Repetición de un estudio para verificar su validez
replicación
Manera de probar u obtener mediciones de los participantes que se repite con exactitud de la misma manera, cada ocasión y en todas i
procedimiento estan darizado
Grado en el que los instrumentos miden 10 que se pretende que midan; también, grado en el que una investi gación es creíble, no “contaminada”
valid e z
Grado en que la investigación se pue de generalizar a otros lugares o condi ciones, en particular, de un ambiente artificial o controlado (por ejemplo, laboratorio) o uno natural
ecológica
Grado en el que los resultados de una investigación se pueden generalizar a través de personas, lugares, momen tos y a otras mediciones de las varia bles
externa
Algunos temas generales • 75
Grado en el que el efecto encontrado 2r un estudio puede considerarse
-=ai y causado por la variable inde pendiente identificada Cualquier aspecto del diseño o mé todo de un estudio que debilita la probabilidad de que se demuestre un efecto real Medición estadística del grado en el que varían los datos
Ej e r c ic io s
1 ¿Cuál de las siguientes mediciones puede producir la mejor validez de constructo en la actitud de una persona hacia los ancianos?
a) ¿Las respuestas a un cuestionario? b) ¿Lo que le dicen a sus amigos cercanos en una conversación?
c) ¿Lo que dicen en una entrevista informal? d) ¿El número de ancianos que tienen como amigos? ¿Cuál de éstas sería la medida más confiable? 2 Piense en ejemplos donde se puedan obtener datos que sean:
a) Válidos interna, pero no externamente. b) Válidos externa, pero no internamente. c) Confiable pero no válido. 3 Dos psicólogos han terminado de manera reciente una investigación acerca de las experien cias de personas con incapacidad en el mundo de los físicamente sanos. Uno realizó entrevistas informales y buscó los puntos ilustrativos que proporcionaron los entrevistados. El otro utilizó un cuestionario preestructurado y publicó diferencias significativas en las actitudes, medidas por el cuestionario, entre los entrevistados y un grupo control de gente corporalmente sana. Construya la lista de críticas que cada uno puede hacer respecto de los resultados y procedimiento del otro. Los capítulos 8 y 9 contienen evaluaciones detalladas de estos métodos. 4 Proporcione ejemplos de experiencias humanas que sean muy difíciles de cuantificar de manera útil o significativa. ■
Método experimental I Naturaleza del método Este capítulo presenta la división general de la investigación en diseños experimentales y no experimentales. Un experimento verdadero ocurre cuando se manipula una variable y los participantes se colocan de manera aleatoria en las condiciones. Los cuasiexperimentos se dan cuando el experimentador no coloca a los participantes en las condiciones de la variable independiente que se manipula. Los no experimentos investigan variables que existen entre las personas, de manera inde pendiente a la intervención del investigador. Cualquiera de estos estudios se puede utilizar para eliminar hipótesis y, por tanto, para sustentar teorías. El experimento de laboratorio se ha considerado en forma tradicional como más poderoso en términos de control de variables, pero se le critica por su artificialidad y también en otros aspectos. Al utilizar experimentos existen muchas amenazas a la validez, como son las características
de la demanda, expectativa y procedimiento poco definido. Los humanistas argumentan la "deshumanización” de la gente en muchos experimentos de corrientes psicológicas.
E n tre la variedad de métodos y diseños de investigación populares entre los investi gadores psicológicos, hay una aguda división. Se considera a los diseños ya sea como e x p e r i m e n t a l e s o n o e x p e r i m e n t a l e s , a los segundos se les llama INVESTIGACIONES, aunque, por supuesto, los experimentos también son investigaciones, en sentido general. Esta división conceptual entre los métodos se agudiza más por el hecho de que, en varias situaciones de aprendizaje, es posible tomar un curso de grado en “ psicología experimental” . En el cuadro 5-1 se proporciona algo de terminología para estos dos grupos con alguna indicación, espero, sepa dónde ubicar ciertos métodos en la dimensión del control del investigador, el cual se debilita conforme los estudios se alejan (hacia la derecha) del experimento tradicional de laboratorio.
78 • Métodos de investigación y estadística
(Capítulo 5)
Cuadro 5-1. Terminología experimental
Notas: * E s te té rm in o se u tiliz a a lg u n a s v e c e s p a r a c u a lq u ie r o tro m é to d o q u e n o se a el e x p e rim e n ta l. L a id e a e s q u e , si n o e s ta m o s m a n ip u la n d o , n o só lo p o d e m o s e s ta r o b s e rv a n d o lo q u e o c u rre o h a o c u rrid o d e m a n e r a n a tu ra l. P o r d e s g ra c ia ,'e s fá c il c o n fu n d ir e s te a m p lio u s o c o n e l S en tid o d e o b s e rv a c ió n c o m o té c n ic a (o m é to d o ), c u a n d o d e m o d o litera l s ig n if ic a o b s e rv a r y re g is tr a r la c o n d u c ta ta l c o m o o c u rre . E s to e s d ife re n te d e, d ig a m o s, e n tre v is ta r. L a o b s e rv a c ió n , c o m o u n a té c n ic a , p u e d e e m p le a rs e e n u n e x p e rim e n to c o m p le to . + E s te té r m in o también s e p u e d e u tiliz a r p a ra d is e ñ o s n o e x p e rim e n ta le s , p e r o só lo tie n e s e n tid o h a c e rlo d o n d e lo s c a m b io s e n u n a v a r ia b le re g is tr a d a (d ig a m o s , in g re s o s ) e s té n re la c io n a d o s c o n c a m b io s e n o tr a v a ria b le (d ig a m o s, n iv e l e d u c a tiv o e s p e ra d o p a r a lo s n iñ o s). L a c o rre la c ió n s e e x p lic a e n el c a p ítu lo 18. M u c h o s e s tu d io s d e v a r ia b le s q u e e x is te n e n el m u n d o s o c ia l n o e m p le a n c o rre la c ió n e s ta d ístic a ; sin e m b a rg o , b u s c a n d ife re n c ia s s ig n ific a tiv a s e n tre lo s g ru p o s. I
É s to s s o n lo s té rm in o s a p ro p ia d o s p a r a la s h ip ó te s is . T o d a s e lla s s o n h ip ó te s is d e in v e s ti g a c ió n a l p rin c ip io , p e r o e l e x p e rim e n to g a n a e s te c a p ítu lo e sp e c ia l.
EXPERIMENTOS En los experimentos lo principal es controlar todas las variables relevantes mientras se altera de modo único la VI. Se hace un fuerte y cuidadoso intento para descartar las
Método experimental 7 • 79
variables aleatorias y eliminar los errores constantes. La razón para esto es que si se controlan todas las otras variables, sólo la VI puede ser responsable de los cambios en la VD. El razonamiento aquí no se confina a experimentos científicos, sino que se utiliza como pensamiento de “ sentido común” en muchas situaciones prácticas de la vida cotidiana. Si usted intenta averiguar qué causa interferencia en su aparato de televisión, con probabilidad tratará de apagar una pieza del equipo eléctrico a la vez, dejando las otras tal como estaban, hasta que se suspenda la interferencia. El completo control de la VI es el sello de un experimento. Como ejemplo, considere a un investigador que expone, de manera breve, palabras concretas o abstractas a los participantes, quienes tienen la tarea de reconocerlas tan pronto como sea posible. Aquí, la VI (la variable que el experimentador altera) son los conjuntos de palabras concretas o ábstractas. La VD es el tiempo que tardan en reconocer cada una. Cuando buscamos la VI en un experimento directo, es útil preguntar: “¿Cuáles fueron las diversas condiciones por las que pasaron los participantes?” Para hacer un experimento bien controlado, todas las otras variables se deben mantener constantes tanto como sea posible. Por consiguiente, el experimentador debiera asegurar que cada palabra sea exactamente del mismo tamaño, color, tipo de letra impresa, etcétera. No se debe permitir que varíe la disposición de las máquinas, la luz ambiental ni el ruido de fondo. También cada lista debiera contener palabras de clara comparación de frecuencia de ocurrencia en la lectura diaria, ya que de otra manera ésta podría actuar como variable confusa.
DISTRIBUCIÓN ALEATORIA DE PARTICIPANTES Lo más importante de todo es que cualquier diferencia posible entre las personas en las distintas condiciones de un experimento que prueba grupos separados ( “muestras inde pendientes” —véase próximo capítulo) será minimizada al colocar a los participantes de manera aleatoria en las condiciones. Ésta es la principal diferencia entre experimentos “ verdaderos” y lo que se conoce como “ cuasiexperimentos”. Esta diferencia se explica más adelante. En un experimento donde la misma gente está en cada condición (“medidas repetidas” —véase próximo capítulo), la variable de diferencias-entre-grupos se controla de modo absoluto por eliminación.
INVESTIGACIONES QUE NO SON EXPERIMENTOS En contraste con el experimento, considere el estudio del efecto de la estimulación visual temprana sobre el posterior desarrollo cognoscitivo de los niños. No podemos tomar un grupo de niños y privarlos de experiencia visual bajo condiciones controladas. (¡Si usted no está convencido, por favor lea el capítulo sobre ética ahora!) En las investigaciones no experimentales, el experimentador reúne datos a través de una variedad de métodos, pero no interviene con el fin de controlar una variable independiente. Otras formas de control bien pueden ocurrir con el propósito de aumentar la exactitud de la medición, como cuando a niños de edades específicas se Ies aplica una prueba de inteligencia muy estructurada, en un ambiente tranquilo y sin interrupciones.
La debilidad de las investigaciones no experimentales es que, puesto que el experi mentador no tiene control sobre las variables relevantes, la confusión es mucho más probable.
Suponga que se descubre que los niños privados de una buena estimulación visual en el hogar son más lentos en su desarrollo cognoscitivo. ¿Qué variables confusas (no la falta de experiencia visual en sí misma) podrían explicar el desarrollo más lento de los niños?
Yo podría pensar en dos razones: 1 Los padres que no estimulan de manera visual podrían también no hacerlo en formas que tengan un efecto importante sobre el desarrollo cognoscitivo. Por ejemplo, podrían no hablarle mucho a sus hijos. 2 La carencia de estimulación visual puede ser uno de los resultados de padres trabajadores ocupados, quienes tampoco pueden solventar buenos servicios de atención infantil. La carencia general de recursos podría afectar de alguna manera el desarrollo cognoscitivo. El diagrama que sigue muestra la diferencia esencial entre una investigación experimental y una no experimental.
Investigación no experimental Mide Mide VI VD
El control de la VI, y nuestra capacidad para eliminar tantas variables extrañas como sea posible, nos dan mayor confianza de que los cambios en lá VD se produzcan por los cambios en la VI.
ELIMINACIÓN DE HIPÓTESIS EN EL TRABAJO NO EXPERIMENTAL En un experimento podemos eliminar las explicaciones alternativas de un efecto si controlamos las variables. Incluso en donde no tenemos un nivel experimental de control, podemos eliminar posibles explicaciones. Si deseamos investigar mi explicación anterior, de que los niños que carecen de estimulación visual pueden estar careciendo de estimulación del lenguaje, podemos conducir un estudio de padres que sean pobres estimuladores visuales, pero competentes en estimulación del lenguaje. Si sus hijos se atrasan en el desarrollo cognoscitivo, entonces mi explicación tiene que ser inválida. Recuerde que en el capituló 1 señalé que la investigación científica no requiere de experimentos. Los astrónomos se desempeñaron muy bien con observaciones cuidadosas
Método experimental ! • 81
y con pruebas de hipótesis. Se ha realizado una vasta cantidad de experimentación psicológica utilizando métodos no experimentales.
DEL NO EXPERIMENTO AL EXPERIMENTO Muy a menudo, un estudio no experimental puede llevar a la realización de experimentos, con el fin de compactar el conocimiento de las variables bajo estudio. Por ejemplo, se ha hecho la observación de que los niños durante los años de preescolar tienden a cambiar s d razonamiento acerca de las “buenas” y “malas” acciones, concentrando su atención en un principio en las consecuencias objetivas del acto, más que en tomar en considera ción también la intención del actor. Esto ha llevado a intentos experimentales directos (y exitosos) para alterar el estilo de razonamiento predominante de los niños, mediante la observación de un modelo adulto que utiliza un juicio más avanzado. En muchas áreas de la investigación psicológica sólo se puede observar a los niños, pero no experimentar con ellos. Sin embargo, algunos psicólogos han realizado experi mentos con animales como sustitutos. Por ejemplo, se ha privado a los monos de sus madres y se ha sometido a muchos animales a diversas formas de castigo físico. Estos estudios acarrean problemas éticos obvios que se analizarán con detalle en el capítulo 20.
LABORATORIO La mayoría de los estudios realizados en laboratorios son experimentos, pero no todos. Es posible llevar niños al laboratorio, hada más para observar su conducta en el contexto de juego, sin someterlos a ningún cambio en alguna variable independiente.
Control Si un objetivo del experimento es reducir las variables extrañas relevantes mediante un control estricto, esto se logra mejor en un contexto de laboratorio, de modo particular, donde se requieren registros de funciones cognoscitivas humanas muy precisas (como son memoria, percepción, atención selectiva). La VI y la VD se pueden definir y medir con mucha precisión. La investigación de Bandura (1965) utilizó observación controlada para registrar cantidades y tipos de agresión mostrada por niños que habían observado que sé recom pensaba, no se recompensaba o se castigaba a un modelo adulto por la agresión. Estas ires condiciones representan la VI controlada de manera estricta en un diseño experimen tal. Cada niño fue observado en un contexto de juego idéntico con un muñeco Bobo semejante (los cuales tienen ahora mala fama). Considere las diferencias entre este contexto experimental y el escenario d e 5‘campo ’’ de quienes observan y evalúan la conducta agresiva de los niños en el patio de juego de una escuela. En el patio de recreo los niños pueden irse, cubrirse unos a otros o tal vez carecer de energía en climas fríos. Pueden querer jugar con el observador si no está escondido.
82 • Métodos de investigación y estadística
(Capítulo 5)
Bandura tuvo estricto control sobre el ritmo, la posición y el análisis de registros filmados de la conducta. Ainsworth, mencionado anteriormente, tuvo completo control en la salida de la madre y la llegada de un extraño, cuando evalúo las reacciones de los infantes a la separación en un ambiente de laboratorio, al igual que registros bastante precisos de la conducta de los infantes.
Condiciones artificiales En la ciencia física, a menudo es necesario estudiar fenómenos bajo situaciones artifi ciales y controladas por completo con el fin de eliminar las variables confusas. Sólo de esta manera sabríamos que las plumas obedecen la gravedad de la misma manera que el plomo. Sin embargo, las críticas al método de laboratorio en psicología objetan que la conducta estudiada fuera de contexto en un escenario artificial no tiene sentido, como lo veremos más adelante. Más adelante analizaremos varias críticas del experimento como método de experi mentación. Aquí listaremos algunas críticas relacionadas con el laboratorio como un foco de investigación.
CRÍTICAS AL LABORATORIO COMO UN LOCAL DE EXPERIMENTACIÓN 1 Estrechez de la VI y la VD (baja validez de constructo). La agresión medida en los experimentos de Bandura es un rango muy estrecho de lo que los niños son capaces de hacer en cuanto a modos de conducta hostil o destructiva. Bandura podría alegar que al menos esta fracción de conducta agresiva, ahora sabemos, podía modelarse. Sin embargo, Heather (1976) impugnó con persuasión: Los psicólogos han intentado comprimir el estudio de la conducta humana dentro de una situación de laboratorio, donde se vuelve irreconociblemente diferente de su manera de aparición natural.
2 Incapacidad para generalizar (validez ecológica). Un efecto confiable en el labora torio puede tener poca relación con la vida, fuera de él. El concepto de una “memoria ¡cónica” o “ almacenamiento de información visual” a corto plazo, que mantiene datos sensoriales “ en bruto” , desde los cuales podemos procesar información con rapidez, se ha considerado por psicólogos más actuales un artefacto de los experimentos específicos que produjeron evidencia para este constructo. En verdad hay mucho menos fe en la actualidad en la idea de que los experimentos con ratas, pichones, o incluso con chimpancés, pueden decimos mucho acerca de la con ducta humana compleja. 3 Artificialidad. Un laboratorio es un lugar, intimidante y quizá incluso amenazador. La gente puede ser dócil de manera indebida, y sobreimpresionarse por lo que la rodea. Si el experimentador mezcla este sentimiento al apegarse de manera rígida a un procedimiento estandarizado, recitando un conjunto formal de instrucciones sin gesticulaciones de interacción normal, como sonrisas y comentarios útiles, es poco probable que el participante (llamado hasta hace poco “ sujeto”) se sienta “ en casa” y se comporte de manera representativa de su conducta normal diaria.
Método experimental I • 83
ALGO DE DEFENSA En defensa del laboratorio se puede decir que: 1 En el estudio de procesos cerebrales o del desempeño humano, la detección de estímulos y demás no sólo importa poco la artificialidad del laboratorio; es el único lugar donde se pueden realizar mediciones altamente técnicas y precisas. Si estudiamos el cuidado humano para detectar blancos del tiro, por ejemplo, ¿importa si se hace en el ambiente artificial del laboratorio, o el de la misma manera técnico y artificial ambiente de un centro de monitoreo dé radar, en donde los resultados de la experimentación se aplicarán con utilidad? Si deseamos descubrir qué tan finas son las discriminaciones visuales de los recién nacidos, se puede hacer con equipo especial y el control de un laboratorio. El lactante de dos semanas de edad con dificultad sabe o le importa si está en casa o no. 2 Los físicos no hubieran podido dividir los átomos en el ambiente natural, ni observar la conducta en el vacío. Los psicólogos han descubierto efectos en el laboratorio, los cuales, además de ser interesantes en sí mismos, produjeron aplicaciones prácticas. Sin el laboratorio no hubiéramos conocido de las diferencias en la función hemisférica, el fenómeno de la resistencia perceptual o los niveles extremos posibles de obediencia a la autoridad. En cada caso, se ha debatido con amplitud la interpretación apropiada de los resultados, pero los fenómenos mismos han sido valiosos en términos de introspec ción humana e investigaciones posteriores. 3 Por lo general, es más fácil repetir en investigación realizada bajo condiciones de laboratorio, una característica muy valiosa para los defensores del método experimen tal (capítulo 4). 4 Algunos efectos seguramente eran más fuertes fuera del laboratorio, y no sólo creados de modo artificial dentro de él. Por ejemplo, en el famoso estudio de Miligram acerca de la obediencia (capítulo 26), los participantes eran libres de abandonar el estudio en cualquier momento, aunque, en la vida real, existieran inmensas presiones sociales, así como la posibilidad de sufrir sanciones dolorosas si alguno desobedecía las reglas. Así que podría esperarse que los efectos de obediencia de Milgram operaran aún con más fuerza en la vida real, que lo ilustrado de modo dramático por él en su laboratorio.
EXPERIMENTOS DECAMPO La alternativa obvia a los experimentos de laboratorio es conducir nuestra investigación en “ el campo” . Un experimento de campo es un estudio realizado en el ambiente natural de quienes están bajo estudio, quizás la escuela, el hospital o la calle, mientras el experimentador manipula la VI. Bien pueden mantenerse controladas de manera estrecha otras variables pero, en general, el experimentador no puede mantener el gran nivel de control asociado con el laboratorio. Además de sus notorios estudios de laboratorio sobre obediencia, Milgram también pidió en el metro a las personas que cedieran sus asientos (sí, él lo hizo, no sólo sus estudiantes de investigación). Piliavin y colaboradores (1969) hicieron que sus estudian tes fingieran colapsos en el metro de Nueva York, ya fuera cargando un bastón o que parecieran borrachos (la VI). La VD fue el número de veces que recibieron ayuda en 70
84 • Métodos de investigación y estadística
(Capítulo 5)
segundos. Observe que no se controlaron muchas variables extrañas, de modo especial, el número de personas presentes en el vagón del metro. Los aspectos éticos también son interesantes — imagínese que usted llega tarde a una cita por ofrecer su ayuda. Este aspecto de participación involuntaria se analizará en el capítulo 26. Se acostumbraba pensar que el laboratorio debería ser el punto de partida para la investigación de patrones de conducta y del eslabón VI-VD. Los efectos de tales estudios podrían entonces ensayarse en “el campo” . La comparación se hizo con los físicos que captaron la electricidad en el laboratorio y la pusieron a trabajar para el beneficiario humano en la comunidad. En los últimos decenios, muchos psicólogos se han desapegado del laboratorio como lo apropiado para la investigación psicológica, y se han concentrado más en los resultados de “ campo” por derecho propio. Dos ejemplos de experimentos de campo son: 1 Un elegante diseño de Friedrich y Stein (1973) abarcó la observación de niños de guardería para obtener una línea base de conducta cooperativa y amigable para cada niño. Después, de manera aleatoria, se asignó a los niños a dos grupos. Durante un mes, a intervalos regulares, un grupo vio programas de televisión “prosociales” , mientras que el otro grupo (control) vio películas neutrales de circos y actividad de granjas. Se observó a los niños de nuevo al final del periodo, y hubo un aumento significativo en la cooperatividad y el efecto dirigido hacia sus compañeros para el grupo experimental. 2 Ganster y colaboradores (1982) distribuyeron de manera aleatoria a 79 empleados del servicio público, en un grupo de tratamiento y en uno control. El “tratamiento” incluyó sesiones de entrenamiento para el manejo del estrés y, al final, este grupo mostró niveles relativamente inferiores de secreción de adrenalina, depresión y ansiedad. Los efectos, a pesar de ser pequeños, continuaron estando presentes cerca de cuatro meses después. Posteriormente, el grupo control recibió el mismo entrenamiento. Observe la distribución aleatoria de los grupos de “tratamiento” y control en ambos experimentos de campo.
VENTAJAS Y DESVENTAJAS DEL EXPERIMENTO DE CAMPO Mediante el estudio de los efectos en el ambiente natural, el experimento de campo evita las críticas de que los resultados no puedan generalizarse a la situación real; aunque, por supuesto, uno no puede generalizar las situaciones reales, que con notoriedad son diferentes de este ambiente de campo en particular. Por consiguiente, el experimento de campo tiene validez ecológica, aunque el control, y en consecuencia la validez interna, sean por lo general débiles. En muchos casos, los participantes no están conscientes de que están involucrados en un experimento hasta que se registran los efectos. El grado en el cual conozcan los objetivos del experimento determina hasta qué punto se puede dudar de la predisposición de los participantes y de los efectos que tienen las “ características de las demandas” (véase más adelante). Incluso alguna distorsión causada por este conocimiento no implicará la aprensión y artificialidad del laboratorio. El experimento de campo puede ser más caro y consumir más tiempo. El experimen tador puede requerir habilidades de tacto y persuasión, que no se necesitan en el
Método experimental I • 85
laboratorio, al tratar con aquellos que necesita convencer de que la experimentación es necesaria y, en el arreglo de los detalles del diseño, que asegurará resultados válidos mientras retiene la cooperación con el personal, como son el maestro o el empleado del hospital. La principal desventaja, sin embargo, está en la falta de control que puede ejercer el experimentador sobre las variables extrañas, sobre la estricta manipulación de la VI y sobre una cuidadosa y exacta medición de la VD. Todas ellas son vulnerables a una fluctuación bastante mayor en el ambiente de campo que en el laboratorio.
CUASIEXPERIMENTOS Algunos estudios no requieren calificar como experimentos verdaderos. Recuerde que el experimentador tiene que hacer el intento de controlar todas las posibles variables confusas y “ ruidosas”, con el propósito de que los cambios en la VD se puedan atribuir con toda confianza a la manipulación de la VI. Esto incluye la colocación aleatoria de los sujetos en los grupos control y experimental, puesto que, de otro modo, las diferencias en la VD podrían atribuirse a las que existan entre los grupos de sujetos. Analizaremos este asunto con más detalle en el capítulo 6, Diseños experimentales. El término “ cuasiexperimento” se da a los estudios donde se aplican procedimien tos experimentales, pero en los que no es posible la distribución aleatoria de las condiciones. Un ejemplo es el diseñopretest/tratamiento/postest. Se puede evaluar a un grupo de personas con dislexia asistente a un centro antes de la ejecución de un nuevo programa de en trenamiento, y evaluarlos otra vez después de que éste se haya completado. Para eliminar la posibilidad de que el “grupo de tratamiento” pudiera haber mejorado de cualquier modo sin el programa, un diseño más completo incluirá un grupo control. Éste podría formarse con otras personas con dislexia que asisten al centro un día diferente o provenientes de otro centro. Sin embargo, este diseño utiliza un “ grupo control no equivalente” . Este grupo podría dejar de mejorar, no por no recibir el “tratamiento”, sino porque su centro carece de algunas otras variables asociadas con las del centro del “grupo de tratamiento” . No puede descartarse la confusión. Observe que si al experimentador le ha sido posible utilizar personas en un centro, y colocarlas de manera aleatoria en los grupos de control y experimental, entonces el estudio habrá alcanzado un pleno estatus experimental.
EXPERIMENTOS NATURALES Hay ocasiones que los psicólogos pueden explorar, cuando está por ocurrir un evento natural, para propósitos de investigación. Por ejemplo, un profesor titular puede estar a punto de introducir el enfoque del “aprendizaje por descubrimiento” en una clase escolar para niños. El régimen en un pabellón de hospital psiquiátrico puede cambiar a un énfasis hacia la autonomía de los pacientes, a quienes las enfermeras guíen y entrenen, en vez de cuidarlos y custodiarlos. En ambos casos habrá un grupo control que transcurra de manera natural: un grupo similar que no experimenta el cambio, con el que se pueden comparar los cambios de conducta. Sin embargo, la VI no está del todo controlada por el experimentador. Es un “ cuasiexperimento” , puesto que no es posible el control sobre todas las ventajas del sujeto.
86 • Métodos de investigación y estadística
(Capitulo 5)
La ventaja aquí es que los participantes no están conscientes de que toman parte en un “ experimento”, aunque todavía puede haber distorsión de la conducta normal como una respuesta a los cambios de la vida real y la novedad por la que están pasando. Sin embargo, no se puede culpar al investigador por interferir, aunque quizá su presencia tenga algunos efectos no deseados.
INVESTIGACIÓN EX POST FACTO Muchos estudios de los que se informa en las revistas de psicología son aquellos donde se buscan diferencias existentes entre grupos de personas, y en donde el investigador no manipula la VI. Como mencionamos en el capítulo 1, es legítimo sostener una teoría, producir hipótesis de ella y verificarlas a través de mediciones. Los estudios de Rutter (1971), Penny y Robinson (1986) mencionados allí son ejemplos de esto. Se asume que la VI ocurre de manera natural al operar. De cierto modo, buscamos “ después del hecho” (post facto) para relacionar nuestra(s) variable(s) dependiente(s) medida(s) con la vari able independiente. , Un investigador podría registrar las diferencias en reacción a un ejercicio de pintar con los dedos entre niños de clase trabajadora y clase media. Se podría evaluar a varones y mujeres para buscar diferencias en la capacidad verbal. En casos como éstos, se argumenta, la VI es la clase o género y el investigador no puede asegurar haberlas controlado, puesto que las personas estudiadas fueron socializadas a través de sus vidas con anterioridad a la prueba. El sexo, clase, años de educación, etcétera, son variables sobre las cuales el inves tigador no puede tener influencia. El problema es que, debido a que la IV se confunde con tantas otras variables, no podemos establecer que sea la causa de los cambios en la VD. Podemos utilizar técnicas como la igualación y selección aleatoria de los sujetos de las poblaciones apropiadas, con el fin de tratar de eliminar algunas variables confusas, pero hay demasiadas de ellas para alguna vez establecer sin ambigüedad que una diferencia es el resultado del sexo o de la diferencia de clases.
CRÍTICASALEXPERIMENTO Muchas críticas al método experimental conllevan la suposición implícita de que el experimento se realiza en el laboratorio. Y a hemos considerado las ventajas y desventajas de la investigación de laboratorio. Las siguientes críticas, por tanto, se aplican al experimento como diseño, de manera independiente a dónde se realice, aunque algunas tienen más peso cuando se aplican al experimento de laboratorio.
D esd e
dentro de la tr a d ic ió n de In vestig ació n experim ental
Incluso aquellos que favorecen con fuerza el uso del método experimental se han dado cuenta de que hay muchas trampas implicadas cuando se realizan experimentos, algunas no son obvias y algunas veces han atraído nuestra atención por demostraciones sobresalientes.
Método experimental 1 • 87
Barber (1976) ha documentado muchas de estas trampas y las categoriza dentro de los siguientes grupos: 1 2 3 4 5 6 7 8 9 10
Efecto del paradigma del investigador. Efecto del diseño experimental del investigador. Efecto del procedimiento indefinido del investigador. Efecto del análisis de datos hecho por el investigador. Efecto de embuste del investigador. Efecto de los atributos personales del investigador. Efecto de falla del investigador al seguir el procedimiento. Efecto de errores del experimentador en el registro. Efecto de embuste del experimentador. ' Efecto de expectativa no intencional del experimentador.
La mayoría de éstas hablan por sí mismas y varias podrían aplicarse a los estudios no experimentales. El “investigador” es la persona con control global de la investigación, mientras que el “ experimentador” es quien lleva a cabo el procedimiento con cada participante, a menudo como un estudiante de investigación o un empleado a sueldo. Los experimentadores pueden falsear los resultados porque están contratados para la tarea y desean “cumplir”, o porque se les comparará con otros, con el fin de evaluar la CONFIABILIDAD DEL experim entador ; es decir, el grado en el que los resultados de dos experimentadores concuerdan. Pueden registrar de manera equivocada o fallar al seguir el procedimiento, porque el investigador ha diseñado un procedimiento inexacto. Los atributos personales de los experimentadores (simpatía, sexo, etcétera) bien pueden afectar la conducta del participante. El diseño que usa un experimentador, o sus propios paradigmas “psicológicos” (hablando con aspereza, sus perspectivas teóricas), bien pueden producir resultados diferentes de los de otros diseños. El peor embuste de investigador de que se tenga memoria en la historia de la psicología lo realizó Sir Cyril Burt, tal como lo documenta León Kamin (1977).
EXPECTATIVA DEL EXPERIMENTADOR Puesto que los experimentos en psicología los realizan seres humanos con seres humanos, se ha argumentado que la interacción social necesaria que debe ocurrir entre experimen tador y participante hace al experimento psicológico diferente de cualquier otro. ¿Es posible que el experimentador pudiera sin intención “revelarle el plan secreto” al participante? Este es el punto 10 de Barber. Rosenthal (1966) demostró que los estudiantes a quienes se les dieron grupos de ratas “ inteligentes” y “torpes” (que en realidad se mezclaron de manera aleatoria en cuanto a la habilidad para aprender laberintos) produjeron resultados consistentes con la etiqueta de sus ratas. Esto se utilizó en forma original, para mostrar que las expectativas del experimentador pueden incluso afectar la conducta de las ratas de laboratorio. Sin embargo, Barber argumenta que los resultados se debieron casi con certeza a otros efectos de su lista de diez errores arriba mencionada, como la desviación del procedimiento. Cuarenta experimentos realizados entre 1968 y 1976 no pudieron dar evidencia de que los experimentadores llegaran a una decisión sobre la influencia que los investi gadores trataban de producir. Sin embargo, algunos estudios han demostrado que los experimentadores pueden afectar las respuestas de los participantes, a través de señales
88 • Métodos de investigación y estadística
(Capítulo 5)
faciales o verbales, y que ciertos participantes tienen mayor probabilidad que otros de responder a la influencia del experimentador, de modo particular aquellos con mucha necesidad de aprobación.
CARACTERÍSTICAS DE LA DEMANDA Si la influencia del experimentador afecta a los participantes que necesitan aprobación, entonces esto sugiere que ellos quizá quieren “ complacer al experimentador” dando el resultado “ correcto” . Para hacer esto, primero tendrían que saber qué es lo que se requiere. Orne (1962) argumentó que existen muchas señales en una situación experimental, que dan a los participantes una idea de lo que se trata el estudio, qué conducta se está analizando y tal vez hasta qué cambios se esperan o se requieren de ellos. A estas señales que pueden revelar la hipótesis experimental Orne las denominó características de LA DEMANDA. Aronson pensó que el “realismo experimental”, que mencionamos en el capítulo anterior, disminuía el posible efecto de las características de la demanda, debido a que la atención de los participantes estaba por completo absorta por el interés en el procedimiento.
Reacciones de los participantes Los participantes pueden reaccionar de distinta manera a las características de la deman da. Se pueden involucrar en lo que se ha denominado complacer a l experimentador . De hecho, Weber y Cook (1972) encontraron poca evidencia de que los participantes sí tratan de responder como ellos piensan que el experimentador podría desearlo. Masling (1966) ha sugerido incluso que el conocer los objetivos experimentales puede alterar la conducta y alejarla de la expectativa —el efecto de “ahora te fastidias” . La investigación sugiere, sin embargo, que la mayoría de los participantes trata de parecer normal y competente, puesto que les interesa el juicio que se hará de su conducta. Esto bien puede influir en ellos para que se comporten tan natural como sea posible, y así demostrar que ellos no pueden ser influidos. El recelo hacia la evaluación puede ocurrir cuando los participantes están preocupados por lo que el investigador pueda encontrar acerca de ellos, y esta ansiedad puede afectar los resultados. Algunos pueden intentar “verse bien” . A esto se le conoce como d eseabilidad SOCIAL. Otros tan sólo no se concentran en la tarea en cuestión. Un pro blema adicional, llamado en ocasiones “ilustración”, es el creciente interés de los estudiantes de psicología (que en su mayoría son también participantes) y del público en general sobre hallazgos de las investigaciones psicológicas, aun si éstos son poco comprensibles.
ESTUDIOS REACTIVOS Y NO REACTIVOS Debemos enfatizar que cualquier estudio de investigación, sea experimento o no, en tanto los participantes conozcan los objetivos de la investigación, se puede ver afectado por alguna de las variables que acabamos de describir, tal vez la “deseabilidad social” en particular. Tales estudios utilizan lo que se llama diseño reactivo (o emplean una “ medida reactiva”), ya que se espera que el participante reaccione a ser estudiado. Se puede argumentar que la cercanía del investigador y el entorno atemorizante producen más distorsión en las medidas reactivas dentro del experimento tradicional de laboratorio.
Método experimental / • 89
Cuadro 5-2. ¿Qué son los experimentos? E le m ento com ún:
el experimentador mani pula la variable indepen diente
Se conduce en el labora torio Distribución aleatoria de los participantes a las condiciones
N atural
Cuasiexperimento don de el investigador apro vecha la ocurrencia natu ral de la VI que será aplicada
Confiabilidad y expecta tiva del experimentador/ investigador, expectativa del participante, adivi nar, deseabilidad social, deseo de complacer, hostilidad, establecer libertad de control
D e cam p o
C uasi
Se conduce en ambien tes de campo; Distribución aleatoria de los participantes a las condiciones
Casi siempre se conduce en ambientes de campo. Los participantes no se distribuyen de manera aleatoria a las condicio nes y, con frecuencia, la selección es automática porque una VI es la dife rencia entre grupos (por e je m p lo , fu m a d o r/n o fumador)
Investigación ex p o s t fa c to No se manipula la varia ble independiente
La variable independien te ocurre de manera na tural; se buscan diferen cias entre las personas que difieren de un modo especial, por ejemplo, neurótico/no neurótico; a u to e stim a a lta /b a ja ; fumador/no fumador
El exp erim entador/investigador conoce los re sultados esperados, los participantes pueden res ponder a cualquier señal que se les dé, los partici pantes pueden obtener información de las carac terísticas de la demanda, están motivados a distor sionar la conducta o es tán atentos a los hallaz gos en psicología
90 • Métodos de investigación y estadística
(Capítulo 5)
ELIMINACIÓNDEINFLUENCIAS: CIEGOSYDOBLESCIEGOS Los investigadores por lo común no quieren que los participantes conozcan el objetivo del experimento. Podría tener que usarse el engaño para mantenerlos en la ignorancia y las implicaciones morales de esto se analizan en el capítulo sobre ética. Mantener a los parti cipantes en el desconocimiento se le llama el empleo de un procedimiento “de un solo ciego” . Pero se arguye que los experimentadores pueden transmitir señales. Por consiguiente, tiene sentido también hacer lo mismo con los experimentadores. El empleo de un procedimiento de “doble ciego” hace justo eso a los experimentadores, o a aquellos que recogen los resultados
Cuadro 5-3. Comparación entre experimentos de laboratorio y de campo E x p e rim e n to d e c a m p o
E xp erim en to d e lab o rato rio P U N T O D E C O M P A R A C IÓ N
Natural Controlada Aleatoria
Ambiente Variable independiente Distribución de par ticipantes a condiciones
Artificial Controlada Aleatoria
Participantes pueden no tener conocimiento de es tudio (de ser asi, no pue den adivinar el diseño ni intentar verse bien, et cétera)
C o n o c im ien to de los objetivos por los participantes
Participantes (excepto niños muy pequeños) deben percatarse de que están en un experimento (aunque no del diseño en especial)
Débil
Control de variables ex trañas Realismo Replicación Inversión y tiempo Generalización (validez ecológica)
Rígido Bajo Fácil Normalmente bajos A la vida real — normalmente muy débil
Alto Difícil Normalmente altos A ambiente de campo reales-bueno A otros ambientes de la vida real — tal vez débil Tal vez no se pueda llevar a la situación de campo Más confusión debido a la necesidad del investid gador de trabajar con personal de ambientes rlf» ra m n n v rtire rfivn s
Ambiénte más propenso a generar recelo, cautela ante entornos extraños, etcétera
Método experimental / • 91
sr L?1! » directa de los participantes, no se les dicen los verdaderos objetivos experimen t e . 7 m d o se emplea un grupo placebo, por ejemplo, ni los participantes ni quienes TgrT grr* los datos saben quién ha recibido el tratamiento real.
« S íé e n e l capítulo 1 que las personas implicadas en los experimentos de psicología se t " a n a “ sujetos” , aunque esto está cambiando ahora. Los psicólogos humanistas r u c a 1- que éste es un reflejo de la actitud de los experimentalistas hacia los seres y la investigación con éstos. Implica que el investigador sostiene, quizá amachamente, un modelo “mecanicista” de los seres humanos. Heather (1976) ha H2 =TCo que “Los psicólogos siguen considerando a los seres humanos como una clase as resamparados muñecos con mecanismo de relojería, movidos súbitamente a la vida r e erando algo les pasa.” Hampden-Tumer (1971) afirma “ . . .el poder sobre las se sm as en un laboratorio sólo puede llevar. .. a una tecnología del control conductual” . 3e eren entra por lo regular a estos detractores del método experimental, dentro del "aerp o ” de la investigación cualitativa, ya presentada y analizada con más amplitud en n zzrrtulo 11. Existe, por supuesto, una posición mixta expresada por Baars (1980): “ Sin hechos •«m ales, la investigación experimental puede tomarse estrecha y ciega; pero sin la irresdgación experimental, el enfoque naturalista corre el riesgo de ser superficial e m rerío.”
Procedimiento en un experi mento donde ni los participan tes ni el recolector de datos (experimentador o asistentes) conocen el “tratamiento” que re cibieron los participantes Preocupación de los “partici pantes” por ser evaluados, lo que puede afectar los resul tados
recelo hacia la eva luación
92 • Métodos de investigación y estadística.. .
(Capitulo 5)
Estudio donde se manipula la varia ble independiente Experimento que se conduce en un ambiente natural, fuera del labora torio
experimento de cam po
Experimento que se lleva a cabo bajo condiciones controladas en el hábitat propio del experimentador
experimento de labo ratorio
Experim ento que aprovecha la ocurrencia de una variable inde pendiente que se presenta de ma nera natural
experimento natural
Experimento donde el experimen tador no tiene control sobre la dis tribución de los participantes a las
Parte de averiguación indagatoria experimental o no experimental
investigación
Estudio donde las personas no se percatan de que son parte de un estudio
estudio no reactivo
Investigación que únicamente mide las características de cómo es la gente o se comporta, pero sin inter venir o (de manera más estrecha), averiguar, donde la principal técnica de recopilación incluye la obser vación directa del comportamiento tal y como ocurre, lo categoriza y mide
estudio observacional
Método experimental I • 93
GLOSARIO (continuación) Tendencia de los participantes a actuar en concordancia con lo que creen que el experimentador desea
complacer al expe rimentador
Estudio donde se requiere que los participantes respondan de cierta manera; por tanto, están conscien tes de ser sujetos de evaluación
estudio reactivo
En una investigación, tendencia de los participantes a "verse bien" y proporcionar respuestas sociales aceptables
deseabilidad social
Procedimiento en un experimento donde los participantes descono cen el "tratamiento” que reciben
un solo ciego
Ej e r
c ic io s
1 Mencione si los siguientes son experimentos de laboratorio, naturales, de campo, si son cuasiexperimentos o experimentos verdaderos o si son estudios ex p o s t facto: a) Una escalera colocada contra una pared de la calle para ver si más varones o mujeres la evitan. b) Bajo condiciones de laboratorio, se observa a muchachos sin hermanos y a muchachos con dos hermanos, para ver cuál grupo exhibe mayor agresión. c) Un investigador, vestido ya sea de manera informal o elegante, se aproxima a los pasajeros de una estación para preguntarles direcciones. El objetivo es ver si la vestimenta elegante provoca mayor ayuda. d) Bajo condiciones de laboratorio, se le pide a la gente que haga un discurso contrario a su propio punto de vista, primero solos y luego enfrente de otros. e) El estudio descrito en (b) se amplía. Se frustra a un grupo de muchachos y después se les observa de nuevo para evaluar el nivel de agresión. f) Medido en el laboratorio, se compara el nivel de tolerancia al dolor, de drogadictos con un grupo control. g) Los investigadores visitan varias jerarquías de trabajadores en su lugar de empleo y se les aplica un cuestionario sobre su actitud hacia la autoridad. Se piensa que los mejores pagados expresarán mayor respeto por ésta. h) Uno de dos asilos de ancianos muy similares pasa del control gubernamental al privado. Utilizando entrevistas informales, se compara la satisfacción laboral de los trabajadores en cada uno durante el siguiente año. i) Los niños de una clase en la escuela reciben un ensayo de seis meses de un nuevo programa experimental de lectura, que emplea un enfoque de multimedia. Una segunda clase de niños reciben especial atejición en la lectura, pero no el nuevo programa. Se comparan los adelantos.
94 • Métodos de investigación y estadística
(Capítulo 5)
2 De los diseños descritos en 1:
a)
¿Cuáles tienen poca probabilidad de verse afectados por las características de las demandas? b) ¿Cuáles podrían implicar procedimientos más inexactos? c) ¿Cuáles están sujetos a prejuicios del experimentador? d) ¿En cuáles se podrían emplear procedimientos de un solo “ciego"? 3 Usted discute con un colega dos métodos para medir el “conformismo”. Uno implica registrar qué tan a menudo la gente contestará una pregunta sencilla de manera equivocada cuando varias personas más en el cuarto ya han contestado de forma equivocada (estudio de laboratorio). La otra implica que al detener en la calle a las personas que se hayan pasado un alto o tirado basura hacer que acepten un pequeño cuestionario y lo contesten (estudio de campo). Encuentre argumentos en pro y en contra de cada propuesta, espero que pueda pensar al menos en tres a favor y tres en contra para cada propuesta. Las páginas 80 a la 85 de este capítulo le proporcionarán la información general que usted necesite. ■
Método experimental II Diseños experimentales Este capítulo presenta los diseños experimentales básicos que se pueden emplear para la investi gación en psicología, así como sus fortalezas y debilidades. Se analizan los siguientes puntos principales:
Diseño experimental
Debilidades
Medidas repetidas Muestras independientes
Efectos de orden Variables del participante (sujeto)
Pares igualados
Problemas con la igualación
Un solo participante (sujeto)
Falta de generalización
Soluciones Contrabalanceo; aleatorización Distribución aleatoria a las condi ciones; preevaluación; distribu ción representativa Igualación limitada a lo que es relevante Utilícese cuando la generalización no sea un criterio importante
Julia: En realidad me enfurece. Me encuentro muy a gusto, en control completo; entonces llega Susi y hago cosas estúpidas, como chocar con el equipo y atascarme. Pedro: ¿Sí? Julia: ¡En verdad! Estoy segura de que la gente se comporta peor cuando alguien importante la observa. Pedro: Bueno, yo no. Yo actúo mejor cuando Nikki anda cerca. Julia: Quizá dependa de cómo eres. Quizá los extravertidos (o de cualquier forma que se les llame) actúan mejor y los introvertidos peor. Me pregunto si las personas que se encuentran en medio no se ven afectadas. (¡Julia continuó sus estudios, para terminar el bachillerato en el área de psicología y conseguir su título!) S upongam os que decidimos verificar la primera hipótesis de Julia. Predice que la gente realizará peor las tareas sensoriomotoras ante la presencia de una audiencia. Es tablezcamos un experimento de laboratorio. 95
96 • Métodos de investigación y estadística..
(Capítulo 6 ’
Necesitamos hacerlo operacional. Necesitamos: una tarea sensoriomotriz una audiencia una medida de desempeño Podríamos pedirle a la gente que mueva un anillo metálico a lo largo de esos artefactos que se ven en las ferias de pueblo, con alambres que se menean con rapidez. Deben evi tar que el alambre toque el anillo mientras lo mueven. Si lo tocan, suena un zumbador y se registra un error, ésta es nuestra medida de desempeño mediante la cual podemos evaluar de modo cuantitativo “el progreso” . Entonces, podemos definir nuestra VD como el número de errores registrados. Supongamos que se realiza el experimento con todos, haciendo la prueba primero en la condición A, enfrente de una audiciencia de doce observadores. En la segunda condición (B) ejecutan la tarea solos en un cuarto silencioso a prueba de ruido. Supongamos, también, que de modo significativo encontramos menos errores en la segunda condición.
DISEÑODEMEDICIONES REPETIDAS El diseño experimental antes señalado se conoce como MEDIDAS repetidas en el lenguaje de los diseños experimentales. La medición (hacer la prueba del cable que se mueve) se repite con cada persona bajo las diferentes condiciones de la VI. Si los sujetos son los mismos para ambas condiciones y se controlan todas las otras variables, asumimos que cualquier diferencia (aunque podríamos equivocamos) debe ser efecto de la VI. Sólo para confirmar, ¿cuál es la variable independiente en el experimento descrito antes? Bien, la recomendación en la última sección fue buscar las condiciones que variaron. En este caso, entonces, la VI debe ser la variación entre las condiciones: presencia o no de una audiencia.
DISEÑOS RELACIONADOS El diseño de mediciones repetidas es uno de un grupo conocido como DISEÑOS RE LACIONADOS —(cuadro 6-1)—, “relacionados” porque, cuando se presentan los resul tados, el valor en una condición se relaciona en forma directa con un valor en otra.
Método experimental II • 97
Lo que hacemos en diseños relacionados es responder la posible crítica de que cualquier diferencia encontrada es causada por diferencias entre las personas de nuestros dos grupos. En lugar de utilizar un grupo control para comparar los resultados del experi mento, empleamos a las mismas personas como su propio control, para que cualquier diferencia entre las condiciones no pueda deberse a que las personas, en ellas, son di ferentes entre sí. Por esta razón, al diseño de mediciones repetidas se le denomina, con frecuencia, diseño “ intrasujetos” o “ intragrupos” , ya que las diferencias entre los participantes se han eliminado como fuente de diferencia, y las diferencias entre las con diciones se deben a que las mismas personas difirieron en las dos circunstancias.
[NOSOTROS LO PROBAMOS, PEDRO! Suponga que informamos de nuestros resultados a Pedro. No se impresiona. Dice: “Bueno, de la manera en que lo hiciste, no me sorprende que lo hicieran mejor en la segunda condición” . ¿Qué tiene en mente? ¿Qué ha descubierto? ¿Qué podría dar cuenta dél progreso de las personas en la condición B, además de la presencia de la audiencia?
EFECTOS DE ORDEN Es probable que usted se dé cuenta de que hay una posible variable confusa trabajando aquí. Las personas pudieron mejorar en la segunda condición porque han tenido alguna práctica (y pueden estar menos ansiosos respecto a aprender una nueva tarea). Si se hubieran desempeñado pero en la segunda ronda, esto podría haber sido porque se de sanimaron a causa de las fallas, el aburrimiento o la fatiga. El error constante causado por el orden en el que los sujetos participan en las condiciones se conoce com o EFECTO DE ORDEN. Ésta es una de las mayores desventajas de un diseño de m ediciones repetidas.
¿Puede usted hacer una lista de algunas soluciones a este problema? ¿Cómo puede un investigador diseñar un experimento que evite la contaminación de los efectos de orden?
MANEJO DE LOS EFECTOS DE ORDEN 1 Contrabalancear Si todas las ejecuciones de los participantes en la condición B pudieran mejorar debido a la experiencia en la condición A, tiene sentido hacer que la mitad de ellos realice la condición B primero. Esto se conoce como CONTRABALANCEAR las condiciones. ¿En verdad elim inaría esto el efecto de orden? No, no lo haría. La práctica, si es efectiva, todavía producirá el aumento, pero esto aumentará la mitad de las puntuaciones en
98 • Métodos de investigación y estadística
(Capítulo 6)
la condición A y la mitad en la condición B. Por consiguiente, los aumentos se cancelarían uno al otro por completo. Suponga que cada persona mejora haciendo cinco errores menos en promedio en la segunda condición. Podríamos imaginar que lo que sucede es lo que se muestra en la figura 6-1. Cuando los participantes toman primero la condición con audiencia, la reducción tota/ de /a condición A a la condición B, mostrada más adelante como X , contiene un componente adicional (d), que es el resultado de la práctica (lo que suponemos aquí). Cuando los participantes toman primero la condición sola, la reducción de la práctica causa toda la diferencia en este orden de condiciones, siendo menor de lo que debiera si sólo la VI tuviera efecto. Así que, la condición A, seguida de la condición B, muestra un efecto exagerado, mientras que la condición B, seguida por la condición A, muestra un efecto ó\smvvcv\i\óo.'Sb'vcv , fcs\as óos. óáoecv cams&VHcseTtKáoasNecte, ta ra n to , eso creemos, sólo el efecto real de la VI como la diferencia global. Esto se debe a que las dos diferencias observadas (pero distorsionadas), X y Y, son iguales en lo que creemos debiera ocurrir sin el efecto de práctica. Estas dos diferencias hipotéticas son X - d y Y + d. Sumando tenemos: (X - d) + (Y + d) = X + Y.
Condiciones tomadas en el orden AB
O) O Q> O) "O O ~o
2 CL
2 O) E •3
z
Figura 6 -1 . Contrabalanceo.
Condiciones tomadas en el orden BA
Método experimental II • 99
¡Precaución en pruebas y exámenes! Es fácil engañarse pensando que, porque el diseño incluye la separación de los participantes en dos grupos, tenemos un diseño de «oestras independientes (véase más adelante). La separación es sólo con fines de con trabalanceo. Para cada participante aún tenemos un par de puntuaciones que, por ello, se relacionan: una para cada condición. Cada participante continúa tomando ambas condi ciones. EFECTOS de ORDEN ASIMÉTRICOS. Este buen arreglo de contrabalanceo puede no resultar si el efecto de la práctica que ocurre en el orden A -B no es equivalente al pro ducido en el orden B-A.
Por ejemplo, suponga que en la condición sin audiencia es posible concentrarse en el progreso, y que esto se transfiere a la condición con audiencia. Sin embargo, cuando está presente la audiencia en la primera condición, toda la atención de uno se concentra en enfrentar al público, y la falta de progreso en la técnica se transfiere a la condición sin audiencia. El contrapeso pierde ahora su efecto de “tomarse la tarde libre” y tenemos el error constante de la práctica afectando sólo la condición con audiencia. Si éste fuera el caso, terminaríamos con una diferencia global artificialmente pequeña. Nota: “ asimétrico” sólo significa “no simétrico” : el efecto no está equilibrado de la misma manera entre los dos grupos. ’ 2 Contrabalanceo complejo
a) ABBA (¡No se trata de un viejo grupo sueco de música pop!) Todos los participantes toman las condiciones en el orden ABBA. Su puntuación en A se toma como el promedio de las dos condiciones A, e igual ocurre para B. Esta disposición puede todavía sufrir de efecto asimétrico, aunque debería disminuirse.
b) Diseños multicondicionales Si un experimento tiene tres condiciones, podríamos dividir a los sujetos en seis grupos y hacerlos tomar parte en los siguientes órdenes de condición: ABC BCA
ACB CAB
BAC CBA
Errores
Condición con audiencia
Condición sola
(A)
(B)
Figura 6 -2 . Efecto de orden asimétrico — efecto de práctica.
100 • Métodos de investigación y estadística.
(Capitulo 6)
3 Aleatorización del orden de condiciones
Algunos experimentos implican un gran número de condiciones. Por ejemplo, una tarea sensoriomotriz puede ejecutarse bajo seis condiciones de iluminación. A cada sujeto se le asignarían las condiciones en un diferente orden aleatorio. 4 Aleatorización de reactivos estímulo
Ésta es una manera elegante de trabajar con posibles efectos de orden en un experimento de dos condiciones. Suponga que queremos ver si las palabras concretas son más fáciles de recordar que las abstractas. En lugar de darle al mismo grupo de personas una lista de pa labras para aprender y recordar, y después una lista de palabras abstractas, podemos darles una sola lista con palabras concretas y abstractas mezcladas de manera aleatoria. Observe que ésta podría ser una manera de mezclar hasta tres condiciones pero, o bien la lista se alarga bastante, o bien tendremos menos de cada reactivo en la lista. Entonces debemos presentar varias de las listas mixtas en varios ensayos. 5 Tiempo transcurrido
Podemos dejar tiempo suficiente entre las condiciones para que se disipen los posibles efectos de aprendizaje o fatiga. 6 Empleo de otro diseño
Podríamos tener que renunciar a la idea de utilizar el mismo grupo para cada condición. Po dríamos tener grupos separados. Por consiguiente, nos moveríamos a un “diseño de muestras independientes” descrito más adelante, pero, dado que este diseño tiene importantes desventajas, podríamos tratar de resistir esta solución más drástica al problema de efecto de orden.
OTRAS DESVENTAJAS CON DISEÑOS DE MEDICIONES REPETIDAS• • Si cada participante interviene en ambas condiciones de, digamos, un experi mento de memoria empleando listas de palabras, debemos utilizar una lista diferente para cada condición. Esto crea el problema de elegir palabras para cada lista que sean equivalentes. Es posible obtener listas que informen sobre la frecuencia de aparición de palabra en el inglés escrito. Obtenidas por medio de estudios literarios. • El objetivo de la investigación experimental puede tomarse obvio para el participante y, esto favorece el “ complacer al experimentador” (o fastidiar los resultados). • Debe haber participantes disponibles para ambas condiciones. Si éstas se programan con semanas de diferencia, algunos sujetos pueden sentirse per didos.
Método experimental II • 101
Cuándo no utilizar un diseño de medidas repetidas: 1 Cuando los efectos no pueden eliminarse o son asimétricos. 2 Con frecuencia, las personas deben ser ingenuas para cada condición. En los estudios de “ v iñ e t a s ”, por ejemplo, se le muestra a la persona una de dos alternativas, donde el resto del material es el mismo. Así, se le puede pedir a las personas que valoren un artículo del cual se les dice que el autor es una maestra, o bien, un estudiante. Un bebé se muestra ya sea como niño o niña, y se le pide a la gente que lo describan. Lewis y colaboradores (1990) enviaron a 139 psiquiatras diversas viñetas donde se variaba el sexo y raza de un cliente ficticio. Cuando el cliente era afrocaribeño se valoraron las siguientes diferencias en comparación a cuando el cliente era supuestamente de raza blanca. La enfermedad era de menor duración, se requirieron menos fármacos, el cliente resultó potencialmente más violento y fueron más apropiados los procedimien tos criminales. También se diagnosticó de manera significativa mayor “psicosis
cannabis” . En este tipo de estudio, es obvio que no se puede emplear a los mismos parti cipantes en ambas condiciones ya que, de ser así, los participantes descifrarían el objetivo de la investigación. Cuando se analizan estos estudios que se conducen como prácticas de clase, la gente siempre piensa desde el punto de ventaja del experimen tador. Pero es importante “ empatizar” con los participántes en tales casos, para conocer qué tan difícil sería alcanzar lo que el experimentador busca cuando sólo se toma parte de una de las condiciones. . 3 Los cuasiexperimentos a menudo implican una variable independiente, la cual es una categoría de personas tal como varón/mujer, clase trabajadora/clase media o extravertido/introvertido. En este caso, estamos comparando las ejecuciones de dos:grupos diferentes de personas y, es obvio que no es posible un diseño de mediciones repetidas. 4 Podríamos preevaluar un grupo de niños, aplicar un programa diseñado para incre mentar su sensibilidad a las necesidades de las personas con discapacidad, después evaluar de nuevo para medir el adelanto. Para verificar la validez interna (los niños pudieron cambiar de todas maneras, con independencia del “tratamiento”), necesita mos comparar sus cambios con un grupo control, un grupo placebo o con ambos.
DISEÑODEMUESTRAS INDEPENDIENTES Suponga que organizamos dos grupos de personas (de entre quienes podemos obtener; estudiantes colegas de nuestro curso y del de biología que comparten la clase de esta dística). Un grupo pasa a la condición con audiencia, el otro ejecuta la tarea a solas. De nuevo, los errores de la condición sin audiencia son menores de modo significativo. Estamos conduciendo ahora lo que se conoce como experimento con diseño de MUESTRAS INDEPENDIENTES. Este título dice con exactitud lo que significa. Un grupo de personas diferente por completo pasa por cada condición (podría haber tres condicio nes o más). Pertenece a la categoría conocida como DISEÑOS NO relacionados , puesto que las puntuaciones de un grupo de sujetos, que pasa sólo por una condición de la VI, no está relacionado con las de otro grupo que participó en la otra condición de la VI.
102 • Métodos de investigación y estadística.
(Capítulo 6)
Ejemplos de diseños de muestras independientes serían: 1 A un grupo se le da una lista de palabras y se le pide que repita cada una de ellas, varias veces (“ensayo”), antes de recibir la siguiente. A un segundo grupo se le pide formar imágenes mentales vividas con cada palabra y crear vínculos entre cada una y la que le sigue. Se evalúa la retención de ambos grupos en una tarea de recuerdo libre. 2 Beltramini (1992) investigó el efecto de la distribución aleatoria de los clientes de una compañía de negocios, en aquellos que podrían recibir un obsequio y aquellos que no. El obsequio incrementó la percepción positiva sobre la empresa ¡pero no la intención de volverla a visitar! Este diseño también se le conoce como: MUESTRAS INDEPENDIENTES, GRUPOS INDE sujetos independientes y entre g rupos . Este último por lo común se utiliza cuando el análisis estadístico es ANOVA (capítulo 20). PENDIENTES,
¡FUNCIONÓ OTRA VEZ, PEDRO! Así, ¿qué podría decir el incrédulo de Pedro esta vez? Es cierto que tiene algo que decir. Pero, antes de oírlo... ¿Qué podría ser responsable ahora de la diferencia entre las condiciones? ¿Qué podría causar el que un grupo sea peor, a no ser el hecho de que se desempeñaron enfrente de una audiencia? También haga una lista de cualquier otra desventaja que pueda ver en este diseño? . Pedro dice, “ ¿Quién hizo el experimento?” Le decimos. Sonríe con una mueca, “ ¡Ah! Recuerda, Julia, que dijiste que los introvertidos podrían desempeñarse peor enfrente de una audiencia. Bueno, tú sabes qué tan introvertida es la chusma de biología. ¿Te aseguraste de tener números iguales de ellos en cada grupo?”
VARIABLES DEL PARTICIPANTE (SUJETO) Pedro se refiere a las variaciones entre las personas que se pudieran repartir en forma desigual por nuestros dos grupos. Ésta es la mayor debilidad de los diseños de muestras independientes. Las diferencias encontradas pueden no deberse a la VI, sino a esta distribución desigual en las muestras. Suponga, en el ejemplo 1 anterior, que por acci dente colocamos más memorizadores buenos en el grupo de imágenes. Pareciera que el utilizar imágenes es la causa de las diferencias encontradas pero, de hecho, las diferencias en la VD se produjeron por la variación entre las personas de ambos grupos.
MANEJO DE LAS VARIABLES DEL PARTICIPANTE En un diseño de muestras independientes siempre sería difícil eliminar las variables del sujeto como una fuente posible de variación en nuestros resultados, pero hay ciertos pasos
Método experimental II • 103
que podemos tomar, para reducir la probabilidad de que fueran la causa de las diferencias encontradas:
Distribución aleatoria de los participantes en las condiciones Ésta sigue la línea clásica del diseño experimental. En biología, un investigador puede separar de manera aleatoria un conjunto de frijoles, y someter un grupo al tratamiento y emplear el otro como grupo control. En psicología se sigue la misma línea. Cuando se obtiene un resultado, la hipótesis nula afirma que las diferencias entre los dos grupos son tan sólo el resultado de variaciones al azar entre los dos grupos de personas, no al efecto de la VI. Si existe una diferencia significativa, podemos, al menos, rechazar esta hipótesis. Aquí, claro, Pedro tiene un punto. Aun en prácticas estudiantiles se deben evitar diferencias no aleatorias entre los conjuntos de participantes. Observe que en el estudio de Beltramini, citado antes, los clientes se colocaron de modo aleatorio en los grupos control o en el que recibían regalo. La asignación aleatoria es lo que hace que un estudio sea un experimento de campo más que un cuasiexperimento (como lo vimos en el capítulo anterior).
Pretest de los participantes Podemos demostrar que ambos grupos tuvieron un desempeño similar antes de que se aplicaran las condiciones experimentales. Por ejemplo, en el estudio de memoria, ambos grupos podrían ser preevaluados con la misma lista de estímulos, diferente de la utilizada en el ensayo experimental. Todavía podría haber un problema de variable del participante. Aunque ambos grupos se desempeñen bien por igual en la lista pretest, la lista para el ' ensayo experimental podría contener palabras más familiares para las personas en uno de los grupos. Podría haber, digamos, varios términos geográficos y más estudiantes de geografía en el grupo de imaginería.
Distribuciones representativas Podemos asegurar que cada grupo contenga la mitad de varones, un rango de edad similar, un rango bastante parecido de antecedentes escolares y así sucesivamente. Podría no sorprendemos, sin embargo, asegurar un número igual de estudiantes de geografía. La inspección de la lista podría alertamos hacia esta posible variable confusa, pero no podemos equilibrar a los grupos para cada variable concebible. Debemos decidir de manera intuitiva, dada la naturaleza del tópico de investigación y los objetivos, qué variables son las más importantes para equilibrarlas. Pedro piensa que debimos haber puesto atención a su estereotipo de estudiantes de biología. Dentro de cada categoría relevante, la asignación de la mitad de la categoría a una condición, y la mitad a otra, se realizaría sobre una base aleatoria. El método y razonamiento aquí es similar al del muestreo estratificado.
OTRAS DESVENTAJAS DEL DISEÑO DE MUESTRAS INDEPENDIENTES • Para obtener muchas puntuaciones en cada condición, tenemos que encontrar y evaluar dos veces a las personas. Esto puede ser costoso y consumir mucho tiempo. Sin embargo, tenemos la ventaja (sobre el diseño de mediciones repetidas) de que no podemos perder participantes entre las condiciones, y
104 • Métodos de investigación y estadística. . .
(Capítulo 6)
podemos aplicar las dos condiciones de modo simultáneo, en vez de tener que esperar hasta que los efectos de la práctica desaparezcan. • Si hay demasiada diferencia entre las varianzas estadísticas de los dos grupos, no podemos continuar con una prueba paramétrica: la más poderosa de las pruebas estadísticas (capítulos 12 y 17).
DISEÑODEPARES IGUALADOS Podemos, en verdad, hacer algo más que sólo asegurar que los dos grupos de nuestra investigación sean más o menos equivalentes en las variables relevantes como la ex traversión. Podemos aparear a una persona en la condición con audiencia con otra en la condición sin audiencia. Las dos personas pueden igualarse por puntuación de extraver sión, edad, sexo, ocupación y cualquier otra variable que pensemos sea relevante para realizar la tarea del cable que se mueve. Este arreglo entre los dos diseños hasta ahora analizados se conoce como diseño de PARES IGUALADOS.
Para cada miembro de un grupo, ponemos a un miembro comparable en el otro. Apareamos a las personas con base en las variables relevantes; la elección de lo que es importante, igual que antes, se basa en la naturaleza de la investigación. Ahora evitamos los efectos de orden teniendo grupos diferentes en cada condición, pero también estamos, eso esperamos, manteniendo al mínimo las variables del participante. Podríamos, por ejemplo, aparear a cada niño que va a recibir el programa experi mental preescolar con otro en el grupo control, con base en, digamos, edad exacta, sexo, grupo étnico, antecedente social y económico de los padres y número de hijos en la familia. Sin embargo, la muestra global limita el grado de lo que se puede aparear. El diseño de pares igualados cae en la categoría de diseños relacionados, puesto que cada puntuación o calificación de los sujetos en un grupo se puede relacionar con una puntuación en el otro. Esto es obvio que no se puede hacer cuando se tienen dos grupos de puntuaciones de dos grupos no igualados. Uno de los regalos más útiles de la naturaleza a la investigación psicológica es, algunos creen, la existencia de gemelos idénticos (monocigóticos). Ellos representan el par apareado perfecto, por lo menos cuando nacen. Cualquier diferencia entre ellos en su vida posterior puede, casi con seguridad, atribuirse a diferencias en la experiencia ambiental. Sin embargo, lo contrario no es verdad. Las similitudes no pueden atribuirse a la carga genética común, puesto que los gemelos idénticos por lo común comparten también ambientes bastante similares.
DISEÑODEUNSOLOPARTICIPANTE Oír que sólo se utiliza a una persona para investigación experimental puede hacer que quien se inclina hacia la ciencia se aparte con horror. Con seguridad esto debe producir resultados poco representativos e imposibles de generalizar. Con mucha razón, suponen, uno se vuelve a la investigación psicológica objetiva, con el fin de evitar las muchas generalizaciones que los legos hacen a menudo desde su propia experiencia limitada.
Método experimental II • 105
Sin embargo, considere que un físico tiene la muestra de una extraña piedra lunar, procedente de una misión espacial que acaba de regresar. Podría valorarse la roca respecto 2 sn índice de dilatación bajo diferentes temperaturas, en el vacío y en atmósfera normal, con el fin de detectar cambios significativos en su comportamiento. Esto daría como resultado an conocimiento científico valioso por sí mismo. Más aún, a partir de nuestro conocimiento general sobre el mundo de las rocas podríamos, casi con seguridad, suponer que en la luna existen rocas similares. De la misma manera que hay cierto tipo de cosas que la gente hace, y de las cuales sabemos por buenas razones que es muy probable que varíen de acuerdo con un mismo patrón (pero no necesariamente al mismo nivel), para casi todo mundo. Un ejemplo de esto podría ser la situación experimental en la que alguien tiene que tomar decisiones de entre un creciente número de opciones: clasificar tarjetas conforme a colores, después agruparlas y así sucesivamente. Ebbinghaus realizó consigo mismo un enorme número de experimentos sobre memoria, utilizando una amplia variedad de condiciones y listas de sílabas sin sentido. Los mtrospeccionistas proporcionaron un arduo entrenamiento para ayudar a la gente a informar sobre sentimientos, sensaciones y procesos mentales.
¿RELACIONADO 0 NO RELACIONADO? En el cuadro 6-2 verá un conjunto de resultados para un solo participante en un experimento, que mide reacciones temporales como la VD. ¿Se produjeron estos datos a partir de un diseño relacionado? Contraria a nuestra primera probable conclusión, ¡la respuesta de hecho es “no” ! Cada puntuación en la condición A no tiene compañero particular en la condición B. Una puntuación particular en A se relaciona con todas las puntuaciones en B en un grado igual, puesto que la misma persona las produjo todas. Pero en un diseño no relacionado, la primera puntuación en A (0.579) se relacionaría únicamente con la primera en B (0.713), porque ésta fue la única puntuación B que produjo la misma persona o porque la puntuación B la produjo la persona igualada con la primera persona en A. Otra manera de ver esto es que sería bastante posible tener más puntuaciones en la condición B que en A. El diseño podría ser relacionado si de alguna manera estuviéramos vinculando el ensayo 1 en una condición, con el ensayo 1 de la otra condición. Esto sucedería si, digamos, correlacionáramos (capítulo 18) ensayos equivalentes bajo ambas condiciones para demostrar que la mejoría toma caminos similares en ambas.
C u a d r o 6 - 2 . D is e ñ o d e u n s o lo p a r tic ip a n te C o n d ic ió n A
0.579 segundos 0.621 0.543
C o n d ició n B
0.713 segundos 0.615 0.792
106 • Métodos de investigación y estadística.
(Capítulo 6)
Apartado 6-1 . Resumen de las ventajas y desventajas de los diversos diseños experimentales R em edio
(si és que lo hay) Mediciones repetidas
Muestras
indepen dientes
Pares igualados
Un solo par ticipante
Las variables del par ticipante se eliminan M ás económico en cuanto a los sujetos
Efectos de orden Puede po ser posible conducir la segunda condición inmediata mente Necesita diferentes listas de estímulos, etcétera
Contrabalancear/aleatorizar las condiciones Dar espacios de tiem po largos entre las condiciones Tom ar en su lugar muestras independien tes M ateriales de e s ti mulo aleatorizados
La homogeneidad de varianza no es un pro blema (capitulo 6) Se necesitan menos participantes
Los participantes no son ingenuos para la segunda condición y p u e d e n tra ta r de adivinar el objetivo P é rd id a de participantes entre las condiciones
Engañar a los par ticipantes respecto al objetivo (o dar espa cio de tiempo largo)
No hay efectos de orden
Variables del parti cipante no contro ladas ■ Menos económico én cuanto a los sujetos La falta de "homoge neidad de varianza" puede evitar el uso de pruebas paramé tricas (capítulo 16)
Asignación aleatoria de los sujetos a las condiciones Asegura casi los nú meros iguales en cada grupo (página 337)
Algunas variables del participante están presentes todavía Difícil de encontrar ig u a la c io n e s p e r fectas y, portanto.se consume tiempo La pérdida de un m iem b ro del p a r ocasiona la pérdida del Dar
Asignación aleatoria de los pares a las con diciones
No se puede genera lizar con confianza a otras categorías de la gente Se requiere reentre namiento si ei sujeto original deja el pro yecto
¡Tratar a los sujetos con mucha amabili dad!
Los sujetos no pue den adivinar el ob jetivo del experimento Pueden utilizar exac tamente la misma lista de estímulos, etcétera No se necesita es perar a que los sujetos “olviden” la primera condición No hay efectos de orden Las variables del par ticipante están par cialmente controladas No es necesario es perar a que los parti cipantes olviden Pueden utilizar la mis ma lista de estímulos, etcétera La homogeneidad de varianza no es proble ma Útil cuando existen pocos sujetos dispo nibles o se requiere mucho tiempo para entrenar a los sujetos
de los participantes atienden conmaón en un orden particular y > n ra mitad lo hace en el orden 3 s e s b . Esto se hace para balancear a n in a r) cualquier efecto de orden
c o n tra b a la n c e o
3 e c b de orden que tiene mayor fuerza e r c r orden determinado y donde, en zarces. el contrabalanceo puede ser /.efectivo
efecto de orden asi
o más grupos separados participan diversas condiciones de la VI
m étrico
Diseños muestras indepen dientes (entre grupos) (grupos indepen dientes) (sujetos indepen dientes)
rada participante de un grupo/condí i se aparea con variable(s) especi~ca(s) con un participante de otro r-.rro/condición
pares igualados
medidas repetidas (intragrupos) (¡ntrasujetos) Diseño donde las puntuaciones condición se aparean con puntuaciones otra condición
re la c io n a d o
Diseño donde sólo un participante se somete a prueba
un solo participan te (sujeto)
Diseño en el que las puntuaciones par ticulares de una condición por ningún ■medio se pueden aparear (o relacionar) con aquellas de otra condición
no relacionadas
Efecto de confusión causado por par ticipar en una condición, después en otra, como la práctica o fatiga
e fe c to s d e o rd e n
Estudio donde tos participantes reciben un pequeño recuento de una persona o hecho y donde sólo se varía un aspecto de la persona o hecho a través de las condiciones
estudio viñeta
108 • Métodos de investigación y estadística. ..
E je r
(Capítulo 6)
c ic io s
1 En el famoso experimento de Fantz de la “cámara de observación", a un infante se le muestran dos patrones y el experimentador registra cuánto tiempo pasa viendo cada uno de ellos. La ¡dea es ver si el niño prefiere patrones complejos u otros más simples. ¿Cuál es la variable Independiente, la variable dependiente y qué tipo de diseño es éste? 2 En una versión del experimento del “acantilado visual”, se observa a Infantes mientras sus madres tratan de atraerlos hacia ellas a través de un cristal con una gran caída debajo de él. ¿Qué condición se puede agregar para hacer de esto un experimento verdadero y qué tipo de diseño sería entonces? 3 Su tutor conduce un experimento en clase. A cada estudiante se le da un grupo de anagramas para resolver y se registra el tiempo que tardan en ejecutar cada uno. Usted encuentra que algunos de los anagramas fueron de palabras concretas y los otros de palabras abstractas, sin un orden particular. Ésta fue la VI. ¿Qué diseño fue éste, y qué precaución especial, asociada con este diseño, ha tomado con sabiduría su tutor y por qué? 4 De nuevo su tutor conduce un experimento. Los estudiantes se encuentran en parejas. Usted toma el tiempo que su compañera tarda en aprender un laberinto de dedo, primero con la mano izquierda, después con la derecha. Luego ella le toma el tiempo a usted mientras que aprende primero con la derecha y luego con la izquierda. ¿Qué diseño es éste? ¿Qué precaución especial se está tomando y por qué? 5 Un experimentador busca familias en las que haya dos hermanos o hermanas que nacieran con un año de diferencia entre ellos y, que no hubiera sufrido alguna enfermedad antes de los cuatro años. Se les evalúa a los ocho años de edad para ver si el niño que sufrió la enfermedad se desempeña peor que el otro en varias de sus capacidad para leer. ¿Qué tipo de diseño se está utilizando aquí? ■
Métodos observacionales Este capítulo abarca casi todos los métodos clasificados como observación. En cierto sentido, todos los datos obtenidos de la gente se logran a través de alguna forma de observación pero, de hecho, los datos recolectados a través de cuestionarios o entrevistas requieren un tratamiento por separado. Se • • • • •
hacen distinciones entre: Observación como técnica y como diseño de investigación en general. Participante (donde el observador es parte del grupo observado) y no participante. Descubierto (la gente sabe lo que está haciendo el observador) y encubierto. Estructurado y no estructurado. Controlado (con frecuencia en el laboratorio) y natural (observación del propio entorno).
Otros aspectos son: • • • • • •
Juego de roles y simulación. Diarios. Ventajas, dificultades y ética de la observación participante. Observación indirecta (por ejemplo, registros, medios). Análisis de contenido (tratamiento, con frecuencia cuantitativo, de informes cualitativos, escritos). Protocolos verbales (informe verbal de los pensamientos de los participantes o lenguaje silencioso).
INTRODUCCIÓN H e m o s visto que puede haber problemas bastante serios con la utilización del método experimental en psicología, de modo particular en el laboratorio, en el cual se puede estudiar una muy restringida y quizás artificial selección de conducta, donde las “deman das características” pueden distorsionar el procedimiento y deshumanizar a las personas estudiadas. Un grupo de métodos que puede evitar algunas críticas, pero no siempre todas, es el conocido de manera general como “ métodos observacionales” .
110 • Métodos de investigación)) estadística ...
(Capítulo 7)
En cierto sentido, se observa la conducta en cada estudio psicológico. Un experi mentador hace observaciones de los tiempos de reacción de los participantes, respuestas a cuestionarios, desengaño en tareas de memorización y así sucesivamente. El énfasis al usar el término “observacional” , sin embargo, está en el experimentador que observa un segmento relativamente no artificial de la conducta elegida con liber tad por una persona. Existe ambigüedad en el uso del término “observacional” en la bibliografía de investigación. Se puede referir al uso de la observación como técnica para la recolección de datos acerca de la conducta, en un diseño experimental. Por el otro lado, “obser vacional” podría referirse al diseño global de un estudio, en contraste con un experimen tador controlado.
OBSERVACIÓN COMO TÉCNICA 0 COMO DISEÑO GLOBAL Como técnica La observación puede utilizarse como técnica dentro de un diseño experimental tradi cional, como en el trabajo de Milgram (1963) sobre obediencia, en donde, además de los registros mecánicos de las respuestas de los participantes, se hicieron registros filmados con el fin de observar cambios en la reacción emocional. Con anterioridad describimos los estudios de Bandura (1965) sobre la imitación que los niños hacen de modelos agresivos. Utilizando la observación como técnica para medir la VD de la agresión, Bandura pudo manipular una diversidad de VI, incluyendo el estatus o rol del modelo, las consecuencias de la conducta de éste y el grado de frustración experimentada por el niño, justo antes de observar al modelo agresivo. Los dos ejemplos anteriores emplean técnicas observacionales en un ambiente de laboratorio. Los experimentos de campo, muy a menudo, utilizan la observación como técnica. El estudio de Friedrich y Stein (1973), descrito con anterioridad, es un buen ejemplo. La observación también puede emplearse dentro de un estudio de simulación o de juego de roles, descrito más adelante.
Como diseño global Si a una investigación se le da el título dé “ observacional” , por lo común es con el fin de contrastar con otros diseños, en particular con el experimental. En este caso, el experimentador ha elegido observar la conducta que ocurre de modo natural y no ex perimentar con ella; es decir, no se manipula ninguna VI. No obstante, se puede evaluar una hipótesis relacionada con una VI como cuando, por ejemplo, un investigador observa el juego fantasioso de niños de clase trabajadora y clase media, y predice diferencias en la cantidad o contenido.
DEBILIDADES DE LOS ESTUDIOS PURAMENTE OBSERVACIONALES Donde el diseño global es observacional tenemos la debilidad, ya mencionada, de que si descubrimos una relación entre grupos diferentes de datos, por lo general no estamos en
Métodos observacionales • 111
rosición de establecer relaciones causa-efecto con ninguna confianza, puesto que la VI manipulada no indujo cambios en la VD. Suponga que observamos niveles superiores de agresión entre niños que eligen y .■Servan programas de televisión más violentos. ¿Promueve la televisión su agresión o esta (que surge por alguna otra causal) afecta su elección? Un experimento controlado podría ser muy esclarecedor. En un capítulo anterior vimos que Friedrich y Stein (1972) asignaron a los niños tres condiciones experimentales: ver programas de televisión violentos, prosociales y neu trales. Después de un mes de verlos, se observó que el grupo que veía programas violentos era más agresivo, de manera significativa, en el juego en la guardería. Es interesante que el impacto haya sido mayor en los niños que de modo inicial mostraron mayores niveles de agresión. Entonces, un experimento puede respaldar una hipótesis formada a partir de !a observación, al demostrar con claridad un efecto causal.
OBSERVACIÓNPARTICIPANTEYNOPARTICIPANTE Un OBSERVADOR PARTICIPANTE es, en alguna medida, una parte del grupo de individuos que se está observando, mientras que un OBSERVADOR NO PARTICIPANTE observa a cierta distancia, y no debe afectar la conducta bajo observación. Ésta es una “ dimensión” , puesto que hay varios grados de participación que se describen más adelante. Hay también un aspecto dimensional de REVELACIÓN en el sentido de que las personas observadas pueden estar más o menos conscientes del grado exacto en el cual, o las razones por las que, se les está observando. El siguiente análisis sobre la observación indirecta, estructurada y controlada se relaciona por entero con los estudios no participantes. La observación participante es en gran medida una aproximación cualitativa y se le analizará más adelante en este capítulo.
OBSERVACIONES ESTRUCTURADAS (0 SISTEMÁTICAS) DISPOSITIVOS PARA RECOLECCIÓN DE DATOS Se pueden hacer registros de la conducta utilizando cualquiera o una combinación de los siguientes dispositivos: • • • •
Registro en película o vídeo. Cámara fija. Cinta de audio (para registrar observaciones habladas). Notas manuscritas, calificaciones o codificaciones “ en el momento” .
El registro visual tiene la ventaja de que la conducta se puede analizar (calificar, codificar) después del acontecimiento a cualquier velocidad requerida.
112 • Métodos de investigación y estadística. ..
(Capítulo 7)
Todos los métodos señalados arriba pueden utilizarse con discreción de modo tal que el participante no se dé cuenta del proceso de registro (en cuyo caso surgen asuntos éticos), o al menos no puedan ver u oír el equipo durante la sesión de observación. Esto se puede lograr con el uso de pantallas o espejos de “una dirección” , que funcionan como espejo para los participantes, pero como una ventana para los observadores y cámaras.
SISTEMAS DE RECOLECCIÓN DE DATOS Los observadores pueden a menudo trabajar un “tamiz” específico de categorías con ductuales como el señalado con anterioridad. En el formato del cuadro 7-1, quienes observan conductas de niños durante una sesión de juego libre en la guardería podrían registrar la cantidad de tiempo que pasa cada niño en cada una de las actividades específicas categorizadas (en columnas).
Cuadro 7-1. Formato para recolección de datos Jugar con otros:
Niño
Inactivo
Leyendo
Jugando solo Observando
Actividad diferente
Misma actividad
Actividad cooperativa
A B C etc.
Además de registrar tan sólo qué conducta ocurre, y qué tan a menudo, se le puede requerir a los observadores: C alificar la conducta de acuerdo con escalas estructuradas, por ejemplo, del uno al diez en el “ interés mostrado” . CODIFICAR la conducta de acuerdo con un grupo de categorías codificantes; por ejem plo, sím bolos gráficos que representen posiciones de las partes del cuerpo.
En cada caso, se buscaría por lo regular, algún grado de estandarización mediante un en trenamiento intensivo de los observadores, antes de comenzar las sesiones de observación. Para ejemplificar algunos de estos puntos, podemos revisar un estudio de Halliday y Leslie (1986), en el cual se codificaron actos de comunicación entre madre e hijo (en ambos sentidos), mediante grabaciones en vídeo durante un periodo de recolección de datos de seis meses. Los investigadores buscaban expandir la idea de Bruner y mostrar que los niños hacen más que simples demandas o referencias en sus interacciones. Estaban interesados en cómo estas otras interacciones pueden contribuir a la adquisición del lenguaje, a medida que el niño encuentra inadecuados los métodos no verbales. Los
Métodos observacionales • /13
investigadores identificaron un conjunto de 42 acciones diferentes, que se muestran en el cuadro 7-2, durante sesiones piloto con un par de parejas madre-hijo. En el estudio principal, se registraron 12 sesiones con un promedio de media hora, con 12 pares de madres-hijos. Cada una de estas sesiones en vídeo se codificó utilizando las 42 categorías.
Cuadro 7 -2 . Listado completo de códigos con definiciones cortas (tomado de Halliday y colaboradores, 1986) Categorías verbales A
Demanda atención
ON
' Ordena qué no
D
Describe, da información
PR
Alaba
PT
Incita
ET
Da etiquetas
is
F
Corrige
Q
Cuestiona
I
Imita completamente
QT
Cuestiona alguna etiqueta
IP
Imita parcialmente
S
Cuenta cuentos o reata rimas
IQ
Imita como pregunta
T
Etiqueta, nombra
IS
Imita como oración
TH
Dice “Gracias” o “tá”
N
Dice “no”
Y
Dice “sí"
NU
Cuenta
Z
Agrega palabras
O
Ordena, da indicaciones positivas
Categorías no verbales a)
Vocal
b)
No vocal
B
Balbucea (con entonación)
GO
Da objeto
Ríe, gorgorea
H
Sujeta, se apega
QN
Hace sonidos inquisitivos
L
Mira alrededor
V
Hace vocalizaciones monosilábicas
LO
Mira un objeto
V2
Hace vocalizaciones bisilábicas
LP
Mira a la madre
VE
Emite sonidos emociónales
Ll
Levanta al bebé
VN
Emite sonidos Específicos a un objeto
OB
Obedece
VS
Vocaliza una sílaba continuamente
P
Señala
W
Llora
PL
Juega
YN
Emite sonidos afirmativos
R
Acanza
TO
Toca
>
114» Métodos de investigación y estadística. . .
(Capítulo 7)
Habían hasta cinco acciones de la madre y otras tantas del hijo, en cualquier intervalo de cinco segundos. Enfatizó este detalle para que usted tenga una idea del montón de co dificaciones y análisis que se realizan en un estudio de este tipo. El éxito de la estanda rización se estimó al buscar el número de ocasiones en las que dos observadores con cordaron en 15% de las cintas. Se obtuvo 76.7% y es una manera de verificar la confiabilidad (véase más adelante).
MUESTREODETIEMPO, PUNTOYEVENTOS N o siempre puede ser posible o apropiado registrar secuencias completas de conducta e interacción utilizando vídeo. Si una sesión debe observarse en “v iv o ” , se pueden requerir varios observadores, uno o dos para cada persona observada. Cuando sólo están dis ponibles uno o pocos observadores, se puede emplear la técnica de MUESTREO DE tiem po , en la cual se hacen observaciones de cada individuo por varios periodos cortos en, digamos, una sesión de dos horas. En algunos casos, los periodos cortos de, digamos, 15 segundos son consecutivos, de modo que se obtiene una imagen de la frecuencia de la conducta. En el MUESTREO DE punto un observador se concentra en cada individuo de un grupo solo lo suficiente para registrar las categorías de sus conductas en ese momento antes de pasar a observar a la siguiente persona. En el MUESTREO de eventos se hacen observaciones de un hecho específico cada v e z que ocurre, por decir, cada ejemplo de una “pelea”, aun cuando ésta se defina operacionalmente para la investigación en marcha.
CONFIABILIDADDELASTÉCNICASOBSERVACIONALES Los observadores necesitan producir registros observacionales que sean confiables. La confiabilidad de los observadores puede establecerse correlacionando (capítulo 18) sus registros con los de otro observador o equipo. Tal comparación producirá una medida de CONFIABILIDAD INTERCALIFICADOR, siendo “calificador” otro término para un obser vador que “ califica” la conducta. La confiabilidad puede ser poca debido al INFLUENCIA DEL OBSERVADOR. Por la psicología de la percepción sabemos que la manera en que cada persona ve una situación es única y que nuestras percepciones pueden prejuiciarse por factores innumerables. Un observador no entrenado podría evaluar sucintamente la conducta sobre la que el experimentador quiere un informe tan objetivo como sea posible. En donde un observador entrenado informa que un golpe es fuerte, al novato podría describirlo como “ cruel” . Puede haber error humano al dejar de observar algunos momentos de la conducta. Se nos recuerda al árbitro “ciego” de fútbol o el juez, ciego también, de patinaje sobre hielo. En el estudio de animales es fácil “ver” características humanas en la conducta animal. Esto se conoce como “ antropomorfismo” y ocurre, por ejemplo, cuando se dice que las aves están “ hablando” o que un gato está “ sonriendo” . En los estudios con humanos, se podría asumir erróneamente que Jason “ sigue” a un adulto (y está quizás inseguro) cuando ocurre que camina en la misma dirección. O podría describirse equivo cadamente a Jenny como “copiando” cuando mira dentro de una caja para ver lo que Sara estaba observando.
Métodos observacionales • 115
Sin embargo, el problema puede no estar en los observadores humanos, sino en la escala de calificación que están usando, la cual podría ser demasiado vaga o ambigua. La confiabilidad aumenta si de forma anticipada y precisa se definen los actos conductuales que se considerarán en categorías determinadas. Los observadores tienen que decidir, por ejemplo, cuándo un empujón cuenta como agresión o cuándo un niño está “ exigiendo” . Suele entrenarse a los observadores hasta un nivel estándar de confiabilidad y exactitud antes de que el estudio observacional empiece propiamente.
OBSERVACIÓNCONTROLADA Pueden controlarse las observaciones a través de la estructura tal como se esquematizó más arriba. También se puede ejercer control sobre el ambiente en el que ocurre la observación. Se puede ejercer un alto grado de control ambiental en el laboratorio, aunque el participante no necesita estar consciente con claridad de que el ambiente es un “ laboratorio” . Los grupos de discusión pueden observarse en un cómodo “ salón de seminarios”, por ejemplo: Mary Ainsworth (1971), ya mencionada, realizó un programa de investigación sobre la ansiedad de los niños provocada por la separación y los extraños. En este estudio, el piso de un salón de juego organizado de manera cuidadosa se dividió en cuadrantes y los observadores entrenados filmaron (y grabaron en una cinta de audio) los movimientos de un niño cuando su madre salía y un extraño entraba al cuarto. La conducta del infante también se filmó y ser relacionaron los resultados con los actos de sensibilidad en las interacciones de las madres con sus hijos.
OBJECIONESALCONTROLDELAOBSERVACIÓNNATURALISTA Los estudios en el laboratorio no escapan a muchas de las críticas de los experimentos de laboratorio hechas con anterioridad, en el sentido de que éste puede ser una atmósfera muy artificial y quizá inhibidora. No puede observarse aquí la conducta en el contexto social. Algunos investigadores, con el propósito de registrar la conducta cotidiana más usual, salen al campo y hacen observaciones “naturalistas” en la casa, la guardería o el lugar de trabajo. La psicología heredó éste método en gran parte de los etólogos (Lorenz, Tinbergen), quienes estudiaron a los animales en su hábitat natural, no obstante hicieron registros muy detallados y exactos de que lo que mostraron eran patrones instintivos de conducta. Los primeros “biógrafos de bebés” , a quipnes encontraremos cuando discutamos el “método del diario” más adelante, realizaban observaciones naturalistas, como lo hizo Piaget con sus propios hijos. ¡Quizá, sin embargo, estos estudios también incorporaron una cierta cantidad de implicación participativa por parte del observador! Debido a que la conducta observada en estos estudios, siempre que el observador sea discreto, hubiera ocurrido de todas maneras, el realismo y los aspectos de la validez ecológica tienden a ser altos. En algunos estudios, sin embargo, las personas están conscientes de que las observan. Esto puede significar una cámara de vídeo siguiéndolos
116 • Métodos de investigación y estadística. . .
(Capitulo 7)
alrededor de la casa, por ejemplo. En este caso todavía tenemos el problema de una conducta posiblemente distorsionada. Tal como lo describe Shaffer (1985): Considere las experiencias de un estudiante graduado que intentó tomar fotografías de las travesuras que hacen los niños en el patio de recreo. Lo que registró en sus fotografías fue de algún modo menos que juego espon táneo. Por ejemplo, una niña que estaba jugando sola con una muñeca, se levantó bruscamente cuando el estudiante se acercó con la cámara y le informó que le tomaría una foto de su “nuevo truco” en el pasamanos. Otro niño. . . dijo: “Toma esto”, mientras se escapaba del juego de patearla pelota y derribaba por el punto de menor peligro a un observador confiado. Lo que el investigador puede hacer es convertirse en una parte predecible y familiar del ambiente. Por ejemplo, Charlesworth y Hartup (1967) hicieron varias visitas a una guar dería, interactuaron con los niños, aprendieron sus nombres, y así sucesivamente. Esto también les dio la oportunidad de probar y mejorar la confiabilidad del esquema de observación que iban a emplear. Ejemplos de estudios de investigación, de la bibliografía en general, que utilizaron observación naturalista serían: Brown y colaboradores (1964)
Estudio de las emisiones de lenguaje de Adán, Eva y Sara en la casa, con los padres cada una o dos semanas por varios años.
Cadwell y Bradley (1978)
Desarrollaron el inventario de O bservación Casera para la m edición del ambiente [Home Observation fo r Measurement o f the Environ ment, HOME], que observa la interacción entre padre e hijo y el acopio de materiales de juego, para correlacionarlo con los niveles de desar rollo intelectual.
Liste las ventajas y desventajas de la observación naturalista tal como usted la entiende.
OBJECIONESA LAOBSERVACIÓNESTRUCTURADA Debido a que la observación puede ser tan estructurada y rígida, hay grupos de psicólogos (por lo común sociales) que la considerarían inadecuada; ellos objetan la reducción de la conducta a unidades aisladas de manera artificial. ¿Cuál es la unidad más pequeña con la que podemos trabajar? Describir a una persona “ levantando un brazo” puede ser objetivo físicamente, pero se le despoja significado social comparado con “ ella saludó moviendo la mano” , “ él hizo una oferta” o “ella amenazó al niño” . La reducción a las unidades más simples de conducta (el “nivel molecular” ) puede crear observaciones que son numerosas, aisladas y sin significado.
Métodos observacionales • 117
Apartado 7-1. Ventajas y desventajas de la observación naturalista V e n tajas
D esventajas
La conducta que ocurre es más natural y no se ve afectada (si la persona no sabe del observador) por la ansiedad o necesidad que tenga el sujeto de im presionar El estudio es realista y tiende a producir mayor validez ecológica
Las variables extrañas se controlan poco, en el mejor de los casos
Hay alta validez ecológica Esta aproximación es útil cuando: No sería ético experimentar o interve nir en las vidas de niños o animales Sería poco probable que los indivi duos cooperaran con los métodos de entrevista o cuestionario El investigador decide que todo el con texto social es necesario para que la conducta observada tenga significado
-
Hay mayor potencial para los prejuicios del observador, puesto que tanto las variables extrañas como la conducta del observador son más imprevisibles Es difícil transportar y utilizar por sepa rado algo del equipo técnico requerido para obtener buenos registros Es difícil algunas veces que los obser vadores puedan permanecer escon didos Es más difícil lograr una repetición com pleta Si se utiliza un sistema estructurado de recolección de datos, tiene las desven tajas de la observación estructurada des critas más adelante
El intento de categorizar con firmeza las interacciones o evaluar las respuestas por número puede producir datos “confiables pero no ricos” en el final del espectro de recolección de datos. Esta aproximación positivista sería criticada, por ejemplo, por los humanistas y los fenomenólogos, quienes promueven un punto de vista “holístico” de la persona en psicología. Diesing (1972) afirma que el (psicólogo) holista estudia un “sistema humano integral en su ambiente natural” , y dice: El punto de vista holista incluye la creencia de que los sistemas humanos tienden a desarrollar una integridad o totalidad característica. No son nada más una vaga colección de rasgos o deseos, o reflejos, o variables de cualquier tipo . . . ; tienen una unidad que se manifiesta a sí misma en casi todas partes . . . Esto significa que las características de una parte se determinan en gran medida por la totalidad a la cual pertenece y por su colocación particular en el sistema completo. Se podría argumentar que algo falta, el contar de manera sencilla las respuestas de las palomas, o por darles un valor en una escala de calificación. Es más importante registrar eventos observados de modo tal que se preserve el significado social de las acciones para su análisis. Esto puede significar tanto registro como sea posible del contexto social en el que ocurrieron las acciones. También puede significar hacer un registro amplio de la conducta de un individuo, de modo tal que se entiendan las acciones específicas y se perciban dentro del patrón de las experiencias y motivaciones únicas de esa persona. No
118 • Métodos de investigación y estadística.
(Capítulo 7)
es posible hacer esto utilizando un “tamiz” muy restringido u otro marco preconstruido para la observación. Ahora veremos métodos que intentan generar una explicación más rica de la conducta humana de una manera descriptiva sin cuantificar de inicio; esto es, datos cualitativos.
OBSERVACIÓN CUALITATIVA NO PARTICIPANTE En el estudio de Ainsworth, ya descrito, algunos de los observadores produjeron un comentario continuo acerca de la conducta de cada niño hablando en una grabadora mientras ellos observaban. La misma técnica la han utilizado observadores siguiendo las interacciones de las madres y los niños en su propia casa. Esto genera muchos datos en bruto en forma cualitativa. Sin embargo, estos estudios de modo usual no son realizados bajo la bandera holística. Los calificadores independientes, entrenados en las formas ya mencionadas, pueden imponer a los datos una estructura rígida durante el análisis. Algunos estudios de este tipo van más allá de la vía cualitativa. Los datos descriptivos no cuantificados pueden simplemente no categorizarse o codificarse. También pueden analizarse los datos para introspecciones ilustrativas que lleven a nuevos temas de investigación. O pueden presentarse junto con análisis cuantitativos con el fin de ilustrar diferencias cualitativas y problemas que los informes numéricos no pueden reflejar. Incluso es posible que los tipos de observaciones hechas puedan cambiar conforme progresa el estudio como resultado de la revisión FORMATIVA del método; en donde la retroalimentación de las primeras observaciones informa al experimentador la forma óptima de proceder. Mientras más se aleje el objetivo del estudio del análisis puramente positivista, más susceptibles se vuelven los datos recolectados a los métodos cualitativos presentados en el capítulo 11 y 25.
JUEGO DE ROLES Y SIMULACIÓN El análisis de estos métodos se sitúa aquí porque, aunque algunas observaciones de juego de roles se han preestructurado de modo relativo, la tendencia ha sido desarrollar categorías y modelos a partir de un lenguaje y una conducta participativa bastante fluidos y sin restricciones. En algunos casos, los participantes observan el juego de roles (rol no activo) pero, de una manera general, es el juego de roles del participante lo que se observa (rol activo). Las técnicas se han utilizado por mucho tiempo en la investigación psicológica, de manera particular en el área de la psicología social, pero se destacó su uso cuando se les defendió como una alternativa al uso del obvio engaño experimental durante la década de 1970.
ROL ACTIVO El estudio puede requerir un juego de rol activo dentro de un contexto social simulado, como pedirle a uno que aborde a un extraño. Los participantes pueden tomar un rol
Métodos observacionales • 119
s e á f i c o : ser el director de un grupo que toma decisiones riesgosas. Se le ha pedido a c* rarticipantes hacer juego de roles ante jurados de diversos tamaños, bajo diferentes a = -« ie s, mientras se registra la dinámica de la situación. Éstas podrían ser, por ejemplo, ss reglas informales que se desarrollan en el grupo (Davis y colaboradores, 1975). Se le ha pedido a la gente simular varios sentimientos emotivos acompañados de eraresiones conductuales. En todos estos casos pueden hacerse observaciones en el momento de filmar la snducta para realizar un análisis detallado subsecuente.
TOL NO ACTIVO Se Vepuede pedir a los participantes que observen un juego de roles o una actuación simuada y después se les pide que informen sobre sus sentimientos, reacciones o sugerencias re cómo podría continuar la escena mostrada. Se les podría preguntar cómo se comporr e á n ellos en la situación subsecuente. En este caso, la simulación tan sólo sirve como material para un método que de modo básico consiste en hacer preguntas, el cual pertenece al siguiente capítulo. Una aproxi mación, la que inició la controversia acerca del engaño experimental, es digna de mención. Mixon (1979) estaba analizando los famosos estudios de Milgram sobre “obediencia destructiva” , para una explicación de su paradigma experimental, (capítulo 76). La objeción de Mixon no sólo fue ética de manera parcial, sino también la verdadera sbuación social, ya que el tema del experimento de Milgram no se había entendido por completo. Milgram describió el experimento a muchas otras personas, muy pocas de las cuales dijeron que esperarían que alguien continuara obedeciendo al experimentador y diera choques eléctricos a un “ aprendiz” que era obvio que estaba sufriendo. Mixon argumentó cae Milgram había hecho obvio para estas personas que el experimento era en realidad sobre “ obediencia destructiva” . Mixon dio a leer guiones a sus participantes del experi mento sin ninguna clave de cuáles eran los objetivos reales de éste. Les pidió describir cómo pensaban que continuaría el experimento. Después alteró el guión con grupos diferentes. Sólo cuando el guión incluía algo de preocupación por la víctima por parte del experimentador, todos los participantes afirmaron que esperaban que los participantes de Milgram dejaran de obedecer. Mixon argumenta que el contexto social del experimento de Milgram ofrece mensajes contundentes de que las normas del profesionalismo científico están en su lugar y de que no puede ocurrir daño alguno a la víctima (aunque, es obvio que le está ocasionando dolor). En pocos casos el participante puede ser actor y audiencia. Storms (1973) pidió a la gente que se involucrara en una interacción de dos personas y los filmó. Después vieron la película, observando ya sea sólo a su compañero o sólo a sí mismo. Esto tuvo efectos significativos sobre las causas que atribuían a la conducta observada.
PROPÓSITOS DEL JUEGO DE ROLES Y LA SIMULACIÓN Ginsburg (1979) argumenta que los métodos pueden ser útiles para el descubrimiento y la verificación. En el descubrimiento se pueden hacer observaciones generales que lleven
120 • Métodos de investigación y estadística. . .
(Capitulo 7)
a hipótesis o modelos más evaluables de modo específico. En la verificación, se pueden evaluar hipótesis como la de Mixon. Ginsburg piensa que el uso más útil es para ilustrar lo que él llama “ el marco del rol/regla”, bajo el cual ocurren las acciones. No nos dirán mucho acerca de los individuos pero sí quizás acerca de las reglas que las personas asumen o inventan, y siguen, dadas ciertas situaciones sociales. Pueden mostramos cómo las negocian las personas. Pueden decimos de las secuencias y jerarquías de la acción social.
DEBILIDADES DEL JUEGO DE ROLES Y LA SIMULACIÓN Los críticos, al principio, argüían que el juego de roles era pasivo y no espontáneo; que la gente actuaría de manera superficial, en formas socialmente deseables; y que lo que dije ra la gente que podría hacer y lo que haría eran cosas muy diferentes. Los proponentes discutían que los experimentos, también, pueden producir conducta artificial y superficial, y que el engaño mismo, de la variedad de Milgram, presentaba a los sujetos ante un conflicto irreal entre lo que parecía estar pasando y lo que se podría esperar en un establecimiento científico y humano. Sobre el aspecto de la espontaneidad, se citan varios estudios como productores de gran compromiso y falta de pretensión, quizá el más dramático sea el de Zimbardo (1972), descrito en forma breve en el capítulo 26, el cual tuvo que terminar después de cinco de sus catorce días planeados, porque “ los guardias de la prisión” se estaban volviendo muy crueles e insensibles, mientras que sus “prisioneros” se volvieron muy sumisos y se deprimieron mucho.
MÉTODODELDIARIO Hacia fines del siglo X IX , algunos académicos empezaron a darse cuenta de que no podían discutir de modo interminable sobre si los niños nacían con tendencias innatas, “ inheren temente buenas” como lo hubiera dicho Rousseau, o con una “tabula rasa” por mente, según Locke. Comprendieron que era necesaria una aproximación científica. Los primeros pasos hacia esto los dieron los “biógrafos de bebés”, de quienes es probable que el más notable sea Charles Darwin (1877). Los datos se encontraban en forma de diario de las observaciones cotidianas sobre el crecimiento y desarrollo de su propio hijo. La mayoría de los diarios fueron registrados del desarrollo de los propios hijos de los observadores. Por consiguiente, los estudios eran “ longitudinales” (capítulo 10). Un problema con estas explicaciones diarias fue que cada biógrafo tenía su propia perspectiva particular que apoyar, y tendía a concentrarse en aspectos de la conducta de sus hijos que eran bastante diferentes de los de otros diaristas. También tendían a no estandarizar los intervalos entre sus registros. Después, cuando el estudio del desarrollo de los niños se convirtió en una disciplina bien establecida, Piaget realizó diarios sobre el desarrollo de sus hijos. Tuvo un modelo com pleto de desarrollo cognoscitivo y sus observaciones se utilizaron para ejemplificar aspec tos de la teoría (no para “probar que era verdad”). Desarrolló pruebas o demostraciones de algunas características del pensamiento de los niños a diversas edades, tal como el egocen trismo, las que después aplicó con otros niños, empleando el M ÉTODO CLÍNICO (capítulo 8 ).
'
Métodos observacionales • ¡21
Los diarios también se llevaron durante la mayoría de los estudios de observación participante. Éstos se elaboraban cubriendo la observación, cuando era posible, al final de cada día, ya sea completamente de memoria o con cualquier pizca de notas registradas cuando surgía la posibilidad. En ambos usos, el método del diario tiene la gran ventaja de que las personas observadas están actuando de manera bastante natural, de modo particular en el caso de los bebés, puesto que están en casa con sus propios padres. ¡Ésta debe ser una fuente de algunos de los más ricos, genuinos e íntimos datos en este negocio! Jones y Fletcher (1992) pidieron a parejas que llevaran un diario de su estado de ánimo, estrés y variaciones en el sueño, por un periodo de tres semanas. Encontraron correlaciones significativas (capítulo 18) entre todos y en parejas de compañeros, en cada una de estas tres variables; sustentando el enfoque de que el estrés ocupacional se transmite de un compañero al otro, aunque las parejas individuales variaron mucho en el grado en que se compararon sus niveles de estrés. Otra utilización poco común de los diarios ha ocurrido en la experimentación participativa (capítulo 11), en donde los mismos participantes llevan diarios de sus actividades y percepciones a lo largo del estudio. Luego el experimentador somete el contenido del diario a alguna forma de análisis de contenido. Rajesh Tandon (1981) hizo esto en un estudio encaminado a mejorar la organización de compañeros en grupo y la toma de iniciativa en un programa de modernización y entrenamiento agrícola rural. Encontró que los datos recolectados por los cuestionarios con frecuencia no com paginaban con los registros de los diarios, siendo estos últimos bastante más congruentes con las propias notas de campo del investigador.
Apartado 7-2. Ventajas y desventajas del método tradicional del diario V e n tajas
Información rica y genuina Ambientes naturales Sujeto de observación completamente relajado Fácil de realizar si es en la propia casa del observador
D esventajas
Puede ser grande la influencia del observador Es difícil la comparación con otros estudios que emplean diarios debido a las variaciones en énfasis Compromete a estudios de plazo bas tante largo
OBSERVACIÓN PARTICIPANTE De la línea de pensamiento anterior se deriva que se puede hacer una observación más auténtica de las personas, si se está involucrado en sus interacciones cotidianas dentro de su red normal de relaciones humanas de grupo. El significado de sus conductas debería, por consiguiente, ser más accesible al observador para obtener un registro con validez ecológica. El saber si estos objetivos se pjueden alcanzar de una manera que todavía pueda considerarse científica, es un asunto de acalorado debate y se evaluará más adelante.
122 • Métodos de investigación y estadística ...
(Capítulo 7)
El grado en el cual el observador puede participar en el grupo bajo estudio es un continuo acuerdo con Patton (1980). Él distingue entre los siguientes:
Participante total Se esconde el verdadero rol del observador (“ no revelado” ) y los miembros lo toman como un elemento auténtico del grupo. En consecuencia, los secretos se pueden revelar. Sin embargo, Douglas (1972) argumenta que un investigador conocido, respetado y fidedigno puede mantener más secretos que un miembro verdadero no recibiría por temor a que éste los utilice contra el divulgador.
Participante como observador El rol observacional del participante no está escondido pero se mantiene “cubierto” . No se considera que sea la principal razón para la presencia del participante. Los miembros se relacionan con el participante de manera principal a través de roles y actividades que tienen como centro al grupo. Un ejemplo aquí podría ser el de un investigador, quien de modo efectivo se convierte en un miembro temporal del personal docente de una escuela, con el fin de realizar una investigación de la que otros integrantes det personal están enterados en términos generales. De manera alternativa, una maestra podría conducir una investigación para un requisito ulterior y utilizar su contexto de trabajo como un estudio.
Observador como participante Aquí el rol del observador es predominante y los miembros del grupo lo aceptan entre ellos como un investigador. Si se le valora, el investigador puede recibir información bastante íntima, pero se verá restringido para darla a conocer cuando se le ofrece como secreto.
Observador total El rol del observador no involucrado que ya se ha presentado como “ observación no participante” .
OBSERVACIÓN PARTICIPANTE NO REVELADA Ejemplos clásicos de estos estudios son: FESTTNGER Y COLABORADORES (1956) se unieron a una secta religiosa que creía que el mundo terminaría en cierta fecha. Él y sus colegas siguieron los acontecimientos previos e inmediatamente posteriores al momento fatal, observando las reacciones durante los últimos momentos de su vida y la subsecuente “ suspensión temporal de la pena capital” . Una descripción interesante se puede encontrar en Brown (1965). W H Y T E (1943) estudió una pandilla callejera de italianos en Chicago uniéndose a ellos.
Era obvio que Whyte no era un miembro normal de la pandilla. Su “ coartada” era que estaba escribiendo un libro sobre el área. Más famoso por su afirmación de que: “ Empecé como un observador no participante. Conforme era aceptado en la comunidad, me encon tré a mí mismo convirtiéndome casi en un participante no observador” .
Métodos observacionales • 123
FRankenburg (1957) estudió una aldea de Gales y a menudo se le cita por su iniciativa en la solución al problema de no “descubrir su coartada” e incluso tomar buenas notas al convertirse en secretario del club local de fútbol. R o senh an (1973). Un estudio aún controvertido que promovió críticas acerca del manejo, edquetación y diagnóstico de manifestaciones psiquiátricas en una institución médica. Los experimentadores se presentaron en el departamento de servicio externo del hospital quejándose de oír voces que hacían ciertos ruidos en sus cabezas. Durante sus subsecuen tes estancias voluntarias en el pabellón psiquiátrico hicieron observaciones del compor tamiento y las actitudes que tenían hacia ellos los pacientes y el personal. Los pacientes con frecuencia detectaron la “normalidad” de los experimentadores mucho antes que el personal. Un excelente ejemplo sobre el hecho de considerar la conducta como patológica debido a la etiqueta impuesta a quien la produce, fue cuando una enfermera registró la conducta de tomar notas de un investigador como “ conducta de escribir en exceso” . Para ser justos, la enfermera estaba cumpliendo a conciencia con instrucciones estrictas acerca de observar y registrar cualquier cosa no usual en la conducta de los pacientes.
PROBLEMAS ÉTICOS EN LA OBSERVACIÓN PARTICIPANTE NO REVELADA Por ejemplo, una de las razones por las que los humanistas objetan muchos experimentos psicológicos, tales como el de Milgram (1963) o Asch (1956), es que utilizaron el ENGAÑO con los sujetos. La observación participante que no se revela sufre de esta crítica también. El experimentador también tiene que decidir qué, si es que algo se puede publicar sin el consentimiento, ya sea de un individuo o del grupo. Un peligro específico es que cuando d observador “confiesa todo” y declara el rol de observador, cualquier individuo estu diado quizá no podría recordar lo que ha divulgado o cómo se ha comportado desde que empezó la investigación. Debería permitirse a los individuos ver el material para su publicación y vetar aquello que objeten donde el anonimato no los protege contra la naturaleza de los datos que los identifica. La falta de búsqueda del consentimiento lleva a una mayor desconfianza del distante y selecto grupo de investigación. Una respuesta al problema del engaño es, por supuesto, revelar los objetivos y el rol propio en la investigación. Estos problemas éticos se analizan con más amplitud en el capítulo 26.
OBSERVACIÓN PARTICIPANTE REVELADA L'n ejemplo sería el estudio de Becker (1958), cuyos observadores se unieron a un grupo de estudiantes de medicina en las sesiones de clase y laboratorio, y se involucraron en conversación casual tanto en horas de trabajo como en la atmósfera social de sus dormitorios. También se unieron en las rondas de guardia y grupos de discusión y pasaron algún tiempo observando tan sólo las diversas actividades de los estudiantes. En sentido rígido, se podría argumentar que el estudio de Whyte es abierto, ya que ’o s miembros del equipo con dificultad podrían haber distinguido entre la elaboración de un Tbro acerca de ellos y realizar alguna investigación sobre ellos. Los estudios de antropólo gos, como aquellos de Margaret Mead (1928, 1930), cuyo trabajo contribuye al debate
124 • Métodos de investigación y estadística
(Capítulo 7)
.psicológico y evidencias, se realizan con observación del participante revelada, donde el observador vive por un periodo largo en una cultura distinta a la propia (capítulo 10).
¿Qué aspectos fuertes y débiles puede usted ver en el uso de la observación participante? Liste las ventajas de la revelación.
ASPECTOS FUERTES DE LA OBSERVACIÓN PARTICIPANTE Flexibilidad Una estructura preestablecida para la observación, entrevista o cuestionario de estudio, impone el marco de referencia, las suposiciones y las prioridades del experimentador sobre los que se van a estudiar. Ya se ha decidido lo que es relevante en el mundo social del grupo objetivo. La observación participante es flexible. Lo que se incluirá como datos en el estudio no se establece de manera formal en concreto al principio. En verdad, el grado en el cual el observador participará puede no ser el mismo a lo largo del estudio, como lo aclara con anterioridad la famosa afirmación de Whyte. Éste también encontró a través de la observación participante “ . .. las respuestas a preguntas que no habría tenido el juicio de plantear si hubiera obtenido información únicamente con base en una entrevista” .
Relación con el grupo observado Es probable que determinados grupos en el ambiente local, como pandillas o grupos culturales fuertemente identificados, vean a un experimentador institucional como una figura de autoridad y, en consecuencia, se comporten suspicaces. Otros métodos de inves tigación diferentes a la investigación participante, como entrevistas o estudios mediante cuestionarios, no dan al experimentador lo suficiente para establecer confianza y disipar tales sospechas. El encuentro de la investigación es demasiado breve para asegurar una cooperación genuina. La observación participante puede ser algunas veces la única manera de descubrir lo que en verdad hace que tales grupos “ se identifiquen”, y averiguar qué actitudes expresadas surgen a partir de valores y creencias previas y quizá más profundas. Kidder (1981) argumenta que mientras más tiempo emplee el observador partici pante en un ambiente de investigación, en donde los miembros del grupo conocen sus objetivos y propósitos, es menos probable que su presencia influya o distorsione la conducta de las personas observadas. Esta aparente paradoja se explica al señalar que, aunque quizá los miembros del grupo deseen aparecer bajo una cierta luz ante los ojos del observador, si esta conducta no es natural para ellos, no podrán mantenerla por mucho tiempo entre sus amigos y parientes. Aun cuando el observador no reconozca la artificialidad, los amigos y compañeros de trabajo lo harán, y es probable que el observador se entere. Kidder agrega que es mucho más fácil para los participantes experimentales de un día, cuyas identidades permanecen anónimas, distorsionar la realidad comportándo se de manera no característica. Más adelante se resumen otras ventajas.
Métodos observacionales • 125
DIFICULTADES CON LA OBSERVACIÓN PARTICIPANTE La presencia de un observador participante debe cambiar la conducta del grupo en cierto grado, aunque sea de manera marginal, ya que, a menos que el experimentador per manezca mudo y pasivo (y por consiguiente no participen), deben darse interacciones que no habrían ocurrido de otra manera. Ésta es una afirmación de uno de los miembros del grupo de Whyte: Usted me ha calmado mucho desde que anda por aquí. Ahora, cuando hago algo, tengo que pensaren lo que Bill Whyte querría que yo supiera al respecto y cómo puedo explicarlo. Antes yo acostumbraba hacer estas cosas por instinto. Bastante concluyente para los investigadores que sostienen que su presencia es discreta y no influye. Sin embargo, los investigadores como Whyte argumentan que se mezclaron y llegaron a tomar parte en las actividades del grupo, más que cambiar lo que pasaba en lo sustancial, apoyando así el punto de vista por Kidder referido con anterioridad. Como lo testifica la afirmación de Whyte en la página 104, es obvio que el inves tigador se involucra social y emocionalmente con el grupo y esto debe descartar la duda sobre su objetividad final al elaborar su informe. Quien defienda la observación partici pante argumentaría, sin embargo, que el intento por ser objetivo por completo lleva a la artificialidad y rigidez discutidas antes. El investigador participante por lo común no puede tomar notas al momento de la observación. La mayoría tiene que depender de sus anotaciones en el diario después de los acontecimientos del día. Como señalamos antes, Frankenburg encontró una manera astuta de tomar notas bajo pretexto de ser el secretario del club, pero este método no estaría disponible para el observador de la vida pandilleril de las esquinas. Después, la mayoría de los observadores participantes son presas necesariamente de los factores psicológicos de pérdida de memoria y distorsión. Puesto que el investigador es el único observador presente y dado que los eventos observados son únicos, no hay ninguna de las oportunidades usuales para verificar de manera objetiva los resultados. Las conclusiones sólo se pueden generalizar con precau ción a grupos y situaciones similares.
OBSERVACIÓNINDIRECTA Algunos hechos ya han ocurrido, pero pueden servir como evidencia empírica para las teorías de la ciencia social. Durkheim, un sociólogo, hizo estudios que abrieron brecha sobre tasas relativas de suicidio, comparándolas con diferentes condiciones sociales. Muchos actos, como el suicidio, son de interés para los psicólogos y son imprevisi bles o bien no ocurren con suficiente frecuencia para una completa investigación científica. Las elecciones gubernamentales son relativamente infrecuentes y hacen que el estudio de la conducta en las votaciones sea en cierto modo inconveniente. La conducta no puede observarse de manera directa en acontecimientos como terremotos y suicidios. Los investigadores psicológicos pueden, en su lugar, utilizar como datos las estadísti cas sociales observadas. Éstas pueden obtenerse de fuentes históricas ( “ DATOS DE
126 • Métodos de investigación y estadística
(Capítulo 7)
Apartado 7-3. Ventajas y desventajas de los tipos de estudio observacional V e n tajas
D esventajas
Conducta más flexible que la estudiada en experimentos de laboratorio Los participantes pueden adi vinar qué es lo que el experi mentador espera ver mentó el indicar la dirección de causa-efecto
Los participantes pueden ver se afectados al saber que sé les observa
Mayor validez ecológica Puede utilizarse donde no es ético para el experimento, don de no hay informes verbales disponibles y donde se recha zaría el interrogatorio directo
Rara vez se puede utilizar en experimentos que indiquen la dirección causa-efecto Mayor potencial para los pre juicios del observador
Los participantes pueden no darse cuenta de que se les observa y, por consiguiente, se comportan de manera natural en eil contexto social
Difícil esconder al observador o al equipo Es menos probable una repe tición completa
Mayor validez ecológica como en el laboratorio
El experimentador tiene que depender de su memoria
Información mucho más rica por la interacción intensa y duradera
El compromiso emocional ha ce menos fácil de mantener la objetividad
M ás disponibles los significa dos de la conducta de los ac tores
Problema para mantener el di simulo
Falta de formalidad, la con fianza proporciona una com prensión no disponible con ningún otro método
La conducta del experimenta dor altera la de los miembros del grupo Ta! vez no es repetible y nadie puede verificar la validez de los datos reunidos Tai vez cualquier resultado es difícil de generalizar
Métodos observacionales • 127
«CHIVO”), información gubernamental o los medios masivos de comunicación. Por ejem-
se podría observar los programas de televisión para obtener ejemplos de estereotipi5cación sexual. El hecho de que la gente joven de raza negra obtenga menos entrevistas ;• menos empleos comparados con los jóvenes blancos puede atribuirse a que los jóvenes negros tienen menos preparación. Un investigador puede eliminar esta hipótesis al erservar las estadísticas de empleos que muestren que esta discrepancia ocurre entre los Avenes blancos y negros con igual preparación. Podría llamársele a esto una encuesta ce las estadísticas laborales. El uso común de “encuesta” se analiza en el capítulo 8. Observe que, aunque indirectos, estos estudios hacen observaciones de la conducta de la gente y, a través de alguna interpretación, de las actitudes prevalecientes. Note también que ésta es una forma perfectamente legítima de evaluar y eliminar hipótesis acerca de los factores causales en los fenómenos sociales. La observación de la cobertura electrónica o impresa de los medios masivos de comunicación podría someterse a t 'o.
ANÁLISIS DE CONTENIDO.
ANÁLISIS DECONTENIDO En un principio, el enfoque formalizado llamado “análisis de contenido” era un método específico desarrollado para muestrear y analizar mensajes de los medios masivos y otros materiales grabados como literatura, discursos de gente famosa, o propaganda bélica. Los intentos para analizar los mensajes de los medios se remontan al final del siglo pasado, la vuelta del siglo, cuando varios escritores estaban interesados en los estándares, validez e influencia de la prensa en la sociedad, los delitos y las costumbres. En las décadas de 1930 y 1940, sin embargo, el análisis de contenido “ despegó” , primero porque la “pesada” teoría psicosocial volteó hacia ella para proporcionar evidencia de apoyo, segundo porque la propaganda se convirtió en una seria amenaza antes y durante la guerra, y tercero porque ya no podía considerarse a los medios de comunicación electrónicos (radio, TV, cine) como una extensión de la prensa. A esta aplicación se le consideró como un instrumento cuantificador de información descriptiva, como lo demuestra la siguiente definición: . . . el análisis de contenido describe en términos generales un dominio heterogéneo de técnicas que se enfocan en la descripción (más o menos) sistemática, objetiva y cuantitativa de una comunicación o serie de comuni caciones (Crano y Brewer, 1973). Ésta, por tanto, es otra manera de observar, no de manera directa, a la gente, sino las comunicaciones que ella produjo. De manera original, las comunicaciones relevantes eran las ya publicadas, pero algunos investigadores han realizado análisis de contenido en materiales que le han pedido a la gente que produzca, tales como ensayos, respuestas a preguntas de entrevistas, diarios y protocolos verbales, (descritos después).
Ejemplos de análisis de materiales existentes S h n e id m a n (1963) analizó los discursos de Kennedy y Nixon en sus debates presiden
ciales televisivos, demostrando diferencias en sus argumentos lógicos.
128 • Métodos de investigación y estadística
(Capítulo 7)
O g ilv ie Y COLABORADORES (1966) analizaron notas de suicidios reales y simuladas con cierto éxito en la discriminación entre las dos. En este caso las notas simuladas no existían de manera natural, sino que las escribieron personas de características semejantes a las de los escritores reales de las notas. B r u n e r y K e l so (1 9 8 0 ) revisaron estudios de inscripciones anónimas de retretes públicos que cubrían un periodo de 30 años. La mayoría de los estudios analizaba el material, ya sea a nivel superficial: el contenido explícito de las afirmaciones, o a un nivel interpretativo, a menudo psicoanalítico. Bruner y Kelso analizaron los mensajes “semióticamente” , concluyendo que las inscripciones de las mujeres eran más interper sonales e interactivas, tendiendo a contener preguntas y consejos acerca del amor, las relaciones y compromisos. Las inscripciones de los varones tendían a ser egocéntricas y competitivas, concentrándose en la conquista y el poder. Sus mensajes tenían la íunción de confirmar una posición de control y mantenimiento del poder, mientras que los men sajes de las mujeres reflejaban cooperación y estrategias de ayuda mutua de los do minados. MANSTEAD Y MCCULLOCH (1 9 8 1 ) analizaron el contenido de 170 anuncios de la televisión británica, que delineaban roles de género y encontraron varias diferencias en relación con estereotipos tradicionales. Para un análisis detallado de este estudio, así como de las limitaciones del análisis de contenido como un método, véase Gross (1994).
CUMBERBATCH (1 9 9 0 ) analizó cerca de 500 anuncios en hora estelar por un periodo de
dos semanas en 1990, incluyendo la presencia de más de 200 caracteres. Setenta y cinco por ciento de los varones y sólo 25% de las mujeres que se juzgaron tenían más de 30 años de edad. Los varones sobrepasaron en número a las mujeres 2:1 y 89% de los comentarios excedentes eran de varones, de modo particular en información oficial o especializada. La mitad de los comentarios extras femeninos se categorizaron como “ sexy/sensual” . La proporción de mujeres sobre varones que se descubrieron como “ atractivas” file 3:2. Los varones interactuaban en labores hogareñas, tanto para su familia como para los amigos, mientras que las mujeres trabajaban de manera predominante para sus familias y nunca para sus amistades.
Análisis de materiales que se produjeron de manera especial KOUNIN Y GUMO (1961) le preguntaron a niños sobre mala conducta escolar. Estaban en dos grupos, los de maestros castigadores y los no castigadores. Como se predijo, el análisis de contenido de los protocolos de la entrevista mostró que los niños de los maestros castigadores estaban más interesados en la agresión. Aquí se utilizó el análisis de contenido en un diseño tradicional de prueba de hipótesis. Se ha utilizado el análisis de contenido en juegos, folklore, leyendas, versos infantiles e incluso música popular, con el fin de demostrar diferencias entre culturas y subculturas y dentro de culturas a través del tiempo. Por medio del análisis de contenido se ha establecido un vínculo entre las preocupaciones de varias revistas, periódicos y diarios con las diversas inclinaciones políticas de tales publicaciones. Los cambios en el contenido se han empleado como indicadores del cambio de actitud pública (aunque pudieran indicar cambios en la política del dueño del periódico).
Métodos observacionales • 129
**OCESO DEL ANÁLISIS DE CONTENIDO JfTESTREO: El experimentador tiene el problema de decidir qué material muestrear de -Ddo el existente. Para los periódicos esto significaría tomar una decisión basada en las refinaciones políticas, precio, público lector meta, y así sucesivamente. Para los medios ie comunicación visual debe ocurrir una muestra representativa de programas, duracio nes, anuncios, etcétera. Suele vincularse a la publicidad con el contenido de programas adyacentes. C n id a d e s d e c o d if ic a c ió n : Éstas son las unidades dentro de las que se categorizará e! material analizado. Pueden ser como se muestra en el cuadro 7-4.
Llegó a ser común en la década de 1980 investigar la literatura infantil así como los programas de televisión para niños y adultos, con el fin de encontrar evidencia de estereotipos, imágenes negativas u omisiones claras de mujeres o miembros de grupos étnicos minoritarios. Trate de desarrollar el siguiente ejercicio:
Imagine que va a conducir un ejercicio práctico en el que el objetivo es investigar la esteréotipificación cultural en los libros infantiles. Nos interesa conocer el grado y las maneras en que se representa a los negros. ¿Qué unidades (palabras, temas, personas) le pediría a los codificados que bus caran?
He aquí algunas posibilidades: • • • • • • • •
Imagen de personas negras. Personas negras en un papel estelar. Personas negras en un papel secundarlo. Rasgos europeos; la cara más oscura. Desaparición de personas negras que aparecieron antes en las imágenes de los cuentos. Comparación de personajes blancos y negros en términos de éxito/fracaso/problemas. Palabras inapropiadas: “de color"; “inmigrante”. Retratados como extranjeros/salvajesf primitivos” etcétera.
• Retratados como cómicos, conflictivos o problemáticos.
Nota: El análisis de contenido puede resaltar la “omisión” de detalles, temas y personajes,
PROCEDIMIENTO En el modelo tradicional, el investigador les presentará a los codificadores un sistema preconstruido para categorizar los sucesos. Esto significa que el investigador no tendrá que familiarizarse con el tipo de materiales que es probable encontrar antes del inicio del ejercicio de anáfisis de contenido. Al igual que con la observación, se le puede pedir a los codificadores que sólo categoricen, produciendo de este modo datos de nivel nominal. O se les puede pedir que jerarquicen las unidades, por ejemplo, ubicar en diferentes rangos, según el tema de
130 • Métodos de investigación y estadística..
(Capítulo 7)
Apartado 7-4 . Unidades de codificación Analice buscando palabras relacionadas con el sexo en diferentes revistas
Busque historias completas, por ejemplo, acerca de Irlanda del Norte personaje
Analice los tipos de personajes que se presentan en las caricaturas de la TV
tiempo y espado
Cuente el espado y tiempo dedicado a un problema particular en los medios masivos de comunicación
“confianza” , un grupo de respuestas abiertas sobre autoimagen. De modo alternativo, se podría dar un valor a cada reactivo: se podría dar una puntuación a los dibujos de los niños de acuerdo con su “originalidad” . En los dos últimos casos el nivel de medición sería “ordinal” . Los datos nominales y ordinales son niveles de medición que se presentan en el capítulo 12. Con el fin de anular el efecto de los prejuicios del investigador; la codificación podría realizarse completamente por asistentes que no conozcan la hipótesis de investigación, si hay una. También ha sido común evaluar la confiabilidad entre codificadores utilizando técnicas de correlación (capítulo 18).
PROTOCOLOS VERBALES Más o menos en la última década, se ha incrementado el uso de PROTOCOLOS VERBALES. Se refiere al producto registrado de las pláticas o pensamientos en voz alta de los participan tes cuestionados durante una actividad. Pueden informar sus pensamientos durante la resolución mental de un problema aritmético, o “hablar” sus decisiones mientras operan una pieza de maquinaria compleja, como los instrumentos del cuarto de controles en una instalación nuclear. Este método se relaciona de manera cercana a la práctica de la PRODUCCIÓN DEL CONOCIMIENTO.
El desarrollo interesante ha sido la generación de datos cualitativos de manera básica, en el corazón del terreno del método experimental: psicología cognoscitiva. Ericsson y Simon (1984) dieron a conocer un caso importante para el uso de informes verbales como datos. Buenas teorías de la resolución de problemas produjeron reglas con las cuales los seres humanos podían simular esto. Así, los protocolos verbales se pueden comparar con la simulación a fin de verificar la teoría. Ericsson y Simon argumentaron que el pedir a los participantes que hablaran mientras trabajaban no disminuía de modo necesario su ejecución. Depende de cuáles sean las instrucciones verbalizadas. Estas podrían ser: 1 Verbalizar su lenguaje silencioso —lo que se diría a sí mismo mientras resuelve este problema (realizando la tarea, conocida como instrucción en “ voz alta”).
Métodos observacionales • 1 3 1
2 Verbalizar los pensamientos que cruzan por su mente mientras realiza la tarea —una instrucción de “pensamiento en voz alta” . 3 Verbalizar sus pensamientos y decisiones y dar razones de ello. Al analizar los resultados de muchos estudios, encontraron que sólo la instrucción 3 afectaba de modo serio la ejecución, lo que no es para sorprenderse, ya que se le pide al participante que realice mucho más además de la tarea. Las^instrucciones de tipo 2 no afectaron de manera seria la exactitud, pero sí hicieron más lento el tiempo de resolución. Las instrucciones de tipo 1 tuvieron poco efecto en la exactitud y el tiempo. Además, encontraron que los informes verbales concurrentes (que se producen al realizar una tarea) fueron más válidos que los retrospectivos. El conocimiento “ implícito” (Broadbent y colaboradores, 1986) produce mayor distorsión que el “explícito” , siendo este último más accesible, así como las reglas fáciles de verbalizar empleadas para resolver problemas. El conocimiento implícito con frecuencia es no verbal y difícil de articular. El trabajo con la producción del conocimiento ha generado “ sistemas expertos” , cuerpos del conocimiento acerca de procedimientos, como en el diagnóstico médico, obtenido de los protocolos verbales de los expertos. Además, el sujeto de investigación ha sido la diferencia entre expertos y novatos, tanto para usos prácticos como por ejemplo para la reducción de errores en el trabajo que amenazan la vida, o a manera de pura investigación académica con énfasis en la resolución de problemas. Otro uso adicional es en la investigación de “modelos mentales” del sistema cotidiano de las personas (por ejemplo, su calefactor central) o simulaciones que se producen en laboratorio (como lanzar una nave espacial). Corcoran (1986) utilizó protocolos verbales con seis enfermeras expertas y cinco novatas, para investigar su enfoque en tres casos de complejidad diversa. Las enfermeras no vatas fueron menos sistemáticas en el caso menos complejo, en comparación con las expertas. Martin y Klimowski (1990) intentaron investigar los procesos mentales empleados por directivos mientras evaluaban su ejecución y la de sus subordinados. Encontraron que empleaban más atribuciones internas al evaluar a los demás que cuando lo hacían consigo mismos. Una atribución intema ocurre cuando percibimos una conducta como causada por las características permanentes de una persona, más que por las situaciones del entorno.
GLOSARIO Datos obtenidos de registros existentes
datos de archivo
Sistema empleado para categorizar ob servaciones
Codificación
Análisis de contenido con recursos de medios. Ahora también utilizados para cuantlficar contenidos de diarios, des cripciones, informes verbales, etcétera, a través de la codificación, categorización o clasificación
análisis de conte nido
132 • Métodos de investigación y estadística.
(Capítulo 7)
GLOSARIO (continuación) Método de recopilación de datos donde el participante hace registros regulares (con frecuencia, diarios) de eventos relevantes
método del diario
Hacerle saber a la gente^que son el ob jetivo de la observación
revelada
Observación y registro de eventos espe cíficos definidos para el estudio
muestreo de eventos
Enfoque de observación en donde el foco de ésta puede cambiar conforme avanza el estudio y se analizan datos anteriores
enfoque formativo
Recopilación de datos que se supone conforman el conocimiento de la persona observada, así como la comprensión del sistema específico, utilizando con frecuen cia protocolos verbales
producción del cono cimiento
Observación donde muchas variables se mantienen constantes Observaciones no realizadas de manera directa sobre la persona, sino sobre datos registrados con antelación o creados por la misma Observación sin intervenir en el ambiente propio de la persona observada
natural
Observación donde el observador no toma parte ni juega roles dentro del grupo observado
no participante
Observación donde el observador no toma parte ni juega roles dentro del grupo observado Observación que emplea un esquema de trabajo definido de modo explícito para la recopilación de datos
observación estruc turada
Estudio que es sólo observacional y no incluye experimentación
diseño de observa ción técnica de observa-
Métodos observacionales • 133
Efecto que causa variaciones indeseadas en el registro de datos que se producen por las características del observador Observación de una persona por tiempo lo suficientemente largo para registrar una categoría de conducta antes de pasar adelante al siguiente individuo Evaluación de la conducta observada al elegir un punto de una escala Estudio donde lós participantes actúan partes Estudio donde los participantes recrean y actúan, hasta cierto punto, un escenario social completo Observación de individuos por periodos largos Registro del lenguaje del participante cuando se le solicitó que hablara o pensa ra en voz alta
Eje r c ic io s
1 Esboce un estudio de investigación que utilice la observación para analizar las siguientes hipótesis; a) Durante el juego exploratorio, las madres permiten a sus hijos aventurarse más lejos de ellas que a sus hijas. b) Cuando se le hacen preguntas personales o ligeramente embarazosas, es más probable que la gente desvíe la mirada. c) Las mujeres son conductoras más seguras que los varones. d) Hay patrones de conducta comunes entre los individuos que forman parte de grupos que solicitan voluntarios para una tarea impopular. Asegúrese de que: se hagan operacionales las variables, se describa el método exacto para el acopio de datos, incluyendo la ubicación, selección de la muestra, método de recopilación de datos y equipo utilizado.
134 • Métodos de investigación y estadística.
(Capítulo 7)
2 Una estudiante decide realizar una observación participante en su propio grupo de com pañeros. Ella está interesada en las diferentes maneras en que sus compañeros enfrentan las demandas de estudio y los compromisos sociales. Discuta las formas en que podría realizar este trabajo, los problemas que podría encarar y los modos como podría superar las dificultades. 3 Describa de qué manera las hipótesis de Bandura, incluyendo las que investigaron la influencia de diferentes tipos de modelamiento infantil y adulto, pudieron haberse investigado utilizando observación naturalista en lugar de laboratorio. 4 Un investigador está preocupado porque la escala de calificación en uso no está produciendo una buena confiabilidad entre los calificadores. Los datos de dos observaciones son los siguientes: Observaciones para el niño X: actos altruistas en intervalos de 5 minutos: 0 -5
6 -10
Observador A
1
3
Observador B
2
10
11-15 4
16-20 2
8
7
21-25
5
26-00
31-35
12 1
3
9 5
36-40 4 5
41-45
8 6
¿Diría usted que éstos representan buena confiabilidad o no? ¿Qué procedimiento estadístico nos podría decir el grado de confiabilidad (capítulos 9 y 18)? 5 Trabaje con un colega y decidan sobre alguna variable para observar en niños o adultos. La variable será algo que tal vez ocurra con bastante frecuencia en un breve periodo de observación (10 minutos), tal como la aparición de una sonrisa durante una conversación entre dos personas en el comedor universitario. Hagan las observaciones de la misma persona, al mismo tiempo y de manera separada, y comparen sus resultados para ver si ustedes tendieron a una buena concordancia o no. ■
Planteamiento de preguntas I Entrevistas y encuestas Este capítulo presenta los principios generales que conciernen el planteamiento de preguntas. Los métodos pueden ser encubiertos o no, y pueden ser más o menos estructurados. • Se analizan las ventajas y desventajas de la estructura, mientras se Introduce la dimensión de técnicas de entrevista a través de la dimensión estructurado-no estructurado. Aquí se incluye el método clínico. En general, los estudios menos estructurados generan datos más ricos y genuinos, pero más locales y menos generalizables. • Se analizan los posibles efectos generales de variables interpersonales (género, etnicldad, roles, personalidad, indicaciones de los objetivos del entrevistador) en la situación de interroga torio cara-a-cara. • Se consideran las ventajas y desventajas del estudio de caso individual o grupal junto con algunos ejemplos de Investigación. El estudio de caso proporciona información única, inal canzable por cualquier otro método, enfocada a la Investigación más estructurada y general. • Se presentan técnicas para alcanzar y mantener el apoyo bajo la suposición de que el buen rapport obtiene datos más válidos del entrevistado. • Se abarcan tipos y secuenciación de preguntas junto con un pequeño análisis de técnicas de registro. • Por último, se introducen las encuestas como entrevistas totalmente estructuradas. Las en cuestas pueden utilizarse sólo para obtener datos descriptivos, para probar hipótesis, o ambas cosas. Se pueden conducir cara-a-cara, por correo o vía telefónica. Se describen de modo breve los paneles y grupos focales como métodos para determinar la opinión en un aspecto particular.
INTRODUCCIÓN H a s ta ahora hemos visto que el psicólogo que necesita información puede diseñar experimentos para ver lo que hacen las personas bajo diferentes condiciones, o utilizar técnicas de observación para registrar segmentos de conducta en circunstancias más o menos naturales. Quizá el lector se ha preguntado por ahora: “ ¿Por qué los psicólogos
136 • Métodos de investigación y estadística ...
(Capítulo 8)
no van y le preguntan de manera directa a la gente respecto de sí mismas?” Hasta ahora, parece como si sólo el observador participante hubiera hecho eso. Un término general utilizado para cualquier método que le pide información a las personas acerca de ellas mismas es el MÉTODO DE autorreporte . Existen, de hecho, muchas maneras en las que el investigador en psicología hace preguntas sobre los individuos. Esto puede ocurrir como parte de un experimento o estudio de observación, por supuesto. Las entrevistas que condujeron Asch y Milgram, después de su célebre demostración de conductas humanas aparentemente extrañas, proporcionan uno de los datos más fascinantes y ricos que se pudieran imaginar, y con certeza conforman el trampolín para un amplio volumen de investigaciones productivas e ilustrativas. Sin embargo, aquí nos centramos en estudios donde la recopilación de información a través del interrogatorio CARA-A-CARA es el modo principal de investigación.
ESTRUCTURA Estos métodos se extienden a través de dos dimensiones principales. Un método de interrogatorio puede estar ESTRUCTURADO de manera formal, en cuyo caso a cada respondiente (la persona que contesta) se le hacen exactamente las mismas preguntas, es probable que en el mismo orden. De modo alternativo, el método puede tender hacia lo NO ESTRUCTURADO, en cuyo caso la validez puede ser alta aunque la confiabilidad sufra. (Esto es similar a la diferencia entre la observación participante y la controlada revisadas en el capítulo anterior). En el estudio no estructurado, es ineficaz la com paración objetiva de casos, asi como la posibilidad de generalizar, pero el experimentador tiene la ventaja de la flexibilidad hacia el respondiente y la de hacer preguntas en una atmósfera más relajada e informal, en la que pueda facilitarse la aparición de respuestas completas y genuinas. Sin embargo, entre menos estructurada sea la entrevista, mayor será la habilidad requerida por cada entrevistador y el éxito de la investigación depende más de la aplicación de estas habilidades. También aumentan las probabilidades de selectividad y prejuicios por parte del investigador.
ESTUDIOKALAMAZOO Los cuestionarios también pueden ser más o menos estructurados. Los resultados de una parte de la investigación psicológica aplicada, que realizaron Peronne y colaboradores (1976), quienes demostraron la importancia de dar a los respondientes la libertad de decir lo que realmente piensan. Ellos evaluaron un nuevo sistema de responsabilidad que la Asociación Educativa Kalamazoo estableció en sus escuelas. Se había criticado mucho el sistema. Se pidió a los maestros que completaran un cuestionario con preguntas de elección fija: “ de acuerdo” o “ en desacuerdo” . Los investigadores también pusieron un par de preguntas abiertas que el personal podía responder con sus propias palabras y con la extensión que quisieran. Se preparó a los miembros directivos de la escuela para descartar los resultados cuantitativos de las preguntas de elección fija, por considerárseles en cierto modo prejuiciados pero, al publicar los resultados cualitativos, con dificultad pudieron ignorar
Planteamiento de preguntas / • 137
Eas claras afirmaciones de miedo, preocupación y frustración que dominaron en las respuestas a las preguntas abiertas y se les había influido lo bastante para que hicieran cambios sustanciales.
ENCUBRIMIENTO Un factor que podría estimular aún más la producción de respuestas honestas es el ENCUBRIMIENTO. Se discutirán más adelante los principios éticos implicados en el engaño
de las personas, pero es obvio que una ayuda para obtener información verdadera será el encubrimiento del propósito real de la experimentación cuando la información que se Sisea es muy delicada, potencialmente embarazosa o, en otras circunstancias, el entre vistado la perciba como amenazante si la revela. Los entrevistados también pueden tratar de “verse” bien si conocen con exactitud cuál es el foco del estudio. En el apartado 8-1 se muestra una matriz de técnicas de evaluación que caen dentro de cuatro categorías formadas con estas dos variables, estructura y encubrimiento. Sin embargo, se debe recordar que cada variable representa una dimensión, no un par de opuestos excluyentes. Algunos métodos se enmascaran sólo de manera parcial y se estructuran sólo de manera relativa. En la técnica de Hammond, se hizo preguntas a los respondientes, basadas en hechos acerca de los días perdidos por las huelgas, por ejemplo, y se les pidió que marcaran una de dos respuestas, una muy elevada y la otra muy por debajo de éste. Sin que fuera obvio para el entrevistado, se dijo que se estaban midiendo las actitudes hacia los sindicatos. Levin (1978) utilizó técnicas psicoanalíticas para evaluar el grado en que las mujeres sentían “ envidia por el pene” . Las mujeres que estudió informaron sobre todo lo que pensaron ver en las manchas de tinta de Rorschach (capítulo 9). El cuestionario de Eysenck sobre extraversión y neuroticismo le da al respondiente alguna idea sobre su propósito, pero no es transparente por completo. Hemos mencionado el estudio Kalamazoo y aludiremos a los estudios Hawthorne en breve. Éstos fueron relativamente sin encubrimiento. Una forma más de encubrir los objetivos de la investigación es hacer preguntas acerca del tema de interés y registrar simultáneamente la respuesta galvánica de la piel (RGP), un indicador de ansiedad si es alta.
Apartado 8-1 . Matriz de técnicas de evaluación No estru ctu rad as E n m ascaradas
Sin en m a s c a ra r
"Técnica de elección del error” de Hammond (1948)
Uso de pruebas proyedivas como en Levin (1978)
Cuestionano EPQ de Eysenck y [Eysenck (1975)
Roethlisberger y Dickson (estudios Hawthorne 1939)
Peronne y colaboradores (1976) La mayoría de los cuestionarios de aditudes
Estudio Kalamazoo Estudios más cualitativos
138 • Métodos de investigación y estadística..
(Capítulo 8/
Encubrimientode conductos falsos En una sabia pero engañosa explotación del indicador RGP, y como una manera de lidiar con los entrevistados que ocultan sus verdaderas actitudes y desean “verse bien” , Jones y Sigall (1971) introdujeron la técnica de “ conductos falsos” . Se conecta a los partici pantes a una máquina que, se les asegura, puede detectar signos de ansiedad; una especie de “detector de mentiras” . El investigador tiene, de antemano, alguna información acerca de actitudes de cada participante que obtuvo de manera clandestina. Se pide al participante que mienta acerca de algunas preguntas, de las cuales el investigador ya sabe la respuesta. Así, la máquina parece trabajar cuando el investigador “ detecta” una respuesta falsa. De manera aparente, la gente tiende a sentirse más avergonzada al encontrársele mentirosa que cuando revelan actitudes poco comunes. Esto parece funcionar pero, como usted se puede imaginar, la técnica ha recibido algunas críticas éticas (capítulo 26).
EFECTOSDELASVARIABLESINTERPERSONALES Este capítulo trata de cómo hacer preguntas a la gente, principalmente para reunir información. Hemos visto que algunos diseños de investigación, en particular el experi mento de laboratorio, se han criticado por su artificialidad y por producir características de la dem anda. Sin embargo, cuando le hacemos preguntas a la gente, no importa que sea de manera informal, en tanto conozcan que hay un objetivo de investigación habrá un elemento de artificialidad y distorsión. Hay una interacción de roles: entrevistador y entrevistado. Las características del estilo y la presentación del entrevistador afectarán la calidad de la información obtenida. Las características de la demanda bien pueden operar de modo tal que el entrevistado use las sugerencias procedentes del entrevistador, o del cuestionario, para tratar de comportarse de acuerdo con los objetivos percibidos de la investigación. La influencia del investigador puede operar también cuando el entrevis tador sabe de los resultados esperados o deseados. La relación e interacción entre entrevistador y entrevistado afectarán lá calidad y cantidad de información obtenida en una entrevista. Haga una lista de todas las maneras en que usted crea que esto puede suceder. Mi lista incluiría todos los puntos siguientes: En particular la clase, sexo, cultura o raza y edad de la persona en la entrevista puede marcar una gran diferencia en los procedimientos. Aquí las diferencias culturales no tienen que ser grandes. Podría ser la diferencia entre londinense y escocés o tan sólo entre norteño y sureño.
Género La importancia del género como variable se demuestra en un estudio de Finch (1984), en donde unas madres jóvenes le permitieron conocer sus puntos de vista, cosa que un varón es difícil que hubiera podido obtener. Una mujer entrevistada puede asumir un en tendimiento común con una entrevistadora mujer, como cuando una de las mamás de Finch dijo .. los varones no lo ven así, ¿verdad?”
Planteamiento de preguntas / • 139
Etnicidad Word y colaboradores (1974) demostraron que la raza o grupo étnico crea una conducta diferencial en las entrevistas. Observaron la conducta de entrevistadores blancos con entrevistadores blancos y negros. Con los entrevistadores blancos, los entrevistadores mostraron una “ proximidad” significativamente mayor: la que incluye distancia inter personal más estrecha, más contacto visual, más inclinación hacia adelante, etcétera. Dieron un seguimiento a esto con una demostración de que los “ solicitantes de empleo” en el estudio correspondieron a la conducta de poca proximidad de los entrevistadores, y recibieron calificaciones más bajas de manera significativa en su desempeño durante la entrevista.
Roles formales Las diferencias descritas antes pueden tener mayor efecto si el entrevistado también ve al experimentador como una figura de autoridad. Esta percepción dependerá de manera parcial del estilo que adopte el experimentador, pero incluso uno demasiado informal, puede no impedirle al entrevistado que lo vea como una figura muy importante. Por consiguiente, sus respuestas pueden carecer de fluidez debido a que el respondiente se siente forzado a buscar el lenguaje o contenido “correcto” . Por otro lado, algunos respondientes pueden sentirse muy superiores o cínicos con respecto al entrevistador y, en consecuencia, sus respuestas pueden ser en cierto modo superficiales y apresuradas.
Cualidades personales Al interactuar con estas diferencias importantes, hay otras cualidades y características per sonales de ambos individuos. El entrevistador, a quien se le ha instruido para comportarse de manera informal, puede serle bastante difícil hacerlo con algunas personas y, por consiguiente, quizá se comporte de manera bastante artificial, lo que detecta el entrevis tado. Puede haber algo más acerca del entrevistador que al entrevistado simplemente no le guste.
Deseabilidadsocial Un problema común al hacer preguntas es el de la deseabilidad soc ial . Ésta es la tendencia de querer verse bien ante el mundo exterior y que se le vea como una persona que tiene hábitos y actitudes socialmente deseables. Por tanto, a un experimentador respetado y admirado la gente puede darle una impresión bastante falsa de sus actitudes y conducta. Es difícil de manera notoria, por ejemplo, medir abiertamente los prejuicios. Cuando se les pregunte, muchas personas harán afirmaciones como: “ Creo que todos somos iguales” y “Todos deberían ser tratados de la misma manera” , mientras que en su vida cotidiana y en la conversación con amigos bien pueden emerger otras actitudes más negativas hacia algunos grupos. Al menos, algunos aspectos de su conducta pueden desmentir las creencias que profesan. En aspectos como la práctica en la crianza de los niños o manejar con seguridad, la gente sabe qué es lo que deben decir a un entrevistador.
140 • Métodos de investigación y estadística.
(Capítulo 8)
Respuestas aleatorizadas —un camino en torno a la deseabilidad social y la confidencialidad Una técnica muy ingeniosa que incrementa la validez y trata el aspecto de la confiden cialidad para respondientes en asuntos sensibles es la de “respuesta aleatorizada” , expuesta por Shotland y Yankowski (1982). Al participante se le hacen dos preguntas simultáneas como puede ser el reactivo 8 del cuestionario. Sólo el participante sabe cuál de las dos responder y esto se decide con un volado. Una pregunta tiene que ver con la información que se busca y puede ser sensible. Digamos que la pregunta es: “¿Alguna vez ha experimentado sentimientos sexuales hacia un miembro de su propio sexo?” La segunda pregunta es innocua, digamos “¿Maneja automóvil para ir a su trabajo?” El investigador ya conoce la respuesta esperada a la segunda pregunta, por su experiencia con muestras grandes. Digamos que esta proporción es de 60 por ciento. De 200 personas, 100 responderán la pregunta del automóvil y cerca de 60 de ellas responderán “sí” . Para las 200 personas, el número de veces que responden “ sí” al reactivo 8, que es superior a 60, es un estimado del número de respuestas “sí” a la pregunta sensible. De estamanera, el participante mantiene su confidencialidad; aun así se puede obtener una estimación fiel de actitudes o conductas en aspectos sensibles.
Señales evaluativas No es usual que nos pidan nuestra opinión en una situación en donde no se espera ninguna crítica o discusión. El entrevistador tiene que ser cuidadoso para no demostrar de manera accidental, no importa con cuánta sutileza, una conducta que pudiera interpretarse como desacuerdo o de estímulo, puesto que el entrevistado bien puede estar buscando una posición deseable o aceptable. No todos los investigadores concuerdan con este rol pasivo (apartado 8-2).
ENTREVISTAS Las entrevistas uno a uno o cara a cara sé clasifican según su estilo a través del rango de estructura de preguntas fijas a abiertas. Se codifican las respuestas a preguntas abiertas ubicándolas en categorías, tales como “ de izquierda” o “ de derecha” para cuestiones políticas, o calificándolas en una escala de 1 a 10 para, digamos, la agresividad. En algunas encuestas, los entrevistadores codifican las respuestas en el mismo lugar que las reciben. En el tipo menos estructurado de entrevista, el análisis de respuesta es un proceso largo, complicado y más o menos subjetivo. En los estudios de investigación cualitativa puede no haber interés alguno en la cuantificación de respuestas más allá de la categorización básica. El énfasis se pondrá en cotejar, priorizar y resumir toda la información adquirida (capítulo 25), y quizá en sugerir áreas y estrategias de acción. El contexto y procedimiento para la entrevista también pueden estar más o menos estructurados y con sideraríamos cinco categorías de entrevista, empezando por el extremo relativamente no estructurado del continuo.
Planteamiento de preguntas I • 141
Apartado 8-2. Punto de vista del análisis de discurso de la influencia en la entrevista Existe un punto de vista contrario a la “ley” de investigación convencional que se refiere a que el entrevistador no debe comprometer o conducir al respondiente como uno lo haría en una conversación normal. Esto está ligado al enfoque del análisis de discurso, el cual se analiza con mayor detalle en el capítulo 11. Potter y Wetherell (1987) explican que el objetivo del análisis de discurso se da en la medida en que la gente utilice el lenguaje, en conversación, para construir y “negociar” una perspectiva del mundo. Argumentan que no podemos asumir una verdad "pura” en el juicio de la gente al que se tiene acceso, si sólo se removieran todos los prejuicios e influencias distorsionantes. Su interés recae en la manera en que la gente utiliza el discurso para promover ciertas versiones de los eventos, con frecuencia aquellas que sirven mejor a sus intereses o que los colocan en ventaja. Entonces, para el entrevistador analítico de dirscurso, la entrevista debe ser natural al grado de promover este uso del lenguaje discursivo cotidiano. La diversidad que la entrevista estructurada tradicional trata de minimizar, con el fin de obtener respuestas “consistentes” de los entrevistados, se alienta de manera positiva con el enfoque de discurso. Para Potter y Wetherell, consistencia es un signo de que los respondientes producen sólo interpretaciones limitadas y probablemente compatibles. Perciben al entrevistado como una “situación activa donde se exploran y se comprometen al máximo los recursos interpretativos del respon diente . . . ” y como un “encuentro convencional” (Potter y Wetherell, 1987). Así, la entrevista se conduce con bases “Intervencionistas y confrontares”; no como una disputa, sino como una situación en donde el entrevistador está preparado para regresar a áreas difíciles o ambiguas para el entrevistado, con el fin, tal vez, de producir algunas construcciones alternativas. El entrevistador también está preparado para utilizar pruebas y preguntas de seguimiento en áreas fructíferas. Esto haóe que la entrevista sea algo similar al tipo “informal pero guiado" descrito abajo, con elemen tos, también, del “método clínico” que se analiza más adelante.
TIPOS DE ENTREVISTA 1 No directiva Algunos profesionales de la psicología utilizan entrevistas en las que los entrevistados pueden hablar de cualquier cosa que quieran, y en las que el psicólogo no influye de manera directa en los temas, pero sí ayuda y guía el análisis. El objetivo principal sería ayudar al “ cliente” a aumentar la autoconciencia y a manejar los problemas personales. Este método lo usan los psicoterapeutas y consejeros y no contaría, por tanto, como investigación, en el sentido general utilizado en este libro. Pero, por supuesto* en cierto sentido los clientes sí investigan sobre su propia personalidad y el psicólogo puede necesitar información, reunida de esta manera, con el fin de ayudarlos. Este enfoque puede utilizarse en el acopio de información que forma parte de un DE CASO, tema que se analiza más adelante.
estudio
Las introspecciones que se obtienen de tales estudios suelen agruparse en una teoría psicológica global, modelo o enfoque que se añade, a su tiempo, a la gran cantidad de conocimiento e ideas que son estímulo para una mayor investigación mediante otros medios. Las introspecciones de Freud, por ejemplo, influyeron en Bandura para el desarrollo de la teoría del aprendizaje social, la cual sustentó principalmente con estudios de observación controlada.
142 • Métodos de investigación)/ estadística
(Capítulo 8)
2 Informal Una entrevista informal tiene como objetivo la recabación de datos globales. En el extremo no estructurado la sesión es similar a la del enfoque no directivo recién descrito. Ésta se empleó en un estudio a gran escala (ahora famoso) sobre relaciones industriales en los talleres Hawthorne de la Western Electric Company en Chicago, comenzado en 1927. Las primeras entrevistas estructuradas no tuvieron éxito. Los empleados se salieron de los temas fijados por las preguntas de los entrevistadores. El “enfoque indirecto” que los investigadores desarrollaron después implicaba que los entrevistadores escucharan con paciencia, haciendo comentarios inteligentes, que desplegaran actitudes no autori tarias, no dieran consejos o argumentos y sólo hicieran preguntas cuando fuese necesario; por ejemplo, se pensó que era útil para alentar mayor comunicación, liberar ansiedad, alabar, cubrir un tópico omitido y analizar suposiciones implícitas. Las “reglas de orientación” para el entrevistador tomaron en cuenta muchos de los puntos que ahora fortalecen los analistas de discurso (apartado 8-2 y capitulo 11). Encontraron que los empleados se expresaban mejory, como resultado global del estudio, la gerencia se dio cuenta de que las quejas en apariencia triviales eran sólo síntomas externos de problemas personales y sociales más profundos, los cuales requerían más que la respuesta superficial a las quejas de los empleados que habían considerado originalmente (Roethlisberger y Dickson, 1939). En la atmósfera relajada de la entrevista informal no directiva, los entrevistados pueden hablar en sus propios términos. No tienen que contestar preguntas predetermi nadas que podrían parecerles confusas o que tan sólo no quieran contestar. No se les obliga por medio de preguntas con respuesta fija, las cuales producen una información bastante limitada. Este enfoque se utilizó en la investigación de las ciencias sociales durante algún tiempo y se volvió popular de manera más reciente, en gran medida en el decenio de 1980 en áreas de investigación aplicada, de modo particular por los proponentes de enfoques cualitativos. Los trabajadores de aspectos cualitativos argumentarían que el intento de objetividad a través de fungir como un entrevistador frío, distante, impersonal y anónimo sólo
Apartado 8-3 . Resumen de ventajas y desventajas de la entrevista informal V e n tajas
D esventajas
La entrevista puede moldearse al individuo, situación y contexto
No sistemática y, por consiguiente, diferente información de distintos indi viduos Difícil de analizarla variedad de información recolectada
Información más rica y más completa probablemente en los propios términos del entrevistado El entrevistado se siente relajado y sin presión de que lo evalúen
Influida con fuerza por variables inter personales
Realista
Relativamente poco confiable/No generaiizable
Planteamiento de preguntas I • 143
consigue infundir ansiedad. Los entrevistados se sujetan a las claves de lo que en realidad se espera de ellos y de cómo su información facilita o entorpece el “éxito” . A mí me han entrevistado para investigaciones y recuerdo sentirme desesperado por saber cuál es el contexto, a fin de manejar mis respuestas de manera más efectiva, y así recordar más üeas pertinentes y experiencias. También recuerdo al entrevistador diciendo .. bueno, sbora no deberá estrictamente decir esto pero. . . ” y desviarse de la estructura en diversos rxmtos. De modo realista, la mayoría de los entrevistadores se conducen así. Comentarios incidentales y colaterales pueden conformar parte de la información más memorable y rroductora de introspección.
3 Informal pero guiada Una manera de conservar la ventaja del enfoque informal es mantener el procedimiento informal, no hacer preguntas predeterminadas exactamente en el mismo orden cada vez, sino proporcionar a los entrevistadores una guía que esboce los temas por cubrir y las preguntas por hacer. La guía le permite al entrevistador que decida, ahí mismo, cómo trabajar en el momento y elaborar las preguntas sobre los diversos temas. En otras palabras, con requerimientos de datos específicos, el entrevistador lo “toca de oído” .
Apartado 8 -4 . Resumen de ventajas y desventajas de la entrevista informal pero guiada V e ntanjas
D esventajas
Aumento en la consistencia de la infor mación
La diferente formulación de las pregun tas creará una variación en interpre tación y énfasis El entrevistador podría perder puntos importantes
El análisis de datos es más simple, más sistemático La información es dada genuinamente
Influencia sustancial por variables inter personales
El entrevistador todavía puede ser flexible Bajaconfiabilidad/generalizabilidad Información muy rica Realista
4 Estructuradas pero abiertas Para evitar la vaguedad e inconsistencia que acompañan a los datos de entrevista recabados de manera informal, en ésta se puede utilizar un procedimiento estandarizado. El entrevistador hace preguntas preestablecidas en un orden predeterminado a cada entrevistado. Esto conserva en un mínimo la multiplicidad de variables interpersonales implicadas en una conversación de dos vías y asegura mayor consistencia en los datos recolectados. Aun así el respondiente es libre de contestar de cualquier forma que elija. Las preguntas son abiertas, por ejemplo, se le podría preguntar: “ ¿Cómo se siente respecto a las políticas de venta de la compañía?” , en vez de “¿Aprueba usted las políticas de venta de la compañía?”
144 • Métodos de investigación y estadística
(Capítulo 8)
Apartado 8-5. Resumen de ventajas y desventajas de la entrevista estructurada abierta V e n tajas
D esventajas
Las respuestas son mucho más fáciles de comparar
Se pierde la flexibilidad del entrevista dor que puede responder a diferentes individuos, situaciones y contextos
Los datos se analizan con mayor facili dad
La formulación de la pregunta puede re ducir la riqueza
No se pierden temas o sé cubren fugaz mente
Respuestas menos naturales
Reducción d e la influencia interpersonal
La codificación de respuestas puede no
Puede utilizarse por varios entrevista dores al mismo tiempo Otros investigadores puederí revisarla Los respondientes no se ven forzados por respuestas fijas
5 Estructuradas por completo En este tipo de entrevista, así como en el anterior, las preguntas son fijas y ordenadas. Además, el respondiente puede contestar sólo de acuerdo a un sistema formal. Podrían ser tres ejemplos de estructura, en complejidad creciente: 1 Contestar preguntas con “ sí” o “no” . 2 Responder a una afirmación (no una pregunta) con una de las siguientes: Totalmente de acuerdo
De acuerdo
Neutral En desacuerdo
Totalmente en desacuerdo
3 Seleccionar de entre varias alternativas una sentencia de tribunal apropiada para un violador. De hecho, este procedimiento con dificultad es una entrevista que le valga el nombre. Es una técnica de recolección de datos cara a cara, pero podría realizarse por teléfono o por correo (lo que reduciría todavía más los prejuicios de las variables interpersonales). El método estructurado suele emplearse cuando alguien lo detiene a usted en la calle con una carpeta. Las respuestas pueden contarse y analizarse de manera numérica, pero suelen ser difíciles de elaborar debido a que el respondiente quiere decir “sí” (por esta razón) pero “no” (por esa razón) o “ eso creo” o “ algunas veces” . Un sistema estructurado sensible tiene una lista para elegir respuestas in cluyendo alternativas como “ algunas veces”, “ casi nunca” , o “ cierto” , “bastante seguro” y así de modo sucesivo. Este método es el que se utiliza a menudo en una ENCUESTA.
Planteamiento de preguntas / • 145
Apartado 8-6 . Resumen de ventajas y desventajas de la entrevista completamente estructurada V e ntajas
D esventajas
Muy rápida de aplicar -epetible con facilidad Resultados aeneralizablés Análisis de datos relativamente sim ales . 1 1 Cuantificación sin influencias; = oca influencia de las variables interoersonales Mucha confiabilidad
El respondiente está forzado por completo 'por-el sistema de preguntas y respuestas La información obtenida es limitada La información puede distorsionarse por: formulaciones ambiguas formulaciones complejas lista inapropiada de opciones de respuesta Sufre de todas las dificultades asociadas con los cuestionarios
MÉTODOCLÍNICO(“ENTREVISTACLÍNICA”) Este método utiliza una entrevista semiestructurada de manera particular. De modo usual se aboca a probar hipótesis bastante especificas o a demostrar un fenómeno clar o y delimitado. Sin embargo, también reconoce la experiencia única de cada entrevistado. En rrincipio, a cada persona interrogada se le harán las mismas preguntas, pero las siguientes se adecúan conforme a la naturaleza de las primeras respuestas. Piaget lo utilizó con amplitud. Quien sea que haya tratado de evaluar a un niño acerca de las tareas de conservación de Piaget sabrá que el lenguaje específico elegido, y la calidad de la interacción del adulto con el niño son factores de suma importancia que determinan el progreso de esta prueba. Es fácil lograr que un niño de cuatro años de edad dé la respuesta "equivocada” (es decir, la que implica la no conservación) con una elección imprudente de términos en las preguntas o con una conversación “torpe” “¿Hay más líquido en este vaso?” es una pregunta directiva que bien puede instigar al niño a decir “ sí” por complacer. De cualquier manera y después de todo, la columna de líquido es más grande (aunque más estrecha). La pregunta “¿Hay más en este vaso, más en este otro, o es lo mismo en los dos?” ¡exige bastante de la memoria a corto plazo del niño! El método clínico, entonces, utiliza un procedimiento no estandarizado pero se dirige hacia una meta definida. Las preguntas estandarizadas, a las que se apega de modo rígido el entrevistador, pueden ser bastante artificiales para el respondiente adulto. El problema con los niños es mayor. Si ellos no entienden la forma particular de las palabras, pueden “fallar” cuando una alteración en la forma de la pregunta bien puede haber revelado que el niño tiene después de todo el concepto buscado. Piaget creía, por consiguiente, que podía obtener la información más exacta sobre la manera de pensar de los niños, variando el cuestionamiento hacia lo que le parecía al niño una conversación bastante común con un adulto. Por supuesto, terminamos con las supuestas debilidades de los procedimientos no estandarizados. Se ha dicho también que los métodos de Freud implicaban al método clínico, puesto que el objetivo de algunas sesiones era probar una hipótesis específica acerca de la red de miedos e ideas inconscientes del cliente.
146 • Métodos de investigación y estadística
(Capítulo 8)
Apartado 8-7 . Resumen de ventajas y desventajas del método clínico Lleva a una exacta valoración del pen samiento y memoria de la persona
Método no estandarizado
El entrevistador puede variar las pre guntas con el fin de verificar la compren sión de la persona
Las creencias teóricas del investigador pueden influir en las preguntas plantea das y en las interpretaciones que se hacen de lo que la persona entiende;
La información obtenida es bastante rica
Dificultad para comparar un protocolo de entrevista con otro
El entrevistado está relajado
ESTUDIODECASOINDIVIDUAL Un estudio de caso supone el acopio de información detallada acerca de un individuo o de un grupo. De modo típico esto incluiría una extensa HISTORIA DE CASO, la cual se realizaría de modo usual por medio de la entrevista. Éste sería el registro actualizado de la persona en cuanto a empleo, educación, detalles familiares, nivel socioeconómico, relaciones, etcétera, y podría incluir una explicación detallada de experiencias pertinentes al problema que motiva el interés particular en investigar a la persona. Tal razón podría ser el que ésta haya sufrido una grave privación social y física o que su vida esté afectada en particular, quizás, por enfermedades o antecedentes criminales. También podría obtenerse información sobre todas estas variables, conforme avanza el estudio. Se entrevistaría con regularidad a la persona, la mayoría de las veces de una manera no estructurada, y podría pedírsele que resolviera exámenes psicológicos. Un estudio de caso puede no utilizar nada más las entrevistas. En algunos casos, en particular cuando la persona es un niño, la observación puede jugar un papel importante en la recolección de información; como cuando, por ejemplo, se registra el cambio en las actividades de juego, desarrollo social e interacciones de un niño privado de manera severa. En algunas instancias se selecciona a los individuos para un estudio de caso esperado a futuro debido a que están por vivir una experiencia tal vez única y de manera particular interesante. Gregory y Wallace (1963), por ejemplo, estudiaron el caso de SB, ciego casi desde nacimiento, quien recuperó la vista por medio de una operación quirúrgica a la edad de 52 años. Los experimentadores pudieron estudiar en profundidad no sólo sus ca pacidades y desarrollo visuales, sino también reunieron datos cualitativos sobre sus reacciones emocionales ante sus nuevas experiencias y progresos. Éstas incluyeron su euforia inicial y su depresión posterior, causada de modo parcial por la declinación del día y su desilusión con las superficies impuras (pintura escamosa, viejas marcas de gis en el pizarrón). Un estudio de caso como éste, por intrínsecamente valioso que sea, también puede iluminar problemas psicológicos generales, como el debate sobre naturaleza-crianza en la percepción. Sin embargo, puesto que SB había pasado su vida especializando sus otros sentidos que la visión, sus experiencias de aprendizaje perceptual no pueden compararse de modo directo con las de un infante.
Planteamiento de preguntas I • 147
Freud desarrolló su extensa teoría psicoanalítica sobre el desarrollo humano utili zando como ejemplos sus registros de docenas de historias de casos de pacientes. En el extremo social del espectro de investigación psicológica, encontraríamos los estudios de caso de grupos de individuos como los realizados por observadores partici pantes o los estudios evaluativos de instituciones ejemplificados en el trabajo de Kalamazoo fescrito con anterioridad. De Waele y Harré (1979) recomendaron la construcción de autobiografías con ayuda. En este método se concibe la explicación autobiográfica como un esfuerzo cooperativo entre el participante y un grupo de aproximadamente 12 profesionales (psicólogo, trabajador social, etcétera). Su proyecto incluía prisioneros, a quienes, aunque fueron voluntarios, se les pagaba un salario como a un miembro del equipo de investigación. El proceso abarca la negociación detallada continua entre los miembros del equipo sobre varios “relatos” del participante. En todo momento se respeta la vida y recursos de éste y el equipo profesional debe “mantenerse en una relación de humildad” al respecto. Este método, por supuesto, consume demasiado tiempo y es demasiado caro, si bien produce de manera intensa datos ricos y significativos. Harré pertenece, a los investi gadores del “nuevo paradigma” descritos en el capítulo 11, y este tipo de proyectos de investigación es un ejemplo del enfoque colaborativo.
VALORDELOS ESTUDIOSDECASO Tratándose de un estudio en cierto modo no estructurado y probablemente irrepetible, sobre sólo un individuo o grupo, el estudio de caso parecería ser del tipo rico, pero poco confiable así como bastante sospechoso en su aplicación científica. Bromley (1968) ha argumentado de manera reciente que los estudios de caso son la “base de la investigación científica” . Argumenta que muchos estudios psicológicos son difíciles en principio de repetir, y es el caso interesante e imprevisible el que de manera tradicional ha estimulado a los científicos a hacer cambios en el paradigma o innovaciones teóricas. Bromley siente que la preocupación por el experimento y la psicometría ha llevado a la mayoría de los psicólogos a un grave descuido en el enfoque del estudio de casos. Señala que, en la mayoría de las ciencias, la evidencia psicológica puede ser válida y efectiva, y aun así permanecer incuantificable. El estudio de caso tiene una variedad de ventajas específicas y puntos útiles que se señalan a continuación.
1 Casos sobresalientes Puede ocurrir un fenómeno que sea único o tan notable, que no podría haberse pronosti cado o estudiado de alguna manera planeada antes. Un ejemplo es el estudio de Osgood y colaboradores (1976), en el que se registran y analizan las experiencias raras pero genuinas de una persona con tres identidades psicológicas bastante separadas. Luria (1969) estudió a un varón con una capacidad memoristica asombrosa, quien empezó a llamar la atención porque era un periodista que no tomaba notas en las juntas informativas. Tales casos pueden atraer la atención hacia las posibilidades de la condición humana que no se consideraban antes como realistas y que pueden lanzar al investigador hacia nuevas y desafiantes áreas.
148 • Métodos de investigación y estadística
(Capítulo 8)
2 Contradicción de una teoría Un caso contradictorio es suficiente para desafiar de manera seria una tendencia o teoría sobre una supuesta relación causal. Se ha asumido que los seres humanos pasan a través de un “periodo crítico” en donde se debe escuchar el lenguaje para aprenderlo, o en donde se deben formar y mantener los vínculos con el fin de evitar problemas psicológicos posteriores. Un caso de aprendizaje de lenguaje en un niño aislado, o de uno privado de su madre, que desarrolla habilidades sociales normales como adulto después de la privación durante la mayor parte del periodo crítico, es suficiente para debilitar con seriedad la hipótesis del periodo crítico y promover investigaciones vigorosas en busca de variables cruciales.
3 Banco de datos En un esfuerzo por identificar factores o experiencias comunes, se puede acumular, clasificar y analizar una gran masa de información de muchos estudios dé caso. Los sujetos pueden ser, por ejemplo, pacientes psiquiátricos o niños con un problema específico de lectura. Como resultado, se pueden realizar estudios cuantitativos una vez que aparezcan o se sospeche de variables de enlace.
4 Introspección Ya sea que los estudios de caso de circunstancias especiales lleven o no a investigaciones posteriores estructuradas y cuantitativas con mayor formalidad, la riqueza que proporcionan es su fuerza inimitable. Muy a menudo no nos sería posible imaginar las experiencias especiales de la persona estudiada y no podríamos redactar las preguntas apropiadas para descubrirlas. Estas experiencias pueden hacer que reestructuremos nuestros pensamientos acerca de una condición determinada, permitiéndonos lograr una empatia más plena, por ejemplo, con quien tiene SIDA, o entender el impacto total del desempleo sobre una familia. Esto amplía nuestro banco de conocimientos global, así como nuestra comprensión de la psicología humana, aunque no pruebe ninguna hipótesis específica.
DESVENTAJASDELESTUDIODECASO 1 Confiabilidad y validez De modo obvio existe implícito un cierto grado de falta de confiabilidad. No hay dos casos iguales. Muchos estudios son en verdad bastante irrepetibles, el hecho de ser únicos en su género suele ser, en primer lugar, la razón para realizarlos. Su fuerza es la riqueza, su debilidad es la falta de generalización. Sin embargo, algunas veces se puede verificar la confiabilidad en cierta medida, comparando la información obtenida de diferentes fuentes: por ejemplo, las personas mismas en la entrevista, relatos de parientes cercanos, fuentes documentales, tales como diarios e informes de los tribunales. Esto es similar a la noción de “ triangulación” que se describe en el capítulo 25. El realismo es alto. Las experiencias registradas por el investigador son genuinas y complejas. El material histórico, no obstante, depende a menudo sólo de la propia
Planteamiento de preguntas I • 149
memoria del sujeto. La memoria es de manera notoria propensa a cometer errores y sujeta a la distorsión. Las experiencias de nuestra infancia que sostenemos recordar con frecuencia son nuestra reconstrucción original de las historias que nos cuentan los parientes acerca de nuestra vida antes de que la memoria fuera posible. 2 Interacción entrevistador-sujeto
Cualquier entrevista implica interacción humana y la recolección de información está propensa a las variables interpersonales analizadas previamente. Pero el estudio de caso necesita una relación muy cercana entre entrevistador y entrevistado durante un periodo amplio de tiempo y muchas entrevistas íntimas. Aunque la profundidad de esta relación puede promover una fuente de información rica en extremo, puede también interferir seriamente con la objetividad del experimentador. Algunos estudios de caso se asemejan a la observación participante y sufren las mismas críticas de subjetividad. 3 Selección subjetiva
Hay otro posible elemento de subjetividad. Más que el presentar todo lo registrado durante un estudio de caso, lo que podría tardar tanto como el estudio mismo, el investigador debe ser selectivo en cuanto a qué información entrará en el informe final. Esto bien puede depender de los puntos del trasfondo teórico o temas que el experimen tador desea poner de relieve o enfatizar. Además, para cada estudio de caso ilustrativo, no sabemos cuántos casos no proporcionaron al experimentador el tipo de información que deseaba presentar.
TÉCNICAS DE ENTREVISTA Si la entrevista está estructurada por completo, el entrevistador utilizará un cuestionario cuya elaboración se presenta en el capítulo 9. Las técnicas y procedimientos descritos en las siguientes páginas se aplican a cualquier entrevista que sea menos estructurada y, en particular, en las que se buscan datos abiertos, cualitativos.
Logro
y mantenimiento de rapport
En una entrevista no estructurada, la calidad y características de la conducta del entrevis tador son de mayor importancia y no suele considerarse que sólo la “variable extraña” interesante esté en la entrevista estructurada o estudio de encuesta. La gente proporciona mucha más información de sí misma cuando se siente cómoda y “platicadora” , que en una atmósfera restringida y formal en donde no se apaciguan las sospechas. Un entrevis tador torpe, “tieso” o agresivo puede producir en el entrevistado poca cooperación e mcluso hostilidad. ¿Cuánto rapport puede establecerse?
150 • Métodos de investigación y estadística
(Capítulo 8)
LENGUAJE Es valioso pasar algún tiempo descubriendo la terminología utilizada por el grupo bajo estudio. Pueden tener apodos y utilizar su propia jerga, incluyendo grupos de iniciales (como por ejemplo “ los GSD” , es decir “ los gravemente subdesposeídos” , o sea: niños de clase alta). Los entrevistados estarán más cómodos y utilizarán con mayor fluidez su modalidad de lenguaje normal (dialecto, acento, estilo de conversación normal), por lo que se les debe hacer sentir que su lenguaje no sólo es legítimo, sino bienvenido y valorado.
NEUTRALIDAD El aceptar el estilo de lenguaje y cualquier conducta no verbal del entrevistado ayudará a asegurarle que la entrevista no es enjuiciadora en lo absoluto. El entrevistado debe sentir que no hay ni habrá implícita una evaluación moral de lo que diga.
PROPORCIONAR INFORMACIÓN El entrevistador puede, al inicio de una entrevista, dar información completa sobre el propósito de la investigación, quién la conduce, qué tipo de temas cubrirá y cómo se mantendrá la confidencialidad. A diferencia del caso con los cuestionarios formales, el entrevistador puede explicar el propósito de cualquier pregunta en particular. Un ambien te natural de interrogación, debería alentar al entrevistado a que pregunte lo que el entrevistador tiene en mente, pero el ofrecimiento de esta información es cortés y mantiene al involucrado participante.
CONFIDENCIALIDAD Si la información de los entrevistados ha de citarse de manera literal (uno de los principios de cierta investigación cualitativa), existe el problema de que los individuos puedan identificarse por las afirmaciones específicas. En el decenio de 1950, la gente del pueblo de Springdale, en Estados Unidos, difamó a los investigadores (Vidich y Bensman, 1958) quienes, aunque utilizaron seudónimos, hicieron posible la identificación de los indi viduos debido a que se analizaron sus problemas en el informe de investigación. ¡Los aldeanos colocaron una efigie del “ autor” sobre un esparcidor de estiércol en el desfile del 4 de julio! Se debería recordar a los participantes su derecho de vetar los comentarios hechos a lo largo del proyecto, y deberían conocer el formato final, con el fin de ejercer su arbitrio sobre la información divulgada.
Planteamiento de preguntas I • 151
ENTRENAMIENTO Con el fin de establecer y mantener rapport, los entrevistadores pueden pasar por cierto grado de entrenamiento, mismo que podría incluir lo siguiente:
Habilidades de escuchar te El entrevistador necesita aprender cuándo no hablar, en particular si ellos mismos por lo común son bastante “rápidos” y locuaces. Hay varias habilidades en el acto de escuchar, demasiadas para detallar aquí, que incluyen: • No convertir en triviales las afirmaciones diciendo “ ¡Qué interesante! pero debemos empezar” . • Oír que se modifica un “ sí” y preguntar si el entrevistado quiere agregar algo. Lo que sigue bien puede significar un “no” . • No ser demasiado rápido o dominante al ofrecer una interpretación de lo que el entrevistado trata de decir.
Comunicación no verbal El entrevistador necesita ser sensible a las señales no verbales, aunque no hasta el punto de volverse torpe. ¿En qué posición hablará con mayor comodidad un entrevistado? ¿Qué posturas del entrevistador se interpretan como dominantes? ¿Qué es un tono agradable y buen modo de preguntar? Y asi sucesivamente.
Interrogatorio natural Éste es en verdad el factor más importante de todos. ¿Cómo puede el entrevistador hacer que el análisis se sienta natural, y por consiguiente productivo, y al mismo tiempo lograr la respuesta a un conjunto de preguntas principales? Si el entrevistador tiene sólo cuatro o cinco preguntas meta, entonces no debería ser difícil insertarlas en el libre flujo de una conversación. Con una lista más grande puede ser necesario utilizar notas de recordatorio, pero puede evitarse cierta formalidad listándolas en el papel que se utiliza para tomar notas.
Interés Es esencial que el entrevistador se mantenga interesado y crea que la información del entrevistado, al igual que el tiempo sacrificado, son valiosos. El entrevistado necesita sentir que éste es el caso. Patton (1980) recomienda que debería ignorarse el concepto de mal entrevistado, argumentando que es fácil citar estereotipos (por ejemplo, del entrevis tado hostil o paranoide). Sugiere que la tarea del entrevistador sensible consiste en abrir el cerrojo de la perspectiva interna de cada entrevistado, siendo adaptable para encontrar el estilo y formato que funcionará en cada caso. ¡Estamos muy lejos aquí del supuesto de que la investigación científica exige un procedimiento estandarizado por completo, sin desviación alguna!
152 • Métodos de investigación y estadística
(Capítulo 8)
Un requerimiento aquí es la práctica. Las entrevistas pueden hacerse más efectivas con una cuidadosa preparación y practicando con los colegas que simulen a los entrevis tados, hasta que se reduzcan o allanen los puntos vacilantes y la inadecuación.
T ipos de preguntas
t
Es engañosamente simple hacer preguntas deficientes o problemáticas. Algunos de los errores comunes por evitar se resumen en los principios del diseño de cuestionarios des critos en el capítulo 9. Los detalles que deben evitarse son los de doble efecto, los complejos, ambiguos, insinuantes, así como las preguntas,emotivas. Además, deben resaltarse los siguientes puntos: 1 Es fácil hacer dos o más preguntas a la vez si el entrevistador se entusiasma. “Así que dígame ¿Cómo fue? ¿Cómo se sintió? ¿Lo lamentó?” , por ejemplo, ya que exigen un esfuerzo para la memoria del entrevistado. 2 Preguntas como “ ¿Está usted disfrutando el curso?” pueden recibir una respuesta monosílaba. Las preguntas abiertas como “¿Por favor puede decirme qué le gusta del curso?”, tienen más probabilidades de producir información más rica. 3 Las preguntas como “¿Por qué?” pueden ser un derroche de tiempo. El pregun tarle a un estudiante1‘¿Por qué te inscribiste en el curso?’’, producirá una variedad de respuestas en categorías bastante diferentes. Por ejemplo: “ Me proporcionará una boleta decorosa” “Para conocer nuevas personas” “Estaba más cerca que Londres” “Mi madre pensó que era buena idea” Todas son respuestas posibles. Podemos decidir, durante la etapa de planeación, qué categoría de respuesta nos gustaría, y diseñar preguntas en concordancia. Lo que en verdad se debería evitar es una implicación de que la respuesta dada no es la deseada, por ejemplo, “No, no quise decir q u e.. . ” 4 No puede mantenerse el interés si se piden demasiados detalles sobre antecedentes personales. Este punto también es válido para las encuestas, como se menciona más adelante.
S ecuencia y progreso de las preguntas
SENTIMIENTOS Y REACCIONES Al igual que con los métodos más formales de interrogatorio, el entrevistado se sentirá más cómodo si la sesión no empieza de golpe con detalles cargados de emotividad o con trovertidos. De la misma manera, será difícil analizar sentimientos o reacciones hacia un problema o acontecimiento hasta que el entrevistado haya tenido la oportunidad de aclimatarse describiéndolo. Las primeras preguntas pueden enfocarse a producir una des cripción, y las siguientes pueden incitar sentimientos o reacciones hacia los hechos descritos.
Planteamiento de preguntas I • 153
RETROALIMENTACIÓN ÚTIL Una entrevista transcurrirá con mayor suavidad, si el entrevistado está enterado de la posición alcanzada y la dirección futura. En particular, podría ser útil dejar que el entrevistado sepa: 1 Cuando el entrevistador está por cambiar de tema. Por ejemplo, “ Ahora hablemos de los estudiantes del curso” . 2 Que la siguiente pregunta es particularmente importante, compleja, controvertida o delicada. Por ejemplo, “Usted ha estado diciendo lo que le gusta del curso. Ahora me gustaría averiguar qué es lo que no le gusta. ¿Puede decirme . . . ” 3 Lo que el entrevistador piensa acerca de lo que el entrevistado acaba de decir, o dijo antes; por supuesto, sin reinterpretaciones alejadas de las palabras que de hecho se usaron. Esta retroalimentación le permite al entrevistado darse cuenta de que tiene sentido lo que dice y que es productivo; también, que no se le está malinterpretando. Ya que pueden alterar o modificar lo que acaban de decir. Este proceso también mantiene al entrevistado involucrado y confiado de manera activa. Pero es importante no resumir las afirmaciones del entrevistado en un lenguaje que le haga sentir que éstas fueron de alguna manera inferiores y necesitan una reformulación sustancial.
Registro de datos Los entrevistadores tienen tres opciones comunes para guardar sus datos: tomar notas, registros en cintas de audio o de vídeo.
TOMAR NOTAS Tomar notas manuscritas es obvio que hará lento el procedimiento. Podría ser útil desarrollar alguna forma personal de taquigrafía -al menos formas cortas de frases y términos comúnmente utilizados. El cuaderno tiene lá ventaja manual de ser un lugar para almacenar de modo discreto las preguntas o el perfil de la entrevista. Si se utiliza, el entrevistador necesita ser cuidadoso para no dar la impresión de que lo que dice el en trevistado en un momento dado no es importante porque no se está registrando.
REGISTRO DE AUDIO Mucha gente se siente inhibida ante la presencia del micrófono de una grabadora. El entrevistador necesita justificar su uso en razón de captar los términos exactos además de la riqueza de las experiencias del entrevistado y en relaciones de confidencialidad. El entrevistado tiene que ser libre de apagar la grabadora en cualquier momento. Ésta tiene la ventaja de permitirle al entrevistador,conversar con naturalidad y fomentar el mayor flujo de información.
154 • Métodos de investigación y estadística
(Capítulo 8)
REGISTRO EN VÍDEO Una cámara de vídeo “ viva” en el cuarto puede dominar y es difícil que pueda ayudar a conservar la atmósfera de “plática” informal que se supone debe crear una entrevista abierta poco estructurada. Es posible aclimatar a los entrevistados a su presencia después de algunas sesiones, pero esto es costoso en tiempo. Por supuesto, su gran valor radica en el registro de la comunicación no verbal a un nivel detallado, así como en la oportunidad de analizarla a un paso muy cómodo. Sin embargo, si no se requiere esta in formación, entonces el vídeo es un adminículo intrusivo e innecesario. Tanto los registros de vídeo como de audio podrían realizarse sin que obstruyan, simplemente no revelando su presencia al entrevistado, pero, en este caso, se enfrentan serios problemas éticos. Dos respuestas a posibles dilemas presentes aquí son: 1 Informe al entrevistado del proceso de registro pero mantenga el equipo escon dido por completo. 2 Dé información sobre el registro sólo después de que ha ocurrido la entrevista, pero enfatice que los registros pueden oírse o verse, se puede omitir secciones o destruirse por completo si el entrevistado lo solicita. La opinión 2 es, por supuesto, potencialmente derrochadora y consumidora de tiempo.
E ncuestas Una encuesta consiste en pedir información a mucha gente. En la entrevista informal poco estructurada, las respuestas de cada respondiente integran un pequeño estudio de caso. Una encuesta puede consistir en una serie de tales pequeños estudios de caso. No obstante, mucho más a menudo implicaría el uso de un cuestionario estructurado, con respuestas abiertas o cerradas, como se describió en los tipos de entrevista 4 y 5. Cada serie de respuestas forma una unidad equivalente de una gran muestra. Los entrevistadores por lo común trabajan en equipo y, por tanto, los procedimientos están estandarizados por completo. Cada uno recibirá instrucciones precisas sobre la afirmación introductoria exacta y de los pasos a seguir con cada respondiente. Una encuesta puede utilizarse para dos grandes propósitos de investigación: descrip tiva o analítica.
DESCRIPTIVA Aqui el experimentador quiere una descripción exacta de lo que hace y piensa la gente en una población objeto de estudio, y quizás hasta con qué frecuencia. Bryant y colaboradores (1980), por ejemplo, estudiaron el cuidado de los niños en Oxfordshire y se enfocaron en la conducta de los cuidadores y las actitudes hacia sus clientes, así como en el desarrollo de los niños. Una encuesta más notoria y de más amplia cobertura fue la de Kinsey (1948, 1953) sobre la conducta sexual de los estadounidenses. Una encuesta reciente y bastante completa (Jowell y Topf, 1988) reunió información sobre las actitudes sociales actuales de los ingleses. Los temas tratados incluyeron: SIDA, la campiña,
Planteamiento de preguntas I • 155
«fluencia de las industrias y sindicatos en los partidos políticos, políticas económicas actuales del gobierno, educación, división Norte-Sur y qué trabajos caseros deberían de compartirse, de acuerdo con las opiniones de personas solteras y casadas.
USO ANALÍTICO Pueden utilizarse los datos de las encuestas para probar hipótesis. Hatfield y Walster • 1981) entrevistaron a 537 varones y mujeres universitarios que tenían con regularidad ana pareja. Los que sentían que su relación era equitativa tenían más probabilidad de predecir su continuación dentro de uno a cinco aflos que los que sentían que un miembro de la pareja recibía o daba demasiado. Esta hipótesis puesta a prueba apoyó una teoría de la interacción humana basada en las ganancias y pérdidas calculadas. En el estudio de amplio rango de Sears y colaboradores (1957) sobre las prácticas de crianza infantil, utilizando madres de dos suburbios de Boston, EUA, se pusieron a prueba muchas hipótesis correlacionando (capítulo 18) técnicas de crianza con la con ducta característica de los niños. Se recabaron los datos mediante la calificación de respuestas abiertas a preguntas estructuradas hechas a las madres. Los calificadores evaluaron sólo a partir del registro de la entrevista y no conocieron a la madre. Los investigadores encontraron relaciones positivas entre el uso del castigo físico y un mayor nivel de conducta agresiva del niño. Las madres a las que se calificaron como cálidas y asaban el “retiro del amor” como una técnica disciplinaria principal tenían hijos con conciencias más fuertes. Ambas variables, retiro del amor y fuerza de la conciencia se evaluaron de manera indirecta a partir de los datos de la entrevista y son ejemplos de constructos definidos de modo operacional. A menudo, a partir de una encuesta descriptiva grande, se pueden formular o verificar hipótesis contra información posterior de la misma encuesta. Por ejemplo, en el segundo informe del National Child Development Study [Estudio Nacional del desarrollo del niño] íDavie y colaboradores 1972), una encuesta de una muestra grande de niños nacidos en 1958, se encontró que aquellos de la clase social V (sin habilidad manual) estaban en desventaja específica en las pruebas de lectura, comparados con otras clases de trabajadores manuales y no manuales. ¿Por qué podría ser esto? Bueno, a partir de los datos de la misma encuesta se encontró que los hogares sobrepoblados y los carentes de comodidades básicas estaban relacionados con un serio retardo en la lectura, sin tener en cuenta la clase social, sexo, área del Reino Unido o tipo de alojamiento que tuviera el niño. Los de clase social V eran más proclives a vivir en hogares así. Por tanto, la deficiencia en la lectura podia relacionarse con factores sólo vinculados de manera indirecta, pero con mayor prevalencia dentro de una clase social.
DISEÑOS DE ENCUESTAS En el trabajo de encuestas existen tres grandes áreas de toma de decisiones antes de iniciar el contacto con los respondientes. Éstas son la muestra, el modo de preguntar y las preguntas en sí mismas. Ahora abordaremos las primeras dos áreas. Cómo tratar el contenido real de las preguntas, lo dejaré^hasta la siguiente sección sobre los cuestionarios y las pruebas en general.
156 • Métodos de investigación y estadística. . .
(Capítulo 8)
MUESTRA De todos los métodos, el estudio pone énfasis particular en la muestra, puesto que el oBjetivo, muy a menudo, consiste en hacer generalizaciones acerca de una sección relativamente grande de la población, si no es que de toda ella. Si la muestra es la población completa, entonces, la encuesta se conoce como CENSO. Hemos hablado de los métodos y problemas principales del muestreo en un capítulo previo. El trabajo de encuesta produjo otras dos formas de muestreo no utilizadas en ningún otro lado. Éstas son PANEL y GRUPO FOCAL.
Panel Éste es un grupo de personas seleccionado de modo especial, a quienes se Ies puede pedir información sobre una base repetitiva. Son muy utilizados por las compañías de investi gación de mercado, ¡as unidades de encuestas gubernamentales y para la investigación del público de la radiodifusión. Es más fácil y más eficiente depender del mismo y bien estratificado grupo, para que proporcione información cada vez que se requiera. Un problema puede ser que los miembros del panel se vuelvan demasiado complejos en su crítica y lleguen a ser poco representativos en, digamos, sus hábitos televisivos, puesto que sienten que deben ver todos los programas mencionados en su cuestionario.
Grupos focales La idea aquí es reunir a un grupo de individuos con un interés común y dirigir una forma de entrevista colectiva. La discusión entre los miembros puede provocar un intercambio
Apartado 8-8. Ventajas y desventajas de la encuesta con respecto a la entrevista profunda Ventajas
D esventajas
Se puede preguntar con rapidez a muchos respondientes
Las preguntas estructuradas pierden más datos informativos
Puede ser mucho menos caro que las entrevistas profundas (las que tienen mucha información para transcribir)
Las encuestas a gran escala pueden Ser caras en cuanto a ayudantes
Menos influencias por parte de la diná mica de las variables interpersonales Menos influencia en el análisis de las respuestas, ya que las preguntas están estructuradas
Más influidos por variables ¡nterpersonaies superficiales; el respondiente no tiene tiempo de creer y fiarse del entre vistador Es más probable que produzca "res puestas públicas”; no ideas genuinas del respondiente Mayor posibilidad dél efecto de deseabi lidad social
Planteamiento de preguntas / • 157
de puntos de vista, así como revelaciones que proporcionen información e introspeccio nes menos propensas de salir a la superficie durante una entrevista de uno a uno. Aunque no proporcionan muchos datos de manera confiable y cuantificable, estos grupos pueden ser un punto de partida para la investigación en área específica, como una ayuda para exponer y clarificar conceptos.
MODO DE PREGUNTAR Hay tres maneras obvias de comunicarse con los respondientes: cara a cara, por teléfono y por carta. De éstas, los teléfonos se utilizan rara vez, aunque suele hacerse para establecer el contacto inicial. La intimidad del método postal tiene probabilidad de producir respuestas más honestas. Las variables interpersonales, analizadas con anterioridad, se reducen al minimo en las encuestas postales, aunque el respondiente puede hacer suposiciones acerca del investigador con base en el estilo de la carta explicatoria. El método es también bastante más barato y consume menos tiempo. Las desventajas son, primero, que el cuestionario debe ser claro de manera excep cional, y deben escribirse instrucciones no ambiguas para su llenado. No obstante, los respondientes acaso respondan de una manera inapropiada que un entrevistador “vivo” podría haber cambiado. Segundo, es probable que la proporción de personas que no lo regresen sea mayor que el número de los que se rehúsan ante otras aproximaciones. Esto importa mucho cuando, por ejemplo, se informa que 75% (300) de los respondientes estuvieron de acuerdo en que el gobierno debería continuar financiando de modo sustancial la educación superior, si también es verdad que sólo 400 de las 1000 personas que la recibieron se molestaron en completar y regresar la forma. ¿Podemos contar a los 600 faltantes como neutrales o como no interesados?
Registro de los eventos importantes de la vida de una persona recopilados y analizados en un estudio de caso Estudio profundo de un individuo o grupo, por lo común de naturaleza cualitativa E ncuesta de una población completa
158 • Métodos de investigación y estadística.
(Capítulo 8)
GLOSARIO (continuación) Dimensión del diseño la cual el grado en aue los entrevistados se mantienen ajenos a los objetivos del interrogatorio Entrevista donde el investigador y el en trevistado hablan juntos en el mismo lugar Grupo con interés común que se reúne para analizar un asunto en una entre vista colectiva, con el fin de que los investigadores evalúen opiniones Reactivo de la entrevista en la cual los entrevistadores pueden responder de cualquier manera y con la amplitud que lo deseen Grupo estratificado que se consulta con la finalidad de evaluar una opitiión Persona a la que se interroga en una entrevista o encuesta Término general para los métodos don de las personas proporcionan informa ción sobre sí mismas Dimensión de diseño, la cual es el gra do en que las preguntas y procedimien tos son idénticos para todos Interrogatorio relativamente estructu rado para muestras grandes
E j e r c ic io s
1 Sin mirar de nuevo el texto, trate de pensar en varias ventajas y desventajas que tiene la encuesta comparada con la entrevista informal. 2 Suponga que usted decidió conducir una encuesta sobre actitudes hacia el ambiente en su área. Esboce los pasos que tomaría en la planeación y conducción de la encuesta, poniendo particular atención a: • La muestra y medios de obtenerla. • Aproximación exacta que utilizaría con los respondientes. • Tipos de preguntas que haría.
Planteamiento de preguntas 1 • 159
Para contestar este último punto en detalle necesitaría leer, al menos de manera breve, la siguiente sección sobre cuestionarios. 3 Un investigador desea investigar instancias específicas de racismo (maltrato, hostigamiento físico, discriminación) que han experimentado miembros de grupos étnicos minoritarios. Se contrata a cuatro ayudantes para conducir entrevistas guiadas e informales, empezando con los individuos cuyos nombres proporcionaron los líderes de la comunidad local. a) ¿Qué tipo de muestra se extrae? b) Un entrevistador registra mucho menos casos que los otros tres. ¿Puede usted dar al menos cinco razones de por qué podría ser así? c) Otro entrevistador objeta que el estudio debería continuar con un cuestionario estructurado para una muestra mucho más amplia. ¿Por qué podría ser esto? 4 Usted está a punto de conducir una entrevista con el gerente del supermercado más grande
de su localidad. Tiene 43 años, es bastante activo en ia política local y se sabe que es bastante amigable. Haga una lista de todas las variables, en especial de aquéllas relacionadas con las características de personalidad propias de usted que podrían influir en la producción de información durante la entrevista. 5 Un investigador desea encuestar las actitudes de los jóvenes hacia la ley y el orden. Los entrevistadores completan cuestionarios con voluntarios del sexto grado básico procedentes de las escuelas conformes de incluirse en el estudio. También se selecciona de manera aleatoria a las familias a partir del directorio telefónico local. Asimismo, se interroga a jóvenes del club juvenil local. Analice varias maneras en las que puede estar sesgada la muestra para el estudio completo. ■ ,
Planteamiento de preguntas II Cuestionarios, escalas y pruebas Este capítulo abarca una variedad de procedimientos para recopilar datos, empleando algunas formas de pruebas más que el enfoque de entrevista cubierto en el capítulo anterior. Sin embargo, se superponen, ya que algunas entrevistas se realizan respondiendo cuestionarios estructurados. • El primer aspecto importante es considerar de manera cuidadosa cómo responderá la gente, en realidad, a cierto tipo de preguntas que son, de hecho, difíciles, embarazosas o controversiales. Las preguntas pueden ser fijas o abiertas (en esta última, el respondiente tiene libertad en el tipo y extensión de la respuesta). • Se incluyen las escalas de actitud de Thurstone, Likert, Bogardus, Guttman y la escala diferencial semántica de Osgood. La escala de Likert es tal vez la más popular y por ello se deben tomar decisiones acerca de cuántos puntos utilizar (con frecuencia, cinco) y cómo se in terpretará o manejará el punto medio “neutral". Los reactivos deben variar en dirección para evitar respuestas de conformidad. • Se describen aspectos específicos de los peligros latentes en la construcción de preguntas/ reactivos. • Las pruebas proyectivas suponen que se pueden evaluar fuerzas inconscientes a través de la manera en que la gente responde a estímulos ambiguos como las pruebas de apercepción temática y la de Rorschach. • Los sociogramas producen una manifestación gráfica de las "elecciones sociométricas” de las personas, que son aquellas de su preferencia acerca de los otros en su grupo. • Las pruebas psicométricas intentan ser instrumentos estandarizados de medición de la personalidad humana y las capacidades características. Pueden sufrir de prejuicios culturales en el contenido y han sido muy controvertidas en las áreas de la evaluación de la inteligencia y la habilidad mental. Las pruebas se validan y obtienen significado, hasta cierto punto, a través del análisis factorial que investiga la correlación de "conglomerados” y proporciona sustento estadístico para las teorías acerca de cuáles “factores" Implícitos causan que los resultados se ordenen de esa manera en las pruebas o secciones de éstas. • Se detallan los métodos para verificar la confiabilidad y validez de la prueba. La confiabilidad se refiere a la consistencia al interior de la prueba o entre usos repetidos de ella bajo las mismas
162 • Métodos de investigación y estadística
(Capítulo 9)
circunstancias. La validez se refiere a si una prueba mide lo que debe medir. La estandarización incluye la adaptación de puntuaciones brutas que se ajusten a una distribución normal, que compara normas que asumen a veces, de manera controversial, aspectos que de hecho desconocemos de la naturaleza de las características humanas.
CUESTIONARIOS Y ESCALAS DE ACTITUDES L o s cuestionarios, escalas de actitudes y pruebas son instrumentos para la recolección estructurada de información acerca de las personas. Los cuestionarios utilizados en las encuestas suelen construirse para el tema específico de la investigación y tienden a poner a prueba una opinión actual o patrones de conducta. Las escalas de actitudes tienen, por lo general, el propósito de obtener un ciclo de vida un poco más largo. Se les considera como instrumentos técnicos de medición y, por tanto, requieren la ESTANDARIZACIÓN y una preparación más cuidadosa en términos de confiabilidad y validez. De modo usual tienen como propósito tocar un aspecto más permanente de la personalidad de un individuo, como la actitud hacia la religión o la autoridad. Sin embargo, muchas de las características de la construcción de escalas de actitudes puede utilizarlas el estudiante que desea crear una medida de los puntos de vista de las per sonas acerca de un problema actual, como la preservación del ambiente o actitudes hacia los animales. Una evaluación completa de las actitudes debe incluir por lo menos dos mediciones, en momentos diferentes, ya que una característica definida de una actitud es su naturaleza relativamente perdurable. Los cuestionarios, escalas, y pruebas psicométricas y proyectivas pueden utilizarse tanto en situaciones experimentales como de campo. Podría evaluarse la “autoestima” de un grupo antes y después de un “tratamiento” en el que se les haga sentir exitosos. Esto puede compararse con las evaluaciones de un grupo de control.
CUESTIONARIOS En la sección sobre escalas de actitudes analizaremos con algún detalle los problemas a considerar cuando se desarrollan los reactivos de la escala. La mayoría de los puntos incluidos ahí se aplican también a los cuestionarios de encuestas. Si usted está cons truyendo un sencillo cuestionario de opinión, tendría sentido verificar los puntos gener ales que se expresan más adelante en la sección de “Cuestionario y reactivos de la escala” .
ALGUNOS PRINCIPIOS GENERALES Los siguientes principios son parte del “saber” común de los cuestionarios de encuestas. Se aplican de modo particular a la situación en la cual se pide a extraños o a personas poco conocidas por el entrevistador el gran favor de detenerse a contestar unas cuantas preguntas. 1 Pida la información mínima requerida para el propósito de la investigación
El tiempo del respondiente es precioso, así que ¿por qué pedirle información que se puede obtener en otro lugar? Los detalles personales quizá estén disponibles en los registros de
Planteamiento de preguntas 11 • 163
la compañía o la escuela. El tiempo que el respondiente pasa contestando las preguntas tiene relación con el estado de áhimo ¡y éste en verdad se alterará si el entrevistador pregunta cuál es el sexo del respohdiente! Otros detalles, tales como si está casado y el número de hijos, bien pueden obtenerse de una charla introductoria y relajante, si no, durante la verificación filial. ) Un argumento más se relaciona con el principio de parsimonia, es decir, limitar el esfuerzo a lo necesario mientras se mantenga la eficacia. Demasiada información puede no ser útil. Pueden haberse incluido algunas preguntas sólo porque “parecieron intere santes”, lo cual es una base demasiado vaga para su inclusión. 2 Esté seguro de que las preguntas pueden contestarse
“¿Cuántas veces ha visitado al doctor este año?” puede ser bastante difícil de contestar con precisión para mucha gente. 3 Asegúrese de que las preguntas se contestarán verazmente
Es poco probable que se conteste la pregunta en el punto 2 con la verdad, debido a su dificultad. Otros cuestionarios difíciles o de amplio rango tienden a recibir una respuesta basada más en la bien conocida opinión pública que en la propia experiencia y valores individuales. Por ejemplo, es bien conocido que si las preguntas sobre la crianza de los niños no se formulan de manera muy explícita, y cuando es posible un error amplio, producen respuestas más de acuerdo con el punto de vista prevaleciente de los “ expertos” acerca de la buena práctica.
4 Asegúrese de que no se rehusarán a responder las preguntas Es obvio que algunos temas delicados producirán más rechazos. La mayoría de los res pondientes continuarán con el tema, una vez empezado, pero pueden poner obstáculos ante una pregunta difícil que aparezca de manera repentina en un contexto que en otras cir cunstancias será inocuo, por ejemplo, una pregunta sobre la vida sexual entre los reactivos políticos. El entrevistador tiene que brindar un contexto con el fin de justificar los pun tos sensibles o bien evitarlos.
PREGUNTAS FIJAS Y ABIERTAS En el extremo menos estructurado, los cuestionarios de encuestas tienen preguntas abiertas. Sin embargo, la mayoría de los reactivos de los cuestionarios son de opción fija, donde se les pide a los respondientes seleccionar una respuesta de entre dos o más opciones. Las preguntas abiertas tienen varias ventajas, a algunas de las cuales nos re ferimos con anterioridad. 1 Proporcionan información más rica. 2 El respondiente no se siente frustrado por las restricciones impuestas con una respuesta de elección fija. 3 Hay menos posibilidad de ambigüedad, puesto que el respondiente dice lo que piensa y no tiene que interpretar una oración y después estar de acuerdo o no con ella.
164 • Métodos de investigación y estadística
(Capítulo 9)
4 El interrogatorio es más realista. Rara vez tenemos nada más que estar de acuerdo o en desacuerdo, o decir con qué intensidad, sin dar nuestras razones. Sin embargo, las respuestas abiertas también son difíciles de codificar o cuantificar, mientras que los reactivos de elección fija hacen las comparaciones numéricas más o menos fáciles. El capítulo 25 sobre datos cualitativos analiza métodos para manejar las respuestas abiertas. He aquí unos pocos ejemplos de reactivos de elección fija: 1 Voté en la última elección. 2 Describiría mi actual vivienda como: a) b) c) d) e) f) g)
S Í/N O
De mi entera propiedad. De mi propiedad con hipoteca. De mi propiedad como parte de una asociación de viviendas. Rentada al ayuntamiento local. Rentada a un casero. Proporcionada por el patrón. Otro (por favor especifique).
3 Mi edad es: a) menor de 16, b) 16 a 21, c) 22 a 35, d) más de 35. 4 ¿A qué edad empezó a gatear su bebé?______ meses. El elaborador del cuestionario tiene que ser cuidadoso para formular las preguntas con claridad y sin ambigüedades, de modo tal que el respondiente no dude qué respuesta dar. El ideal supremo es que todos los respondientes interpreten un reactivo de la misma manera. Algunas preguntas permitirán al respondiente marcar o registrar más de un reactivo, pero si no se desea esto (una respuesta debería ser única para cada respondiente), entonces debe evitarse cuidadosamente un posible traslapamiento. ¿Es posible registrar más de una respuesta en cualquiera de los reactivos dados anteriormente? Si es asi, ¿cuál es y por qué? Yo pensaría que podría haber confusión si tuviera 35 años al contestar el reactivo 3. En el reactivo 2 (e) y (f) podría haber traslapamiento.
CARACTERÍSTICAS DE LOS BUENOS CUESTIONARIOS Y ESCALAS DE MEDICIÓN Cuando los cuestionarios de encuestas están solicitando información tan sólo sobre hechos (como ocupación, número de hijos en la escuela, horas frente a la televisión, y así sucesivamente) los siguientes principios no son cruciales, aunque todas las medidas deberían ser confiables. (Los cuestionarios sobre hechos por lo común tienen validez de
Planteamiento de preguntas II • 165
“aspecto” , véase este capítulo más adelante.) Cuando las escalas y las pruebas intentan medir características psicológicas, lo siguiente es importante en extremo: 1 Deben DISCRIMINAR con tanta amplitud como sea posible a través de la variedad de respuestas humanas. No deberían identificar a unos pocos individuos en un extremo, al tiempo que no muestran diferencias entre los individuos agrupados en el centro de cualquier escala. Esto se conoce como poder d is c r im in a t iv o . 2 Deben ser altamente CO N FIA B LES. 3 Deben sustentarse por pruebas de v a l id e z . 4 Deben estar ESTANDARIZADAS si se han de utilizar como medidas prácticas generales de las características humanas. Un cuestionario, escala o prueba, de modo normal se piloteará, quizás varias veces, antes de que el investigador esté satisfecho de que reúne pstos requisitos. Incluso un cuestio nario no ambicioso, construido por los estudiantes como parte del trabajo práctico de un curso, se debe pilotear al menos una vez para resaltar los riesgos latentes y posibles malinterpretaciones. Las pruebas para estos criterios se manejan más adelante en este capítulo.
ESCALAS DEACTITUDES Las escalas de actitudes se parecen a los cuestionarios pero de modo usual no utilizan preguntas. La mayoría emplea afirmaciones con las que el respondiente tiene que estar de acuerdo o en desacuerdo. Recuerde que los cuestionarios pueden variar a lo largo de la dimensión de ENCU BRIMIENTO y que el propósito de la escala pudiera disfrazarse para el respondiente, como en la técnica de Hammond, mencionada con anterioridad en e! último capitulo. Algunas escalas de actitudes proporcionan algunas claves sobre su propósito, mientras que otras son transparentes, como el caso en que se trata un tema limitado, tal como la higiene dental. Veremos las técnicas de cinco tipos populares de escalas de actitudes junto con sus ventajas y desventajas.
INTERVALOS APARENTEMENTE IGUALES (Thurstone, 1931) Para construir una escala tipo Thurstone: 1 Produzca una gran cantidad de oraciones, tanto de actitud positiva como negativa hacia un objeto. Si el objeto de actitud tuviera las mismas oportunidades, un reactivo podría ser: “ Las compañías deberían proporcionar más servicios de guarderías.” 2 Haga que un panel de jueces califique cada reactivo en una escala de uno (sumamente negativo acerca del tema) a 11 (muy positivo respecto al tema). Se les pide que utilicen toda la escala y que no agrupen reactivos dentro de unas pocas categorías. 3 Saque el valor medio para cada reactivo, de las calificaciones de todos los jueces. Nuestro reactivo anterior podría tener una calificación promedio de 8.7 por ejemplo. Éste es su v a lo r de esc ala .
166 • Métodos de investigación y estadística
(Capítulo 9)
4 Para mayor confiabilidad, rechace los reactivos que tienen mucha discrepancia (capítulo 13). Estos reactivos son aquéllos en los que los jueces concuerdan menos. 5 En la escala terminada, un respondiente califica ahora el valor de escala de cada reactivo con el que está de acuerdo. Por tanto, la gente que favorece las medidas de oportunidades iguales tenderá a calificar sólo los reactivos por arriba del valor promedio y de este modo terminará con una puntuación global alta. A continuación, se incluye una muestra de reactivos que podrían aparecer en una escala tipo Thurstone junto con el valor de escala de cada uno. Por supuesto, los valores no serían visibles al respondiente. P o r favor haga una pequeña f m arca s i está de acuerdo Las mujeres son empleados menos confiables porque es probable que salgan por embarazo. Los paneles de entrevista deberían escrutar todas las preguntas antes de la misma para asegurarse de que nin guna sea discriminativa. Las compañías deberían proporcionar más recursos para guarderías.
(2.1) (5.8) (8.7)
Apartado 9-1 . Debilidades del método Thurstone 1 Los jueces mismos no pueden ser neutrales por completo, aunque se les pida ser objetivos. En uno de los primeros debates sobre este tema, Hinckley (1932) fue criticado de modo intenso, ya que descartó a los jueces por "descuidados” al distribuir la mayoría de los reactivos en unas cuantas categorías extremas, en contra de la exhortación mencionada en el reactivo 2 del proceso de construcción señalado antes. Resultó que la mayoría de los jueces eran negros (o blancos pro-negros) quienes calificaron con bastante hostilidad ciertas oraciones conside radas como más o menos neutrales por los jueces blancos no preocupados, o no interesados en asuntos de los negros. 2 Hay dificultad para elegir los reactivos más discriminativos de entre aquéllos con el mismo valor de escala.
SUMA DE RANGOS (Likert, 1932) Para construir una escala tipo Likert: 1 Produzca el mismo número de oraciones de actitud favorable y desfavorable hacia un objeto. 2 Pida a los respondientes que indiquen, para cada reactivo, su respuesta a la oración de acuerdo con la siguiente escala: 5 Totalmente de acuerdo
4 De acuerdo
3 Indeciso
2 En desacuerdo
1 Totalmente en desacuerdo
Planteamiento de preguntas 11 • 167
3 Utilice los valores de esta escala como una puntuación para cada respondiente en cada reactivo, de modo que el respondiente califique con un cinco, de total acuerdo, un reac tivo favorable al objeto de actitud y califique con un uno, de total desacuerdo, un reactivo desfavorable. 4 Sume las puntuaciones para cada reactivo para obtener la puntuación global del respondiente. 5 Lleve a cabo una prueba de análisis de reactivos (se analiza más adelante) con el fin de determinar los reactivos más discriminativos: aquellos en los que los calificadores que de manera global califican alto tienden a otorgar valores altos y viceversa. 6 Rechace los reactivos con bajo poder discriminativo, manteniendo un equilibrio de reactivos favorables y desfavorables. El paso 5 es el aspecto más fuerte de la escala tipo Likert en relación con otras escalas. Significa que, a diferencia de una escala Thurstone, un reactivo no necesita relacionarse de manera obvia con el objeto o asunto de la actitud. Se puede considerar como d ia g n ó stic o si sus respuestas se correlacionan bien con el conjunto de las respuestas. Por ejemplo, podríamos encontrar que los respondientes bastante hostiles a los temas sobre igualdad de oportunidades también tienden a estar de acuerdo con: “Las mujeres tienen una necesidad instintiva de estar cerca de su hijo durante los primeros dos o tres años de su vida” . Esto podría permanecer en nuestra escala de actitudes, puesto que podría predecir bastante bien actitudes negativas hacia las oportunidades iguales.
Apartado 9 -2 . Debilidades del método Likert 1 Para cada respondiente, las puntuaciones en la escala sólo tienen significado relativo a la puntuación en la distribución obtenida de otros respondientes. Por consiguiente, los datos producidos se manejan mejor como si fueran o r d in a l e s (capítulo 12) mientras que Thurstone consideraba que los intervalos de su escala eran verdaderamente iguales. 2 La puntuación 3, “indeciso", es ambigua. ¿Implica una posición neutral (ninguna opinión) o una posición Indecisa en la que el respondiente se encuentra dudando con sentimientos en ambas direcciones? 3 De manera parcial, como una consecuencia de 2, las puntuaciones globales, centrales para la distribución (digamos 30 de 60) son bastante ambiguas. Las puntuaciones centrales podrían reflejar muchas respuestas “indecisas” o podrían comprender una colección de respuestas “totalmente a favor” y “totalmente en contra”, en cuyo caso quizá la escala mida dos actitudes diferentes.
ESCALA DE DISTANCIA SOCIAL (Bogardus, 1925) La escala de Bogardus de modo original tenía el propósito de medir las actitudes hacia los miembros de diferentes nacionalidades. Los respondientes tenían que seguir estas instrucciones: De acuerdo con mis primeras reacciones sentimentales, con gusto admitiría a miembros de cada raza [se daba a los respondientes varias razas o nacionalidades] (como una clase, y no como los mejores ni peores miembros que haya conocido) dentro de una o más de las clasificaciones bajo las cuales he colocado una cruz.
168 • Métodos de investigación y estadística. . .
(Capítulo 9)
Se les daba después esta lista para marcar, para cada raza: 1 2 3 4 5 6 7
Para estrechar parentesco mediante el matrimonio. En mi club como camaradas personales y compañero de cuarto. En mi calle como vecinos. Como empleados en mi trabajo. Como ciudadanos en mi país. Sólo como visitante en mi país. Los excluía de mi país.
Se sostiene que, en la práctica, es poco usual que los respondientes acepten la raza o nacionalidad a un nivel más alto, que una en la que ha ocurrido un rechazo, por ejemplo la aceptación en nuestra calle, pero no en nuestro trabajo. Esto se conoce como “revocación” . Es posible adaptar esta técnica a las pruebas de actitudes hacia cualquier categoría de personas. Por supuesto, las clasificaciones mismas necesitarán alterarse para que correspondan a las categorías específicas de persona. Sobre el tema de la igualdad de oportunidades, sería posible graduar tipos de ocupación dentro de las cuales los respondientes sienten que se debería promover a las trabajadoras. Sin embargo, la modificación requerirá una reestandarización con el fin de evitar demasiadas revocaciones.
Apartado 9 -3 . Debilidades del método Bogardus 1 No pueden eliminarse por completo las revocaciones. Sospechó que algunas personas no son más protectoras de su emDleo aue de sus calles, de modo particular en las ciudades. 2 La escala global para las puntuaciones es limitada, dejando menos espacio para un análisis estadístico sensible.
ESCALA ACUMULATIVA (Guttman, 1950) En términos generales, el principio de la escala de Bogardus se extiende aquí a cualquier objeto de actitud, no sólo a las categorías de personas. En una escala Bogardus, si conocemos la puntuación de una persona sabemos qué tan lejos de la escala se encuentra, suponiendo que no hubiera revocaciones. Por tanto, podemos reproducir con exactitud sus patrones de puntuación. Este último logro es el criterio ideal de una escala de Guttman. Un claro ejemplo (pero no útil de manera particular) sería una escala de verificación de estatura, en donde usted marcaría todos aquellos reactivos siguientes que sean ciertos para usted: 1 2 3 4 5 6
Soy más alto que Soy más alto que Soy más alto que Soy más alto que Soy más alto que Soy más alto que
1.20 m. 1.30 m. 1.40 m. 1.50 m. 1.60 m. 1.70 m.
Planteamiento de preguntas II • 169
Una respuesta positiva al reactivo 4 implica de manera lógica también una respuesta positiva a los reactivos 1,2 y 3. De la misma manera que esta escala mide una dimensión unitaria (estatura), se supone que una verdadera escala Guttman mide sólo una actitud finita y se conoce como una “ escala unidimensional” . En la práctica, cuando se miden actitudes y no estatura, nunca es posible reproducir con perfección un patrón de respuestas exacto del respondiente a partir de su puntuación global. Como veremos más adelante, los respondientes pueden interpretar muy a menudo a los reactivos de manera diferente, y rara vez es posible aislar las actitudes de modo tal que las respuestas reflejen una escala unidimensional. Por ejemplo, un respondiente miembro de un grupo étnico minoritario podría no estar de acuerdo en que “ los miembros de todos los grupos étnicos deben tratarse de igual manera” , puesto que, desde su punto de vista, han tratado al grupo damanera muy inequitativa en el pasado y requiere una acción compensatoria. Por consiguiente, desde el punto de vista del evaluador, las respuestas de esta persona pueden parecer inconsistentes, dado que son de otro modo en extremo favorables para los grupos étnicos minoritarios; con todo, una respuesta negativa en este reactivo se toma como hostilidad. Aquí podemos ver la importancia de producir una escala a través de ensayos piloto y entrevistas cualitativas.
Apartado 9-4. Debilidades del método Guttman 1 No pueden eliminarse las revocaciones. 2 Guttman mismo fue criticado por no tratar el problema de la representatividad al seleccionar los reactivos. Sostenía que esto podia lograrse a través del pen samiento intuitivo y la experiencia.
EL DIFERENCIAL SEMÁNTICO (Osgood y colaboradores, 1957) La intención inicial detrás de esta escala era utilizarla para medir el significado connotativo de un objeto para un individuo, hablando toscamente, las asociaciones que para nosotros tiene un término. De esta manera, todos podemos dar un significado denotativo de “enfermera” : tenemos que definir qué es una enfermera, como en un diccionario. Sin embargo, la connotación de enfermera puede diferir para cada uno de nosotros. Para mí, ana enfermera se asocia con cuidado, fuerza e independencia. Para otros, por estereotipo popular, puede verse como deferente y práctica. En un diferencial semántico se invita al respondiente a marcar sus respuestas en una escala entre adjetivos bipolares de acuerdo con la posición que ellos piensan que ocupa el objeto en esa escala. Para “enfermera” en los siguientes opuestos bipolares, yo contestaría como se muestra:
170 • Métodos de investigación y estadística
(Capítulo 9)
Osgood sostuvo que el análisis factorial (véase más adelante en este capítulo) de todas las escalas dio lugar a tres factores de significado general, todos los pares bipolares podrían vincularse a uno de ellos. “Activa” (junto con “rápido-lento” , “caliente-frío”) es un ejemplo del factor de actividad . “Fuerte” (junto con “ áspero-delicado”, “grueso-delgado” ) es un ejemplo del factor de
POTENCIA. “Buena” (junto con “ limpio-sucio” , “agradable-desagradable”) es un ejemplo del factor
EVALUATIVO. Adaptado a la medición de actitudes, el diferencial semántico en apariencia produce buenos valores de confiabilidad y se correlaciona bien con otras escalas de actitudes, produciendo así cierta VALIDEZ CONCURRENTE (véase página 183).
Apartado 9 -5 . Debilidades del diferencial semántico 1 Los respondientes pueden tener una “tendencia a la respuesta según su posición” en donde de manera habitual marcan el extremo final de la escala (o no utilizarán el extremo en lo absoluto) sin considerar posibles respuestas más débiles o más fuertes. Esto puede ocurrir también con una escala tipo Likert, pero es más probable aquí, puesto que los puntos de la escala carecen de las designaciones verbales de Likert (como "totalmente de acuerdo”, etcétera). 2 Aquí también tenemos el problema de interpretación del punto medio de la escala.
CUESTIONARIO0 REACTIVOS DEESCALA QUÉ EVITAR EN LA CONSTRUCCIÓN DE ORACIONES
¿Qué considera cala de actitud?
"Deberíamos empezar a tomar acciones compensatorias en areas oe empleo y entrenamiento en donde, en el pasado, los miembros de un grupo étnico, sexo o tipo de invalidez han sufrido discriminación o han experimentado desventajas como resultado directo de ser un miembro de esa categoría.” "La sociedad debería comenzara deshacerlos efectos del racismo institucional siempre que sea posible.” "No deberla permitirse a los inmigrantes establecerse en ár án de sempleo.” “El aborto es de manera exclusiva una opción de la mujer y deberla de estar a su disposición gratuitamente."
Planteamiento de preguntas II • 171
“No debería ser posible preguntarle a una mujer acerca del apoyo económico que recibe de su esposo, cuando a los maridos no se je s hacen las mismas preguntas.” “El gobierno Tory actual está desmantelando de manera Inexorable el estado de asistencia y seguridad social.” "¿Está usted de acuerdo en que deberían aumentarse los subsidios a estu diantes?' “¿Tiene usted antecedentes penales?"
1 Complejidad No muchos respondientes comprenderían esto a la primera. La oración es demasiado compleja. Podría ser posible dividirla en componentes lógicos. 2 Términos técnicos
Muchos respondientes no tendrán una idea clara de lo que es “racismo institucional” . Se tendrá que encontrar otro término o incluir un preámbulo que explique el término especial. 3 Ambigüedad
Algunos de mis estudiantes utilizaron este reactivo una vez y encontraron que casi todos concordaban en general, ya sea que fueran comúnmente hostiles a los inmigrantes o no. Por tanto, no estaba discriminando en lo absoluto. Esto se debió probablemente a que las personas positivas hacia los inmigrantes consideraron sus apuros por ser nuevos en el país y sin empleo. Quienes eran hostiles hacia los inmigrantes podrían haber tenido prejuicios ra ciales y pensar de manera equivocada que la mayoría de los inmigrantes eran negros o, igualmente incorrecto, creer que la mayoría de los negros son inmigrantes. 4 Reactivos de doble efecto
Este reactivo bastante simple hace dos preguntas en una. Una persona bien podría estar de acuerdo con disponibilidad gratuita, para evitar los daños del aborto clandestino, y aun así sentir que no sólo la mujer en cuestión debería decidir. 5 Negaciones
Para evitar grupos de respuestas (véase más adelante), cerca de la mitad de los reactivos en una escala deberían ser positivos hacia el objeto y la otra mitad, negativos. Sin embargo, no es una buena idea producir oraciones negativas tan sólo por negar una positiva. Puede ser confuso contestar una pregunta con una doble negación, incluso cuando una de éstas está camuflada, como en: “No debería ser posible rechazar la solicitud de un candidato con base en sus impedi mentos [físicos].” Esto podría reescribirse como “La incapacidad [física] de un candidato debería ignorarse por completo al considerar una solicitud” . El reactivo en el ejercicio contiene dos negaciones explícitas y esto puede confundir con facilidad.
172 • Métodos de investigación y estadística
(Capítulo 9)
6 Lenguaje emotivo
Una declaración como ésta no sería un buen principio para una prueba de actitud, de manera particular en el electorado opulento. Si hay reactivos emotivos en algún grado lo mejor será dejarlos hasta que el respondiente se sienta más relajado con el entrevistador o con la prueba misma. 7 Preguntas sugestivas
Como ya dije, la mayoría de las pruebas de actitud no contiene preguntas reales. Sin embargo, si ocurriera este tipo de preguntas, trae consigo la implicación de que el respondiente debería decir “ sí” . Si usted no lo ve así, tan sólo trate de imaginar a un amigo o colega iniciando la conversación del dia con una pregunta semejante. Puede serle difícil al respondiente no estar de acuerdo, algo que la gente por lo general preferiría no hacer en todo caso. Uno podría empezar con “Bueeeno. . . ” . Los respondientes bien podrían decir “ Sí, pero . . .” significando el “pero” un desacuerdo, aunque la respuesta se registre como acuerdo. 8 Invasión de la intimidad
Esta es información privada, junto con la vida sexual y otras áreas obvias. A muchas personas les parecerán bastante impertinentes las preguntas sobre actitud. Es cierto que el estudiante que realiza un ejercicio de práctica debe ser muy cuidadoso respecto de tal intromisión.
ORGANIZACIÓN DE REACTIVOS 1 Tendencia de respuesta o influencia
A menudo cuando se responden cuestionarios ocurre un efecto llamado te n d e n c ia DE RESPUESTA DE CONFORMIDAD. Ésta es la tendencia a estar más de acuerdo que en desacuerdo (“Decir sí”). Para evitar un error constante derivado de este efecto, los reactivos necesitan ser una mezcla imprevisible de oraciones positivas y negativas acerca del objeto de actitud. Esto tiene el efecto ya sea de mantener al respondiente pensando en cada reactivo, o de dar al conformista empedernido una puntuación central más que una extrema. Hay también cierta evidencia sobre una tendencia menor a no concordar con los reactivos. 2 Interpretación del respondiente
Con cualquier cuestionario o escala, es buena idea aclarar que aparecerán reactivos tanto positivos como negativos. Existen varias razones para esto. Es probable que los respondientes vean al entrevistador como si creyeran en las oraciones hechas. Un conjunto de aseveraciones opuestas por completo a lo que piensa el respondiente bien puede hacer surgir fuertes defensas emocionales. Ya hemos dicho que, por la misma razón, sería mejor empezar con las oraciones menos extremas. También existen características de la demanda (capítulo 5) asociadas con el hecho de responder a un cuestionario. El respondiente bien puede tratar de interpretar el objetivo de la investigación o de las preguntas. De nuevo, si todos los reactivos iniciales
Planteamiento de preguntas II • 173
van en la misma dirección, el respondiente puede formarse una impresión sobre los objetivos o personalidad del entrevistador que pueden distorsionar sus respuestas poste riores. 3 Deseabilidad social Definido en el capítulo 5, este factor implica que ios respondientes adivinen lo que se considera como una respuesta aceptable o favorable de manera social, y la den con el fin de “verse bien”. Una razón más para hacer esto puede ser la de “complacer al experimentador” dando los resultados que se supone requiere. Algunos cuestionarios intentan manejar este problema incluyendo reactivos con los que sólo un ángel estaría de acuerdo o en de sacuerdo. Si se contestan demasiados de estos reactivos de la manera “ santa” , los resul tados del respondiente se excluyen de la investigación. Eysenck llama a su grupo de reactivos “escala de mentira”, aunque un respondiente excluido no necesariamente está mintiendo. Pueden ser casi perfectos o pueden estar distorsionando la verdad sólo un poco.
CONFIABILIDADYNÚMERODEREACTIVOS El número de reactivos utilizados en un cuestionario necesita ser manejable en términos de tiempo y paciencia del respondiente, pero deben elegirse suficientes reactivos para que la confiabilidad sea buena de manera aceptable. Con un número mayor de reactivos, !os errores aleatorios procedentes de las interpretaciones individuales y malos entendidos del respondiente se cancelarían mutuamente.
Apartado 9 -6 . Pasos para construir una escala de actitud 1 Produzca un número sustancial de reactivos que estén equilibrados en: a) Fuerza (algunas oraciones “débiles" otras “fuertes”). b) Amplitud: ¿Está cubierta toda el área? c) Dirección: en una escala tipo Likert, los reactivos en “pro” del tema deben ser tantos como los “anti”; la mitad del conjunto debe ser débil y la otra fuerte. 2 Pilotee este primei lote de reactivos para detectar ambigüedad, malentendidos, etcétera. 3 Reemplace los reactivos rechazados por nuevos, manteniendo el equilibrio. 4 Repita 2 y 3 hasta que ningún reactivo sea problemático. 5 Acomode los reactivos de manera aleatoria o alternada, para que desaliente la influencia en la respuesta o la acumulación de hostilidad. 6 Sométalos a piloteo en una muestra de buen tamaño y realice análisis de reactivos en los resultados. 7 Prueba para la confiabilidad. Realice el análisis de reactivo y remueva los reactivos de baja discriminación. Reevalúe para la confiabilidad. Si ésta es aún insatisfactoria, o si quedan muy pocos reactivos después del análisis, agregue algunos nuevos y repita lo anterior hasta que la ccnfiabilidad sea satisfactoria. 8 Inspeccione o evalúe la versión final para la confiabilidad. ¿Los reactivos aún cubren los aspectos principales? ¿Algunos tópicos predominan ahora? ¿Las pun tuaciones en ¡a prueba se relacionan con un criterio externo? SI la confiabllldad es ' insatisfactoria, repita el proceso de nuevo.
174 • Métodos de investigación y estadística
(Capítulo 9)
PRUEBAS PROYECTIVAS Estas pruebas se desarrollaron fuera de la tradición psicoanalítica de investigación y terapia. Se basan en la noción ífeudiana de que cuando se nos confronta con una ilustración abstracta o ambigua, algunos de nuestros pensamientos internos que están protegidos, pues producen ansiedad, se revelan de modo parcial, por la manera en que proyectamos nuestra interpretación sobre la muestra. La prueba de manchas de tinta de Rorschach es un grupo de diseños abstractos bastante parecidos a los que producen los niños con pinturas tipo “ m ariposa” (fi gura 9-1). La persona a quien se le aplica la prueba informa lo que cree se puede ver en la imagen. De manera similar, la Prueba de Apercepción Temática (TAT) es una ilustración, con frecuencia de personas con sus expresiones emocionales ocultas o ambiguas, de las cuales se pregunta al evaluado “¿Qué está pasando?” . Estas pruebas pertenecen a la sección no estructurada y encubierta del cuadrante formado con estas dos dimensiones. Se sostiene que su apertura produce información rica, y que su naturaleza encubierta proporciona datos genuinos, no predeterminados por el hecho de que la gente adivine la intención del investigador (o terapeuta). Se afirma que las pruebas pueden utilizarse para medir factores como el componente afectivo, usualmente escondido, de las actitudes. Se les ha utilizado con mucha frecuencia para evaluar agresión, hostilidad, ansiedad, fantasía sexual etcétera, en hipótesis de trabajo de evaluación. El estudio de Levin, mencionado en el capítulo 8, utilizó la prueba de Rorschach.
Apartado 9 -7 . Debilidades de las pruebas proyectivas 1 Por ser de respuestas abiertas y de principio cualitativas, se sospecha de la confia bilidad de estas pruebas. Algunos usuarios tienen mucho cuidado en verificar el acuerdo entre los calificadores que codifican y categorizan las respuestas, ignoran tes de la hipótesis de investigación. El investigador proporciona un esquema de codificación sutil y extenso. En el estudio de Levin, el acuerdo entre las puntuacio nes del Rorschach, desconocedor de los objetivos de la investigación, estuvo entre 84 y 91 por ciento.. 2 Es bastante posible que los codificadores sean muy consistentes, comparados én tre sí, pero que las medidas no tengan relación con ningún principio teórico psicoanalítico. Una persona en el estudio de Levin dijo, de las personas vistas en las manchas de Rorschach: "No puedo decir si son varones o mujeres”, no podría confundirse en realidad sobre la imagen corporal sexual de estas imágenes, por ejemplo. Puesto que las pruebas son también medidas encubiertas de conceptos hipotéticos, es grave el problema de la validez.
SOCIOMETRÍA La sociometría se enfoca de manera específica a analizar las interconexiones entre la gente en grupos bastante pequeños. Es típico qüe se le pregunte a los miembros del grupo quiénes son sus mejores amigos, con quién preferirían trabajar sobre un problema o con
Planteamiento de preguntas II • 175
Figura 9 -1 . Mancha de tinta de Rorschach.
quién compartirían un cuarto, etcétera. También se pueden hater preguntas acerca de los miembros menos preferidos del grupo y sobre quién debería ser el líder. Entonces, la información generada está en forma de personas elegidas, de manera positiva o negativa. Estas opciones se pueden representar en una m a t r iz SOCIOMÉTRICA, como se muestra en el cuadro 9-1. El “ 1” representa el ser elegido y el “0” , no serlo. Es posible someter estas matrices a análisis matemático. De ello pueden surgir medidas de la cohesión grupal o predicciones de conflicto interno. Un producto más obvio y directo de la matriz es el SOCIOGRAMA o, en términos matemáticos más generales, la GRÁFICA DIRIGIDA. Un ejemplo del sociograma resultante del cuadro 9-1 se muestra en la figura 9-2. En este diagrama es obvio de inmediato que B es un “aislado” , D es muy popular, aunque elige a sus colegas de manera cuidadosa, y C sólo escoge a las personas que corresponden de manera recíproca la elección.
Cuadro 9-1 . Matriz sociométrica
1
Figura 9-2. Sociograma o gráfica dirigida.
El sociograma tiende a utilizarse sólo en aplicaciones prácticas más que en estudios de experimentación, en donde las interacciones son por lo común demasiado numerosas para una gráfica, y se requiere procesamiento matemático detallado.
APLICACIONES Las aplicaciones de la investigación incluyen el estudio de las interacciones en el salón de clase. Por ejemplo, se ha encontrado que los profesores tienden a preferir a los niños que los compañeros eligen más y viceversa. Puede evaluarse el efecto directo de elogiar a los alumnos en términos del aumento de popularidad eritre los compañeros. En general, pueden hacerse comparaciones entre estructuras del grupo y su efectivi dad. En cuanto a los individuos populares, se pueden tratar de obtener los vínculos con otras medidas de simpatía y atracción. Además puede investigarse la relación de “ais lados” y “pandillas” con el resto del grupo.
Apartado 9-8 . Debilidades del método sociométrico 1 Aunque los estudios de grupos pequeños utilizan el sociograma para ilustración, los estudios mayores y cualquiera que busque análisis estadístico requieren métodos matemáticos especializados. 2 Las elecciones hechas a solas y sobre el papel pueden diferir de modo marcado de las realizadas en situaciones reales con todas las presiones dei grupo presentes. Por otro lado, el anonimato y la distancia de la opción podría revelar atracciones reales, suprimidas en el contexto práctico del grupo.
PRUEBAS PSICOMÉTRICAS Los psicólogos han desarrollado muchas pruebas para servir como instrumentos estan darizados de medición de las características psicológicas humanas. Éstas se conocer
Planteamiento de preguntas II • 177
como PRUEBAS PSICOMÉTRICAS y su uso, como PSICOMETRÍA. La tradición se remonta a Galton, quien comenzó a medir las habilidades mentales, en el decenio de 1890, al evaluar muchas tareas sensoriales o cognoscitivas en cientos de personas (¡gran parte de ellas pagaban a Galton una gratificación económica por ese privilegio!). Aunque algunas escalas de actitudes se han perfeccionado muchísimo, e incluso a veces se llama “psico métricas” a las pruebas proyectivas si están bien estandarizadas; son las pruebas de inteligencia y personalidad las que han experimentado un fuerte grado de estandarización y escrutinio para lograr validez. Esto, en parte, es porque dichas pruebas se utilizan en la práctica profesional en donde se pueden ver afectadas las oportunidades de vida de las personas. Estas pruebas también han pasado por mucha revisión periódica, puesto que son muy sensibles a las tendencias predeterminadas de factores culturales, de clase y otros factores sociales. Es sobre esta base que se ha cuestionado de manera grave e investigado a fondo su validez. Por ejemplo, a la pregunta “¿Qué haría si usted encuentra en la calle un sobre con dirección y estampilla?”, podría ser “ inteligente” en un área muy pobre donde no se presta atención a los delitos menores quitar la estampilla con ayuda de vapor —una respuesta que no se seleccionó en una prueba famosa. Los puertorriqueños señalaron como incorrecta una ilustración que mostraba a un muchacho sosteniendo una sombrilla en el ángulo opuesto al que caía la lluvia, no por el ángulo en sí, sino porque el muchacho sostenía la sombrilla. ¡Esto se considera muy afeminado en la sociedad puertorriqueña! Está más allá del propósito de este libro abarcar a profundidad las pruebas de personalidad e inteligencia, junto con todas sus flaquezas y las críticas que se Ies han hecho. Sobre esto se informa muy bien en otros textos disponibles, en particular, R. Gross (1992).* Los ejemplos anteriores simplemente demuestran la necesidad de estandari zación y revisión constante desde el punto de vista del método de investigación. También muestran al lector, espero, lo que significan los prejuicios culturales y de clase. Sin embargo, para el estudiante que piensa en términos de métodos de investigación, es importante reconocer que cualquier estudio, incluyendo uno experimental, puede incluir como datos los resultados de pruebas psicométricas. La mayoría de las pruebas estarán más allá del alcance del uso estudiantil, dado que se les protege muy de cerca como instrumentos técnicos de la profesión psicológica. Asimismo, también suelen tener manuales de calificación bastante complejos a los que se vigila aún más de manera estrecha.
ANÁLISIS FACTORIAL Los investigadores con frecuencia apoyan el desarrollo y uso de las pruebas psicométricas mediante el empleo de una forma de “validez de constructo” (se explica más adelante en este capítulo), la cual implica un complejo procedimiento estadístico conocido como
Otros textos más especializados incluyen: Anastasi, A. (1988) Psychological Testing Macmillan; Chronbach, L. J. (1984) Essentials o f Psychological Testing Harper & Row; Kline, P. (1993) Handbook o f Test Construction Routledge; Murphy. R- M. & Davidshofer, C. O . (1991) Psychological Testing; principles and applications; Prentice-Hall.
178 • Métodos de investigación y estadística. . .
(Capítulo 9)
a n á lis is fa c to r ia l . El objetivo consiste en encontrar favores (constructos hipotéticos) que podrían explicar las relaciones observadas entre las puntuaciones de los sujetos en varias pruebas o subpruebas. Los pasos que siguen son:
1 Se mide a una gran muestra de personas en varias pruebas o subpruebas. 2 Se calculan las correlaciones (capítulo 18) entre todos los pares posibles de pruebas o subpruebas y se ordenan en una matriz, como se muestra posteriormente en el cuadro 9-2. 3 Se alimenta la matriz de correlaciones en el programa de análisis factorial que busca “ conglomerados” : grupos de pruebas o subpruebas que se correlacionan bien entre sí. 4 El experimentador le “pide” al programa que “resuelva” la matriz para un número específico de factores. En este punto, los factores no son reales; sólo son conceptos matemáticos que, en la medida de lo posible, “explican” las correlaciones encon tradas. Entonces, el programa proporciona la mejor configuración de este número de factores para explicar todas las correlaciones. 5 De manera alternativa, el programa ofrecerá solución en el mejor número posible de factores, con la menor cantidad de variación sin explicar. La “ explicación” completa es una respuesta puramente estadística de las relaciones numéricas. 6 El investigador le podría pedir al programa que resuelva un número de factores mayor si la cantidad de factores no explicados es demasiado grande. Para aclarar un poco más, espero, el concepto de análisis factorial, imagine lo siguiente. Seleccionamos unos cuantos cientos de personas con buena salud promedio y las sometemos a varios eventos atléticos. Correlacionamos los resultados de cada evento con todos los demás, produciendo un cuadro, parte del cual se vería como en el cuadro 9-2. Como veremos en el capítulo 18, si las personas tienden a obtener puntuaciones similares en dos variables, se dice que éstas se “correlacionan positivamente” y espera ríamos un valor cercano a +1. Si existe una tendencia a que suba una variable mientras que la otra baja, esperaríamos un valor que se aproximara a - 1 . Un valor cercano a cero significa que no hay ninguna relación. Tal como esperaríamos de la predicción basada en el sentido común, hay una fuerte correlación entre 100 y 200 metros, así como entre 3000 y 5000 metros. Hay una co rrelación moderada entre disco y lanzamiento de bala y entre los 100 metros y salto largo, mientras que entre los 100 metros y el lanzamiento de bala es negativa de manera moderada.
Cuadro 9-2 . Correlaciones entre varios actos atléticos 100
200
metros
metros
3000
5000
metros
metros
Tiro
Disco
Salto largo
Planteamiento de preguntas II» 179
La intuición podría sugerir que los factores subyacentes responsables de estas relaciones son la capacidad para correr a toda velocidad, el vigor y la fuerza. Si le pidiéramos al programa de análisis factorial que resolviera sólo para dos factores, con probabilidad nos diría que, sin importar de qué manera se resolviera la matriz, quedarían sin explicación muchas relaciones entre variables. Para tres variables bien podría damos una buena solución con poca variación sin explicar. Pero es importante hacer notar que depende de nosotros nom brar a los factores y debatir de cuál proceso real son el indicador. En términos generales, esto es lo que hacen los analistas factoriales con las puntuaciones que muestras grandes alcanzan en pruebas y subpruebas de personalidad e inteligencia. Los factores que emergen se reconocen y nombran de manera intuitiva. También se validan para pruebas existentes y disposiciones factoriales conocidas. Se dice que los factores son responsables de las variaciones de los participantes en la ejecución a través de las pruebas. Es importante reconocer que el análisis factorial no “prueba” que existan tales factores. Nada más proporciona evidencia de apoyo que le permite al experimentador sostener que la inteligencia o la personalidad podrían organizarse de una manera específica y, que los resultados del análisis factorial no lo contradicen. El análisis factorial es un proceso puramente estadístico. Al igual que con todos los resultados estadísticos, los investigadores, con puntos de vista determinados y teorías por defender, interpretan y presentan las estadísticas de la manera que les da el mejor apoyo. Existe un análisis más amplio del análisis factorial y sus limitaciones en Gross (1992, pp 841 -7 y 886-7). Block y Dworkin 1974) brindan una crítica extensa y seria al uso del análisis factorial para apoyar modelos de la estructura intelectual.
CONFIABILIDAD, VALIDEZYESTANDARIZACIÓN Es común en la investigación psicológica intentar la medición de variables para las cuales no hay una medida aceptada de forma universal. Ejemplos son: la actitud, motivación e inteligencia. Algunas variables aparecen incluso como constructos inventados, cuyos ejemplos son: la introversión y la extraversión o la fuerza del yo. Las pruebas que construyen los psicólogos para medir tales variables sirven a menudo como definiciones operacionales del concepto bajo estudio. Las escalas de actitudes y las pruebas psi cométricas que hemos analizado necesitarían verificarse de manera formal respecto a su validez y confiabilidad. También necesitarían estandarizarse para uso general. Analizare mos los métodos para cada una de estas verificaciones a su vez.
CONFIABILIDAD Cualquier medida, pero en especial una que se acabe de inventar, debe cuestionarse respecto a su exactitud, en términos, de producir los mismos resultados en diferentes ocasiones. Un instrumento de medición confiable es el que logra justamente eso. Considere un ejemplo práctico. Si usted tiene básculas de cocina que fallan, no tendrá la misma lectura para la misma cantidad de harina cada vez que la pese. Las medidas dadas por sus básculas no son confiables. Podemos decir también que sus básculas tienen poca confiabilidad.
180 • Métodos de investigación y estadística. . .
(Capítulo 9)
Una diferencia entre las básculas de cocina y los instrumentos utilizados para la medición de las características humanas es que los psicólogos a menudo utilizan pruebas con muchos reactivos, mientras que el peso se mide con sólo un indicador: el disco de lectura. Por ejemplo, las pruebas psicológicas de actitudes políticas se pueden poner en duda respecto a su CONFIABILIDAD in te r n a , que significa: “¿Es consistente la prueba en sí misma?” Esto se mide de modo usual verificando si las personas tienden a contestar cada reactivo de la misma manera en que contestaron todos los demás. No obstante, al igual que las balanzas y otros instrumentos, estas pruebas se pueden verificar también respecto a su confiabilidad para producir resultados similares en momentos diferentes. Cronbach (1960) ha analizado estos dos usos bastante diferentes del término confiabilidad aplicado a la medición psicológica. Utilizando los términos de Cronbach, CONSISTENCIA INTERNA y e s ta b ilid a d , la diferencia podría ilustrarse del modo siguiente. Imagínese haciendo una declaración a la policía. Se puede encontrar que ésta no es confiable en dos aspectos distintos:
1 Consistencia interna - acaso se contradiga a sí mismo en la declaración 2 Estabilidad - quizá altere detalles importantes cuando se le pida repetir la declaración algún tiempo después.
La consistencia interna es lo mismo que confiabilidad interna. La estabilidad puede llamarse CONFIABILIDAD e x te r n a : ¿Produce la prueba resultados similares en (al menos dos) ocasiones diferentes?
MÉTODOS PARA VERIFICAR LA CONFIABILIDAD INTERNA Métodos de división por mitades Una prueba psicológica que consiste de diversos reactivos o preguntas se puede separar para que los reactivos se dividan de manera aleatoria, en pares o nones, en dos conjuntos que comprendan la mitad de la prueba completa cada uno. Si la prueba es confiable, entonces las puntuaciones de las personas en cada mitad deberían ser similares, y el grado de similitud se evalúa utilizando la correlación (capítulo 18). Se esperaría que las corre laciones logradas excedieran de 0.9.
Métodos de discriminación de reactivos Estos métodos consideran la ejecución de las personas en cada reactivo. El método KUDER-RICHARDSON se emplea paratipos de reactivos como “ sí/no” o “aprobado/reprobado” , y tiene el efecto de calcular el promedio de todas las posibles correlaciones divididas en mitades para un conjunto de reactivos. Para los reactivos que se responden bajo una escala de respuesta (“ muy de acuerdo” , “de acuerdo”, etcétera) se emplea el coeficiente a lfa de c ro nbach .
Planteamiento de preguntas II • 181
Análisis de reactivo Los reactivos producirán mayor confiabilidad en un cuestionario si discriminan bien entre los individuos. Hay dos métodos comunes para verificar el poder discriminative de los reactivos. 1 Para cada reactivo en la prueba o cuestionario, se calcula la correlación entre la puntuación de cada persona en el reactivo, y su puntuación en la prueba como un todo. 2 Mirando las puntuaciones globales de los individuos en la prueba, se identifican el 10% más alto y el 10% más bajo. Este 10% no és fijo y podría ser 15 o 20% si se desea. Después se totalizan las puntuaciones de estos dos grupos de personas para cada reactivo en la prueba. Si estos dos grupos extremos tuvieran puntuaciones muy diferentes, entonces el reactivo es muy discriminative. Si no, es débil para discriminar entre los dos grupos y puede descartarse. Ambos sistemas pueden ser acusados de cierta circularidad, debido a que estamos empleando todos los totales para decidir en cada reactivo, contribuyendo a ese total, cuán bueno es en la discriminación. Los totales cambiarán por sí solos conforme los reactivos pobres se remuevan. Esto es, la prueba de confiabilidad continúa utilizando puntuaciones en tanto existan pruebas no confiables.
COMPROBACIÓN DE LA CONFIABILIDAD EXTERNA Confiabilidad de test-retest Para verificar que una prueba psicológica produce resultados similares cada vez que se usa, tendríamos que emplearla en las mismas personas en cada ocasión, de otra manera no tendríamos punto de comparación. “ Test-retest” significa que se evalúa a un grupo de personas una vez, y luego otra vez algún tiempo después. Se correlacionan los dos grupos de puntuaciones para ver si las personas tienden a tener el mismo tipo de puntuación en la segunda ocasión. Si ocurre así, la prueba tiene alta confiabilidad. Se esperaría que la correlación lograda aquí sea de al menos 0.75 a 0.8.
Sin embargo, hay varías razones por las cuales las personas no obtienen la misma puntuación la segunda vez en la misma prueba. ¿Puede pensar usted en algunas? 1 Las personas pueden contestar de manera diferente la segunda vez porque lo contes taron antes, y ahora quieren alterar la imagen que sienten haber dado antes. 2 Pueden simplemente recordar lo que contestaron la primera ocasión y no contestar de acuerdo con su percepción actual. 3 Algún acontecimiento externo pudo haber tenido un impacto significativo en sus actitudes. Si el cuestionario es sobre la pena capital y ha ocurrido un grave incidente terrorista entre la primera y segunda prueba, las actitudes pudieron haberse endure-
182 • Métodos de investigación y estadística
(Capítulo 9)
endurecen su actitud en el mismo grado, la correlación no se afectará, pero los efectos no son así de simples. 4 Acaso la investigación haya incluido un intento de cambiar la actitud entre la primera y segunda prueba, en cuyo caso Ja escala de actitud ya debería haberse probado respecto de su confiabilidad.
VALIDEZ
Una prueba o un efecto bien pueden calificarse de excelente confiabilidad, pero pueden no estar midiendo lo que se pretendía de manera original. Esta crítica suele dirigirse contra las pruebas de inteligencia, las cuales, aunque bastante confiables, miden sólo un rango estrecho de la capacidad intelectual, perdiendo, por ejemplo, el rango total del pen samiento creativo al que incluiría la definición del lenguaje público. La validez de una medición psicológica es el grado en que realmente mide lo que se supone debe medir. Suponga que le dio a unos niños de siete años una lista de palabras bastante difíciles para aprender de memoria. De hecho, usted bien puede estar evaluando su capacidad de lectura o su conocimiento de palabras más que su memoria. Se criticó la validez del efecto en los primeros experimentos sobre defensa perceptual, que parecían mostrar que la gente tarda más en reconocer palabras “tabú”, groseras o emocionales, basándose en que bien podría estarse demostrando la reticencia de la gente a proferir tales palabras ante un experimentador extraño, o su incredulidad de que éstas pudieran ocurrir en un experi mento científico respetable. El efecto fue muy confiable pero confuso, pues la variable que en realidad se midió más tarde tendió a ser el aturdimiento (consciente) y la expectativa social. Hay varios medios reconocidos mediante los cuales se puede evaluar la validez.
Puntuación
Puntuación
Parte A de la prueba
Parte B de la prueba
Buena confiabilidad de división por mitades:
Prueba completa en junio
Prueba completa en octubre
Confiabilidad pobre en el test-retest
Figura 9-3. Confiabilidad de división por mitades y test-retest.
184 • Métodos de investigación y estadística.
(Capítulo 9)
VALIDEZ DE CONSTRUCTO Esto nos conduce de nuevo al análisis de variables que no son observables de manera directa, y a la tendencia de los psicólogos de proponer constructos hipotéticos (capí tulo 2) y al análisis de la validez de constructo en el capítulo 4. Tales constructos requieren alguna forma de validación, de otra manera, ¿por qué habríamos de seguir tomándolos en serio? Tales constructos típicos serían: motivación al logro, extraver sión, dogmatismo, dependencia, fuerza del yo. En cada caso no hay evidencia directa para que estos constructos tengan algún tipo de existencia real. La validez de constructo supone la demostración del poder de éste para explicar una red de hallazgos de investigación y para predecir relaciones posteriores. Rokeach (1960) demostró que su prueba para la predicción del dogmatismo distinguía entre diferentes religiones y grupos políticos, al igual que tenía relación con enfoques a problemas nuevos por completo y la aceptación de nuevas ideas artísticas. Eysenck (1970) argumentó que la extraversión se relacionaba con la actividad de la corteza cerebral y produjo varias hipótesis comprobables a partir de su teoría. Se apoya como válidos a los factores de inteligencia y las variables de personalidad por el uso del análisis factorial, como se explicó antes, lo cual es una parte elaborada de la validación de constructos. Si un constructo es correcto, entonces está en la posibilidad de sustentar los argumentos de su existencia con una variedad de mediciones de sus efectos, o en relación con otras variables. Por ejemplo, si la disonancia cognoscitiva es un proceso psicológico común y genuino, entonces podemos predecir efectos desde una gran variedad de tipos de experimentos, en el laboratorio y de campo, con una diversidad de grupos de personas ejecutando un número de tareas diferentes de manera cualitativa. Todo esto puede sonar un poco mágico. ¿Por qué no podemos simplemente observar eventos y objetos concretos como lo hacen los físicos? Bueno, éste es un concepto erróneo de la manera en que los físicos trabajan con la teoría. Ningún físico ha visto alguna vez un átomo de manera directa. Lo que se observa son los efectos de los que se supone es un átomo. Aunque la teoría de elementos atómicos no tiene discusión, el constructo de un átomo se define matemáticamente; por lo que es difícil, para una persona no profesional, comprender y seguir cambiando en la definición exacta. Su validez como constructo se sustenta por una abundancia de apoyos experi mentales.
ESTANDARIZACIÓN El proceso de estandarizar una prueba implica el adaptarla, utilizando las pruebas de confiabilidad y validez para eliminar reactivos, hasta que sea útil como una medida de la población a la que se dirige, y nos permita comparar a los individuos de manera confiable. Para hacer estas comparaciones debe usarse la prueba en una muestra grande, de la cual se hayan establecido sus medidas y puntuaciones estándar (capítulo 13). Esto nos dirá el porcentaje de personas que tienden a obtener puntuaciones entre ciertos límites y cuál es el valor en el cual se centra la mayoría de la población. Las pruebas psicométricas se utilizan en la investigación, pero también se aplican para tomar decisiones acerca de las posibilidades y oportunidades de vida de las personas, las cuales se pueden relacionar con la educación, el tratamiento psicoterapéutico o la
Planteamiento de preguntas II • 185
selección de empleo. Por consiguiente, es de primordial importancia que estas pruebas no discriminen, de una manera específica en contra de algún grupo de personas, lo que de cualquier modo reduce su valor científico. La estandarización tiene, por consiguiente, importancia científica y ética.
ESTANDARIZACIÓN PARA UNA DISTRIBUCIÓN NORMAL Muchas pruebas se adaptan hasta que la evaluación de una gran muestra produzca una distribución de puntuaciones que se aproxime de modo muy cercano a la distribución normal (capítulo 13). Una razón para hacer esto es que las propiedades de la distribu ción normal nos permiten ejecutar algunas estimaciones estadísticas extremadamente poderosas. El hecho de que una prueba de CI se pueda planear y adaptar hasta que produzca una distribución normal en la evaluación de grandes grupos ha llevado a algunos investi gadores a argumentar que la prueba mida, por consiguiente, una cualidad innata en gran medida, puesto que muchas características biológicas de hecho se distribuyen normal mente mediante el funcionamiento de muchos procesos genéticos aleatorios juntos. Los críticos han objetado que sea artificial la adaptación de la prueba a la distribución normal y que muchas características biológicas no tengan una. Ciertamente, algunos fenómenos psicológicos no necesitan distribuirse de manera normal. Se extenderán las actitudes hacia algunos temas respecto a los cuales las personas ocupan posiciones en cierto modo polarizadas (por ejemplo, sobre armas nucleares, o el aborto), tal como se mide con un cuestionario una variante bimodal (de dos crestas) (capítulo 13). Un punto en extremo importante aquí es que una prueba estandarizada aplicada a una población determinada es obvio que no puede utilizarse con confianza en una población diferente. Esta crítica se ha dirigido de modo abierto a aquellos que sustentan que existe una diferencia de inteligencia entre las poblaciones de raza blanca y negra. Hubo una diferencia en las puntuaciones de CI pero, hasta 1973, la prueba StandfordBinet no había incluido a personas de raza negra en su muestra para estandarización. Por consiguiente, la prueba sólo era aplicable, con alguna confianza, a la población de raza blanca.
Escalas donde, de manera teórica, el rango de reactivos con los que el res pondiente debe estar de acuerdo, se identifica por la puntuación, el punto en la escala donde sus acuerdos con los reactivos terminan; los reactivos con ciernen a personas de cierta categoría Similar a la escala anterior pero donde los reactivos pueden incluir cualquier objeto de actitud
186 • Métodos de investigación y estadística.
Escala en la que el respondiente puedé elegir de entre diversas respuestas, por lo regular completamente en contra/desacuerdo; hasta completamente a favor/de acuerdo En la escala Thurstone, el valor estima do promedio de un reactivo; el respon diente recibe esta puntuación si está de lo con él I
tscaia que mide el significado de un objeto para el respondiente, al descri birlo utilizando un punto entre los extre mos de diversos adjetivos bipolares ' Escala en que los calificad )an la “fortaleza” relativa de c ¡vo, y el acuerdo de los respondientes a ese reactivo recibe el promedio del valor estimado para el mismo Reactivo que no está conectado de ma nera obvia o directa a 1a actitud ,del objeto, aunque se correlaciona bien con todas las puntuaciones, y por ende, tiene poder discriminativo Un término alternativo para grama” (véase más adelante) Grado en el que los reactivos, o la prue ba como un todo, separa a las personas a lo largo de la dimensión de puntuación Técnica estadística que, empleando patrones de correlación de pruebas o subpruebas, proporciona sustento para constructos teóricos al localizar “con glomerados" Pruebas que intentan cuantificar varia bles psicológicas; habilidades, capad dades, carácter, etcétera
(Capítulo 9)
Planteamiento de preguntas II • 187
Una prueba generalizada tipo Kuder Richardson de discriminación/confiabilidad de reactivos para una escala de respuesta con diversos puntos (por ejemplo, la escala tipo Likert) Estabilidad de una prueba. Su tenden cia a producir ios mismos resultados cuando se repite Consistencia de una prueba. Grado en el que los reactivos tienden a medir io mismo sin oponerse unos a otros Verificación de cada reactivo de una es cala, al comparar su relación con las puntuaciones totales en la escala Una prueba de discriminación/confiabilidad de reactivo que, de modo efec tivo, proporciona el promedio de todos los posibles coeficientes divididos en mitades, y que pueden calcularse en una escala de respuesta $i/no
Tendencia de la gente a estar de acuer do con los reactivos de la prueba como una respuesta habitual Tabla que muestra las preferencias del individuo en un grupo por su com pañero, amigo (etcétera); pueden con vertirse en un "sociograma” Representación visual de una matriz sociométrica Ajuste de una prueba hasta que sus puntuaciones formen una distribución normal y el cálculo de las normas para la distribución Grado en el que una prueba mide lo que se propone
respuesta de con-
188 • Métodos de investigación y estadística. .
(Capítulo 9)
Grado en el aue los resultados de una prueba concuerdan con aquellos de otra medición tomada al mismo tiempo Grado en el que los resultados de una prueba sustentan una red de hipótesis de investigación basados en las carac terísticas supuestas de una variable psicológica teórica Grado en el que una prueba cubre to dos los aspectos pertinentes de un área Grado en él que se puéden emplear las puntuaciones dé una prueba para hacer predicciones en otra medida Grado en el que la validez d ba es manifiesta Prueba de validez de criterio que in cluye grupos entre los cuales deben diferenciarse las puntuaciones de la prueba Grado en el que las puntuac prueba pueden predecir pi en otra medida en el futuro
EJERCICIOS 1 A una escala que mide la actitud hacia la energía nuclear, se le practica una verificación de confiabilidad te s t-re te s t. Se encuentra que la correlación es 0.85, Sin embargo, también se observa que las puntuaciones para la muestra se han elevado de manera significativa. a) ¿Se debe utilizar la prueba como está? b) ¿Qué podría explicar el aumento en las puntuaciones de la muestra? 2 Una amiga estudiante ha desarrollado una prueba de "Actitudes hacia los británicos”, la cual quiere aplicar a un grupo internacional de estudiantes que están por salir del país. a) ¿Cómo podria validarse la prueba? b) ¿Cómo podría verificarse su confiabilidad?
Planteamiento de preguntas II • 189
3 Un amigo dice: “Mi gafa odia la música de Whitney Houston. He puesto el disco en diez ocasiones y se sale cada vez”. ¿Es ésta una prueba confiable y válida, o no lo es? 4 Comete cualquier error en los siguientes reactivos potenciales para una escala de actitudes o cuestionario;
a) ¿Siente usted qué el gobierno ha ido demasiado lejos con la privatización?
b) ¿Cuál piensa usted que es la mejor manera de castigar a los niños? c) ¿Cuántas veces llegó tarde al trabajo en los dos últimos meses?
d) Las personas de otros países son iguales a nosotros y debería tratárseles con respeto. e) No debería ser posible evitar los impuestos y no ser castigado por ello. f) Las mujeres están tomando muchos puestos directivos en áreas ocupacionales tradicion almente ocupadas por los varones (en una escala para medir las actitudes hacia los derechos de las mujeres). g) Los modelos del rol sexual del mañana deben ser más andróginos.
5 Una investigadora aplica la prueba de Rorschach a un grupo control y a uno experimental de pacientes psiquiátricos. Después califica las respuestas de acuerdo con una escala muy bien estandarizada para detectar la ansiedad. ¿Podría mejorarse este procedimiento? ■
Estudios comparativos Este capítulo considera a los estudios que realizan comparaciones, ya sea de las mismas personas conforme maduran a través de periodos largos, o de varios grupos de diversas edades (o en ocasiones, clases, ocupaciones, etcétera) en el mismo momento. También incluye estudios que comparan muestras de más de una cultura (estudios transculturales). • Los estudios longitudinales dan seguimiento a un grupo (“cohorte" si es grupo grande) a través de un periodo largo, comparado si es posible con un grupo control, si el primero está recibiendo un “tratamiento". • Los estudios transversales abarcan diversos grupos, comúnmente de diferentes edades, en un momento específico. La meta general es delinear estudios de desarrollo o el efecto de un “tra tamiento" a través del tiempo. • Existe un aspecto muy fuerte y serio de egocentrismo implicado en el estudio transcultural, y el reconocimiento de esto ha reemplazado a la mayoría de los estudios antiguos que presentaban un matiz euroamericano y/o colonial, en ocasiones con señales claras de racismo. Los estudios más recientes toman en cuenta los aspectos políticos y tratan de evitar el etnocentrismo. Se ha desarrollado la “psicología indigenista”, la cual se refiere a la psicología originada por y adaptada a las necesidades sociopolíticas de la gente al interior de varias culturas (por ejemplo, India, Filipinas). • Al lector estudiante se le alerta sobre la necesidad de aclarar los conceptos de raza, etniddad y discriminación a través del análisis y lecturas, antes de abordar un posible proyecto práctico sensible que incluya aspectos de razas. Es importante prestar atención a los estereotipos, puntos de vista y lenguaje de uno mismo.
ESTUDIOS TRANSVERSALES T a n to éstos, como los estudios longitudinales pueden dar información de los cambios en el tiempo de una variable psicológica. Un estudio transversal hace esto tomando grupos de niños o adultos de un rango de edad específico y comparándolos al mismo momento en el tiempo. Las comparaciones aun pueden ilustrar cambios relacionados con la edad
192 • Métodos de investigación y estadística
(Capítulo 10)
y tendencias de desarrollo. Los datos transversales se utilizan a menudo para apoyar teorías del desarrollo como las de Piaget o Freud. Dos ejemplos específicos de estudios transversales son: 1 Williams y colaboradores (1975) entrevistaron a niños de cinco, siete y nueve años de edad. Ella le pidió a los niños que adivinaran el sexo de personajes muy estereotipados de cuentos. Los niños de cinco años reconocieron algo del estereotipo, pero los de siete y nueve años mucho más. 2 Kohlberg (1981) desarrolló su teoría de los cambios en el razonamiento moral de los niños, basado en un estudio sobre los intentos que hacían para resolver varios dilemas morales, niños de 10,13 y 16 años. Un estudio transversal también puede comparar grupos definidos por variables distintas a la edad; por ejemplo, clases, ocupaciones o grupos étnicos, pero siempre comparando las muestras al mismo tiempo.
ESTUDIOS LONGITUDINALES Una gran desventaja de los estudios transversales es la comparación, un problema que se encuentra en cualquier estudio que utilice muestras independientes. Nunca podemos estar seguros de que nuestros dos grupos o más sean lo bastante similares para una comparación justa. El enfoque longitudinal supera esta dificultad, puesto que emplea mediciones repetidas del mismo grupo de personas durante un periodo sustancial, con frecuencia de varios años. De esta manera se pueden observar cambios genuinos y la estabilidad de ciertas características. Si los intervalos entre las observaciones no son demasiado largos, se pueden identificar puntos importantes de cambio. En algunos estudios longitudinales, como el de Kagan, descrito más adelante, se utiliza un grupo control como comparativo cuando el grupo en “tratamiento” recibe algún tipo de programa de intervención, o (como el de Kagan) existe una variable independiente que difiere de manera natural. Ejemplos de estudios longitudinales son: 1 Kagan y colaboradores (1980) demostraron que los infantes que pasan la semana laboral en guarderías no estaban peor desarrollados, en ninguna medida, que los niños criados en casa, en tanto que los servicios de atención fueran buenos. 2 Eran y colaboradores (1972) demostraron una correlación entre el hecho de ver por más tiempo los programas televisivos de violencia a la edad de nueve años y una mayor agresividad a la edad de 19 mediante el seguimiento a través de un estudio con cientos de muchachos. 3 Kohlberg también realizó estudios longitudinales, uno de los cuales duró 20 años, con grupos de niños y su razonamiento moral. Con mucha frecuencia, se realizan enormes estudios longitudinales en una gran sección de la población infantil con el objetivo de dar alguna idea sobre las tendencias nacionales. En tales casos la muestra grande de niños se conoce como COH ORTE. Un ejemplo sería el de Davie y colaboradores (1972), quienes dieron seguimiento a casi 16 000 niños a partir del nacimiento (una semana en 1958) hasta la edad de 11 años.
Estudios comparativos • 193
EVALUACIÓN DE ESTUDIOS LONGITUDINALES Y TRANSVERSALES El enfoque longitudinal puede mostrar cambios genuinos en los niños estudiados. Si la muestra es pequeña, la generalización tiene que ser tentativa, pero con las muestras mayores o estudios repetidos, los investigadores pueden confiar más en que los cambios sean comunes a la población muestreada. Los cambios inferidos de un estudio transversal podrían ser el resultado de una variación entre los grupos en cuanto a, por ejemplo, la educación o el ambiente cultural local. Las muestras en los estudios transversales también pueden estar prejuiciadas por la discriminación de edades. Una muestra de niños aldeanos de 14 años de edad podría do incluir a los de la escuela de internos, mientras que sus equivalentes de nueve años están presentes al momento del estudio. Cuando la diferencia de edad transversal es grande (digamos 20 años), los diferentes cambios sociales experimentados por los dos grupos podrían interferir con la com paración directa de las variables estudiadas. Esto se conoce como EFECTO DE COH ORTE. Podemos crear efectos cohorte en el objetivo de la investigación, al seleccionar un grupo de jóvenes de 16 años de edad, por ejemplo, en los años 1995,2000 y 2005. Esto se conoce como estudio de INTERVALO DE TIEM PO . Es obvio que aquí no podemos hacer compara ciones longitudinales (personas diferentes), o transversales (misma edad, momentos distintos), pero sí podemos ver si las actitudes han cambiado, o si las capacidades mejoraron en la cultura estudiada, siempre y cuando estemos seguros de que las muestras son representativas de jóvenes de 16 años en ese año. Debido a los gastos y tiempo implicados, la investigación longitudinal tiende a utilizar un número relativamente menor de personas. De éstas, algunas pueden enfermarse, mudarse o por alguna circunstancia dejar los estudios. La muestra restante, en consecuen cia, podría no ser representativa. Los acontecimientos de una época, como la guerra, el desempleo masivo o un aumento drástico en la tasa de divorcio podrían tener un efecto específico en un estudio longitudinal de una generación de niños, de modo tal que su patrón particular de desarrollo no sea característico de otras generaciones. Esto se conoce como PROBLEM A TRA N SG E NERACIONAL.
Las decisiones tomadas al principio de un estudio longitudinal son irreversibles una vez que éste haya comenzado, a menos que esté relativamente no estructurado (por ejemplo, un estudio de caso). Un estudio transversal puede modificarse y repetirse más rápido dentro de la misma generación. Tanto los estudios longitudinales como los transversales pueden confundirse a causa de cambios de maduración en el desarrollo general de los niños. Por ejemplo, los niños de nueve años podrán contestar con más facilidad las preguntas difíciles que los de siete. Podríamos concluir de manera errónea que los niños más pequeños no tienen el cono cimiento o el concepto que se requiere en ciertas preguntas. Los niños más grandes pueden tener mayor capacidad para adivinar lo que persigue el investigador.
ESTUDIO LONGITUDINAL Y TRANSVERSAL A CORTO PLAZO Éste es un diseño conformado para el estudio de comparación de edades. Se puede estudiar a tres grupos, digamos con edades de 13, 15 y 17 años, durante dos años, en relación con los efectos de un programa diseñado para reducir la adicción a las drogas.
194 • Métodos de investigación y estadística
1990
1995
(Capítulo 10)
2000
2005
2010
Momento del estudioA - E = estudio transversal en los grupos A y E PQ = estudio longitudinal en el grupo P; Q es grupo control 1 - 5 = estudio de intervalo de tiempo en grupos del 1 al 5, todos a la edad de siete años
Figura 1 0-1 . Diferentes tipos de estudios comparativos (adaptado de Lewin, 1979).
Apartado 10-1. Ventajas y desventajas de los estudios longitudinales y transversales V e n ta ja s
Los grupos transversa estudian en ei mismo me_____ histórico por lo que se evita el problema transgeneracional Se pierden pocas personas du rante el estudio Relativamente barato y con sume menos tiempo. Apoyo para las teorías; la modifica ción o repetición se logra con mayor rapidez
Se registra el desarrollo de individuos específicos Ninguna variable del sujeto p de confundir las compara» nes de edad y etapas Útil cuando se dé seguirme...» al efecto de un "tratamiento” o programas a través de la com paración de sus resultados con los de un aruDO control
Problema de cohorte si la dife rencia de edad entre los dos grupos es grande La no equivalencia de los gru pos puede confundir los resul tados No proporciona información sobre el desarrollo de indivi duos específicos
Las muestras son más peque ñas y se puede perder p e a nas durante el estudio Una vez iniciado, las modifica ciones pueden ser difíciles o “no científicas” Consume tiempo. Los resulta dos se tienen sólo después de un periodo largo. La repetición y la modificación son difíciles o imposibles Relativamente caro Posible problema transgene racional cuando el desarrollo de una generación se compara con el de otra
Estudios comparativos • 195
Cada grupo se compararía con un grupo control, como en un estudio longitudinal que usa sólo un grupo de edad. Pero podemos determinar aquí la edad en la que el programa tiene su efecto máximo, mientras investigamos el rango de 13 a 19 años en sólo dos años. Un ejemplo son Halliday y Leslie (1986), que estudiaron la comunicación madre-hijo con infantes de 9 a 29 meses de edad al comenzar el estudio, y de 15 a 36 meses al finalizarlo, así que el rango de edad de 9 a 36 meses se cubrió con registros de seis meses.
ESTUDIOSTRANSCULTURALES Los psicólogos que descubren efectos confiables o que demuestran tendencias fuertes de desarrollo dentro de una cultura (un estudio “ intracultural”) también pueden interesarse en ver si éstas se encuentran en otras culturas distintas a la estudiada de manera original. Si las tendencias aparecen en todas partes, se fortalece el caso de factores psicológicos universales. Por ejemplo, aspectos del desarrollo gramatical parecen ocurrir en estadios reconocibles en todas las culturas estudiadas; sin embargo, surgen debates acerca de detalles más específicos. Existen problemas académicos y políticos masivos al intentar generalizar hallazgos y teorías de una cultura a otra. Por fortuna, pocos psicólogos han sido tan racistas como C. G. Jung (1930), quien afirmaba: “ El hombre inferior (africano) ejerce un tremendo tirón sobre los seres civilizados que se ven forzados a vivir con él, porque hechiza las capas inferiores de nuestra psique, que ha vivido a través de épocas incalculables en condiciones similares.” Él argu mentaba que los africanos tenían una “completa capa evolutiva menor” , hablando desde el punto de vista psicológico. Me asombra que cualquiera, como suele suceder, hable con ligereza acerca de la “mentalidad africana” o el “ carácter indio” , dada la amplitud y la enorme variedad de áreas en esa zona. Aun el hablar del “ temperamento irlandés” me parece como si se observara por el extremo equivocado de unos binoculares muy poderosos. Sin embargo, este libro expone los métodos y estadísticas, así que ¿cuál es la relevancia de la política? Muy sencillo, que resulta imposible separar el método de una vasta dimensión de posibles prejuicios culturales por parte del evaluador y la prueba utilizada. El comentario de Jung, mencionado antes, demuestra el efecto aterrador de no tener un método objetivo para realizar comparaciones. Sin embargo, resulta del mismo modo peligrosa la impresión de la objetividad formulada por el aura científica de instrumentos psicólogos y métodos, cuando se exportan sin restricción a culturas para las que no fueron creados o estandarizados. Los estudios transculturales comparan alguna variable psicológica en muestras de dos o más culturas. Las diferencias encontradas se atribuyen, ya sea a vastos procesos de so cialización o a factores genéticos. Hasta el momento, el mayor número de estudios recientes enfatizan al ambiente social como la causa. Los estudios realizados hacia inicios del siglo XX estaban cargados de un sello distintivo colonial o europeo. En un interesante estudio las sociedades describían a los “ nativos” como “primitivos” , y el término “negro” era común, aunque este último término todavía aparece indiscriminadamente en algunos textos de psicología en el decenio de 1980.
196 • Métodos de investigación y estadística. . .
(Capítulo 10)
De manera típica, los psicólogos ponían a prueba a los miembros de una comunidad tribal sobre ilusiones visuales o tareas de conteo. Con frecuencia se hacía énfasis en las “ carencias” de estas tribus, y los estudios tendían a ser e t n o c é n t r i c o s . Un ejemplo de etnocentrismo consiste en describir las creencias religiosas de una tribu como “ supersti ciones”, en tanto que no se reconoce el que nuestras propias creencias religiosas podrían sufrir el mismo análisis. Los occidentales, quienes se saludan con fuerte apretón de manos y contacto visual completo, tienden a describir la forma de saludar de otras regiones que incluyen la cabeza agachada y sin contacto visual, como de “sumisión” o que exhiben una personalidad cultural “tímida” . Ésta es una descripción etnocéntrica que supone que las interpretaciones occidentales son un tanto ciertas, y que su manera de saludar es una norma neutral que sirve de parámetro para comparar otras. Estos juicios de valor son únicamente desde el punto de vista occidental y no tienen ninguna validez universal. El etnocentrismo conduce con mucha facilidad hacia falsas interpretaciones alterna tivas del comportamiento. En Mozambique, me comentaron de una psicóloga educativa que sometía a los niños a la prueba de “ dibujo de la figura humana” , una prueba proyectiva (capítulo 9) cuyo procedimiento es obvio. Los dibujos pequeños en una esquina de la hoja de papel se interpretaban como demostración de la pobre autoimagen aún presente en los niños de ese lugar, causada por siglos de colonización portuguesa. ¡Se le había hecho notar que los escolares de Mozambique tenían instrucciones precisas de no desperdiciar papel debido a los momentos difíciles y economía débil por los que atravesaban! Nisbet (1971) argumentaba que el método transcultural era sólo otra manera, al parecer científica y respetable, de colocar la cultura europea hasta la cima de una jerarquía. Campbell (1970) comentaba que un modo de protegerse contra el etnocen trismo podría ser el lograr que se llevaran a cabo diseños donde el investigador procedente de la cultura A estudiara las culturas A y B (un diseño transcultural común), y un segundo investigador procedente de la B tam bién estudiara las culturas A y B. Para encontrar un trabajo completamente no etnocéntrico, es útil volverse hacia el de los antropólogos sociales, quienes tratan de dirigir intensos estudios de observación participante como miembros de una comunidad rural, durante muchos meses, si no es que años. Estos investigadores han estudiado a la comunidad por su propio derecho, no como una comparación con Occidente. Intentarían registrar la interrelación de las costumbres locales, normas, tabúes e interacciones sociales como el matrimonio y el comercio. Ejemplos clásicos incluyen los estudios de Margaret Mead sobre la adolescencia femenina en Samoa y las diferencias de rol sexual en Nueva Guinea. Ruth Benedict (1934) utilizó el término RELATIVIDAD CULTURAL para subrayar su punto de vista de que la conducta y pensamiento de un individuo deben enfocarse y sólo pueden entenderse a través de utilizar el propio ambiente cultura de esa persona. Muchos psicólogos han suscrito este punto y argumentan que las variables dependi ente e independiente de los estudios controlados son difíciles o imposibles de comparar a través de amplias brechas culturales. Por ejemplo, varios estudios encontraron a los pueblos tribales africanos del campo significativamente más afectados que los occidentales por algunas ilusiones visuales, y menos afectados por otras. Esto se explicó con la hipótesis del “mundo carpinteado” en el que un ambiente occidental muy estructurado, con esquinas pronunciadas, es el responsable de las diferencias. Surgió un feroz debate cuando otra investigación arrojó luz sobre el estilo de educación occidental como una variable crucial, con su énfasis en la interpretación de materiales gráficos bidimensionales impresos. Se ha encontrado que varias ilusiones funcionan de manera similar en miembros de culturas no industrializadas cuando se les presenta utilizando materiales artísticos locales.
Estudios comparativos • 197
EJEMPLOS DE INVESTIGACIÓN Los estudios transculturales en psicología se han incrementado de manera significativa desde el decenio de 1960. Aspectos en este campo, en particular la etnocentricidad y problemas en los métodos de investigación relacionados, así como investigaciones nuevas y numerosas aplicaciones, pueden encontrarse en Berry y colaboradores (1992). Una fuente un tanto más moderna es Brislin (1990) para ejemplos aplicados. Los estudios que en la actualidad se realizan han perdido mucho de aquel etnocen trismo. En el periodo moderno, uno de los estudios iniciales fue la comparación de Ainsworth (1967) del comportamiento de apego en Estados Unidos y Uganda. Los estadios del desarrollo moral de Kohlberg se confirmaron en estudios conducidos en Taiwán, Turquía, México, India y Kenia. Sin embargo, estudios recientes de Miller y colaboradores (1990) sugieren que la teoría de estadios de Kohlberg tiene limitaciones culturales. Al inicio encontraron que los indios (asiáticos) tienden a dar prioridad moral a los deberes sociales, mientras que los estadounidenses son más individualistas, concen trándose en los derechos de la persona. En 1990, encontraron que tanto indios como los estadounidenses eran similares en eventos serios, como aquellos que atenían contra la vida, pero los primeros tienen una visión más amplia de responsabilidades morales y obligaciones, enfatizando la necesidad personal mᣠque la muestra estadounidense. Ma (1988) encontró que dos muestras chinas (í-long Kong y gente de la Repúb/ica) eran más altruistas que la muestra inglesa. Joe (1991) proporciona un buen ejemplo del uso del sustento de la hipótesis nula como evidencia. Estudió niños caribeños de habla papiamento e inglés criollo. El primer •enguaje es “tonal”, lo que significa que los mismos sonidos pronunciados en distinta entonación tienen significados diferentes. Una teoría general es que el uso de lenguaje anal afecta ciertas capacidades cognoscitivas, aunque Joe no encontró grandes diferencias. Williams y Best (1982) pidieron a 2800 personas de 30 países de los cuatro continentes que informaran el punto de vista general (no sólo el propio) de los varones y mujeres de su cultura. Hubieron diferencias transculturales interesantes. El estereotipo femenino se valoró más alto en Italia y Perú; en Japón y Estados Unidos se percibe a la mujer como más activa, mientras que en Francia e India, más pasiva; los varones se consideran los menos “fuertes” en Estados Unidos y Venezuela. Sin embargo, en “actividad” y “ fortaleza” no hubo superposición; las puntuaciones más altas del país para las mujeres no alcanzan las puntuaciones más inferiores de los países para los varones. En 1990, un estudio adicional en 14 países encontró que las mujeres, en casi rodos los países, mantenían una mayor ideología del rol sexual “ igualitario” que los varones (en una medición que va de “tradicional” o “ igualitario”), y donde las muestras eran más “tradicionales” en su conjunto, el estereotipo masculino era valorado más alto. Un área muy importante de aplicación de los estudios transculturales es en “ aculturación” , el proceso de acostumbrarse a otra cultura y tal vez, como resultado de ello, cambiar la propia, ya sea por elección (por ejemplo, emigración) o por fuerza (por ejemplo, refugiados). Williams y Berry (1991) argumentan que los psicólogos tienen ahora conocimientos suficientes para llevar a cabo programas que reducirán, en buena medida, el estrés manifestado. En la actualidad, en Europa, éste será sin duda un punto de vista muy importante.
198 • Métodos de investigación y estadística.
(Capítulo 10)
PSICOLOGÍA INDIGENISTA De la misma manera que las mujeres consideran inaceptable que los varones en su mayoría definan la psicología, incluyendo el estudio de género (véase el capítulo siguiente), los miembros de culturas no occidentales han visto la imposición o el modelo de la psicología occidental inapropiado a sus necesidades y comprensión de sí mismos. Sinha (1986) caracteriza las primeras etapas de desarrollo de la psicología hindú como “mucho más ligadas a las faldas” que a los principios occidentales y casi como re peticiones reverentes de los estudios de allí. La etapa final, “ indigenización”, significó la transformación de métodos para ajustarse a la realidad económica y política y necesidades hindúes. Enriquez (1990) es aún más radical y promueve el desarrollo de una psicología filipina separada por completo de sus propias raíces. Este movimiento tiene tres objeciones principales: “está contra una psicología que perpetúe el estatus colonial de la mente filipina; está en contra de la imposición, en países del tercer mundo, de psicologías desarrolladas y apropiadas para países industrializados y está en contra de psi cologías utilizadas para la explotación de las masas” (Berry y colaboradores, 1990). Al igual que la psicología feminista, estos movimientos hasta cierto punto han identificado un positivismo estricto con enfoque occidental y, sin un completo rechazo, han favoreci do en general un enfoque más cualitativo, integrado de manera más cercana con el desarrollo socioeconómico y político en general. También existen métodos cuantitativos, los cuales han avanzado hacia el desarrollo de métodos y escalas de evaluación “caseros”, más que a la importación y reestandarización de mediciones occidentales existentes.
ETNICIDAD Y CULTURA AL INTERIOR DE UNA SOCIEDAD — ELABORACIÓN DE UN PROYECTO DE “RAZA” Los proyectos de investigación acerca de varias culturas dentro de una misma sociedad se conocen como estudios “ intraculturales” . Los estudiantes a menudo eligen realizar proyectos de este tipo sobre “prejuicios” o “raza” , generalmente por la razón de que les preocupa el racismo y la injusticia o, de manera más positiva, porque les llama la atención las diversas perspectivas dentro de su sociedad. Sin embargo, dichos estudios están cargados con los peligros del etnocentrismo, estereotipos y malos entendidos. No soy imparcial en este asunto. Una posición desde la barrera puede apoyar con facilidad al racismo. No creo que sea posible ser criado en el Reino Unido (blanco o negro) sin absorber de manera sutil las imágenes y temas de nuestros antepasados, un país colonial en donde la vasta mayoría de la gente no hubiera pensado dos veces las afirmaciones de Jung, en el decenio de 1950, cuando yo era niño. Yo recomiendo que los estudiantes sí se preocupen por asuntos raciales, pero para elegir lo que puede ser un simple proyecto, se requiere mucha preparación y fundamentos en perspectivas culturales y el lenguaje del racismo. Por ejemplo, me preocupa mucho cuando un estudiante dice, de manera muy inocente, que desea investigar las actitudes de la gente de “ color” . ¿Empleará ese término con los participantes y tal vez enajene a la mayoría, dándole a la psicología un peor nombre que el que tiene a veces de cualquier manera? Los investigadores requieren, ante todo, sondear su propio sentido de etnicidad; las personas blancas nunca se ven a sí mismas como “ étnicas” ya que el término se ha vuelto un eufemismo para los antecedentes donde “ de color” significa “ ¡no incoloro de manera natural como nosotros!” El aspecto del lenguaje es crucial, pues es el transpor-
Estudios comparativos • 199
ad o r de sutiles conceptos históricos y políticos enredados y entretejidos. El estudiante/in«estigador debiera buscar orientación en todos los términos a utilizar en, digamos, un asestionario o viñeta. Aún más allá, debieran estudiar a profundidad sus propias políticas en Tfoción con su propio grupo fePñcoy otros. ¿<5>on\vuúspe^cs \n\cgruc\ori\stas,,“ tftgíAos íl color/cultura”, que creen que de alguna manera un día todas estas molestias desapare arán y finalm ente ¡a gente de raza negra vivirá y será “tal como nosotros”?¿O aceptan "ss semejanzas entre las personas, pero reconociendo las riquezas de la diversidad cultural as una tierra donde, como en muchas otras, con frecuencia tratan de ignorarse las referencias a expensas de las minorías, en un intento insano de que la cultura “mayorirzria” sea un grupo único, unido y homogéneo? (Véase la parte final del apartado 10-2.) Éste es un libro acerca de métodos y estadísticas que intenta ser “políticamente neutral” en estos aspectos y asegura que la ciencia y los números son ciencia y números. En un estudio importante esto es verdad y la mayor parte de este libro apoya esta posición. Sin embargo, cuando la gente investiga a la gente, interactúa y despliega cantidad de opiniones. Una muestra que argumenta, a pesar de la diversidad de niños que hay en su salón, que son “todos del mismo color” , no es políticamente neutral. La posición y actitudes de un investigador sin duda matizan cualquier investigación que incluya razas. Para averiguar acerca de otro grupo, uno debe estar preparado para destruir estereotipos; uno puede adentrarse teniendo un sentimiento oculto de superioridad, aunque sea sutil; sólo al valorar y empatizar con el grupo se producirá validez, y esto implica trabajar con uno mismo.
Apaitado 10-2. Ventajas y desventajas de los estudios transculturales Ventajas
D esventajas
Pueden demostrar tendencias y efectos de desarrollo universal Permite comprender a sistemas cultu rales, creencias y prácticas bastante di ferentes Pueden proporcionar reevaluación de las normas sociales de “casa”, en tér minos relativos cutturalmente Datos ricos
Pueden apoyar suposiciones egocén tricas encubiertas Demasiado costoso en tiempo y recursos Las variables pueden no ser culturaicultural mente comparables Dificultades de comunicación. Las diferendas sutiles entre términos “equiva lentes” pueden agrandar la diferenda Pueden ignorar el hecho de que la cul tura de “casa” no es homogénea. La so ciedad británica comprende muchas culturas identificables que incluyen a la afrocaribeña, hindú (varias culturas se parables), Pakistani, escocesa (monta ñeses y de tierras bajas), irlandeses, galesa (del norte y del sur), asi como los procedentes de diferentes provindas en el interior de la isla, por nombrar algunas
LECTURAS ACERCA DE RAZAS Como lo puntualicé en alguna ocasión, existe un antiguo punto de debate en las noticias que es interesante analizar. Se refiere a reenfatizar el porqué a la gente de raza negra del
200 • Métodos de investigación y estadística
(Capítulo 10)
Reino Unido se le sobrerrepresenta en ciertas categorías psiquiátricas y reciben mayores niveles de medicación (en oposición a la psicoterapia). Este no es un problema nuevo y el lector podrá “dar una probadita” sobre problemas raciales en psicología, vía argumen tos psiquiátricos, en Littlewood (1989). Una introducción viva y legible de la manera en que la televisión y el cine portan sutiles imágenes raciales y culturales aunadas a buenas historias, argumentos y datos que desvanecen el mito de que “ la gente joven de hoy no tiene prejuicios raciales” , se encuentra en The Black and White M edia Show de John Twitchin (1988), (junto con sus programas del mismo nombre y que se obtienen como material de entrenamiento de la BBC).
ESTUDIOS COMPARATIVOS SON ESTRUCTURAS DE DISEÑO Un estudio de investigación puede tener un diseño longitudinal, transversal o transcultural y, todavía así, ser experimental o no. Dada la naturaleza de los diseños comparativos, y para lo que son más útiles la mayoría de los estudios que lo utilizan, no son experimen tales. Tienden a ser observaciones o a hacer uso de alguna prueba, escala, o técnica de entrevista con el fin de comparar las variables medidas existentes. Si la variable inde pendiente a la que se enfoca es las dos (o más) culturas diferentes, entonces el diseño es ex post facto, ya que el investigador no puede manipular la variable de las diferencias culturales. Las muestras que se estudien deben seleccionarse, de preferencia, de manera aleatoria. Claro que las equivalencias de las muestras son un aspecto amplio que dejaremos que usted pondere, ya que no podemos abarcarlo en este momento. Sería más sencillo tomar dos muestras representativas de estudiantes universitarios, digamos, más que dos muestras de gente obrera o “pueblerina”, por ejemplo. Un experimento verdadero ocurre cuando a un grupo de niños seleccionados de manera aleatoria se le da un “tratamiento” (digamos, entrenamiento especial en lectura) organizado por el investigador, y otro grupo funge como control, mientras ambos tienen un seguimiento de varios años.
GLOSARIO Muestra grande de gente, por lo gene ral de niños, identificados para estu dios longitudinales o transversales Confusión en un estudio transversal cuando dos grupos de distinta edad han tenido experiencias muy diversas
efecto cohorte
Confusión que ocurre cuando un grupo estudiado de forma longitudinal se compara con otro que ha tenido expe riencias sociales muy distintas
problem a transge neracional
Estudios comparativos • 201
Enfoque de que el comportamiento y características de una persona sólo pueden comprenderse a través de su propio ambiente cultural
relatividad cultural
Tendencia a mirar la cultura de otros desde la perspectiva de la propia cul tura
etnocentrismo
Metodología psicológica desarrollada en y para una cultura, sin importarla de otros lugares
psicología indige nista
Tipos de estudio
Estudio comparativo de dos o más so ciedades o subgrupos sociales distintos
estudio transcul tural
Estudio comparativo de varios grupos captados para su medición en un mo mento específico
estudio transversal
Estudio comparativo de grupos de di versas edades, con un seguimiento a lo largo de un periodo relativamente corto
estudio transversal, a corto plazo, lon gitudinal
Estudio comparativo de un grupo a través dé un periodo amplio (con posi bilidad de incluir un grupo control
estudio longitudi nal
Estudio comparativo en dondé una muestra de edad específica se selec ciona cada vez que se conduce el estu dio. Se extiende a intervalos relativa mente largos
estudio de inter valo de tiempo
Nuevos paradigmas Este capítulo presenta un resumen del fortalecimiento reciente en el uso de métodos conocidos como ■cualitativos” o para enfatizar desacuerdos fundamentales con el método tradicional "nuevos paradigmas". Aquí, los métodos no son sólo un conjunto de procedimientos alternativos, sino que incorporan una crítica filosófica básica del "positivismo" tradicional, paradigma hipotét¡co-deductivo en la investigación psicológica. El positivismo es la filosofía que ve a los eventos medibles (numéri camente) sólo como el objetivo de estudios científicos. • Los métodos cuantitativos tradicionales produjeron resultados más o menos artificiales y estériles, inaplicables a la realidad cotidiana de la vida humana. • Los enfoques alternativos que aquí se presentan enfatizan el acercamiento con los participantes y la riqueza de la información que se produce cuando se aplican métodos que recogen datos no estructurados. • La investigación de acción incluye la intervención que pretende el cambio; los enfoques endógenos o colaborativos buscan ayudar a los participantes a desarrollar su propia investi gación y procesos de cambio; la primera en comunidades y la segunda, con frecuencia, en organizaciones. • La psicología feminista enfatiza métodos de investigación cualitativos y participativos que los varones han descuidado de manera relativa, quienes han dominado el desarrollo de la investi gación en psicología, • El análisis de discurso se centra en la manera en que la gente construye versiones individuales de los eventos a través de su conversación. • La reflexividad exige que los lectores de los informes de investigación se percaten de la naturaleza relativa de los enfoques científicos del mundo, a través del análisis de los autores junto con los lectores acerca de su trabajo, a través de un mecanismo "reflexivo" apropiado.
POSITIVISMO
H
ay un debate que durante mucho tiempo ha desatado intervalos de gran violencia :entro de la psicología. Esto comenzó hacia 1894, cuando Dilthey criticó la psicología experimental de la época por copiar el modelo de las ciencias naturales, y por el
203
204 • Métodos de investigación y estadística
(Capítulo 11)
consiguiente reduccionismo en la explicación de procesos mentales. Esta situación algunas veces desaparece, pero ha sido potente de manera particular durante los últimos 10 o 15 años. Se refiere a si la investigación psicológica debería apegarse al ejemplo de las ciencias físicas y naturales, que han tenido tanto éxito en el avance de nuestro en tendimiento de los fenómenos naturales. Su método ha implicado una observación cui dadosa, medición exacta y la suposición de que lo que no puede medirse así no es susceptible de investigación científica; una posición que es igual al p o s i t i v i s m o en espera de un término mejor, aunque no todos concuerdan con el significado preciso de esta etiqueta. El paradigma dominante ha utilizado el método hipotético-deductivo descrito en el capítulo 1. Un “paradigma” es el método aceptado de manera general para investigar y desarrollar la teoría. En la práctica, si usted no lo sigue, tiene menos probabilidad de obtener financiamientos de investigación o de que su trabajo se considere seriamente.
DUDAS ACERCA DEL POSITIVISMO En pocas palabras, el problema es: si realizamos investigación utilizando procedimientos demasiado controlados y una cuantificación precisa de las variables, tal como lo re comienda la ciencia tradicional y la mayoría de los libros de texto psicológicos, incluido esto en muchas partes, ¿no estaremos ganando sólo un conocimiento restringido, quizás artificial, quizás algunas veces inútil, de la conducta y experiencia humana? Considere el siguiente cuadro de resultados de un experimento en donde la variable independiente fue una lista de 20 palabras comunes o no, presentadas una por segundo en la pantalla de una computadora, y la variable dependiente fue el número de palabras recordadas en cada condición durante 60 segundos, después de la exposición del último reactivo, el orden era irrelevante. Esto nos proporciona la información no sorprendente de que las palabras que no se conocen con frecuencia son más difíciles de recordar. El empirista argumenta, sin embargo (y en el espíritu de los puntos dados en el capítulo 1 sobre las “ certezas de sillón”), que se requiere que la investigación respalde lo que, de otra manera, es sólo una observación casual sin apoyo. Podría plantearse una crítica de la siguiente manera: sólo en los experimentos de psicología la gente tiene que aprender una lista de 20 palabras
Cuadro 11-1. Número de palabras comunes/no comunes recordadas
Nuevos paradigmas • 205
inconexas. ¿Cómo se puede relacionar esto con el uso normal de la memoria humana que opera en un contexto social y significativo? Los resultados del experimento podrían ser significativos pero de poca relevancia. El estudio no nos da ninguna información sobre las experiencias de los participantes. Todos ellos, sin duda, utilizaron métodos desarrollados de manera personal, y encontraron sus significados propios y originales en la combi nación de palabras presentadas. Esta información es poderosa y le “pertenece” a los par ticipantes, aun así no se utiliza ni se les pide, lo que podría constituir incluso algo así como un insulto a los “sujetos” que participan en lo que para ellos prometía ser “un experimento interesante” . También se comenta que los experimentos de la memoria que utilizan palabras fuera de contexto, o aun conjuntos de sílabas sin sentido que restringen el uso de capacidades naturales, dan origen a modelos simplistas de la persona de modo innecesario, así como de la naturaleza y operación de los procesos cognoscitivos.
EJEMPLOS DE ESTRECHEZ Y ARTIFICIALIDAD De manera similar, muchos estudios miden actitudes utilizando una escala del tipo que revisamos en el capítulo 9. En ésta, cada participante termina con un valor numérico único. Sobre actitud política, por ejemplo, se puede representar la posición de una persona como 34, en donde 40 es el valor más alto que una persona “ conservadora” (de derecha) podría obtener, siendo “radical” el otro extremo de la escala (de izquierda). Al utilizar este sistema, asumimos que las actitudes políticas yacen a lo largo de una dimensión unitaria, mientras que, de hecho, si se le preguntara en profundidad a las personas acerca de sus ideas y principios, develaríamos varias combinaciones únicas de posturas de izquierda y de derecha que no podrían, de una manera significativa, promediarse con un punto medio de la escala. Considere la medición de su inteligencia, y todo lo que ello significa para usted, como un número no muy lejano del 100. Piense en el sujeto al que se le pide juzgar a personas, de las que nunca ha oído hablar en una escala de cinco puntos, sabiendo sólo que la persona posee características en la forma de palabras aisladas como “ confiado” y escritas en una taijeta. Harré (1981) argumenta que los métodos de investigación ortodoxa (positivista) condujeron hacia una gran irrelevancia en, por ejemplo, la investigación psicológica social. Analiza un experimento en el que unas mujeres tenían que sentarse y verse a sí mismas en un monitor de TV durante un minuto. Después se aplicó la VI consistente en oír una conferencia sobre enfermedades venéreas, ya fuere enseguida o cuatro minutos después. Luego, se les preguntó si contribuirían con un programa terapéutico de enfer medades venéreas bajo ciertas circunstancias. El objetivo era evaluar la idea de que un enfoque de sí mismo elevado facilitaría la “conducta de ayuda” . Harré argumenta que la medida de “ autoenfoque” (observarse a sí mismas) trivializa por completo el complejo concepto de autooriginalidad propuesto por G. H. Mead.
PARADIGMA ESTABLECIDO Al trabajar bajo requerimientos programáticos para que los estudiantes produzcan datos y análisis cuantificables de modo estricto, a menudo he coadyuvado a restringir un concepto que de origen fue rico, a otro medible de forma empírica. Por ejemplo, dos
206 • Métodos de investigación y estadística
(Capítulo 11)
estudiantes adolescentes muy interesados, de manera comprensible, en la investigación del autoconcepto entre adolescentes, han terminado contando cuántas veces las jovencitas utilizaron más términos sociales para describirse a sí mismas en comparación con los muchachos, debido a que ésta era una prueba verificable de modo numérico de una hipótesis. Mi propio entrenamiento me enseñó a tratar toda evidencia no cuantitativa con una suspicacia que se aproxima a la hostilidad, y que la información recabada sin un sistema de calificación predeterminado y adherido en forma rígida a un procedimiento tenía que estar bastante abierta a la vaguedad, subjetividad e irrelevancia. Algunos discutirán que éste es un ejemplo de lo establecido que impone el paradigma tradicional en forma directa desde el principio. Otros objetan que este enfoque es necesario en interés de la objetividad, claridad de pensamiento y replicabilidad. Pero parece en verdad posible alcanzar el requisito de claridad de pensamiento sin la reducción servil a los números. Los astrónomos, químicos y biólogos no siempre cuentan, buscan patrones. Así lo hicieron Freud, Piaget, Bartlett y muchos otros psicólogos cuyas introspec ciones no siempre depende en lo fundamental de datos cuantificados de manera estricta.
PRINCIPALES OBJECIONES AL PARADIGMA TRADICIONAL Algunas de ellas ya se han tocado al informar sobre los aspectos más cualitativos de las entrevistas y la observación, al igual que en el capítulo sobre estudio de casos. Sin embargo, resumamos el caso general “en contra” . 1 La investigación tradicional trata a las personas como si fueran aislables de su contexto social. Incluso trata partes de la persona (por ejemplo, su memoria o su actitud) como si fueran separables. Debe tratarse a los “sujetos” como unidades idénticas, con el propósito de demostrar las nociones preconcebidas del investigador acerca de los seres humanos, que éstos no pueden desafiar. Se les manipula dentro y fuera de la condición de investigación. 2 Mientras que todos nos damos cuenta de que para conocer y entender hasta a nuestros buenos amigos uno necesita cercanía, el investigador, en interés de la objetividad, se esfuerza por mantenerse distante. Las actitudes y razones del investigador no se recono cen, no se muestran, o no se consideran relevantes para el proceso de investigación. 3 Se considera mítica a esta objetividad. El intento de permanecer frío y distante, y el paradigma cuantitativo ciegan al investigador a su propia influencia y rol activo en el proceso de investigación, que es un contexto social. Cuando los estudiantes aplican cuestionarios estructurados a sus compañeros, por ejemplo, los respondientes por lo regular quieren saber qué piensa el estudiante y si ellos creen en todas esas afirma ciones que el respondiente tiene que marcar. 4 La situación experimental o la entrevista de encuesta sólo pueden permitir el acopio de información superficial. En el estudio de la percepción de la persona y atracción interpersonal, por ejemplo, de manera principal se han estudiado las primeras im presiones con métodos tradicionales. 5 Los procedimientos experimentales restringen los poderes normales de los “sujetos” a planear, reaccionar y expresar una conducta socialmente apropiada en el contexto del tópico de investigación. Aun así, el investigador utiliza los resultados para hacer afirmaciones acerca de la naturaleza humana sobre el mismo tópico. El modelo resultante de personas es simplista y mecanicista.
Nuevos paradigmas • 207
6
El engaño sólo puede falsificar el contexto de la investigación y proporcionar resultados bastante desorientadores, además de tratar al participante con desprecio. 7 La relación entre experimentador y sujeto es como la del empleador-empleado. Es dominante y elitista. Por consiguiente, la conducta exhibida reflejará este contexto social particular. Esto también contribuirá al modelo resultante de persona. 8 Los métodos de investigación muy estructurados predeterminan la naturaleza de la información resultante. A los sujetos se les imponen los marcos teóricos. Por ejemplo, los cuestionarios fallan de manera singular al extraer la información más importante de la gente. La información obtenida es restringida, enrarecida e irrealista. 9 Los sistemas de codificación y categorización muy estructurados pierden de vista la totalidad del individuo.
¿ENTONCES QUÉ PROPONEN LOS NUEVOS PARADIGMAS? Thomas Kuhn (1962) popularizó el término “paradigma” cuando analizó las maneras en las que la ciencia pasa por cambios radicales en su concepción global de los modelos y metodología apropiados. Ocurrió un “ cambio de paradigma” cuando la física einsteniana sustituyó a la newtoniana. El paradigma que los investigadores en psicología del “nuevo paradigma” están buscando reemplazar es el positivista, el cual abarca el modelo científico tradicional fhipotético-deductivo). Pero no existe sólo un nuevo paradigma. El término se asoma en varios contextos; varias personas y distintos grupos lo utilizan con diferentes marcos de referencia, principios y objetivos, pero manteniendo en común la mayoría de las objecio nes señaladas más arriba. Ellos estarían de acuerdo con la mayoría de los siguientes puntos: 1 La investigación psicológica debería concentrarse en los significados de las acciones en un contexto social, no en unidades de conducta aisladas y “objetivas” : holismo, no atomismo. 2 Debería ponerse énfasis también en la interacción. La atribución, por ejemplo, no es el trabajo de una persona, sino el resultado de la negociación entre observador y observado, quien trata de controlar las atribuciones o contradecirlas. 3 Los significados y las interacciones pertenecen a las situaciones y contextos sociales y no pueden aislarse de manera sensata de éstos. 4 La investigación, por consiguiente, es naturalista y cualitativa de modo principal. 5 La investigación se realiza tan cerca como es posible con la(s) persona(s) estudiada(s). Una cita de Hall (1975) aclara este punto: La investigación en ciencia social a menudo parece producir una situación en la cual un médico trata de diagnosticar los sintomas de un paciente desde la vuelta de la esquina y sin ser visto. El científico social utiliza sus “instru mentos” para medir la respuesta del paciente como si fueran un tipo de estetoscopio largo. La atención del experimentador ha estado centrada en el desarrollo de un estetoscopio cada vez mejor, que dé vuelta a las esquinas y entre a las casas, cuando lo que se necesita en realidad es que el investigador dé vuelta a la esquina, entre a la casa y empiece a platicar con la gente que vive ahí.
208 • Métodos de investigación y estadística.
(Capítulo 11)
6 Los datos más centrales son los propios términos e interpretaciones del participante. Citando a De Waele y Harré (1979): Al tomar con seriedad las interpretaciones de los participantes, evitamos la falsificación de la realidad que ocurre cuando los autoinformes se confinan a las respuestas de cuestionarios, etcétera, que el investigador ha elaborado con anticipación. Si se permite a los participantes construir sus propias interpretaciones, con frecuencia presentan una variedad de significados y revelan teorias implícitas, que algunas veces difieren de modo amplio de las impuestas por los investigadores.
7
8 9
10
Este enfoque se ejemplifica en el trabajo de Marsh (1978) sobre la explicación dada por los fanáticos del fútbol de las “reglas” de conducta en las gradas más altas del estadio. Marsh utilizó un enfoque desarrollado desde la perspectiva “ etógena” de Harré, descrita con anterioridad. Se prefiere alguna versión del análisis INDUCTIVO en vez del enfoque hipotético-deductivo. En la primera, las teorías, modelos e hipótesis emergen del proceso de aco pio de datos que sean más confirmadas por éste. (Irónicamente, esto se acerca a la filosofía del primer método empírico, en donde se suponía que uno recababa datos a partir del mundo físico natural sin preconceptos.) Sin embargo, Medawar (1963) ha objetado de modo enérgico la suposición ingenua de que uno se puede aproximar a cualquier fenómeno, con el fin de estudiarlo, absolutamente sin preconceptos acerca de sus modos de funcionamiento, por supuesto no en el mundo social. El análisis inductivo también incluye el proceso de refinar de manera constante las categorías y modelos emergentes a la luz de los datos que se reciben. El valor de este enfoque se aprecia de manera particular en su capacidad para permitir que emerjan categorías, procesos, incluso hipótesis, que no se habrían visualizado como presentes antes de que empezara la investigación; mientras que la investigación tradicional define de manera estricta las variables y dimensiones antes de la recolec ción de datos, de modo tal que éstas pueden distorsionarse para ajustarse al esquema disDuesto de antemano. Es probable que las teorías emergentes sean locales más que generalizaciones masivas acerca de la naturaleza del pensamiento o la personalidad humana. Para las desviaciones más radicales del paradigma tradicional, los investigados tienen un fuerte grado de participación en parte o en todo el desarrollo, realización y análisis del proyecto de investigación. La versión extrema de este enfoque supone que el grupo objetivo actúe como uno de los investigadores colaboradores del investigador original, como una manera de consultar, analizar y organizar los datos. Todos los hallazgos e interpretaciones se analizan y modifican por el grupo como un todo en sus propios términos. La realidad “ se negocia” . En última instancia, la mayoría de los métodos bajo la sombrilla “cualitativa/del nuevo paradigma” incluye la noción de un “ciclo de investigación” recorrido varias veces, en el que el paso integral es consultar con los participantes sobre la aceptabili dad y exactitud de las teorías, modelos y categorías emergentes.
ENFOQUES CUALITATIVOS En principio había intentado llamar a este capítulo “enfoques cualitativos” , y llevarle a usted a través de un grupo de métodos distintos. Tal como resultó, tuvo más sentido
Nuevos paradigmas • 209
manejar la dimensión cuantitativo-cualitativa conforme pasamos a través de la obser vación, la entrevista y análogos. Los métodos que hemos visto hasta ahora que se contarían como cualitativos son: • • • • • • • •
Cuestionarios abiertos Entrevistas no estructuradas Observación semiestructurada Observación participante Método del diario Método clínico (hasta cierto punto) Juego de roles y simulación (dependiendo de la investigación en particular) Estudios de casos individuales
Aunque estos métodos reúnen datos cualitativos, no son todo lo que podríamos llamar “cualitativos” en apariencia, lo que significa que el objetivo de la investigación consiste en emplear los datos en su forma cualitativa, y no extraer de ellos sólo lo que de alguna manera se pueda representar de forma numérica. Los datos se retienen en la forma de significados. En el capítulo 25 revisamos las maneras en que se pueden manejar los datos cualitativos. En la medida en que los datos sean de manera estricta categorizados, codificados o sometidos a análisis de contenido, el enfoque tiende a ser de apariencia positivista más que cualitativa. Pero sería tentador asumir que todos los enfoques de apariencia cualitativa caerían de forma automática en esta categoría del nuevo paradigma. Sin embargo, las evasivas y reservas de mucha de la observación participante se oponen a varios de los principios descritos con anterioridad. Las personas estudiadas a menudo no son participantes de la investigación, sólo lo es el investigador. La presentación de los resultados puede tender a dar el mensaje “ que personas tan fascinantemente extrañas también son organizadas” .
NVESTIGACIÓN PARTICIPATIVA La idea de que la gente participe en investigaciones y colabore con el investigador en el desarrollo del proyecto no es nueva. He aquí una cita de Madge (1953): Las técnicas de experimentación que se han analizado hasta ahora se basan en las desarrolladas en las ciencias naturales. ¿Puede ser que se requiera en las ciencias sociales un enfoque diferente de manera radical? ¿Puede considerarse a los seres humanos, quienes constituyen el objeto de estudio de las ciencias sociales, no como objetos para la manipulación experimental, sino como participantes en lo que se planea? Si esto puede ser así, requiere de una actitud transformada hacia el experimento social. De manera tradi cional, se concentra la atención en las precauciones que se necesitan para objetivizar los resultados, y esto supone el tratar a los participantes como personas sin identidad propia, para observarlas antes y después de some terlas a una serie de estímulos externos. En contraste, el nuevo enfoque Implica la aceptación y promoción de una cooperación consciente por parte de todos los interesados. Ya no hay entonces un investigador y sus sujetos pasivos, sino una cantidad de seres humanos, uno de los cuales tiene más experiencia que los otros y tiene objetivos de algún modo más complejos, pero todos ellos colaboran de forma consciente en un proyecto de investigación.
210 • Métodos de investigación y estadística
(Capítulo 11)
Lo que se ha incrementado en los decenios de 1980 y 1990 es la práctica verdadera de tal investigación y el reconocimiento de las personas como encuestadores activos en el proceso de investigación, a tal grado que el grupo central de la psicología académica, la Sociedad Británica de Psicología, ha recomendado que el término “sujetos” se sustituya por el de “participantes” . Hasta el momento, el mensaje ha surtido poco efecto; como se mencionó en el capítulo 1, sólo se empleó el término “participantes” en una de más de 30 oportunidades en el British Journal o f Psychology, de 1992 hasta la mitad de 1993. Sin embargo, aún es pronto para observar el cambio. Esto no quiere decir que no hubiera algunos investigadores que utilizaran la técnica participativa con una filosofía, y no sólo como análisis de datos, lo que fue ampliamente cualitativo. A continuación encontrará algunas influencias o cabos en la investigación de la perspectiva cualitativa general o de “nuevo paradigma” .
INVESTIGACIÓN DE ACCIÓN Propuesto primero por Kurt Lewin a mediados del decenio de 1940, este enfoque básicamente pedia que la investigación se aplicara a los problemas prácticos que ocurren en el mundo social cotidiano. La idea era entrar a una situación social, intentar cambiar y registrar los resultados. Esto podría establecer o contribuir a un programa diseñado para crear conciencia sobre las necesidades dietéticas o los peligros del fumar. El enfoque se ha utilizado con amplitud en el área de la psicología ocupacional, preocupada por el cambio organizacional. Ejemplos relativos a esto provienen del trabajo del Instituto Tavistock y su concentración en “ sistemas sociotécnicos” . Aquí se enfatiza el es tablecimiento de un grupo de trabajo que desarrolle sistemas humanos que actúen contra las influencias deshumanizadas de la maquinaria y la tecnología. Un principio que señala el lincamiento es que el investigador incluya representantes (aunque no todos) del grupo de trabajo en el proceso de cambio. Existen ejemplos que se remontan a Trist y Bamforth (1951), que reconocieron a los trabajadores en las minas de carbón de Durham, y Rice (1958), quien hizo lo propio en Ahmedabad, India. Está claro que ésta es una zona donde los objetivos y áreas de investigación condujeron a un enfoque cualitativo y participativo.
INVESTIGACIÓN ENDÓGENA Ésta es una importación de la antropología, los creadores de la observación participante a gran escala. En este enfoque, más que vivir con una comunidad por un afío o algo así, irse, y después publicar un informe, el investigador involucra a los miembros de la comunidad en un proyecto de investigación sobre sus propias costumbres, normas y organización en sus propios términos.
INVESTIGACIÓNCOLABORATIVA En términos generales, al juntar los dos últimos enfoques tenemos la base para la investigación colaborativa, en la cual los participantes se implican tanto como sea posible en la investigación sobre su propio grupo u organización. Quizá el experimentador tenga
¡
Nuevos paradigmas • 211
que dirigir al principio, pero conforme los participantes se dan cuenta de la naturaleza del juego, se involucran más centralmente en el progreso de la investigación. En algunos casos, la investigación la inicia un miembro ya existente del grupo u organización. Esto es de manera particular adecuado cuando un grupo planea o experimenta un cambio y requiere evaluación. Los participantes apoyan las ideas de recolección de datos, desarrollan las propias, consideran los hallazgos del investigador o analizan los propios, y debaten sobre el progreso, direcciones y resultados en las reuniones grupales. La investigación colaborativa no queda fuera de la confrontación, perq la idea es edificar sobre estas diferencias naturales de manera constructiva. La idea es también terminar jogrando que los participantes dirijan su propio cambio, más que los hallazgos de investigación de un experto extemo, acerca de lo que está mal y lo que podría cambiarse, cue llegan después de que se ha hecho la investigación en la gente. Sims (1981) propuso estudiar la “generación de problemas” en los equipos de servicio de salud y encontró que, conforme los participantes se interesaban más en los problemas, tomaban sus propias líneas de investigación. Esto los hacía considerar pro blemas de dinámica grupal en los que nunca habían pensado y creaban una atmósfera de roma de conciencia y cambio constructivo. Pudieron desarrollar, con el investigador, muchas categorías de procesos en la construcción de problemas que podrían transferirse no sin adiciones y modificaciones) a otras situaciones de grupo.
OTRAS RAÍCES Y FUENTES Son numerosas las influencias en esta dirección de la investigación filosófica. Las que sobresalen entre ellas son: el humanismo, la fenomenología, el existencialismo, el marxismo, la tradición psicoanalítica, el trabajo de reja de repertorio de Kelly, y la anometodología de la sociología. Los enfoques en general tienden a ser, en cierto modo, interdisciplinarios, pidiendo cestadas muchas ideas, en particular de la sociología y la antropología. Las áreas tienden z ser la psicología social y, en cierta medida, el estudio de la personalidad. El énfasis es siempre práctico por completo, y los enfoques, en el mejor de los casos, se aplican a rrobiemas o desafíos dentro de los campos de la psicología educativa, organizacional, fínica o criminológica (por ejemplo, en escenarios aplicados).
¿UNA ALTERNATIVA COMPLETA? ’ ztton (1980), un investigador evaluativo que aboga por el uso de un enfoque cualitativo ?or completo, argumenta que el método hipotético-deductivo no es malo ni está equivorado, sino que de modo simple ha saturado la investigación en psicología hasta llegar a ser no sólo el paradigma principal, sino el único que reconocen los nuevos investigadores. SJ defender el enfoque cualitativo, sostiene que el nuevo paradigma es un “paradigma reelección” entre el hipotético-deductivo tradicional y el holístico alternativo, inductivo. Latour (1987) indica que la cuantificación es sólo un ejemplo de un proceso más seneral obtenido de otro orden y abstracciones significativas de datos en la ciencia que rueden transferirse. Los procedimientos cuantitativos y cualitativos son tan sólo formas rstintas de la práctica analítica de la “ re-representación” en la ciencia. En otras palabras, ? yo mido lo que usted dijo de forma numérica o lo redescribo, lo que resulte es mi «ersión resumida de lo que usted en realidad dijo.
212 • Métodos de investigación y estadística.
(Capítulo / '
UNA PERSPECTIVA FEMINISTA Otra fuerza más reciente y nueva dentro de los métodos de la investigación psicológkz ha sido el arribo de serios desafios al paradigma de investigación tradicional desde e punto de vista de la política y la ideología del movimiento feminista. Es casi tan sorprendentemente inapropiado que un varón haga investigación sobre La psicología de la mujer (¡todavía tengo el libro de bolsillo!) como que psicólogos de raza blanca deban conducir estudios sobre “ los negros” (tal como lo hicieron alguna vez. Las primeras etapas de la investigación sobre las mujeres incluyó estudios, bajo va paradigma convencional, que destruyeron (o debieron hacerlo) estereotipos tradicionales de la naturaleza o deficiencias de las mujeres respecto a los varones. La bibliografía de investigación contiene ahora una buena cantidad de desafío a los estereotipos y trabaw de toma de conciencia. Esta etapa también cuestionó la carencia de autoría femenina, es. como la presencia visible de ésta dentro de la comunidad de investigación. Ocurrienre paralelos con el racismo en que aun cuando las mujeres habían producido el saber, é ss había sido de alguna manera marginado u oscurecido. La abrumadora comunidad de inves tigación orientada y dominada por los varones había relegado este trabajo a la periferia. Sin embargo, la fase recién descrita, orientada por el contenido aunque continua, condujo a una toma de conciencia por parte de las mujeres implicadas en el proceso de investigación de que los métodos convencionales que se han utilizado para desarrollarecontenido son en sí mismos y, en gran medida, el producto de una red de investigation y de una base de pensamiento masculinas. Esto no quiere decir que las mujeres pensarían, razonarían y pudiesen conducir sn propia investigación de una manera por completo diferente, si se les diera la oportunidad. Retrocedería hacia viejos estereotipos el sugerir que las mujeres no tendían a utilizar la cuantificación ni a sentirse contentas de probar las hipótesis de manera estadística. La lógica que subyace al ajedrez, la programación de computadoras y las pruebas estadísticas en este libro son neutrales en un sentido más extenso. Pero los varones las han “poseído” y promovido por tanto tiempo, que no sorprende el hecho de que cuando las mujeres vinieron a ponderar sus valores en el proceso de investigación, se les haya prevenido sobre los métodos y relaciones de investigación descuidadas o nunca consideradas por los investigadores varones, por lo que muchas investigadoras sintieron tener mayor autoridad para representar la experiencia de las mujeres. La posición se ejemplifica en Feminist Social Psychology (1986), de Sue Wilkinson. Reconocidas como características del enfoque masculino a la investigación y en tendimiento del mundo son: preocupación por las variables cuantificables; un énfasis en el control, dominio y manipulación; una tendencia a permanecer distante más que involucrarse con los sujetos de la investigación; una preferencia por la investigación orientada hacia dispositivos en lugar de una indagación más natural; competencia y fortalecimiento del yo. En particular, Reinharz (1983) desafia la postura de neutralidad del investigador convencional, donde las actitudes personales se ocultan y se juzgan irrelevantes, y comenta que las actitudes del investigador deben analizarse por completo, revelar sus valores y ubicarlas con claridad.
ANÁLISIS DE DISCURSO (AD) Un enfoque controversial, pero que ha influido en la investigación, se presenta en los trabajos del decenio de 1980 de Potter, Edwards, Middleton y Wetherell (Potter y
Nuevos paradigmas • 213
Wetherell, 1987; Edwards y Potter, 1992; Middleton y Edwards, 1990), los cuales, al igual que los otros enfoques mencionados, se amplían más allá de los métodos específi cos, hacia un paradigma de investigación distinto, al que llaman “Psicología discursiva” fatulo de la publicación en 1992). El enfoque abarca con entusiasmo los aspectos psicológicos como memoria y atribución teórica (dos aspectos de mayor simpatía), así como los procesos del discurso entre las personas. La memoria no es un intento cercano, o tan cercano, de recordar “ los hechos”, sino construcciones motivadas por las personas con una “ apuesta” para producir una “ información” que favorezca su defensa contra la culpa o responsabilidad. Lo que la gente dice al memorizar no puede considerarse como una ventana opaca hacia los procesos cognoscitivos de la memoria. La persecución científica tras estos procesos es vista como una producción árida de teoría y resultados artificiales. Mucho del debate controversial está más allá de los objetivos de este libro. El debate, en ocasiones, se matiza con la imagen de David y Goliat. Los toma y daca se pueden obtener tras la lectura de The Psychologist, octubre 1992. La razón para destacar este aspecto es que el AD desacredita de manera específica a los métodos utilizados, en particular en la psicología experimental, y la culpan de los que ellos consideran como un modelo distorsionado de la cognición humana y juicios sociales. Colocan al lenguaje como acción por encima del lenguaje como representación. No consideran que se pueda tratar el lenguaje de los psicólogos como una ruta objetiva y confiable hacia lo que “en realidad piensan” . El AD maneja el lenguaje como el constructor de versiones de la verdad a medida que el lenguaje ocurre. Existe un número infinito de maneras en que yo puedo describirle mis puntos de vista (negativos) de, por ejemplo, el conductismo tradicional o la privatización de los servicios asistenciales. La perspectiva del AD no es que éstas sean versiones de alguna realidad profunda dentro de mi cabeza, sino de lo que puedo redefinir y negociar cada vez que intente explicarlo dependiendo del desafio que re ciba, la perspectiva de mi escucha, de los otros que también puedan escuchar, qué tan formales somos y demás. Sobre todo, mi producción es una acción sócial. Mientras que la psicología tradicional observa estos factores que acabo de mencionar como “mera teoría” , o que “ existen muchos experimentos de cómo cambiamos el tono dependiendo del escucha” , el énfasis del AD está por completo en el discurso involu crado en mi producción y en cómo lo manejo al tratar de mantener la credibilidad, por ejemplo. En el “Modelo de Acción Discursiva (MAD)” (Edwards y Potter, 1992), el recuerdo y el hacer atribuciones se redefinen como acción en la forma de informe (versión, información) junto con inferencias que las acompañan. El objetivo no está en estas actividades como la reflexión de cogniciones mentales internas. Cuando recordamos y atribuimos en la vida real, en oposición a la psicología experimental, nuestra informa ción intenta culpar, defender, responsabilizar, explicar, etcétera. Con frecuencia lo que hacemos es presentar recuerdos como hechos, cuando en realidad son construcciones. Las construcciones emplean recursos, enfatizados por los investigadores del AD, que están al servicio de construcciones alternativas débiles. Por ejemplo, un recurso es aquel de la “ formulación de caso extremo” : “Todo mundo le da a sus hijos una pequeña tun da de vez en cuando ¿verdad?” , que sirve al propósito de justificar que se golpee a los niños, un recurso que Freud llamó “proyección” . Al hablar, con frecuencia nos justifi camos mientras mantenemos objetiva la apariencia. El escritor del AD habla de “ apuesta” o “ interés” y que los hablantes tienen el dilema de intentar “ atender los intereses sin ser considerados como interesados” (Edwards y Potter, 1992). Es importante considerar con frecuencia los propios “ informes” como
214 • Métodos de investigación y estadística
(Capítulo 11)
“hechos” , de aquí el uso del lenguaje impersonal de las autoridades que emplean “ uno” y la voz pasiva. Para entender esto, sólo necesitamos pensar en la manera en que los políticos o “altos jefes” expresan sus informes en la televisión. Muchos de los libros de 1992 citados antes tienen que ver con Nigel Lawson, Margaret Thatcher y los medios de información. Un punto principal del AD contra los enfoques experimentales muy controlados es que el material utilizado (lista de palabras en memoria, “viñetas” en percepción social) con frecuencia elimina la verdadera esencia de lo que la gente hace cuando recuerda o juzga; nos comprometemos en discursos con otros o con nosotros mismos. No quiere decir que el AD vea a todos como pequeños Maquiavelos, tramando o creando informes interesantes para uno mismo de manera constante. Su énfasis es en el estudio de la memoria y otros aspectos tradicionales como la m anera en que son las cosas. Por lo regular, memorizamos o atribuimos con un propósito en un contexto que nos importa a nosotros mismos. Está en duda si el movimiento puntualizado por el AD suplantará o retará de manera seria en algún momento a la corriente en su propio terreno, como las apasionadas cogniciones de la percepción, memoria, atención, solución de problemas y demás. Sin embargo, el enfoque se ha estado estableciendo con seriedad (véanse los artículos de The Psychologist) y ha producido trabajos innovadores con aplicaciones humanas valuables, que difícilmente hubieran aparecido, si no es por su enfoque, como los trabajos reminiscentes con la avanzada edad de Middleton, Buchanan y Suurmond (1993). Éstas son críticas fuertes al enfoque AD, muchas de ellas en una forma filosófica muy compleja para presentar aquí pero, en términos de investigación práctica, las siguientes son importantes. El empleo de “ protocolos verbales” (por ejemplo, Ericsson y Simon, 1984) es un ejemplo de datos cualitativos ya empleados en la psicología cognoscitiva. El énfasis del AD está por completo en el lenguaje, aunque la investigación de testimonios oculares tiene mucho que ver con el recuerdo no verbal. Muchas críticas giran alrededor de la preocupación común acerca de la confiabilidad y validez. ¿Cómo es la “ lectura” de un investigador en un pedazo de discurso si se verifica con otros? Aquellos que apoyan el AD comentan que esto se hace, como en todo, con el argumento persuasivo, pero el sistema convencional también tiene un conjunto de “reglas” de validación aceptadas (significancia y todo eso), de las que parece que este enfoque carece. Baddeley (1992) se pregunta si el AD puede estar produciendo “un sentido común disfrazado de jerga” , y si todas las respuestas del AD se manejan como verdaderas por igual, si nada es perfectamente verdadero. Hyman (1992) cuestiona la posible predisposi ción del investigador y del diseño, y tiene temor de que los enfoques de discurso puedan terminar como “una idea del investigador con ejemplos” . Hitch (1992) comenta que el AD es valuable pero debe verse como complementario, no como una alternativa aniquilante que responde a sus propias preguntas acerca de la memoria, de manera que otros investigadores debieran reconocer junto con las suyas. Mi visión personal, como una analogía aquí, es que mientras que el AD se concentra en cómo funciona el tráfico para salir adelante y por qué va a donde va; mucha (aunque no toda) investigación acerca de la memoria se ha encaminado hacia la comprensión de la maquinaria (¡y la psicología fisiológica sí que lo ha hecho!). Un aspecto preocupante del AD contra el debate convencional es la crítica a la que se enfrentan los escritores del AD, ya que analizan más discursos de los que responden. Esto es similar a lo que sucede con los teóricos de Freud al enfrentarse a la crítica con bases ad hominem y al analizarla en términos del incons ciente de su oponente y sus defensas agresivas —pero creando una teoría “circular” irrefutable.
Nuevos paradigmas • 215
REFLEXIVIDAD Una de las corrientes más fuertes del AD y enfoques similares que, hasta cierto punto, lo protegen de la crítica de irrefiitabilidad es su fiierte relación y compromiso con el tema autocrítico de la REFLEXIVIDAD. Éste es un término que se desarrolló dentro de la sociología moderna en el área de estudios del conocimiento científico, pero algunos de sus efectos se dejan sentir en la psicología. La filosofía detrás de este concepto es reconocida, aunque no la acepta por completo la mayoría de los investigadores cualita tivos o del nuevo paradigma. Esta filosofía es del tipo que hemos venido analizando: oposición al positivismo o al “cientificismo” , y un punto de vista “relativista” del conocimiento. Esto es, los sociólogos que estudian el proceso de “ hacer” ciencia natural (producir teorías, estudios, conferencias, revistas, etcétera) concluyen que la noción de un individuo que estudia y descubre “hechos” naturales y objetivos era una ilusión, y que cualquier cuerpo del conocimiento científico es el producto de procesos sociales, culturales, históricos y políticos. Para tomarle el sabor a esta idea un tanto extraña de la teoría científica, considere esto. Hace poco, cuando yo era estudiante del posgrado de ciencias, discutía, con un conferencista que apoyaba el punto de vista relativista, que los hechos en ocasiones son hechos (me sentía un poco realista en ese entonces). Y o decía, si hay un charco de petróleo en el suelo y yo sostengo un cerillo encendido, nuestras acciones de inmediato demostrarán un acuerdo completo en la teoría, predicción y hecho. En realidad, esto fue un poco injusto. Lo que el conferencista debió haber hecho, tal vez, era continuar con “Pero si te pregunto por qué explota el petróleo (después de todo estamos analizando cómo la gente intenta ir más allá de la percepción inmediata), ¿qué pasaría?” En lo personal no tengo una pista del porqué explota el petróleo, pero puedo imaginar a un grupo de personas, unas más inteligentes que otras desde el punto de vista científico, discutiendo el punto. No tiene caso decir “por qué es volátil” ; ya que esto es una redescripción de lo que sucede. Puedo listar cosas que explotan, y cuándo lo hacen, pero esto no es explicación. Alguien que ha cursado el primer año de química nos comentará acerca de la “ vibración” o “ colisión” molecular, pero luego nos dirá que la gente desconocedora no comprenderá lo que el científico “ en realidad quiere decir” con “colisión” . Usted se puede imaginar la amplia gama de posibles explicaciones que pueden surgir y (éste es el centro del argumento) las fuerzas sociales que pueden conducir a un enfoque más aceptado que otro por el grupo. Cuanto más si el grupo debatiera las causas de la agresión. Piense en la “evidencia” que la gente por lo general tiene lista para tales disputas. El punto de vista relativista (o “construccionista”) es que mucho del mismo proceso continúa, pero con escritos largos, en el mundo de científicos reales. Argumentan que los científicos no descubren hechos puros, fríos, inobjetables a la distancia; sino que construyen versiones de los hechos de acuerdo con un patrón de esquemas, presiones, valores socialmente aceptados y demás. Analizar el discurso y pensar de esta manera en los científicos naturales era una consecuencia inevitable. Más que como el animal de Submarino Amarillo que se come su propia cola y por ello, a sí mismo, el proyecto' recae también en la construcción de ciencia social. Los escritores se vuelven sensibles a su propia construcción del conocimiento tal como lo produjeron y escribieron. Se vuelven autoconscientes, de manera aguda, acerca del proceso de la escritura y análisis, pues pueden ver que son tan “culpables” de parecer que producen conocimiento “objetivo” y subdividido, con el sello de autoritarismo donde su propio conocimiento debiera ser tan “relativo” como cualquier otro. Una técnica para evitar que los lectores acepten como hechos lo que se produjo de modo social fue hacerlos
216 • Métodos de investigación y estadística..
(Capítulo 11)
conscientes de esto mientras leen. Entonces se produjeron libros con marcadores que ilustraban este proceso y toda la filosofía. Latour (1988) define un texto reflexivo como aquel que “ . . . toma en consideración su propia producción y que, al hacerlo, lucha por desbaratar los efectos destructivos sobre sus lectores de que se le crea demasiado o casi nada” .* Entonces, un principio general es tomar “precauciones metodológicas” que aseguren, de alguna manera, que los lectores se percaten de su propio rol al construir lo que leen, de su posible propia “contribución” y más. Como se mencionó antes, el énfasis de Reinharz en la revelación y etiquetación de las actitudes de los investigadores refleja que esta filosofía reflexiva es un tema fuerte en la investigación de la psicología feminista. Existe diversidad en el método por el cual los textos se vuelven reflexivos. Mi humilde ejemplo de la técnica común de la “segunda voz” está en el apartado 11-1. Los textos también incluyen comentarios de lós autores o compañeros al final de cada sección. Aquí, la relevancia para la psicología es que alguna investigación en este sentido, con frecuencia trabajo de campo y aplicado, se muestre reflexivamente. Junto con sus datos o análisis brutos, los investigadores incluyen un diario de sus pensamientos al momento de recolectar los datos, analizarlos y construir la teoría. Comentan sus propias actitudes y posibles influencias en la obtención de esta o aquella conclusión, o en proceder de tal o cual manera en el proceso de investigación. Más que notas de pie de página o dudas admitidas ante colegas de confianza en el bar, este material es visto como similar en importancia a los datos brutos, resumidos y analizados. Una de las dificultades para el desarrollo de este enfoque ha sido decidir cuándo suficiente reflexión es suficiente. Há habido una tendencia a considerar una reflexión, y luego la otra y la otra (“metarreflexividad”), creando la posibilidad obvia de una regresión infinita. Otra dificultad más es que si el escritor le cuenta acerca de tal construccionismo en textos académicos, su propio texto se incluye en el análisis, y la posición se toma algo así como el cuento del cretense embustero; si todos los cretenses son embusteros y un cretense se lo dice a usted, ¿le va a creer?
ESTADO ACTUAL DE LA SITUACIÓN Los aspectos filosóficos que giran en tomo al debate de la investigación cualitativa con certeza están teniendo efecto. En este momento es difícil ver qué tan lejos llegará. Se combina con, pero no igual a, una fuerte tendencia hacia consideraciones humanistas en la conducción de investigación convencional. De hecho, lo más interesante será ver cómo los promotores del enfoque radical manejan la situación de convertirse en convencionales. ¿Cómo se detendrá a los estudiantes de ser meros periodistas? ¿Cómo se calificará el radicalismo en la investigación? ¿Se voltearán las posiciones (como con el cabello largo y corto) para que los estudiantes pronto sean reprendidos por tener hipótesis demasiado precisas? Y así podemos seguir. El enfoque experimental y cuantitativo sin duda “prevalecerá” por algún tiempo, en especial por sus fortalezas y donde la cuantificación es claramente útil y productiva. Por ejemplo, necesitamos saber si el lenguaje de un niño está retrasado de manera seria, o si la ejecución de tareas perceptuales está afectada de tal o cual manera, y qué hacer al respecto, sin tener a alguien que de manera constante * Latour (1988) argumenta que aun se quiso que la Biblia se leyera de esta manera, hasta que los lectores, en la época del empirismo, comenzaron a tomarla de manera literal.
Nuevos paradigmas • 217
nos indique que reflexionemos a cada momento en nuestra definición de “ retrasado” , y después haga comentarios acerca de nuestra definición y así continuamente. Mientras esto sucede, la desventaja de niño puede acrecentarse. En general, sin embargo, el debate no morirá. Existe un creciente empleo de enfoques cualitativos en la investigación psicológica, al grado de garantizar una revisión al British Journal o f Psychology (Henwood y Pidgeon, 1992). Este artículo comienza con el punto fundamental de que el debate cualitativo-cuantitativo no se trata sólo de métodos preferidos para los diversos contextos de investigación. Emplea todo el debate acerca de ’a experimentación, el positivismo, la artificialidad, el poder político de la corriente establecida, y el error de la “ envidia de la ciencia natural” que se ha aireado con frecuencia, pero principalmente por humanistas, investigadores del nuevo paradigma y otros. Yo prefiero considerar una atmósfera menos adversa en donde cada parte acuerda trabajar, y aprecia el valor de los otros. Ambos lados parecen sucumbir muy pronto a estereotipos simples y aislados y a hostilidades altamente contraproducentes, anticuadas v no académicas.
Apartado 11-1. Una “segunda voz” reflexiva COLEGA
¿Hugo, por qué estás metido en este as
reflexivo?
HUGO:
Quiero demostrarte a los estüdlantes/Iectores lo que es, cómo sé hace
COLEGA:
Entonces, ¿por que no utilizas un ejemplo conocido como ei de Woolgar o Edwards y Potter?
HUGO
Bueno, eso Conectado con el texiu
porque tiene que ser en vivo; esto es, u u niun
uub
c a ía s icve iiu u en ei m um eiuu.
COLEGA
Mientras te adentras . . .
HUGO:
Oh, oh, aquí hay un argumento.
COLEGA
¿ . ., cómo puedes publicar métodos tradicionales \ material “cualitativo radical” al mismo tiempo? Con certeza, ambos son incompatibles; o te inclinas por uno o por el otro.
hugo:
Yo no. Por años he comentado eh el salón de clases la naturaleza estrecha de muchosestudios tradicionales. No descubrí las alternativas hasta hace unos años. Sin embargo, a pesar de que conozco los nfoques cualitativos, discursivos o reflexivos, no tienen el mismo nivel, Iternativas amigables; aún creo que uno no puede adentrarse en ellos in Comprender el método cuantitativo tradicional y sus debilidades. El studio controlado tiene su lugar, de todos modos, en la vigilancia o los atrones d e reconocimiento, por ejemplo; o en la disputa acalorada cerca del número de niños con un solo padre que se convierten en riminales. ¡Párale! Te estás metiendo en un discurso largo que tan sólo servirá para instruir a los lectores. ¿Estas diciendo que el enfoque cualitativo sólo sirve en áreas “tranquilas"?
218 • Métodos de investigación y estadística
COLEGA: HUGO: COLEGA:
HUGO: COLEGA:
(Capítulo 11)
Esperó que no. Como dijo Bartlett, yo tomo el punto de la psicología discursiva que indica que nosotros construimos la memoria como una acción. Entiendo esto, en contextos reales, como lo opuesto al laboratorio; utilizam os lo m em orizado para explicar, culpar, autojustificarse y demás. Sin embargo, también estoy fascinado por saber cómo funciona eso dentro de nuestra cabeza, qué tan bien hacemos esto o aquello, tal vez hasta de qué es responsable la química. Decir que uno no puede adentrarse en los procesos de la me moria a través del discurso de la gente, y que por ello no debemos concentrarnos por completo en lo que la gente hace, suena deprimente al igual que el antiguo enfoque conductista como sugirió Neisser, a pesar de que Potter niegue que el análisis de discurso tiene un enfoque positivista. Vaya, ¡ése si que fue un discurso! ¡Ups! No creo que sea muy bueno en este estilo reflexivo-.... Bueno . . . el punto de vista de Edwards en Psicología discursiva pareció ser que al menos una “caja reflexiva” permite a los lectores percatarse de que |o que están leyendo es un discurso; no existe un lenguaje neutral en la descripción; en este libro, como en muchos otros, estás construyendo y manipulando; tu conocimiento es “locali zado” . . .
No tienes absoluta pretensión a la verdad; la construyes conforme la ves. Tu primera versión acerca de esta caja distorsiona algunos de los argumentos del AD. Te basas, en parte, en el punto de vista de los colegas, en comunicadores personales acerca de tu primera edición, en libros de texto más complejos y especializados que el tuyo, en revistas, en amigos, estudiantes y otros comentarios, por ejemplo. ¡Bueno, bueno! ¿Qué no lo hace todo el mundo? Claro, pero no siempre escriben o producen libros como si fuera verdad . . . ¿Qué hay de los prefacios, agradecimientos, acotaciones, notas de pie de página y todo eso? Si, pero debes admitir que la mayoría de Je texto no son muy autorreflexivos y, en general, parecei comí cargados con LA VERDAD. Supongo que sí. Con certeza existen muchas políticas Ocultas detrás de textos científicos sobre aspectos heredados-aprendidos, razas e inteligencia que he visto; Pero aún creo que muchos aspectos prácticos requieren evidencia (“hechos” si quieres) que sean relativamente incontrovertibles, accesibles e independientes de pequeñas variaciones de construcciones individuales. H m m . . . cuando tenga más tiempo me gustarla darte ejemplos de las maneras irracionales pero poderosas de cómo aun científicos "reconocidos” descartan “buenas" evidencias . . .
Nuevos paradigmas • 219
'-HTTURASADICIONALESRECOMENDADAS Edwards, D. and Potter, J: (1992) Discursive Psychology, London: Sage. Henwood, K. and Pidgeon, N: (1992) Qualitative research and psychological theorising. British Journal o f Psychology, 83,97-111. Potter, J. and Wetherell, M: (1987) Discourse and Social Psychology: beyond attitudes and behaviour, London: Sage. Reason, P. and Rowan, J: (eds) (1981) Human Enquiry: a sourcebook in new paradigm research, Chichester: Wiley. Fisher, J. M: (1991) Women’s Madness: misogyny or mental illness?, London: Harvester/Wheatsheaf. Wetherell, M. and Potter, J: (1993) M apping the Language o f Racism: discourse and the legitimation o f exploitation, London: Harvester/Wheatsheaf. Wilkinson, S: (1986) Feminist Social Psychology, Milton Keynes: OUP.
Intervención práctica en situaciones coti dianas, con frecuencia organizaciones cue emplean la psicología aplicada para
investigación de acción
Análisis cualitativo del lenguaje interac tivo que supone que la gente utiliza el len guaje para construir el mundo como love y de acuerdo a sus intereses
análisis de discurso
Investigación que incluye a miembros del grupo en el estudio de sus propias cos tumbres, normas organizacionales, y de más Énfasis en la perspectiva femenina y en métodos adecuados de investigación que integran políticas de género
psicología feminista
Trabajo con datos cualitativos que per mite el desarrollo de teorías e hipótesis de los datos, más que la prueba hipotéticodeductiva del conjunto de hipótesis antes de obtener los datos
análisis inductivo
220 • M étodos de investigación y estadística.
Sistema prevale pensamiento y c bajo los cuales s< Investigación donde los participantes es tán involucrados por completo Creencia científica de que los hechos in contestables del mundo sólo pueden des cubrirse a través de la medición de lo que es observable Trabajo (investigación o texto teórico) que incluye la autocrítica y alerta a los lectores de los procesos subjetivos humanos im plicados en la producción del texto; pre viene al lector de que el conocimiento es relativo a la perspectiva del escritor Creencia de qué los hechos objetivos son i una ilusión y que el conocimiento lo cons truye cada individuo
(Capítulo 11)
Parte I I I
MANEJO DE DATOS Capítulo 12. M e d ic ió n ...................................................................................... 223 Capítulo 13. Estadística descriptiva
............................................................ 239
Medición
La precisión en muchas áreas de investigación requiere mediciones cuantitativas, mismas que se conducen a varios niveles. Existe un fuerte debate acerca de si cualquier variable, propiamente dicha, se puede escapar de alguna forma de medición cuantitativa. Eventos diferentes cualitativamente pueden, por lo menos, ser contados o categorizados y, hablando en sentido estricto, una variable debe variar de alguna manera cuantitativa. • Los niveles en los que los datos se pueden medir son: nominal, ordinal, de intervalo y de razón. El último es una forma específica de escalación de intervalo. • El nivel nominal es una simple clasificación. En el nivel ordinal, los casos se ordenan o se establecen rangos. Las escalas de intervalo deben usar intervalos iguales en cantidad. Las escalas de razón son intervalos, pero incluyen un cero verdadero y Iss proporciones relativas en ella tienen sentido. • Se han hecho intentos por convertir muchas escalas psicológicas al nivel de intervalo utilizando la estandarización. • Muchas escalas utilizadas en psicología se pueden llamar de intervalo plástico, ya que intervalos numéricamente iguales en la escala no miden cantidades iguales de constructos. • Todas las variables se pueden clasificar según sean categóricas o medibles. • Las variables medibles pueden serlo en una escala separada o continua. En psicología, muchas variables se miden en escalas separadas, donde sólo hay un número limitado de puntos separados, pero se manejan como continuos para fines estadísticos. • Niveles más altos de medición proporcionan mayores cantidades de información acerca de los datos originales o fenómeno medido. • El nivel de medición limita la elección en el tratamiento de los datos, de modo especial en términos de las pruebas de significancia estadística que puede llevarse a cabo de manera legítima.
224 • Métodos de investigación y estadística
(Capítulo 12
SUPOSICIONESRELATIVASALAMEDICIÓNENAFIRMACIONES DE“SENTIDOCOMÚN” ^ ^ o m enconos con dos afirmaciones de “ sentido común” que cualquier par de personas podría hacer a la mesa después de la cena: Creo que la gente atractiva es más exitosa, ya que es más factible que Ja seleccionen en entrevistas y, además, se le presta más atención en general. No. Es posible que las personas más atractivas desarrollen más confianza— ' social desde el inicio de su vida y eso es lo que las conduce a las entrevistas y demás. Dentro de la cabeza de las dos personas debe haber un concepto (quizá vago) de lo que se considera atractivo. No es un concepto sostenido de modo único por cada individua puesto que defienden que la gente, en general, y de manera muy consistente, responde z. las cualidades atractivas. Para probar sus perspectivas a través de la investigación psicológica, cada uno tendría que operacionalizar su concepto de “ atractivo” (y tal vez de “éxito” y “confianza en sí mismo”). De una u otra manera, los valores deben ajustarse a diversos niveles de atractivo con los que podremos hacer comparaciones. Muchas personas obstaculizarán la idea de reducir concepto como “ atractivo” a “ meros núme ros” , a pesar de que éstos miden cantidad y cualidad; las diferencias entre éstas están implícitas en afirmaciones como: • Elena es más artística que Clara • Jorge es de tipo contemplativo, mientras que Ricardo es práctico, vigoroso e impulsivo • Los tauro son personas centradas • Juan es mucho más inteligente que José Trate de especificar cuáles son las mediciones que haría con el fin de sustentar los comentarios anteriores.
DIFERENCIASCUANTITATIVASYCUALITATIVAS Puede ser que una diferencia de cualidad como la expresada acercare Jorge no necesite valores numéricos para confirmarse, pero ¿cómo sabemos con exactitud que Ricardo es “ vigoroso” o “ impulsivo? Debemos comparar algunas cosas que hace (qué tan fuerte mente y con qué frecuencia) en relación con la ocurrencia en otros. Debemos definir lo que se considera vigoroso e impulsivo, y mostrar que Ricardo es así con más frecuencia o en mayor grado que Jorge. Entonces, para demostrar la diferencia, necesitamos algunas mediciones numéricas. Esto se puede conseguir al contar cuántas personas evalúan a Jorge y Ricardo como vigoroso, por ejemplo. Algunos argumentarán que las diferencias entre las personas, en ciertas característi cas, no pueden medirse tan sólo de manera numérica en forma significativa. Las diferencias en cualidades artísticas, por ejemplo, requieren ejemplificarse al contrastar
M edición ± 225
w te s de trabajo, y no contando con qué frecuencia se produce una obra maestra. Lo róSril del punto de vista cualitativo aquí es que, por fuerza, debe haber alguna cuantifiroción en cualquier contraste, con el solo hecho de decir que Juana es así y Roberto no Tcntuaciones o “ códigos” de 1 y 0, si le parece). Una variable no puede ser conocida a ’renos que sus cambios sean, de algún modo, perceptibles y medibles.
WVELNOMINALDEMEDICIÓN Categorías
Lffa ciertas diferencias de cualidad no necesitamos contar para distinguir un reactivo del uro. Por ejemplo: • Varón y mujer • Objetos rojos, verdes y azules • Nariz aguileña y de otro tipo Aquí no necesitamos contar nada para decidir qué objeto va en qué categoría. Compára nos de modo simple cada reactivo con algún concepto aprendido —lo que se considera ■•erde, una nariz aguileña (forma) o un varón. En ocasiones podríamos contar el número ie características presentes antes de categorizar, por ejemplo, a un automóvil como ~'ujoso” , ¿cuántas características lujosas tiene? Lo que importa para tal categorización es que seamos capaces de colocar cada -eactivo en sólo una categoría con fines de comparación. Podríamos categorizar gente romo “vigorosa” , “ promedio” y “ lenta” , por ejemplo. Una persona o es varón o es mujer •}. al utilizar una escala nominal, no se le puede incluir en ambas categorías, debido a que él i ella sea un poquito de las dos. Las dificultades pueden surgir al categorizar a una persona romo fumadora o no fumadora, extravertida o introvertida, optimista o pesimista, pero en m a escala nominal las categorías son m utuam ente excluyentes. Las personas y objetos se agrupan con base en una característica común: Juan no es igual a José, pero tienen la Tsasculinidad en común. Se ignoran todas las diferencias irrelevantes con propósitos de a medición en cuestión.
Etiquetas para las categorías Si estuviéramos conduciendo una encuesta que investigara el uso de la cafetería de la universidad, nos gustaría contar el número de personas que la utilizan y categorizar esto. Se podría emplear el cuadro 12-1:
226 • Métodos de investigación y estadística.
(Capítulo 12
Los números dados aquí a las categorías son NOMINALES —“sólo de nombre” . El número 1 (estudiantes) no es la mitad del número 2 (personal docente), y de ninguna manera prioritario o menor que cualquiera de los otros en cantidad. Los números son etiquetas simplemente convenientes, pero arbitrarias para identificar a cada tipo de persona. Podríamos haber utilizado “A ” , “ B” , “C ”, etcétera. Empleamos números (las cifras 1, 2, 3, etcétera) sólo como etiquetas y no como números reales —de ninguna manera representan cantidades. Así, los números en las puertas de las oficinas no representan cantidades, sino lugares donde encontrar a las personas. Los números dentro de cada categoría se conocen como FRECUENCIAS O DATOS DE frecuencia . Representan el número de veces que un evento en la categoría 1, par ejemplo, ocurrió: la presencia de un estudiante. Estos números se emplean para contar, representan cantidades, y se conocen como números “cardinales” . Observe que, a partir de la descripción de datos nominales dada anteriormente, cada persona que se cuenta sólo puede ir en una categoría. Entonces, un miembro del cuerpo técnico que también esté tomando un curso como estudiante universitario sólo puede colocarse en una categoría, estudiante o cuerpo técnico. Algunos ejemplos de datos psicológicos recopilados bajo una escala nominal son:
Cuadro 12-2. Número de niños (promedio de edad 4.5 años) participantes en tipo de \uego
Cuadro 12-3. Alcalde por elección: número de votantes por partido político Comunista
Conservador
Laboral
Liberal demócrata
Otro
243
14678
15671
4371
567
Cuadro 12-4. Número de personas que fuman un promedio de N cigarrillos por día
Este último ejemplo es engañoso. Los títulos de las categorías sí forman una escaiz progresiva (1 a 5, 6 a 10, etcétera). Sin embargo, el punto principal es que los datos s representan con la forma de frecuencias en categorías por separado y excluyentes, y n: existe distinción entre las personas dentro de cada una de ellas.
Medición • 227
Preparación del nivel nominal con otros niveles ■ seine que hice la aseveración tonta de que los caballos cafés corren más rápido que grises. Suponga que observamos una carrera donde participaron 20 cafés y 20 grises, ^ticemos presentar los resultados de la carrera como se muestra en el cuadro 12-5:
Cuadro 12-5. Resultados de la carrera a nivel nominal
Éstos son datos presentados en un nivel nominal. Cada caballo aparece en una rotegoría separada junto con otros caballos. Las columnas representan una escala nominal roo dos valores, gris y café, y las hileras tienen los dos valores; “ entre los 10 mejores” 7 “entre los 10 últimos” . El resultado nos muestra que los cafés se desempeñaron mejor, pero las diferencias tc son tan convincentes como para descartar la posibilidad de que los grises sean superiores la próxima vez. Imagine, ¿los grises llegarían en primer, segundo y tercer tizares? No tenemos suficiente información. Necesitamos ser capaces de com parar la recución de los caballos en los 10 primeros y 10 últimos lugares. El nivel nominal de medición proporciona la mínima cantidad de información cantitativa. En sentido estricto, no se conduce ninguna medición en realidad, tan sólo la Gasificación de reactivos en categorías.
HIVEL ORDINAL DE MEDICIÓN Los números ordinales representan una posición dentro de un grupo. Nos indican quién Tegó primero, segundo, tercero, y así sucesivamente, en una carrera. No nos indica qué un adelante llegó el ganador en relación con el segundo lugar. No nos dice nada acerca re las distancias entre posiciones. Puede ser molesto ser vencido por una décima de segundo en un circuito de carreras cuando usted y el líder estaban 10 kilómetros adelante Leí “pelotón” , pero lo que queda en su registro es su “ segundo lugar” . Al apostador no e importa con qué margen ganó la “Chica Dorada” lo importante es que ¡ganó!
CÓMO CLASIFICAR DATOS Clasificar las puntuaciones o valores obtenidos en la investigación es muy sencillo, pero debe hacerse de una manera precisa y convencional, de otro modo, las diversas pruebas de significancia basadas en rangos pueden arrojar resultados erróneos. Imagine que debemos clasificar las calificaciones de ocho personas en una prueba de conocimientos generales en el cuadro 12-6. ’
228 • Métodos de investigación y estadística..
(Capitulo 12
Cuadro 12-6. Puntuaciones de conocimientos generales Persona
Puntuación
1 2 3 4 5 6 7 8
18 25 14 18 15 15 15 29
Rango de pi 5.5 7 1 5.5 3 3 3 8
La puntuación de 14 es la más baja y obtiene el rango 1. En las competences, normalmente al ganador se le da el “primero”, pero en estadísticas es menos confbsr otorgar a la puntuación más baja un rango bajo. Las personas 5 ,6 y 7 “comparten” los tres siguientes rangos (de segundo, tercero y cuarto). En deportes diríamos “ empate en segundo” , pero en el ordenamiento estadístkr tomamos el valor mediano (véase el siguiente capítulo) del rango que comparten. Si e número es impar, éste es justo el valor medio. Para 2,3 y 4 el valor medio es 3. Si el l i mero es par, tomamos el número central entre los dos rangos medios que comparten. Lzs personas 1 y 4 comparten los rangos 5 y 6. El punto medio entre ellos es 5.5. Si cuatro per sonas compartieran 6, 7, 8 y 9, el punto medio compartido sería 7.5. Aquí hemos convertido datos que estaban en nivel superior, más informativo (dams de RAZÓN, que se analizarán más adelante), a datos de nivel ordinal. Las puntuacioae son de nivel de razón, los rangos son o rdinales .
Comparación de datos de nivel ordinal con otros niveles Si presentáramos los resultados, la carrera de los caballos grises contra los cafés en ■■ nivel ordinal, se verían así:
Medición • 229
Ahora la superioridad de los caballos cafés es mucho muy dudosa. Con siete de diez mejores lugares, y algunos en los tres mejores, estaríamos convencidos, pero ahora sabemos que los tres mejores fueron grises. No podemos decir con certeza que los cafés sa n más veloces en general. Claro, los primeros 10 caballos pudieron estar muy cerca entre sí, en cuyo caso, llegar primero, segundo o tercero no muestra una superioridad sstancial en velocidad. Lo que ahora necesitamos es el tiempo verdadero que tardaron los caballos en recorrer la carrera. Esto nos indicará si los tres primeros grises estuvieron -u y adelante de los cafés o no. Las mediciones de nivel ordinal proporcionan más información que la escala nominal (nos indican en qué orden se pueden colocar a los individuos), pero menos nformación que una escala de intervalo (desconocemos las distancias entre los rangos roe ocupan las personas).
YTVELDEMEDICIÓNDEINTERVALO Zn el nivel de medición de intervalo podemos hablar significativamente de las distancias entre puntos de la escala que, de manera ideal, son iguales para unidades iguales. Esto es, ce 10 a 15 minutos es el mismo intervalo que de 20 a 25 minutos, y de 30 a 35° hay eH-___ mismo intervalo que de -10 a -5 o. Debemos tener cuidado con lo que queremos decir al señalar que los intervalos son los mismos. En el ejemplo de la temperatura, queremos decir que el sistema de medición utilizado, es decir, la expansión del mercurio, cambia en cantidades iguales para unidades numéricas iguales. Lo que no podemos decir con la semperatura es que 30° es el doble de calor que 15°. Esto se debe a que la escala no está en nivel de R A ZÓ N , la cual abordaremos en un momento. Observe primero que cualquier escala que aparece como numérica o de intervalo no es nada por el estilo. Por ejemplo, considere la calificación de los ensayos en la universidad. En muchas instituciones, 40 es una rota aprobatoria y muy pocos obtienen más de 70. No es válido argumentar que la Estancia entre 0 y 40 es la misma que de 40 a 80, o que de 35 a 40 es el mismo tamaño de intervalo que de 70 a 75, en particular donde, como suele suceder, ¡todas las reprobacio nes se dan entre 38 y 40! Existen incluso casos de estas calificaciones cuando se suman y promedian como si midieran cantidades uniformes. De hecho, lo que en realidad pasa con el Tabajo, la mayoría de las veces, es que se ordena en relación con el trabajo equivalente presente o pasado. Algunos departamentos tienen criterios de evaluación complejos pero, con frecuencia, es difícil saber con exactitud cuál es la causa para que un ensayo obtenga, digamos, 63 y no 67, sobre todo que la calificación 67 es un tanto mejor. Este problema de hacer que los sistemas de medición, basados en el juicio como escalas de intervalo, aparezcan como artificiales es grave en psicología. Surgen proble mas filosóficos en tomo al asunto de que, si escalas psicológicas que miden tales variables como inteligencia, fuerza del apego o motivación para el logro son en realidad la escala de intervalo que parecen ser a primera vista. Si fueran verdaderas escalas de intervalo, debería ser cierto que, por ejemplo: a) Dos niños con calificación de 5 y 8, respectivamente, en una escala de desempeño están tan distantes en motivación como dos niños con puntuación de 9 y 12. b) Juana, cuyo CI es de 100, está tan adelante de Juan (CI 80) en inteligencia como Jacqueline (CI 120) de Juana.
230 • Métodos de investigación y estadística
(Capítulo 12)
En la práctica, esta razón no tiene sentido para la mayoría de las escalas psicológicas, pero es la meta de los PSICOMETR1STAS (aquellos que elaboran las escalas psicológicas de medición) acercarse a los criterios de intervalos iguales para sus escalas. En parte, esta aproximación se hace a través del proceso de estandarización explicado con anteriori dad. En contraste, una verdadera escala de intervalo se ejemplifica con la temperatura. Existe un cambio físico regular que subyace cada 10° de modificación en nuestro termómetro aunque, claro está, cada cambio regular no lo percibimos nosotros del mismo modo. Se puede argumentar que el cambio subyacente para el CI es el número de reactivos contestados de manera correcta y que por ello el intervalo de 80 a 100 es igual a aquel de 100 a 120. Existen dos argumentos contra esto: 1 A partir de una puntuación de 80 no se requiere el doble de inteligencia para obtener 120 puntos de la que se requiere para 100. Del mismo modo, no requiere duplicadla longitud del brazo o el doble de músculos, para lanzar una pelota el doble de distancia que alguien más. Éste es el punto donde podemos ver el peligro de la REIFICACIÓN del concepto de inteligencia como si, debido a que podemos aplicarle números, debiera qxistir como algo con cantidad. 2 No se puede asumir que todos los reactivos en la prueba son igualmente difíciles de responder, así que ¿podemos asegurar que su puntuación de 110 es igual a la mía de 110? De igual manera, en ocasiones se alega que la puntuación de alguien de 15 palabras recordadas en una prueba de memoria verbal no puede igualar a la misma puntuación en otra persona, ya que algunas palabras son más difíciles de retener y recordar que otras, y algunas combinaciones pueden tener un significado especial para alguien. Éste es un argumento quisquilloso. En términos generales, los psicólogos emplean las pruebas estadísticas y tratamientos que requieren datos de intervalo cuando miden inteligencia, rendimiento y similares. Se supone que las mediciones están en una escala de aproximadamente intervalos iguales y que el investigador será capaz de reconocer cuándo las suposiciones de intervalos iguales están afectando el tratamiento de los resultados de manera seria. Escalas de intervalo plástico — El intervalo plástico es un término útil para escalas que abundan en la investigación psicológica, donde algunos intervalos numéricos equivalentes no son, casi con certeza, del mismo tamaño que otros. Descubrí este término en Wright (1976), y viene bien para aquellos datos donde se dice: “ Bien, parecen datos de intervalo, pero es obvio que no lo son, ya que inventamos la escala, no está estandarizada y no se puede decir que las distancias a los extremos, medidas por 1 a 2 o 9 a 10 sean del mismo tamaño que las distancias a la mitad, digamos 5 a 6 pulgadas. Cuando la investigación produce datos que son estimaciones humanas, en especial si se basan en una escala arbitraria, es más seguro suponer que las puntuaciones son de intervalo plástico y que deben reducirse a un nivel ordinal. Las puntuaciones otorgadas a los individuos deben colocarse en un orden de rango. Esto significará, entonces, que se debe utilizar una prueba estadística menos sensible, llamada “ no paramétrica” (véanse capítulos 15 y 16). Aquí hay algunos ejemplos de estimados humanos en una escala arbitraria: Se pide a las personas que estimen cuán masculinos o femeninos son, con base en la siguiente escala: 1 F em en in o N e u tra l M asculino 10..9..8..7..6..5..4..3..2..1..0..1..2..3..4..5..6..7..8..9..10
Medición • 231
2
Los observadores califican, en una escala de 1 a 10, el nivel de intimidad mostrado por dos personas en una conversación.
LIMITACIONESDEALGUNASESCALAS DEINTERVALO Antes mencioné que no podemos decir que 30° sea el doble de calor que 15 °C. Por supues to que el núm ero 30 es el doble de 15. Pero sólo considere lo que pasa al convertirlos a erados Fahrenheit. Ahora los valores son 86 y 59 °F. Las proporciones de calor no han cambiado, sólo lo ha hecho el sistema de medición. Cada escala tiene un punto cero diferente y un tanto arbitrario, que depende del cambio físico utilizado para medir la temperatura. De igual manera, 100 se escoge de modo arbitrario para representar el promedio de CI de grandes poblaciones, y la gente califica entre 0 y 24 en las dimensiones de neuroticismos y extraversión de Eysenck (1975). No tiene sentido decir que alguien que califica cero no tiene extraversión o ansiedad, o que alguien tenga “ cero inteligen cia” , como se mide en una prueba de CI.
NIVEL DE MEDICIÓN DE RAZÓN Las escalas con un cero real se conocen como ESCALAS DE RAZÓN. Ejemplos de ellas son: tiempo, distancia y la mayoría de mediciones de cualidades físicas. No se preocupe de que aquí vuelva a aparecer el tiempo. Todas las escalas de razón son, primero, escalas de intervalo. En nuestra carrera de caballos si la “Chica Dorada” completó la distancia en ocho minutos, mientras que la opción de Jim lo hizo en 16 minutos, entonces, por supuesto que tiene sentido enfatizar que la “Chica Dorada” corrió el doble de rápido que la elección de Jim. Recuerde que no era sensato decir que 30 °C es el doble de calor que 15 °C. En este caso, a todos los caballos se les toma el tiempo desde cero minutos y ésta es la marca real de cero. De modo similar, si usted recuerda 15 reactivos de una lista de palabras, y yo sólo recuerdo 5, entonces, su ejecución en esta tarea (no necesariamente su memoria en general) es tres veces mejor que la mía. En esta escala de razón, los números negativos no tienen significado. No puede recordar menos tres reactivos y el tiempo de 3:29 p.m. es irrelevante si se toma el tiempo a un caballo desde 3:30 p.m. El sello distintivo en una escala de razón es la posesión de un verdadero punto cero. En la práctica, como estudiante de psicología, no necesitará preocuparse acerca de la diferencia entre escalas de intervalo y de razón, excepto para afirmar cuál es la diferencia. Para fines de elegir la prueba estadística apropiada, mencionada en el capítulo 24, pueden manejarse como la misma cosa y sólo necesita usted justificar que sus datos estén, p or lo m enos, en un estado de nivel de intervalo.
Comparación de los datos de nivel de intervalo/razón con otros niveles Los resultados de nuestra carrera de caballos podrían verse como en el cuadro 12-8 si se presentaran en un nivel de medición de razón.
232 • Métodos de investigación y estadística.. .
(Capítulo 12)
Ahora tenemos la información más completa que podemos obtener de cuán rápido ambos grupos de caballos cubrieron la distancia de la carrera. Observe que, a medida que el nivel se incrementó de nominal a de razón, ganamos más información específica en cada uno. Espero que la figura 12-1 lo aclare. La información adicional nos hubiera llevado a ser más confiados acerca de mi hipótesis original. Como es, nosotros estamos ahora, espero, no muy convencidos.
A Nivel de intervalo/razón Intervalos de tiempo: ' ----- 1------ 1-------1------ I------ 1------ 1-------1------ 1------ 1------ 1------ 1------ 1------ 1
I
1
150 148 146 144 142 140 138 136 134 132 130 128 126 124 122 120 C C C G G G G G G G
CC
CC C
CC
G
CC
B Nivel ordinal Posiciones finales CCC
G
G
G
G
G
G
G CCCCC
G
G
C Nivel nominal Categorías 10 últimos CCC G G G G G G G
10 mejores CCCCCCC G G G
Figura 1 2 -1 . Niveles de medición e información obtenida.
G
G
G
Medición • 233
Los niveles de medición de intervalo y razón nos proporcionan la mayor cantidad áe información en la medición de una variable. Necesitam os, al m enos, datos de intervalo llevar a cabo PRUEBAS PARAMÉTRICAS.
'Seducción de datos de nivel intervalo/razón a nivel ordinal A l inspeccionar una tabla de datos, con frecuencia encontrará dos columnas de cifras, usa con datos de intervalo o intervalo plástico, y la otra con el conjunto de rangos a la ase se redujo la primera (intervalo). Esto ocurrió en el cuadro 12-9. Los datos de la izznerda eran en realidad de intervalo; los de la derecha no estaban estandarizados. Los rotos de intervalo plástico, com o tal vez lo sean las puntuaciones de intimidad, mejor se roducen a datos de nivel ordinal, ya que una prueba de ese nivel es más apropiada para ifo s .
Cuadro 12-9. Reducción de datos (de nivel de intervalo a nivel ordinal) Tiem po d e rea cción (seg) 0.067 0.078 0.091 0.089 0.076
R ango
C lasificació n d é intim idad (m áx. 10)
R ango
1
7
3
6
4 2.5
5 4
5
1
6
2
9
2.5 5
Es fácil distinguir la columna que tiene datos ordinales. De modo usual tendrá el A lio “rango(s)” a la cabeza. De todos modos, la columna de rangos es el conjunto de datos ordinales.
Reducción de datos de nivel intervalo/razón a nivel nominal Es muy común reducir datos como los mostrados en el cuadro 12-10 a un nivel nominal agrupando todos aquellos por encima y por debajo de la media general de la muestra
Cuadro 12-10. Datos preparados para reducción I
N ú m e ro de in d ic ad o res de an sied ad observad o s
N iños de c o m p etitivid a d alta 14.0 21.0 7.0 13.0 18.0 M ed ia 14.6 M ed ia d e to d o el g ru p o = 11.8
n p e titiv id a d baja 10.0 6.0 13.0 5.0 11.0
234 • Métodos de investigación y estadística. . .
(Capítulo 12)
completa, y compararlos con la otra variable, en este caso, competitividad alta y baja. Los datos, reducidos a nivel nominal, se muestran en el cuadro 12-11. El cuadro 12-11 se obtiene al observar que cuatro niños en el grupo de competitividad alta están por encima de 11.8 (la puntuación de ansiedad promedio para el total de diez niños) y sólo uno está por debajo.
N ivel de co m p etitivid ad A lto
B ajo
Indi Por arriba de la media Por debajo de la media
V ariables categóricas y m edidas —Una variable categórica es lo que hemos mencionado como escala nominal, aquella en la que hay categorías discontinuas diferentes de modo cualitativo, en las que sólo podemos contar instancias (frecuencias). En contraste, todas las variables que al menos se pueden ordenar son, en cierto sentido, MEDIDAS, pero éstas, a su vez, se pueden dividir en aquellas que en verdad son continuas y aquellas que son separadas —véase a continuación.
ESCALAS DEMEDICIÓNCONTINUASYSEPARADAS Todas las escalas mencionadas se pueden dividir en dos categorías: continuas o separadas. En las escalas separadas, cada punto está separado por completo del siguiente. No es posible tener dos y medio niños, por ejemplo. En un experimento de memoria usted sólo puede recordar un número separado de palabras, aunque la media pueda tomar un valor individual no existente de 14.3. Ambas escalas de casos de medición individual serían SEPARADAS, véase figura 12-2. En las escalas CONTINUAS no existe límite en la subdi visión de puntos. Es posible, de manera teórica, medir su estatura hasta en milímetros: técnicamente sería difícil y en la práctica, rara vez se emplea. Las escalas de intervalo y razón pueden ser continuas o separadas. Las escalas nominales sólo pueden ser separadas. Las escalas ordinales por lo general tienen al 0.5 como la unidad más pequeña. En general, las escalas psicológicas tales como el CI y mediciones, así como el número de palabras recordadas de una lista de 20, se manejan como continuas con fines estadísticos, pero una diferencia importante es que con una escala que en verdad sea de intervalo evitamos la cuestión de medir hasta milímetros en un centímetro o lo que sea al utilizar intervalos. Decimos que la altura de alguien está entre 174.5 y 175.5 cm, que decir que es con mayor exactitud 175 cm de alto (se explica de manera más amplia bajo
Medición • 235
Una variable continua medida
Figura 1 2-2 . Variables categóricas, discretas y continuas.
“Rango” en el capítulo siguiente). Será muy raro que alguien mida exactamente 174.50000 cm, cayendo de modo preciso en los límites del intervalo, así que si esto llegara a ocurrir, lo colocaríamos en este intervalo, o en el inmediato anterior a través de un «olado.
GLOSARIO Variable no medil y que sólo tiene
escala lineal ¡parados
Datos presentados como números de sn categorías específicas e que por lo menos se ordena Persona que desarrolla medidas p: cológicas e intenta estandarizar las e calas hasta un nivel de medición < ralo Diferencia entre i espec ie y no medibles de manera numérica, pero qt diferentes ;n contar Diferencia entre casos medibles con números
Escala en la que siempre es posible (teóricamente) subdividir unidades de medición
variable categórica
236 • Métodos de investigación y estadística.
(Capítulo 12
GLOSARIO(continuación) Escala que contiene sólo valores separados de la variable medida
separada
Nivel en el que cada unidad mide una cantidad igual
intervalo
Nivel en el que los números, si se em plean, son una mera etiqueta; las eti quetas en la escala identifican cate gorías separadas de una variable ca tegórica en las que se dividen los casos
nom inal
Nivel en el que los casos se acomodan en posición de rango
ordinal
Escala que parece ;s er de intervalo, pero en la que los números ¡guales no miden cantidades iguales
intervalo plástico
Nivel en el que cada unidad mide una cantidad igual y las proporciones en la escala son significativas; existe un cero real
razón
E je r c ic io
s
Encuentre un ejemplo para cada uno de los niveles de medición en cualquier libro de texto (de psicología) que tenga a la mano. 2 Cuando los jueces dan su puntuación en una competencia de patinaje sobre hielo ¿con qué nivel de medición es más seguro tratar los datos? 3 Un conjunto de registros quirúrgicos clasifican a los pacientes como "crónicos”, “agudos" o “sin clasificación". ¿Qué nivel de medición se está utilizando? 4 ¿En qué nivel se encuentran las mediciones del cuadro 12-12? 5 ¿Cuáles de ias columnas de la a a la d en el cuadro 1 2-2 contienen el nivel de medición más sensible o informativo?
Cuadro 12-12. Ejercicio 4 a) Ubicación de los mejores cinco ciclistas en la Tour de France, 13 de julio, 1993
Indurain Breukink Bruyneel Bugno Riis
1 2 3 4 5
b) Tiempo regis trado hasta el momento en toda la carrera
35 h 29 m 25 s 35 h 31 m 0 s 35 h 31 m 55 s 35 h 31 m 57 s 35 h 31 m 59 s
c) Clasificación d) Competidores C o m p e tid o re s de popularidad aún dentro de la eliminados (máx. 20) (ficti carrera cio)
(ficticios)
12 15 18 10
13
Su hija argumenta que, debido a que fue la mejor en cada una de las tres pruebas de matemáticas aplicadas en su clase este año, ella debe ser mucho mejor que el resto de los alumnos. ¿Qué le señalaría usted? (¿Se atrevería?) Piense tres maneras de medir la habilidad para conducir: una, utilizando datos de nivel nominal, otra, de nivel ordinal, y la última de intervalo/razón. ¿Puede cambiar los datos del cuadro 12-13 primero a nivel ordinal y después a nivel nominal? Los espacios en blanco son para que usted los llene. Para el nivel ordinal maneje las puntuaciones como un grupo.
a) Tiem po que íes tom ó leer (segundos) Historia Historia consistente inconsistente
c) Nivel nominal Historia consistente
Historia inconsistente
Media de todos los tiempos: ( x ) = 134.3
9
A continuación se encuentran diversos métodos para medir variables dependientes. Para cada medida, decida qué nivel de medición se está empleando. Elija entre: 1 Nominal 2 Ordinal 3 Intervalo 4 Razón a) Se entrevista a la gente en la calle y, con base en sus respuestas, se registran ya sea como: a favor de, indeciso, o en contra de. b) Cuestionario para el estrés al que se le han establecido diversas normas ocupacionales. c) Los participantes organizaron fotografías de acuerdo con el nivel de atracción según lo siguiente: Fotos: F C B G E A H D Más atractivas ---------------► Menos atractivas d) e) f) g)
Las estimaciones de los participantes a lo largo de una línea de diversas longitudes Tiempo tomado para dividir tarjetas en categorías. Número de personas que leen: El Sol, El Heraldo o El Universal. Sentido del propio valor de los participantes, estimado en una escala del 1 al 10.
238 • Métodos de investigación y estadística
(Capítulo 12)
h) Puntuaciones de los participantes en el cuestionario 16PF de Cattell. ~ : i) Distancia que separa a dos-participantes cuándo se les pide que tomen parte en una conversadón íntima, medida por fotos, , : j) Eventos críticos de la vida redben posidones del 1 al 10 dependiendo de la importancia que reciben según cada partidpante. ■ . ,
Capítulo 1 3 Estadística descriptiva ________________________________________________________
Este capítulo se refiere a las maneras en que se pueden describir los datos. Las muestras estadísticas con frecuencia incluyen una medida de tendencia central (media, mediana, moda) y una medida de dispersión (rango, rango semilntercuartilar, desviación de la media, desviación estándar y varianza, las dos últimas son más comunes para datos de nivel de intervalo). • Las muestras estadísticas, de nivel de intervalo, con frecuencia se utilizan para hacer estima ciones de los parámetros de la población. Es una técnica muy poderosa empleada en pruebas
paramétricas. • La aplicación de la estadística depende del nivel de medición de los datos. • Grandes conjuntos de datos forman una distribución y ésta se puede representar de diversas maneras. Se pueden dividir en categorías y presentarse como una tabla de frecuencia. Las estadísticas de distribuciones incluyen percentiles, cuartiles y deciles. • Una distribución de frecuencia se puede representar de forma gráfica como un histograma, donde todos los datos del conjunto se muestran en columnas adyacentes. En una gráfica de barras sólo se presentan las categorías separadas de datos para su comparación y esto se debe hacer con claridad, sin distorsión visual. • Otras formas gráficas incluyen el polígono de frecuencia, gráfica lineal y ogiva. En años recientes, se han promovido las técnicas del análisis exploratorio de datos enfatizando la evaluación concienzuda de los patrones antes de someter los conjuntos de datos a pruebas de significancia estadística. Aquí incluimos dos métodos: diagrama de tallo y hoja, y gráfica de
caja y línea. • La distribución normal es una figura de distribución importante en extremo. Los datos que se aproximan a esta figura se pueden probar con las técnicas de significancia más poderosas, y los estimados de los parámetros que subyacen a la población se pueden conducir a partir de muestras estadísticas.
239
240 • Métodos de investigación y estadística.
(Capítulo 13
• Las puntuaciones z son desviaciones medidas en número de desviaciones estándar, y en la distribución normal eliminan porcentajes conocidos de toda la distribución. • Las distribuciones con una cantidad sustancial de puntuaciones hada el final alto de la escala de medición se dice que son sesgadas positivamente. Lo opuesto es una distribudón sesga da negativamente. Si una distribución sesgada muestra una giba en la punta superior, debido a que mucha gente obtuvo la máxima puntuadón o estuvo muy cerca de ella, entonces la variable medida muestra un efecto de techo. Su contraparte es un efecto de piso. • Las distribudones con dos "gibas" distintas (frecuendas más altas) se conocen como bimodales.
LAESTADÍSTICAESUNASELECCIÓN E n esta sección simplemente vemos las maneras en que se puede presentar la informa ción estadística. Ésta es el paso siguiente a la organización de los datos numéricos obtenidos durante la investigación cuantitativa. La mayoría de la investigación recaba muchísima información por cada pequeña parte que se presenta. Cuando se conduce una encuesta acerca de preferencias de voto, o se sigue un experimento con 35 participantes, no resulta útil presentar sólo los d a t o s b r u t o s , esto es, las respuestas o puntuaciones de cada individuo. Esperamos que nos den un resumen de los datos que ilustren mayores tendencias o diferencias. Sin embargo, es importante enfatizar que el solo hecho de resumir introduce distorsiones. Nos proporcionarán lo que para el investigador es la información más importante, la cual se presenta en lo que se supone es la mejor manera de hacerlo. Los políticos y las compañías, entre otros, son aplaudidos por presentar da tos lo más transparentes posible. El psicólogo debe buscar la mejor manera para presentar los datos sólo en términos de lo que dé una imagen más clara, menos ambigua de lo que se encontró en el estudio de investigación.
¡PERONOSÉHACERSUMAS! Al igual que con muchas ideas en este libro, las cosas que estudiaremos están basadas en las nociones cotidianas de sentido común que, sin duda, ha utilizado con anterioridad. Aun si odia las matemáticas, teme a la estadística y nunca ha hecho un trabajo formal en esta área, de manera indudable usted ha hecho descripciones estadísticas muchas veces en su vida sin haberse percatado de ello. Usted puede creer que sólo la gente inteligente, con mente numérica puede hacer este tipo de cosas, pero considere lo siguiente. Imagine que acaba de llegar a su casa después de su primer día en un curso nuevo en la universidad, y yo le preguntó cómo es su clase. Usted no procedería a decirme la edad exacta de cada compañero de clase. Esto podría llevarse mucho tiempo. Es probable que usted dijera algo como: “ Bueno, la mayoría de la gente está alrededor de los 25 años, pero hay un par de adolescentes y uno o dos por encima de los 40” . De hecho, ha resumido estadísti camente las edades de la clase aunque, también, de manera vaga. Al principio me dio un P R O M E D IO aproximado, la edad típica en el grupo, después me dio una idea de la variación real en relación con la edad típica. Veamos estos aspectos descriptivos con un poco más de detalle. Eche un vistazo a los datos del cuadro 13-1.
Estadística descriptiva • 241
C u a d r o 1 3 - 1 . N ú m e r o d e s e g u n d o s q u e n iñ o s d e c in c o a ñ o s d e e d a d e n u n a g u a r d e r ía o c u p a r o n h a b la n d o e n u n p e r io d o d e o b s e r v a c ió n d e d ie z m in u to s , p o r s e x o N iñ o
V a ró n
N iñ o
M u je r
1 2 3 4 5
132 34 5 237 4 50
6 7 8 9 10
332 345 289 503 367
Antes de ver los comentarios, vea a qué conclusiones puede llegar acerca de la plática de niños y niñas.
En general, las niñas hablan el doble que los niños. Podemos ver esto en el promedio de cada grupo. Pero no sólo esto, los tiempos de los niños varían mucho más ampliamente comparados con los de las niñas, desde tan poquito como cinco segundos hasta casi el tiempo más alto de las niñas. Ahora presentaremos dos términos formales que se utilizan para describir estos dos aspectos de la descripción de los datos del grupo. Tendencia
DISPERSIÓN
central
Se refiere al valor, dentro de un grupo de valores, que es el más típico o la puntuación alrededor de la cual se agrupan la mayoría de las demás. En un lenguaje normal, se conoce simplemente como “promedio” . No obstante, en la descripción estadística debemos ser más precisos acerca de a qué tipo de promedio nos referimos. Ésta es una medición de qué tan cerca o tan lejos tienden a variar el resto de los valores alrededor de este valor central o típico.
MEDIDAS DETENDENCIACENTRAL MEDIA En el lenguaje común utilizamos el término “promedio” para lo que técnicamente se llama M ED IA a r i t m é t i c a . Es lo que obtenemos de sumar todos los valores en un grupo y después lo dividimos entre el número de valores que hay. Entonces, si le tomó a cinco
242 • Métodos de investigación y estadística
(Capítulo I *
personas 135,109,95,121 y 140 segundos resolver un anagrama, entonces la medida deT tiempo es:
Cálculo de la media Término empleado: (x) Fórmula: x = Procedimiento: 1 sume todos los valores 2 Divida entre el número total de valores ( N )
Ésta es nuestra primera aplicación de una “ fórmula” , que no es más que un simple conjunto de instrucciones. Sólo debe seguirlas muy bien para obtener el resultado deseado, como si siguiera una receta o instrucciones de la pócima mágica del Dr. JekylL La fórmula anterior le indica que debe sumar todas las puntuaciones (2LY) y dividirla entre el número de puntuaciones en la muestra (N). Hay una sección al final de este capítulo bajo acotaciones (2, por ejemplo) y las reglas para seguir una fórmula. Espero que le ayuden si es que hace tiempo que no hacía “ sumas” o las odiaba (o pensaba que eran innecesarias). Le aseguro que las únicas operaciones matemáticas que necesitará ejecu tar, a lo largo de este libro, son las cuatro operaciones elementales (+ - x +) y cuadrados (que de cualquier manera son multiplicaciones) y raíces cuadradas (que las obtiene con sólo tocar un botón). Todo el trabajo se puede hacer con la calculadora más sencilla pero, claro, y con seguridad hacia el final del libro, los programas de cómputo pueden hacer la vida mucho más fácil.
Ventajas y desventajas de la media VENTAJAS. La media es la estadística utilizada en la estimación de parámetros poblacionales, y esta estim ación es la base para las PRUEBAS PARAMÉTRICAS (capítulo 17) que son pruebas poderosas utilizadas, entre otras, para mostrar si dos medias son diferentes una de la otra de manera significativa.
Con mucha frecuencia, la media no tiene el mismo valor que otros dentro del grupo. Actúa como el punto de apoyo de un par de escalas balanceadas ubicadas de manera exac ta al centro de todas las desviaciones respecto a sí misma, como espero que la figura 13-1 lo ilustre, utilizando las puntuaciones de tiempo del anagrama del ejemplo anterior. Una “ desviación” es la distancia que separa a una puntuación de la media del grupo. Las distancias positivas y negativas de las puntuaciones individuales hacia la media se cancelan. ([-2 5 ] + [-1 1] + 1 + 15 + 20 = 0). Esto sólo puede pasar porque la media toma una posición central exacta en una escala de intervalo (y continua). Esto la convierte en la más sensible de las mediciones de tendencia central que aquí revisamos. D esv entaja s . Sin embargo, esta alta sensibilidad también puede ser una desventaja en
ciertas circunstancias. Suponga que añadimos el valor de una sexta persona a nuestro conjunto de tiempos de solución del anagrama. Esta persona durmió mal por la noche y
Estadística descriptiva • 243
------------------------------ >135 ( d = 15) 9 5 -----------------------------------------------------
(d = - 25) i—>121 ^ 1 0 9 ---------------------- (d — 1) (d — - 1 1 ) ------------------------------------------>140 (d = 20) i i|___________ l___________ i I___________ ____________I___________ ___________ | ____________ I____________ |I____________ I 90 100 110 120 130 140 150 x (d
= distancia de la media)
Figura 13-1. Posición de ia media
en particular, no le gusta el juego de palabras, ya que tiene una hermana bastante competitiva que siempre le ganaba en Scrabble. Esta persona se sienta y mira fijamente e? anagrama por ocho minutos exactos antes de responder. Nuestra media para los seis «alores es ahora: 600 + 480
1080
= 180 segundos
180 segundos no es representativo del grupo en general. Es una cifra muy engañosa para describir lo que hizo la mayoría del grupo. Cinco a seis personas emplearon menos tiempo one éste para resolver el anagrama. Una única puntuación extremosa en una dirección un “ escolta”) puede distorsionar la media (véase figura 13-2) (mientras que extremos 3i ambas direcciones tienden a cancelar uno al otro).
Utilizar la mediana nos lleva a la misma dificultad de la media señalada justo antes. La mediana es el valor central dentro de un conjunto. Si tenernos un número impar de valores 3i nuestro conjunto, entonces no será tan fácil de encontrar. El valor central de los primeros cinco tiempos de solución en el anagrama anterior es el tercero. Para encontrar esto, primero debemos colocar todos los valores en orden numérico. Esto da: 9 5 ,1 0 9 ,1 2 1 ,1 3 5 ,1 4 0 L a mediana es 121 (1)
Si el número de valores es par, como en el caso en que agregamos una sexta persona, romamos la media de los dos valores centrales, entonces: 9 5 ,1 0 9 ,1 2 1 ,1 3 5 ,1 4 0 ,4 8 0 La mediana es 121 * 135 = 128
(2)
Observe que este valor aún es razonablemente representativo de los valores del grupo.
244 • Métodos de investigación y estadística
(Capítulo 13)
E s c u c h é q u e e n e s ta oficina, e n p ro m e d io , to d o s g a n a m o s $ 1 0 0 0 0 0 ^ al arto
EMPRESARIO U n o s c u a n to s v a lo r e s e x tre m o s , o s ó lo u n o , p u e d e n d isto rsio n a r d e m a n e r a s e ría la in fo rm ació n q u e p ro p o rc io n a la m e d ia
Figura 13-2. Un valor separado de los demás puede distorsionar la media
Cálculo de la mediana P
r o c e d im ie n t o
1 Encuentre la POSICIÓN O LOCALIZACIÓN DE LA MEDIANA. Éste es el lugar donde encontraremos el valor mediano. Se encuentra en: W+ 1
2
2 Si TVes impar, éste será un número entero. Según (1), obtendríamos:
La mediana es la tercera posición cuando ordenamos los datos. Si /Ves par, la posición estará justo entre dos valores del conjunto. En (2) arriba, será:
La mediana está justo en medio de los valores tercero y cuarto cuando se ordenan los valores. Si existe un número muy grande de puntuaciones, ponerlos en orden será muy tedioso por lo que a cambio deberá utilizarse la siguiente fórmula para valores igualados. C u a n d o e x i s t e n i g u a l a c i o n e s —Las cosas son un poco engañosas cuando las igua laciones caen en la posición de la mediana, aunque muchos libros de texto omiten comenten1 esto concluyendo que el ignorarlos hará poca diferencia práctica, lo cual es verdadero. Sin embargo, la siguiente fórmula también es útil para grandes conjuntos de datos. Considere el siguiente conjunto de datos: 7,7, 7, 8, 8, 8, 9, 9, 10, 10
Estadística descriptiva • 245
Se supone que los ochos están contenidos en alguna parte del intervalo 7.5 a 8.5. (Para uás claridad en este punto, véanse las observaciones justo debajo del encabezado rango, más ■áelante y en la página 235). La mediana es un punto dentro de este intervalo que dejaría i dos de los ochos debajo de él y uno por encima. La mejor manera de estimar este punto s tomar un valor a dos tercios del camino de este intervalo. El intervalo es una unidad, e í que dos tercios es 0.66. Sume esto a 7.5, el límite interior del intervalo, y obtenemos L16 como la mediana. Existe una fórmula para calcular este valor exacto cuando sea necesario. Es:
¿onde
v
= limite inferior exacto que contiene la mediana = número total de valores debajo de L = número de valores en el intervalo que contienen la mediana = tamaño del intervalo de clase = número de valores
Así, si sustituimos, tenemos que:
Esta fórmula es útil de manera particular cuando los datos se agrupan en categorías que se distribuyen a través de diversos valores. Esto ocurre en el cuadro 12-4 del capítulo interior sobre mediciones, donde los fumadores se agrupan en categorías con base en el Amero de cigarillos que filman por día. Las categorías 1 a 5 ,6 a 10,11 a 20, etcétera, se ¿enominan INTERVALOS DE CLASE. Observe que en este ejemplo no todos son del mismo romaño. Aquí es difícil ver dónde estará la mediana. Existen 238 casos juntos, así que la nediana es el valor por arriba y por debajo del cual caen 119 de ellos. Esto será en algún ugar en la categoría 6 a 10. Suponemos que los valores en esta categoría se distribuyen de manera uniforme a lo largo de la misma. En esto se basa nuestra fórmula. Así que L es 5.5, F e s 110, jin es 78, h es 5 y N es 238. La mediana es 6.08.
Ventajas y desventajas de la mediana Ventajas:
Es más fácil de calcular que la media (con grupos pequeños y sin valores iguales). No se afecta por valores extremos en una dirección,y por ello es mejor que la media con datos sesgados (véase más adelante este capítulo). Se puede obtener cuando se desconocen los valores extremos.
Desventajas: No considera el valor exacto de cada unidad. No se puede utilizar en estimaciones de parámetros de población. Si son pocos valores, puede no ser representativa; por ejemplo, con 2 ,3 ,5 , 98, 112, la mediana sería 5.
246 • Métodos de investigación y estadística.
(Capítulo 13
MODA Si tenemos datos en una escala nominal, como con las categorías de juego en el cuatfcr 12-2, no podemos calcular una media ni una mediana. Sin embargo, sí podemos decsqué tipo de juego se ocupó más, por ejemplo, qué categoría tuvo el conteo de marofrecuencia. Esto es lo que se conoce como MODA O VALOR MODAL. Es el valor que ocurre con mayor frecuencia y, por ende, mucho más fácil de localizar que la media y la mediara. La moda del grupo de números:
es, entonces 5, ya que este valor ocurre con más frecuencia. Para el conjunto de los tiempos de solución del anagrama no hay un solo valor modal, ya que cada tiempo ocurre sólo una vez. Para el conjunto de números 7, 7, 7, 8,8, 9,9,10, 10 existen dos modas, ~ y 9, se dice que el conjunto es BIMODAL (véase figura 13-21). Para el cuadro de categorías de juego, el valor modal es el juego paralelo. Tenga cuidado de observar que la moda no es el número de veces que ocurre el valor de más frecuencia, sino el valor en sí. El juego paralelo ocurrió con mayor frecuencia. Existen ocasiones especiales donde la moda es, por mucho, más informativa de b realidad que la media o la mediana. Imagine que le preguntamos a la gente cuántos rasgos femeninos o masculinos creen que poseen. La distribución que se obtendría sería de forma de U y bimodal, los varones calificando más rasgos masculinos y las mujeres, más femeninos y relativamente poca gente calificando en el centro. Aquí la media y la mediana nos darían la impresión de que las personas promedio pensaron estar a medio camino entre varón y mujer. En sentido filosófico, tal vez lo somos, pero es muy raro que la mayoría de la gente responda así en una encuesta.
Ventajas y desventajas de la moda Ventajas:
Muestra el valor más importante de un conjunto. No se afecta por valores extremos en una dirección. Se puede obtener cuando se desconocen los valores extremos. Es más informativa que la media cuando la distribución tiene forma de U.
Desventajas: No considera el valor exacto de cada unidad. No se puede emplear en estimaciones de parámetros de población. No es útil para conjuntos de datos más o menos pequeños, donde diversos valores ocurren con la misma frecuencia (1 ,1 ,2 ,3 ,4 ,4 ). No se puede estimar con certeza cuándo los datos se agrupan en intervalos de clase. Podemos tener un intervalo modal, como 6 a 10 cigarillos en el cuadro 12-4, pero esto podría variar si los datos se categorizan de modo diferente.
NIVELES DE MEDICIÓNY MEDIDAS DETENDENCIACENTRAL Intervalo
La media es la medida más sensible, pero sólo debe utilizarse cuando los datos son de nivel de medición de intervalo. De otro modo, la media se
Estadística descriptiva • 247
calcula sobre números que no representan cantidades iguales y la media es engañosa. Ordinal
Si los datos no son de nivel de intervalo, pero se pueden ordenar, entonces, la mediana es la medición de tendencia central apropiada.
Nominal
Si los datos están en categorías separadas discretamente, entonces se puede utilizar la moda.
La moda puede utilizarse con datos de nivel ordinal y de intervalo. La mediana puede utilizarse con datos de nivel de intervalo.
MEDIDAS DE DISPERSIÓN
RANGO Recuerde la descripción de los nuevos compañeros de clase de la universidad. La aendencia central que se dio fue de 25, pero se dieron también algunas “estimaciones adivinadas” de la manera en que la gente se distribuyó alrededor de este punto central. Sin conocer la distribución (o de manera más técnica, la DISPERSIÓN), una media puede «er muy engañosa. Eche un vistazo a la ejecución de dos jugadores de criquet que se muestra en la figura 13-3. Ambos promedios están alrededor del centro, pero (a) varía mucho más que (b). Los intentos de (a) están mucho más dispersos. Los promedios de ambos pueden ser los mismos, pero la distribución puede ser muy diferente. Veamos ahora cómo podemos resumir la dispersión de tiempos empleados por los niños al hablar en el cuadro 13-1. Allí decimos que al igual que hablar menos que el resto, los niños variaron entre sí mucho más que las niñas. La manera más sencilla de medir la variación entre un conjunto de valores es utilizar lo que se denomina RANGO. Esto es simplemente üa distancia entre los valores máximo y mínimo en un conjunto.
Variabilidad alta
Variabilidad baja
Figura 13-3. Dispersión de los tiros de los jugadores.
248 • Métodos de investigación y estadística
(Capítulo 13)
Cálculo del rango Fórmula (Xmáximo — Xmínimo) + 1
Procedimiento: 1 Encuéntre el valor máximo del conjunto 2 Encuentre el valor mínimo del conjunto 3 Reste el valor máximo del mínimo y súmele 1 Para el cuadro 13-1 esto nos da: Niños (450 - 5) + 1 = 446 Niñas (5 0 3 -2 8 9 ) + 1 = 2 1 5 ¿Por qué sumar 1? La adición de 1 puede resultar un poco extraña. ¿Con seguridad la distancia entre 5 y 450 es directamente 445? La suma de 1 permite una posible medición de error. Cuando decimos que un niño habló por cinco segundos, si nuestra unidad de medición más pequeña es un segundo, entonces sólo podemos asegurar que el niño habló entre 4.5 y 5.5 segundos, los límites de nuestro intervalo de medición más bajo. Si hubiéramos medido hasta décimas de segundo, entonces 4.3 segundos representa un valor entre 4.25 y 4.35. Por tanto, el rango se mide a partir del límite inferior posible del valor mínimo, hasta el límite superior del valor máximo, en el caso de los tiempos de habla de los niños, 4.5 a 450.5.
Ventajas y desventajas del rango Ventajas:
Fácil de calcular. Incluye valores extremos.
Desventajas: Se distorsiona con, y no es representativo de, valores extremos. No es representativo de ninguna característica de la distribución de valores entre los extremos. Por ejemplo, el rango no nos dice si los valores están agrupados o no de manera cercana alrededor r+- la media.
RANGOSEMIINTERCUARTILAR Éste tiene que ver con la última desventaja del rango. Es una medición del agrupamiento central de valores. Se concentra en la distancia entre los dos valores que cortan 25% de la puntuación más alta y más baja. Estos dos valores se conocen como los percentiles 25 y 75°, o bien, el primer y tercer cuartiles de manera respectiva. (En un momento más veremos esto con más precisión.) El rango semiintercuartilar es, de hecho, la mitad de la distancia entre estos dos valores. En el siguiente conjunto de valores:
4 es el primer cuartil y 14 el tercer cuartil. La distancia entre ellos es 10 y la mitad de ésta, el rango semiintercuartilar, es 5.
Estadística descriptiva • 249
Cálculo del rango semiintercuartilar Fórmula:
®3~®1 2
Procedimiento: 1 Encuentre el primer cuartil (Qi) y el tercer cuartil (Q3). La fórmula pa ra encontrar cuartiles se da más adelante y el primer y tercer cuartiles son los percentiles 25 y 75° de manera respectiva. 2 Reste Qi de Q3 3 Divida el resultado del paso dos entre dos.
Ventajas y desventajas del rango semiintercuartilar Ventajas:
Es representativo del agrupamiento central de valores. Es muy sencillo de calcular.
Desventajas: No considera valores extremos. Inexacto cuando existen intervalos largos de clase.
DESVIACIÓN DE LAMEDIA En la figura 13-1 encontramos el concepto v a l o r DE DESVIACIÓN. Es la diferencia entre cualquier valor particular y la media. Es una medición de qué tan lejos se desvía ese valor de la media. En términos formales: = X| - x
donde x\ significa el valor enésimo del conjunto. x\. es el primer valor, x%es el segundo, y así sucesivamente. Hablando de manera técnica, todas las fórmulas como éstas deberían mcluir pequeños subíndices pero, con fines de claridad y simplicidad, no se emplean en este libro a menos que los términos pudieran ser ambiguos. Si cinco personas, incluyéndolo a usted, realizaron una prueba de CI y éstos fueran (os valores resultantes: Hugo
Elda
85
90
Ernesto 100
Elena 110
Usted 115
la media sería 100 y su puntuación de desviación personal sería 115-100= 15. Esto es qué tanto se desvió usted de la media del grupo. El rango no toma nota y el rango semiintercuartilar apenas lo hace, de la manera en que los valores se desvían de la media. Una manera sensata de informar la desviación podría ser, entonces, presentar el promedio (media) de todas las desviaciones del conjunto. El conjunto de desviaciones, del bloque de puntuaciones del CI anterior se muestra en el cuadro 13-2.
2 5 0 • Métodos de investigación y esta d ística ...
(Capítulo 13
La suma de estas desviaciones es cero y, por tanto, la media de las desviaciones también sería cero. Esto no es lo que queríamos. Si revisa la figura 13-1 puede ver por qué pasó esto. La media cae de manera precisa en el centro de todas las desviaciones a su alrededor. Si usamos los signos más y menos para representar la dirección lejos de la media, entonces todos los menos y más se anularían al sumar las desviaciones. La respuesta es tomar la media de todos los tam años de las desviaciones e ignorar cualquier signo menos. A esto se le conoce como tomar el v a lo r ABSOLUTO y se representa matemáticamente con dos barras verticales ( I ) a cada lado del número. Así, para el valor absoluto de la puntuación de la desviación anotaríamos I x - x I o I d \ .
Cálculo de la desviación de la media ,
.
...
s lx -x I
s i cfl
N
N
Fórmula: DM = ----------- o DM = ——— Procedimiento: 1 Encuentre la media ( x ) 2 Reste la media de cada valor [ (x -x ) = d¡ para obtener un conjunto de desviaciones. 3 Sume todas estas desviaciones sin considerar los signos menos; por ejem plo, encuentre 2 1 d\ 4 Divida el resultado del paso 3 entre N. Utilizando esto en nuestros datos del CI tenemos: s i d i - 1 5 + 10 + 0 + 10 + 15 = 50
DM = rot = 10 5
Ventajas y desventajas de la desviación de la media Ventajas:
Considera todos los valores en el conjunto. Relativamente simple de calcular.
Desventajas: No es posible utilizarla para hacer estimaciones de parámetros de -la población.
Estadística descriptiva • 251
DESVIACIÓN ESTÁNDAR Y VARIANZA manera de salir del problema de que la suma de todas las desviaciones sea cero es rotular el cuadrado de cada desviación (). Esto también hará desaparecer todos los 5gnos menos, pero claro, si tomamos la media de todos estos valores (2 cf/N) tendremos m número bastante grande y no del todo representativo del conjunto de desviaciones. zste valor se conoce com o VARIANZA del conjunto de valores. Entonces, lo que la zesviación estándar hace es considerar la raíz cuadrada de la varianza para regresarnos £ nivel que están las desviaciones.
Cálculo de la desviación estándar 2 Para una muestra utilizada como una estimación de la desviación estándar de la población (“ sin sesgo”)
I Para un conjunto de valores tratados únicamente como un grupo (“ sin corregir”)
" V
( N - 1)
N
Varianza: En cada caso, la varianza es el valor antes de obtener la raíz cuadrada: r ejemplo, la estimación de la varianza de la población es: s2 =
I d 2
(W -1 )
Verá que éstas son dos fórmulas que hay que manejar. El motivo es que los investigadores y peritos en estadística rara vez se interesan en la variabilidad al interior de un grupo así oorque sí. Si sólo nos interesa la variación del grupo específico, utilizamos la ecuación -úmero 1 mencionada antes. Sin embargo, la mayoría de las veces se utiliza la desviación estándar o varianza como un estimado de la variación en la población respectiva, empleando la ecuación 2. Los programas de cómputo por lo general le proporcionan la versión 2 de esta ecuación. A lo largo de este libro suponga que s es Á - l , versión de b estimación de la población, por ejemplo, ecuación 2. Si tenemos a toda la población enfrente de nosotros, entonces utilizaríamos la ecuación 1 (no es necesario estimar) y el símbolo empleado es a o o2.
Procedimiento para calcular la desviación estándar o varianza (utilizando los datos del C I del cuadro 13-3).
Versión de grupo completo (N) = 100 1 Calcule la media de la muestra (x) 2 Reste la media de cada valor (x - x ) pa véase cuadro 13-3 ra obtener un conjunto de desviaciones 3 Eleve el cuadrado cada desviación (cf) véase cuadro 13-3 = 650 4 Sume las desviaciones al cuadrado véase cuadro 13-3 5 Divida el resultado del paso 4 entre N 650 (sólo para la varianza del grupo) o entre, N -l para la estimación de la población
Versión estimación de población (A -l) =
100
véase cuadro 13-3 véase cuadro 13-3 = 650 véase cuadro 13-3 D £Í = ^ = I 6 2 .S 4
252 • Métodos de investigación y e s ta d ís tic a .
(Capítulo 13‘
Ya encontró usted la varianza. La desviación estándar se encuentra sacándole la raíz cuadrada: 6 Calcule la raíz cuadrada del paso 5
DE=Vño = 1 1.4
d e = V162.5 = 12.75
Existe una versión de la ecuación 2 (para la varianza) que evita el cálculo de desviaciones y para la cual sólo se necesita un conjunto de puntuaciones y su total:
Cuadro 13-3. Desviaciones de puntuaciones de CI
(La desviación estándar incluiría el paso de la raíz cuadrada.) En trabajos posteriores es una ecuación muy importante, de manera especial en el área completa de la prueba de significancia que utiliza el Análisis de Varianza (capítulos 20 a 22). Tenga cuidado con la diferencia entre Ex2 y (Ex)2.
PARÁMETROS DE POBLACIÓN Y ESTADÍSTICAS DE MUESTRAS La ecuación 2 anterior presenta una noción central en el trabajo estadístico. Las medicio nes de una m uestra, conocidas como ESTADÍSTICAS, se utilizan con mucha frecuencia paraestim ar las mismas medidas de una población, conocidas como PARÁMETROS. Las medidas involucradas son, con más frecuencia, la media y la varianza (que no es más que el cuadrado de la desviación estándar). Estos estimados se utilizan para conducir PRUEBAS PARAMÉTRICAS (que veremos en el capítulo 17), que son pruebas muy poderosas y más capaces de brindar una evaluación precisa de si debemos aceptar o no las diferencias como significativas, dadas ciertas suposiciones acerca de nuestros datos. Cuando se hacen estas estimaciones, se supone que la media de la población es la misma que la media de nuestra muestra. Debido a que siempre la media de la muestra será un poco distinta que la de la población, la diferencia se conoce como “ ERROR” DE m u estr eo . Éste se estima utilizando la varianza de la muestra para expresar nuestra
Estadística descriptiva • 253
confianza de hasta donde la media de la población es diferente de la media de la muestra. Es similar a lo que sucede en épocas electorales cuando la gente estima, a partir de una nuestra de votantes, no sólo el número de puestos que ganará un partido, sino también 'os posibles extremos de variación en relación con las cifras. Sin embargo, para hacer esta estimación de cuán cercana es nuestra media de la ■uestra de la media real de la población, la varianza de la muestra debe ser una buena estimación de la varianza de la población. La exactitud de esta estimación depende del •amaño de nuestra muestra, y a m ayor tam año de muestra, menor posibilidad de erro r de muestreo. En particular, con una N baja, la estimación de la varianza de la población, 'rasada en nuestra muestra, se dice que está “ sesgada” porque: • La estimación de la varianza en la población se basa en la media de la muestra. • Una mejor estimación de la varianza de la población se obtendría si utilizára mos la disposición de nuestros datos alrededor de la media de la población. • Desconocemos la media de la población, así que debemos usar la media de la muestra. • La media de la población siempre será ligeramente diferente de la media de la muestra. • El efecto de esta diferencia es que la estimación “ incorrecta” de la varianza siempre será menor que la estimación basada en la media de la población. (Esto se debe a que la media de la muestra está en el centro exacto de todas las puntuaciones; es el punto de equilibrio de todas las desviaciones a su alrededor, mientras que la media de la población no lo estará.) Para compensarlo, la estimación de la muestra se agranda al reducir la parte baja de la ecuación en 1. Para TVgrande, esta diferencia será trivial.
Ventajas y desventajas de la desviación estándar y varianza Ventajas:
Se pueden utilizar en estimaciones de los parámetros de población. Considera todos los valores. Es la más sensible de las medidas revisadas. Se puede calcular de manera directa en muchas calculadoras. Desventajas: Un poco más complicada de calcular (¡si no tiene una calculadora apro piada!).
DISTRIBUCIONES Cuando deseamos comunicar a otras personas la naturaleza de nuestros resultados, sea nuestro profesor, colegas de clase o para publicaciones oficiales, por lo general presen taríamos por lo menos la tendencia central y la dispersión de cualquier conjunto de datos numéricos. Desearíamos, por ejemplo, informar que la edad promedio a la que los padres observan por primera vez el lenguaje “telegráfico” de sus hijos a los 18.3 meses, pero que hubo una amplia variación de esto, como lo muestra la desviación estándar de 5.02. De ser posible, nos gustaría ir más, lejos que esto de modo usual, y presentar una tabla de nuestros resultados, como el cuadro 13-4.
254 • Métodos de investigación y estadística
(Capítulo 13t
Cuadro 13-4. Tabla de resultados para una muestra pequeña
Ahora nos podemos referir a variaciones individuales y rarezas, tales como el niño que no produjo una sola palabra hasta los 26 meses, y el informe de otro más suspicaz que lo hizo a los 11 meses. Este método para mostrar resultados es útil cuando la muestra obtenida es relati vamente pequeña. Si hubiéramos interrogado a 300 padres, entonces este enfoque sería inapropiado y ocuparía muchísimo espacio. Los resultados individuales, conocidos como “datos brutos”, los puede guardar el investigador pero, para su divulgación pública, se condensarían en una tabla llamada DISTRIBUCIÓN DE FRECUENCIAS. Podríamos terminar con un cuadro semejante al 13-5.
Cuadro 13-5. Distribución de frecuencias que muestran las edades ' a las que los padres informaron las primeras expresiones telegráficas j perceptiles Edad (meses)
13 14 15
16 17 18 19 20 21 22 23 24 25 26 27 Total
No. de niños informados
1
12 37 64 59 83 17 41
0
5
12
0
4
5
0
340
PERCENTILES, DECILESYCUARTILES Hay 340 casos en esta distribución. Podríamos estar interesados en encontrar la edad en la que se informó que 10% de los niños utilizaba lenguaje telegráfico. Si así fuera, nos gustaría encontrar el décimo PERCENTIL, que es el punto que corta 10% inferior de la distribución, de la misma manera que la mediana lo hace con el 50% inferior. De hecho, la mediana es el percentil 50°. También es el DECIL 5°, ya que los deciles cortan la dis tribución en unidades al 10%; el tercer decil corta el 30% inferior, por ejemplo. La mediana también es el segundo CUARTIL, ya que los cuartiles cortan las unidades al 25% (o cuartos).
En la distribución anterior, el décimo percentil sería el punto en la escala de edad ánnde recaen 34 niños (10% de los casos). Esto es algo alrededor de la categoría de los I ” meses. De manera proporcional, debería haber 16 casos en esta categoría que, en total, contiene 37 casos. Por ende, está justo por debajo de la mitad entre 16.5 y 17.5 meses. Lo calculamos utilizando una fórmula que es una versión general del cálculo de la mediana en distribuciones de frecuencia vista con anterioridad:
Percentil = L +
(AIp/100) - F
fm
¿onde p es el percentil relevante que se requiere, y los otros símbolos son los mismos que rara el cálculo previo de la mediana. Intente calcular el décimo percentil para esta distribución. Debe obtener una respuesta de 16.93 meses.
Cuando la escala que se usa tiene muchos puntos, podemos comprimir los datos en intervalos de clase como se muestra en el cuadro 13-6. Este cuadro también introduce la idea de FRECUENCIA ACUMULATIVA, donde la columna con ese encabezado nos muestra cuántos valores caen por debajo del límite superior del intervalo de clase en particular. Observe que con un vistazo podemos decir cuántos niños emitieron 39 sonidos o menos, digamos, debido a que tenemos un total acumulativo de 61 en el cuadro, y no sólo cuántos niños estuvieron en el intervalo de 29.5 a 39.5. También observe que de nuevo tenemos el punto acerca de intervalos de medición. Aun así, en este caso, la escala es separada y no hay valores decimales, y podemos apegamos al método formal para que usted esté preparado para cuando sí los haya.
Cuadro 13-6. Número de niños y número de expresiones telegráficas No. de expresiones 0- 9
No. de n iñ o s
3
10-19
2 0 -2 9 3 0 -3 9 4 0 -4 9 5 0 -5 9 6 0 -6 9 7 0-7 9
43 69 17 24
4
Frecuencia acumulativa 3 3 18 61 130 147 171 175
Expresiones menores a: 9.5 19.5 29.5 39.5 49.5 59.5 69.5 79.5
(Éstos son los límites superio res de cada in ter* se)
256 • Métodos de investigación y estadística .
(Copinér
REPRESENTACIÓN GRÁFICA Para mostrar a nuestros lectores las características de esta distribución de manera n v clara, podemos trazar una representación gráfica de los datos. Una de las ventaja? re hacerlo es que la moda es inmediatamente aparente, como lo serán otras caracterísrére. tales como la proporción en la que los números caen de cualquier lado, y cuakmre conjunto de datos especialmente interesante. Una representación gráfica se j u s r f a también porque llama la atención de inmediato a la vista.
Histograma Un histograma de nuestra distribución se vería como la figura 13-4. El ancho de ra ft columna es igual y representa un intervalo de clase. Cada uno de ellos se representa w el punto medio al centro de cada columna. De nuevo, la medición de los puntos re intervalo da números impares, pero 24.5, por ejemplo, es el punto medio exacto del irtervalo de 19.5 a 29.5 y sabemos con exactitud que debe estar allí. Si los intervalos re clase están combinados, hubiera sido deseable comenzar con 0-19.5, ya que son rar» pocos los que están en este rubro, y el intervalo debe ser de un ancho apropiado. Entonce?. 0-19.5 debiera ser de dos columnas de ancho. En un histograma, salvo en la gráfica re barras, se representan todos los intervalos, aun si están vacíos como en el caso anta lu de 9.5-19.5. La altura de cada columna representa el numero de valores que se encuentran en rae intervalo, la frecuencia de ocurrencia. La frecuencia se muestra de modo habitual en -
Figura 13-4. Histograma de la distribución del cuadro 13-6.
Estadística descriptiva • 257
ek-y (vertical), y la escala o los intervalos de clase en el eje-x, aunque algunos programas estadísticos (como el MinitabMR) presentan las categorías en el eje vertical, y las frecuen cias incrementando de izquierda a derecha de modo horizontal. Ya que las columnas son •guales en ancho, resulta que el área de cada una es proporcional al número de casos que representa a lo largo del histograma. De igual manera, el total de todas las áreas de las columnas representan a toda la muestra. Si consideramos al área completa como una unidad (que es lo normal), entonces una columna que representa al 10% de la muestra ocupará 10% del total del área, esto es 0.1 unidades. Lá columna que muestra 59.5-69.5 expresiones orales representa 24 de los 175 casos. Por ende, su área será 24/175 = 0.137 del área total (o 13.7%).
C a ra c ter ística s • • • •
d el h isto g r a m a
Se representan todas las categorías. Las columnas son de igual ancho para intervalos de categorías iguales. No se pierden intervalos por estar vacíos. Las columnas son proporcionales a la frecuencia representada y éstas se suma para dar el área total de una unidad.
Gráfica de barras El histograma muestra una variable continua. Una gráfica de barras muestra una variable separada. Ésta normalmente se coloca en el eje horizontal (x).• • Debido a que la variable tiene valores separados, las columnas de la gráfica de barras deben estar separadas, aunque diversos programas de cómputo (en especial las hojas de cálculo) no lo muestran así. • No es necesario mostrar todos los valores de la variable separada en el eje horizontal. Podemos mostrar, por ejemplo, como medio de contraste, el número de artículos psicológicos publicados de SIDA en 1983 y 1993. • Las columnas de una gráfica de barras pueden representar frecuencias o estadísticas singulares, como la media de una muestra o un porcentaje u otra proporción.
Atribución a la persona Atribución a la situación
NegroBlanco
NegroNegro
BlancoNegro
BlancoBlanco
NegroBlanco
NegroNegro
Blanco Negro
BlancoBlanco
Aparejamiento de raza agresor/vlctima
Figura 1 3 -5 y Figura 1 3-6 . Descripción y atribución de conductas intrarraciales e interraciales basadas en Duncan, 1976).
258 • Métodos de investigación y estadística
(Capítulo 13
La gráfica en la figura 13-5 muestra los resultados del experimento de Duncan (1976), en donde se pidió a participantes de raza blanca que categorizaran la conducta de una persona que empujó a otra después de una discusión acalorada. El agresor debe ser de raza blanca o negra al igual que la víctima, con lo que se producen cuatro condiciones experimentales. La altura de cada columna representa el porcentaje de participantes que llamaron a la conducta “violenta”, más que “ sólo jugando” . G R Á FIC A S D E b a r r a s c o m b i n a d a s . Una gráfica de barras puede mostrar dos valores combinados. Duncan también pidió a los participantes que explicaran la conducta del agresor, ya sea que fuera causada por las características permanentes de personalidad del individuo, o más bien, que fuera inducido por la situación en particular, lo que se co noce como “atribución interna o externa” . La “ leyenda” o clave para la gráfica de barras combinadas en la figura 13-6 nos muestra, por cada condición agresor/víctima, la puntuación de atribución media para la persona y situación. G R Á FIC A S DE barras ENGAÑOSAS. Es muy fácil engañar con gráficas de barras mostradas con falsedad. Los periódicos lo hacen con mucha frecuencia. Dé un vistazo a la figura 13-7 que representa el número de crímenes violentos en la ciudad de Londres durante 1987 y 1988. La gráfica de la izquierda es correcta. La de la derecha, por cortar la escala de 0 hasta cerca de 18 000, por conveniencia, hace parecer el incremento de un año más de lo que en realidad es. Es la gráfica a presentar si se quiere asustar a los londinenses para que paguen más por sus fuerzas policiacas, pero es una gráfica injusta y no debería utilizarse en lo más mínimo. Lo convencional para evitar esta posible representación errónea cuando requiere economizar espacio en su diagrama se muestra en la gráfica que produjeron David y colaboradores (1986) en la figura 13-8. Observe que la escala vertical se ha recortado entre 0 y 15, pero esto se hace obvio al lector.
Polígono de frecuencia Si volvemos a trazar nuestro histograma (figura 13-4) con sólo un punto al centro de la parte alta en cada columna, tendremos lo que se conoce como POLÍGONO DE FRECUENCIA al unir los puntos como se muestra en la figura 13-9.
X
1987
1988
Gráfica de barras engañosa
Figura 13-7. Gráficas de barras correctas e incorrectas.
Estadística descriptiva • 259
Edad
=ígura 13-8. Números promedio de detecciones de movimientos aparentes hechos por los cuatro 7JDOS al centro y extremo de la periferia (de David y colaboradores, 1986).
Esto es útil de manera particular cuando se muestra la comparación entre el progreso en dos o más condiciones de estudio. Por ejemplo, cuando dos grupos de niños reciben m programa de entrenamiento de lectura diferente y el progreso se mide en frecuencia ¿e error a lo largo de varios meses de registro continuo. Aquí se omiten las columnas, romo se muestra en la figura 13-10. Si la escala horizontal (“meses desde el comienzo del programa”) no fueran continuos, entonces tendríamos un diagrama similar llamado G R Á F I C A l i n e a l . El eje horizontal podría representar los valores de diversos ensayos en un experimento o prueba ce niños como, digamos, dos meses, cuatro meses, seis meses, etcétera, desde el inicio ¿el programa.
Ogiva Esta se obtiene de delinear una distribución de frecuencia acumulativa como se muestra
2 i la figura 13-11. Los puntos muestran el número de casos (61, eje vertical) que están oor debajo del punto de la escala (39.5, eje horizontal). Entonces es posible leer el número ¿e casos por arriba o por debajo de cualquier punto en la escala siguiendo este ejemplo. La forma de la figura 13-11 sería particularmente como una “ S” si el histograma para la distribución fuera “ normal” , una curva especial en la que emplearemos bastante tiempo más adelante.
ANÁLISIS EXPLORATORIODE DATOS En las dos últimas décadas se ha incrementado el énfasis en la representación correcta e informativa de los datos gracias, en gran parte, al trabajo de Tukey (1977), cuyo libro introdujo el título de esta sección. Tukey argumenta que se debe realizar más que la exploración tradicional de datos, antes de someterlos a pruebas de significancia más complejas. Introdujo un número de técnicas, demasiadas y muy complejas para este libro, pero demostraremos dos de las más comunes. El objetivo principal es presentar los datos de maneras visuales significativas, m ientras se retiene la m ayor información original posible.
260 • Métodos de investigación y estadística
(Capitulo
Figura 13-9. Polígono de frecuencia.
Representación de tallo y hoja Una manera de lograrlo es con este diagrama que suena muy ingenioso y hortícola. Podremos verlo y analizarlo después. Observe la figura 13-12. • El tallo es el dígito diez de cada puntuación (lo que podrá variar con escalas diferentes). • Las hojas son las unidades de cada puntuación. Entonces, hubo un 21, 22 y un 29 en el conjunto.
Meses desde el comienzo de los programas
Figura 13-10. Polígono de frecuencia para dos grupos.
Estadística descriptiva • 261
A cum
T a llo
H oja
I 1 4 II 25 47 65 72 74
0 1
5
2
129 3445569 00122235667778 0112223333444556677889 000112456677777899 1344578 01
3 4 5
6 7
8
Datos para el tallo 30-39 33 34 34 35 35 36 39
Figura 13-12. Representación de tallo y hoja de los resultados del examen para 74 estudiantes.
262 • Métodos de investigación y estadística.
A cum
T allo
2
0* 0 1* 1 2* 2
3 3 3
11 18 38 61 96 130 137 147 161 171 174 175
3* 3 4# 4 5* 5 6*
6 7* 7
(Capítulo 13
H oja
13
6
00123344 5567899 001 11122333334444444 55555555566777888999999 00000000001 111111112222222233334444 5555555566666666777777777888899999 1223334 5556677789 0001I 122233444 5566678899 001 5
Figura 13-13. Gráfica de tallo y hoja para datos de expresiones telegráficas (cuadro 13-7).
• El diagrama toma la forma de un histograma oblicuo con los mismos inter valos. • Observe que obtenemos esta forma general parecida a un histograma, pero conservamos cada una de las puntuaciones individuales originales que se pierden por lo general en un histograma tradicional. • La columna con el encabezado “ acum” , que no siempre se incluye, propor ciona las frecuencias acumulativas de los casos: hay 25 personas con 49 o menos. • Si hay demasiados datos para cada tallo o si éstos se limitan a sólo tres tallos, por lo que la representación tendrá tan sólo tres líneas, podemos utilizar * para representar las hojas de 0 a 4 de cada tallo para “darle más sustancia” a la gráfica con más detalle. La figura 13-13 muestra un diagrama de tallo y hoja para nuestros datos de expresiones telegráficas del cuadro 13-6.
GRÁFICAS DE CAJAY LÍNEA Se basan en mediciones ordinales de un conjunto de datos. Nos dan una representación gráfica de lo que se aproxima al rango intercuartilar, la distribución de la sección media de los datos, dándonos también una visión de las extremidades. Los siguientes valores se han calculado a partir de los datos en la figura 13-12 que producen la gráfica de caja y línea que se muestra en la figura 13-14.
.Estadística descriptiva • 263
Figura 13-14. Gráfica de caja y línea de datos de la figura 13-12.
posición de la mediana Mediana
= (N+ l)/2 = (75 + l)/2 = 37.5 = Media de las puntuaciones 37 y 38° = (54 + 54)/2 = 54 (no necesitamos preocupamos por la completa exacti tud de la verdadera mediana con valores igualados, ya que ésta es una gráfica y no un cálculo) Posición del punto central = (posición de la mediana + 1) 2 = (37 + l)/2 = 19 (eliminamos los valores decimales) Punto central inferior = 19o valor inferior = 45 Punto central superior = 19° valor superior = 66 Distribución del punto central = punto central superior - punto central inferior = 6 6 -4 5 = 21 Límite exterior = bajo: punto central inferior - 1 .5 x distribución del punto central = 45 -(1 .5 x 21) = 14 alto: punto central superior + 1.5 x distribución del punto central = 66 + (1.5 x 21) = 97 Valores adyacentes: inferior (= primer límite exterior bajo interno, cercano a la mediana) = 21 superior (= primer límite exterior alto interno, cercano a la mediana) = 81
Notas explicativas La caja de la gráfica de caja y línea representa, aproximadamente, la mitad (50%) de las puntuaciones, muestra la mediana y está delimitada por los dos “puntos centrales” . La distribución del punto central es el rango desde del punto central bajo hasta el alto. Los 'límites” son 1.5 veces la distribución del punto central alejado de los mismos. Los “va lores adyacentes” son aquellas puntuaciones más alejadas de la mediana pero aún dentro de los límites. Éstas se muestran en la matriz por las “patillas” al final de la línea delgada que provienen de los puntos centrales. Por último, cualquier valor extremo se muestra donde cae, o si al mostrarlo se produjese una gráfica de caja y línea desproporcionada-
264 • Métodos de investigación y estadística.
(Capítulo 13
mente aplastada debido a que una escala enorme sólo se dan sus valores reales a las orillas Los valores extremos se hacen obvios desde los datos brutos sin mirar una matriz. Aquí tal vez el valor extremadamente bajo de 5 representa a alguien que estaba enfermo a! inicio del examen o que había “marcado” la pregunta equivocada con anticipación, ¡una práctica muy peligrosa!
DISTRIBUCIÓN NORMAL Al principio de este capítulo, señalé que un valor de medición, como la altura de una persona de, digamos 163 cm, es en realidad una afirmación de que el valor cae dentro de un intervalo de clase. Con ello decimos que la persona, por ejemplo, está más cerca de 163 cm que de 162 o 164 cm, más que decir que mide exactamente 163 cm. Esta persona está entre el intervalo de 162.5 y 163.5 cm. En efecto, si medimos hasta el centímetro más cercano, estamos colocando a los individuos en intervalos de clase de 1 cm de amplitud. Sucede que si tomamos una muestra aleatoria lo bastante grande de individuos de una población, y medimos cualidades físicas como la altura (o peso o d largo de los dedos), obtendremos una distribución parecida a la figura 13-15, en especia] si utilizamos una escala de medición muy fina (como la más cercana a milímetros).
Figura 13-15.
La curva que normalmente resulta de este tipo de mediciones se aproxim a de modo cercano a una curva matemática muy bien conocida como “forma de campana” pro ducida por una fórmula espantosamente complicada (por la que ni usted ni yo tenemos que preocupamos) desarrollada por Gauss. La curva se conoce entonces como “Gaussiana” , pero en el trabajo estadístico nos referimos a ella por lo común como una CURVA DE D ISTRIBU CIÓN NO R M A L (figura 13-16).
'
¡
Figura 13-16. Una curva de distribución normal.
Características de unacurvade distribución normal 1 Es simétrica respecto al punto medio del eje horizontal. 2 El punto por el que es simétrica (la línea marcada con “M” en la figura 13-16) es el punto en el que caen tanto la media, la mediana y la moda. 3 Las “asíntotas” (final de las colas) de la curva perfecta nunca tocan el eje horizontal. A pesar de que para las distribuciones de muestras muy grandes existen límites reales, siempre podemos hipotetizar un valor más extremo. 4 Se sabe qué área se encuentra bajo la curva entre el punto central (media) y el punto en el que cae una desviación estándar. De hecho, al trabajar en unidades de una desviación estándar, podemos calcular cualquier área dentro de la curva.
Aproximaciones a lacurva normal Es muy importante recordar, en todo lo que sigue, que cuando se dice que las variables psicológicas están distribuidas normalmente o estandarizadas para ajustarse a una disríbución normal, siempre estamos hablando de aproximaciones a una curva normal pura. Esto importa porque, cuando lleguemos a pruebas de significancia, para algunas pruebas, a teoría estadística supone una distribución normal y, si en realidad no existe algo que carezca a ella en la población, por la variable medida, entonces las conclusiones de la reueba obviamente serán erróneas.
Curvas normales y personas normales También es importante no ser maltratados moralmente por el empleo del término “normal” o detenerse por llamar a la gente “normal” o no. La curva se llama “ normal” oor razones meramente matemáticas (usted recordará el término “normal” como sinónimo de “ perpendicular” en geometría).
266 • Métodos de investigación y estadística
(Capítulo 13
ÁREADEBAJOLACURVADEDISTRIBUCIÓNNORMAL Suponga que desarrollamos una prueba de lectura para niños de ocho años de edad y que la puntuación máxima posible en la prueba es 80. La prueba se estandariza a um distribución normal de tal manera que la puntuación promedio, para una muestra representativa grande de niños de ocho años, es 40 y la desviación estándar es 10. Espere que resulte obvio, para los principiantes, que 50% de los niños de ocho años estará, por ende, arriba de 40 y el otro 50%, por debajo. El área para 50% superior es toda el área sombreada en la figura 13-17.
Area cruzada = 34.13% del área total
Puntuación de lectura: Desviación estándar
Figura 13-17. Curva de distribución de la prueba de lectura.
Lo que sabemos por la teoría de la curva normal es que una desviación estándar en cualquier curva de distribución normal cae en la posición mostrada por la línea arriba de 50 en la figura 13-17. Éste es el punto donde la curva descendente se dobla de una dirección interna a una externa. También sabemos que el área atrapada entre la media y este punto es 0.3413 del total, mostrada por el área cruzada. Entonces, sabemos que 34.13% de los niños obtuvieron puntuaciones entre 40 y 50 puntos en la prueba, ya que la desviación estándar es 10 puntos. Las cifras dignas de mencionarse son: 34.13% de todos los valores caen entre (5c) y +1 (o -1) desviaciones estándar (área=0.3413). 47.72% de todos los valores caen entre (x) y +2 (o -2) desviaciones estándar (área=0.4772) 49.87% de todos los valores caen entre (x) y +3 (o -3) desviaciones estándar (área=0.4987) Las posiciones de estas desviaciones estándar se muestran en la figura 13.18. Observe que los valores de arriba están duplicados para las áreas entre -n y +n desviaciones estándar.
Estadística descriptiva •2 6 7
Área entre desviaciones estándar - n y +n en la curva normal
Figura 13-18. Posiciones de las desviaciones estándar.
PUNTUACIONESZ(OPUNTUACIONESESTÁNDAR) En el ejemplo anterior de la prueba de lectura, un niño con una puntuación de 50 cae en m a desviación estándar por arriba de la media. Podemos decir que el número de desviaciones estándar que está de la media es +1 (el “+” significa “ arriba”). Así, un niño joe esté -1.5 desviaciones estándar de la media tiene una puntuación de 25, porque 1.5 desviaciones estándar es 15, el cual sustraemos de la media de 40. Si medimos el número :e desviaciones de la media de esta manera, estamos utilizando PUNTUACIONES z O PUNTUACIONES ESTÁNDAR. La fórmula para calcular la puntuación z es: _ x -x donde s desviación estándar y x - x, como usted lo notará, es la puntuación de la desviación. Dividiendo la puntuación de desviación entre la desviación estándar se responde a z pregunta de: “ ¿A cuántas desviaciones estándar de la media está esta desviación?” E'na puntuación z es el número de desviaciones estándar que un valor particular se aleja ie la media. Si la media para el tamaño de zapatos en su clase es 6, con una desviación estándar de 1.5, entonces, si su zapato mide 9, su puntuación z es 2, o si su tamaño es 4.5, su puntuación z es -1. Tal vez usted siguió el ejemplo del niño con 25 puntos en su mente pero, de hecho, usted estaba utilizando la fórmula mostrada. Verifiquémoslo con la fórmula: , = 2 6 -4 0 = -15 = _15 10
10
Por supuesto, la fórmula se requiere cuando los valores no son tan convenientes como ios que se han utilizado como ejemplo.
268 • Métodos de investigación y estadística
(Capítulo 13
Las puntuaciones z cortan varías proporciones conocidas del área bajo la c m normal. Por tanto, sabemos el porcentaje de la población que se encierra entre la m edí y cualquier puntuación z. Por ejemplo, consultando la tabla 2 del apéndice 2, el área enre la media y la puntuación z d e +1.5 es 0.4332 del total, mostrado por el patrón sombrearéde la derecha en la figura 13-19.
Figura 13-19. Área entre la media y la puntuación z de 1.5.
Una puntuación z de -2.2 atrapa 0.486 del área entre ésta y la media en el lado izquierdo. Ya que el total del lado izquierdo de la media es 0.5 del área, entonces sólo 0.014 (0.5 - 0.486) queda al extremo izquierdo después de -2.2 desviaciones estándar. Esto se muestra por las líneas cruzadas en la figura 13-19 y al consultar la columna derecha de la tabla.
Estandarización de mediciones psicológicas Esta relación entre las puntuaciones z y el área bajo la curva normal es de crucial importancia en el mundo de la evaluación. Si (y es un “ si” grande) se supone que una variable se distribuye normalmente entre una población, y tenemos una prueba estandari zada en muestras grandes, entonces podemos evaluar con rapidez la posición relativa de la gente al utilizar la puntuación bruta (el valor inicial en una prueba) convertida 2 puntuaciones z. Esto es de mucho valor cuando se evalúa, por ejemplo, la capacidad de lectura en niños, desarrollo general intelectual o del lenguaje, estrés, ansiedad, aptitudes en adultos hacia ciertas ocupaciones (en la entrevista), y demás. Sin embargo, siempre recuerde que el “ si” es grande y mucho del trabajo debe pasar por la justificación de manejar los resultados de una prueba como distribuidos normalmente. Los psicólogos con frecuencia han argumentado que variables como inteligencia, extraversión y similares están distribuidas normalmente. Sin embargo, como en el caso
Estadística descriptiva • 269
re la altura, esto no se basa en la investigación con lo que queda al descubierto. Al crear estandarizar pruebas de inteligencia, la suposición que se hace antes de comenzar es m e la inteligencia tendrá una distribución normal. Se ve como una cualidad humana rnxhicida por millares de factores aleatorios, incluyendo, entre otros, las fuerzas genétires. La altura es así y en consecuencia está distribuida normalmente. Entonces, el tegumento sigue, ¿por qué la inteligencia no puede ser similar? Siempre debe reconocerse roe los psicólogos no han descubierto que la inteligencia tenga una distribución normal en la población. Las pruebas se crearon para ajustarse a una distribución normal, fásicamente con fines de investigación y conveniencia práctica. Por lo común, una prueba re CI se estandariza (se ajustan los valores brutos) para producir una media de 100 y una desviación estándar de 15 puntos.
DISTRIBUCIONESSESGADAS Algunas distribuciones obtenidas de medidas psicológicas que podría esperarse que fueran normales, de hecho resultan SESGADAS. Esto es, están “ ladeadas” , teniendo su rico (moda) hacia un lado y una cola distintiva del lado donde ocurren más de la mitad re los valores. Mire la figura 13-20.
Media Mediana Moda Distribución sesgada negativa
Media Mediana Moda' Distribución sesgada positiva
Figura 13-20. Sesgos positivos y negativos.
Suponga que estemos midiendo el tiempo de reacción para responder a palabras mostradas una por una en la pantalla de una computadora. Usted debe decidir, lo más rápido posible, sin la palabra en realidad está en castellano o no. El tiempo de reacción, en la mayoría de los ensayos, es de alrededor de 0.7 segundos. Después de varios ensayos, ¿qué tipo t sesgada se produciría? f'
270 • Métodos de investigación y estadística. . .
(C apítulo . 5
Es posible ser mucho más lento que la mayoría de las puntuaciones, pero ¿es posible * mucho más rápido cuando la mayoría de las puntuaciones están alrededor de C ~ segundos? Esto es similar a la situación en el atletismo, donde los tiempos pueden ser re poco más lentos que el estándar actual adecuado, pero no mucho más rápidos. Entones?, tendríamos una distribución sesgada positiva. Observe que un sesgo positivo tiene la coa hacia el final positivo (valores mayores) del eje horizontal. ¿Cómo elaboraría una prueba que produjera un sesgo negativo; la haría muy fácil o muy difícil de contestar? Una distribución sesgada negativa se puede producir cuando una prueba es relativameae fácil. Produce lo que se conoce como “ efectos de techo” . La gente no puede obtener puntuaciones mucho más altas que la media, si ésta es, digamos, 17 de 20, pero un número sustancial de personas pueden obtener puntuaciones mucho más bajas que la media. ET fenómeno opuesto se conoce como “ efecto de piso” .
Tendenciacentral de distribuciones sesgadas Observe en dónde caen la media, la mediana y la moda en cada distribución. Es obró que la moda aún cae en la parte alta, donde está la mayoría de las puntuaciones. En cara caso, la media está más alejada de la moda, lo cual no es de sorprenderse, ya que dijirore que es la más afectada por valores extremos en una dirección.
DISTRIBUCIONESBIMODALES Algunas distribuciones se conocen como BIM ODALES y , como ciertos camellos, tiene des jorobas distintivas. Enfatizamos en la sección de estandarización del capítulo 9 o ír algunas medidas de las variables psicológicas pueden producir tal distribución. 1* medición de actitudes acerca de un aspecto controversial (como la privatización re servidos de salud), donde no mucha gente es neutral, puede producir una distributor bimodal. Lo mismo pasaría con la medición de la satisfacción laboral en una compás? que tiene muchos empleados bien pagados, junto con un número similar de obreros ch remunerados.
Figura 13-2 1 . Una distribución bimodal.
3 L O S A R IO Valor de un número, ignorando su signo; manejar un numero como almente sea oositivo aunt negativo
valor absoluto
Término en lenguaje común para la Tendencia central
promedio
Gráfica donde un eje (normalmente ei horizontal) representa una vana menos, sepa ble categórica rada
gráfica de barras
Gráfica que muestra la dispersión central de datos la posición de extremos relativos; tipo de análisis exploratorio de datos
gráfica de caja y linea
Término formal para cualquier me dida del valo' típico o medio dé un grupo
tendencia central
Categorías en las que se divide una escala de datos continuos con el fin de resumir frecuencias
intervalo de clase
Intervalo de 10% en una escala continua
decil
Cantidad por la que una puntuaci ón particular es diferente de la media Aa su conjunto
valor/puntuación de desviación
Término técnico para cualquier me dida de la variación o distribución de los datos de una muestra o po blación
dispersión
distribuciones icos d e fre -
bimodal
cue Distribución qué muestra el total de números por encima o por debajo de cada intervalo de clase
frecuencia acumula
atribución que muestra la frecuencia con que ocurren ciertos va-
frecuencia
tiva
272 • Métodos de investigación y estadística. . .
Distribución no simétrica en rela ción con el centro vertical, y que con tiene muchos más valores bajos que altos relativos a la moda Distribución continua, con forma de campana, simétrica en relación con su punto medio y es el resultado de una variable afectada por muchas influencias aleatorias Distribución no simétrica en rela ción con el centro vertical y que con tiene muchos más valores altos que bajos relativos a la moda Examinación cercana de datos a través de una variedad de medios, incluyendo representación visual, antes de someterlos a pruebas de significancia; recom endada por Tukey Gráfica que muestra sólo los picos de intervalos de clase Gráfica que contiene el conjunto completo de datos continuos dividi dos en intervalos proporcionales Medida de tendencia central; suma de puntuaciones dividida entre el número de puntuaciones Medida de dispersión: media de to das las desviaciones absolutas Medida de tendencia central: punto medio dei conjunto de datos Lugar donde se debe encentrar la mediana en el conjunto de datos ordenados Medida de tendencia central: el va lor más frecuente Gráfica que muestra frecuencias acumulativas Medida estadística de población
(Captado 33
Estadística descriptiva • 273
S L O S A R IO (c o n tin u a c ió n )
- .nto en una distribución continua a ie corta ciertos porcentajes de ca=cs
percentil
Punto en una distribución Continua uue corta uno de los cuartos (por ejemplo, un bloque de 25%)
cuartil
Medida de dispersión: máximo me nos infenor más
rango
Valor no tratado que se obtiene en ‘o rn a directa del proceso de me■íción utilizado en el estudio Diferencia entre la media de una ■nuestra y la media real de la po tación, que se supone es aleatoria sn origen Medida estadística de una muestra
muestra estadística
Distancia entre el primer y tercer cuartiles en una distribución conSriua
rango semiintercuar tilar
Medida de dispersión: la raíz cua drada dé la suma de todas las des viaciones al cuadrado dividida entre V(o/V-1)
desviación estándar
Sinónimo de puntuación z
valor estándar
Medida de dispersión: el cuadrado de la desviación estándar
vananza
Medida de desviación individual: nú mero de desviaciones estándar a la que está una puntuación particular de la media de su muestra
puntuación z
Encuentre la media y mediana de los dos conjuntos de tiempos de conversación en el cuadro 13-1.
274 • Métodos de investigación y estadística.
(C apítéo
2 Considere el siguiente conjunto de tiempos medidos en 1/100 de segundo: 62 65 71 72 65 70 72 72 65 70 72 73
73 75 76 77 79 80 74 75 76 77 79 80 74 76 76 78 80 81
82 83 92 100 106 117 127 82 88 93 102 110 121 128 83 90 95 103 112 122 135
a) Esboce una distribución paralos datos y decida cuál sería la medida de tendencia c o is más apropiada. Calcúlela, además de una medida de dispersión. b) Diseñe una gráfica de tallo y hoja para estos datos. 3 Trace un histograma con los datos del cuadro 13-6. Calcule además su media.
4 Esboce dos distribuciones aproximadamente normales que tengan la misma media pee desviaciones estándar muy distintas. También trace dos distribuciones normales con la misrE desviación estándar pero diferente media. 5 Le han dicho a usted que un conjunto de datos incluye un valor que es 0.8. La desviaciy estándar para el conjunto es 0. ¿Puede usted proporcionar la media del conjunto y decir acr acerca de los otros seis valores? 6 En una distribución de CI donde la media es 100 y la desviación estándar es 15: a) ¿Qué puntuación de CI tiene 95% de las personas que caen por arriba? b) ¿Qué porcentaje calificaría con menos de 90? c) ¿Qué puntuación z obtendría una persona con calificación de 120? 7 ¿Qué tipo de sesgo se presenta en una distribución que tiene las siguientes característicaE"' Media = 50 Mediana = 60
Moda = 70
8 En el cuadro 1 3 -7 coloque los valores en el lugar en blanco.
C u a d ro 1 3 - 7 . M e d ia
DE
40 100 17.5
10 15 2.5 4
21 15.6
V a lo r e s p e c ífic o
D e s v ia c ió n
25 135
-1 5 35
57 25
P u n ta c ió n z
% a rr ib a
% a b a je
1.5
93.3
6.7
2 -1 .7 5 4
30.85
3.47
9. Dibuje una gráfica de caja y linea para los datos de la pregunta 2 anterior.
ACOTACIONES N Na
es el número en una muestra es el número en la muestra A
56
Estadística descriptiva • 275
IX —TY
Zj ZXf
es un valor de la muestra, como la puntuación de Juana también es un valor cuando hay dos variables medidas letra griega S (“ sigma”); significa “sume cada uno de lo que sigue” . Por ejemplo: significa “sume todas las X en la muestra” significa “multiplique todas las X por su Y correspondiente y sume todos los resultados” . Observe que XY significa “ multiplicar X por Y” . Siempre haga primero lo que está después de 2 antes de proceder a sumar, por ejemplo: significa “eleve al cuadrado todas las X, después súmelas” . Tenga mucho cuidado de no contundir con: que significa que sume todas las X y eleve al cuadrado el resultado.
SIMBOLOSESTADÍSTICOS Población desviación estándar media desviación estándar estimación de población no sesgada - s p a “no corregida” -S es una puntuación de desviación - distancia de un valor particular de la media de la muestra = x - x
Waestra imedia
i
! ALGUNASREGLAS ! En las fórmulas matemáticas, de modo especial en estadística, es confuso utilizar el signo de multiplicación (“ x”) porque hay muchas “X” o “x” por todos lados, que significan un valor o puntuación en particular. Entonces, cuando un valor está junto a otro, siempre indica que debe multiplicarse. Por ejemplo, rN significa multiplicar r por N. Z Siempre realice lo que está dentro de los corchetes antes de pasar a las operaciones fuera de ellos. Haga lo mismo con los símbolos 2 o [raíz cuadrada). Aquí se presentan algunos ejemplos que utilizan estas dos reglas: ZXLY
Ex-E )2 V - 1) ( N
— 2)
Multiplique la suma de todas las X por la suma de todas las Y. Observe que no es lo mismo que multiplicar cada X por cada Y y después sumar los resultados que sería 2A7, como se mostró antes. Tome la medida de cada x y eleve al cuadrado cada resultado. Por último, sume todos los resultados. Encuentre N - 1. Encuentre N - 2. Multiplique los resultados 1 Calcule r2 2 Calcule 1-r2 3 Calcule N - 2 4 Divida el paso 3 entre el paso 2 5 Calcule la raíz cuadrada del paso 4 6 Multiplique r por el resultado del paso 5 ■
EMPLEO DE DATOS PARA PROBAR PREDICCIONES SECCIÓ NI INTRODUCCIÓN PARA PRUEBAS DE SIGNIFICACIÓN Capítulo 14. Probabilidad y significación
.................................................. 281
SECCIÓN II PRUEBAS SIMPLES DE DIFERENCIA — NO PARAMÉTRICAS Capítulo 15. Pruebas de nivel n o m in a l......................................................... 307 Capítulo 16. Pruebas de nivel o rd in al............................................................ 323 SECCIÓN III PRUEBAS SIMPLES DE DIFERENCIA — PARAMÉTRICAS Capítulo 17. Pruebas a nivel de in tervalo /razó n ........................................ 335 SECCIÓN IV CORRELACIÓN Capítulo 18. Correlación y su significación
...............................................355
(Parte IT
278 • Métodos de investigación y estadística
SECCIÓN V PRUEBAS PARA MÁS DE DOS CONDICIONES Capítulo 19. Pruebas no paramétricas— más de dos condiciones
. .387
Capítulo 20. ANOVA unidireccional. ........................................ ...
. .395
Capítulo 21. ANOVA m u ltifa c to ria l............................................................... 415 Capítulo 22. ANOVA de medidas repetidas
...............................................429
Capítulo 23. Otras pruebas multivariadas complejas útiles — un breve resum en.................................................................. 443 SECCIÓN V I ¿QUÉ ANÁLISIS UTILIZAR? Capítulo 24. Elección de una prueba apropiada ........................................ 453 Capítulo 25. Análisis de datos cualitativos.................................................. 463
S ecció n I i
Introducción a pruebas de significación
Probabilidad y significación*•
• La probabilidad de que ocurran eventos se mide en una escala de 0 (imposible) a 1 (debe ocurrir). La probabilidad lógica se calcula de principios iniciales, como la proporción del número de maneras en que puede ocurrir nuestro resultado predicho, dividido entre el número de resultados. La probabilidad empírica utiliza la misma proporción, pero considera el número de oportuni dades que han ocurrido en la parte alta de la ecuación y el número total de eventos relevantes en la parte baja. • Las diferencias (o correlaciones) necesitan someterse a una prueba de significación, con el fin de tomar decisiones acerca de si deben considerarse como mostradoras de efectos genuinos o rechazarse por representar tan sólo fluctuaciones azarosas. • Los científicos sociales rechazan la hipótesis nula de que las diferencias sólo ocurren en un nivel de azar, cuando la probabilidad de que esto sea verdadero cae debajo de 0.05. A esto se le llama "nivel de significación al 5%". SI la hipótesis nula es verdadera, pero se rechaza debido a que p < 0.05, se dice que se ha cometido un error tipo I. Un error tipo II ocurre cuando se conserva la hipótesis nula debido a que p > 0.05, aunque haya un efecto real subyacente. • Cuando la hipótesis probada es controversial, ya sea de manera teórica o ética, es común buscar la significación a p < 0.01 o mejor. Un resultado con p < 0.1 puede justificar mayor Investigación, procedimientos más apegados, modificación del diseño y más. • Si la hipótesis probada es direccional, entonces se utiliza la probabilidad con prueba de una cola. De otra manera, la prueba sería de dos colas. Los resultados obtenidos con prueba de una cola tienden a alcanzar la significación, pero si la dirección es opuesta a la predicha, aunque la diferencia haya pasado el valor crítico de significación, debe conservarse la hipótesis nula. • Una distribución de probabilidad es un histograma donde las columnas miden la probabilidad de ocurrencia del evento que representan. La distribución normal es una distribución de probabilidad, y las probabilidades se pueden leer utilizando puntuaciones z para medir la desviación de un valor de la media.
282 • Métodos de investigación y estadística
(Capitulo
PROBABILIDAD ^ A n te s de que se fastidie en este capítulo por la idea de echar volados o escoger cartas, por favor recuerde que el capítulo tiene un único propósito: mostrar los medios por los cuales los investigadores deciden que es improbable que la diferencia o asociación entre las variables sea el resultado de meras coincidencias. Deseamos saber cómo evaluar las aseveraciones de que el grupo A lo hizo “mejor que” el grupo B. ¿Cuándo debemos considerar esta diferencia con seriedad y cuándo debemos desecharla como una variación azarosa sin importancia? Recuerde, siempre habrá diferencias cuando se mide dos veces a personas, aun en el mismo aspecto (psicológico). La pregunta es, ¿cuándo las diferencias son significativas? Comencemos con un problema práctico por resolver:
Suponga que una amiga dijo que ella puede pronosticar de manera confiable el sexo de bebés en gestación al oscilar un péndulo de piedra sobre el vientre de la madre. Imaginemos que predice de modo correcto el sexo del bebé de usted. ¿Quedaría impresionada? Su implicación personal tal vez la haga reaccionar con la exclamación “¡asombroso!”, o al menos, "bueno, es intere sante; debe haber algo de verdad en ello”. Al alejarse fríamente de la situación, usted se da cuenta de que ella tenía un 50 a 50 de oportunidad de estar en lo correcto. Aunque la mayoría de la gente pensará que algo tiene, si continúa prediciendo de modo correcto el sexo de los bebés dé dos o tres amigas más. Imagine que tiene que predecir el sexo de 10 bebés. ¿Cuántos espera usted que acierte para que usted se impresione y piense que no sólo adivina o que tiene suerte? De hecho, ¿7 de 10 la impresionarían? ¿O exige más o con menos lo conseguiría? Al enseñar métodos de investigación y estadística en psicología, siempre les digo a mis alumnos que ya tienen muchos de los conocimientos importantes formulados en su mente, tal vez un poco vagos, desarrollados a lo largo de la experiencia mundana. Mi trabajo es iluminar, clarificar y dar nombre a estos conceptos. Esto es cierto de manera particular con el concepto de probabilidad y, aún así, es_el área que despierta, relativamente mayor grado de ansiedad y confusión. La mayoría de la gente tiene un buen sentido de qué tan probable pueden ser varios eventos y muchas otras detestan involucrarse en dar valor numérico a tales probabilidades, ya sea porque parece complicado o porque pareciera que uno está comprometido con misteriosas “ leyes del azar” . Una reciente conversación con el hijo de 11 años de un amigo, mientras les daba un aventón al aeropuerto, es un buen ejemplo: — Pero los aviones se estrellan. — SI, pero tú sólo escuchas los accidentes. Miles de vuelos se realizan a salvo y las probabilidades de que te estrelles son una en mil. — Sí, lo sé, pero incluso puede ser nuestro avión. . . . y así, como si éste fuera un argumento donde, en realidad, estamos diciendo lo mismo pero con distinto énfasis e involucramiento personal (me estaba quedando atrás para
Probabilidad y significación • 283
Enninar esta segunda edición, en la primera ¡ésta fue una conversación ficticia!). Aquí está alguien que parece estar de acuerdo con lo que digo acerca de la probabilidad: La probabilidad es un tema obvio y simple. Es desconcertante y complejo. Es un tema del que sabemos muchísimo y a la vez, nada. Los chiquillos en el jardín de niños pueden estudiar probabilidad, lo mismo que los filósofos. Es tonto; es interesante. Tales contradicciones son la esencia de la probabilidad. (Kerlinger, 1973.) Se dice con frecuencia que existen tres tipos de probabilidad: • Probabilidad lógica • Probabilidad empírica • Probabilidad subjetiva Las dos primeras las abordaremos en un momento más. La probabilidad subjetiva se refiere al sentimiento de posibilidad que uno tiene acerca de ciertos eventos, sin importar 5o que digan los expertos en estadísticas o matemáticos. Los comentarios sutiles del hijo de 11 años de mi amigo son un ejemplo. Es difícil convencerse de que un avión, cuando estás en él, es muchas veces más seguro que ir por carretera. Los apostadores pueden arruinar sus vidas apostando en lo que ellos piensan que sucederá. Observe el apartado 14-1 para una alegre descripción de la evaluación de la probabilidad subjetiva. La probabilidad se presenta de maneras peculiares. ¿Cuáles cree usted que son las oportunidades de que en cuatro volados todos caigan “águila” ? ¿Cuánta gente cree usted que se necesita meter en una habitación para que exista el 50-50 de posibilidad de que dos de ellas hayan nacido el mismo día? La respuesta a la primera pregunta es 1 de 16, aunque mucha gente responde de entrada que es 1 de 4. La respuesta a la segunda es que, de manera sorprendente, sólo serán necesarias 23 personas.
Apartado 14-1. Ley de Sod ¿Tiene el sentimiento de que el destino la trae contra usted? En el supermercado, por ejemplo, ¿siempre escoge la fila equivocada para pagar, la que parece ser la más corta pero donde alguien lleva cinco artículos sin precio y diversos cupones no vigentes? ¿Toma e! carril externo para encontrar que hay un retorno hacia la de recha? La ley de Sod (conocida como ley de Murphy en EUA) establece de la manera más sencilla que todo lo malo que puede pasar, pasa. ¿Alguna vez ha regresado algún artículo a la tienda, mete su automóvil al taller con algún problema, para después ver que le funciona a la perfección al mecánico? Ésta es la ley de Sod trabajando a la Inversa pero aún contra usted. Un colega mío sostiene una extensión de esta ley y dice que las cosas irán mal aunque no puedan. Un divertido programa de televisión, QED, probó esta perspectiva de probabilidad subjetiva. La hipótesis particular, que se desprende siguiendo la ley, fue que de ciertas ocurrencias dentro de ia cocina, el pan tostado siempre se cae con el lado de la mantequilla para abajo, ¿es verdad? Los primeros Intentos implicaron a un profesor de la Universidad de Física para desarrollar una máquina que arrojará el pan sin tendencia. Esto incluía un tostador modificado y una máquina de escribir eléctrica. Los resultados no fueron alentadores. La hipótesis nula se mantuvo a sí misma con firmeza, los lados con mantequilla no hicieron de manera significativa más contacto con el piso. Se decidió que hacía falta el factor humano. La ley de Sod funciona para seres humanos que tiran el pan.
284 • Métodos de investigación y estadística. . .
(Capítulo
Apartado 14-1. Ley de Sod (continuación) El Intento de mayor validez ecológica se hizo utilizando estudiantes y una casa majestuosa. Se sacaron bancas y mesas al patio y se le pidió a docenas de estudiantes que untaran con mantequilla un lado del pan y después lo tiraran de una manera especial entrenada para evitar la predisposición en el lanzamiento. En una variación mañosa en el experimento se introdujo una nueva variable Independiente. Se pidió a los estudiantes que jalaran su rebanada dé pan y, justo antes de que le untaran mantequilla, se fes pidió que cambiaran su decisión y que untaran el otro lado. Esto eliminaría la tendencia a que cayera el lado del pan con mantequilla en el pasto, si desde antes se decide por el destino el lado que caerá al suelo, en el proceso de untar la mantequilla. Por tristeza, ni esto ni lo anterior produjeron verificación de la ley de Sod. No recuerdo las cifras exactas, pero los resultados fueron que de 300 lanzamientos cada vez, hubo cerca de 154 lados de mantequilla, 146 del lado limpio y 148 a 152. Ahora los científicos tuvieron esos destellos de creatividad. Un corolario de la ley de Sod es que cuando las cosas van mal (como con seguridad sucederá — regla general— ), Irán mal de la peor manera posible. Los investigadores, ahora, colocaron extensas alfombras sobre amplios prados. ¿Con seguridad tentarán al destino en una reacción? ¿Caerán más veces del lado de la mantequilla en la alfombra de sala? (¡Estoy seguro que sí!) Me temo que ésta fue la extensión de la Investigación. De nuevo, los resultados estuvieron alrededor de la marca de 148 a 152. (De modo incidental, ¡qué prueba se usaría con estas frecuencias? Se dice que Murphy fue un oficial de servicios de Estados Unidos, quien fue sometido a prueba para viajes espaciales al mandar hombres de servicio en una silla impulsada en jet de modo horizontal, a través del desierto del medio oeste para producir muchas G de presión gravitacional. Esta ley aún no me convence. Los psicólogos sugieren que la explicación puede residir en la memoria selectiva — tendemos a recordar los incidentes molestos y a ignorar los intrascendentes— . Pero aún veo las miradas en la cara de los clientes mientras esperan con paciencia — parecen conocer algo de mi fila . . . ______
DAR UN VALOR A LA PROBABILIDAD Observe las siguientes afirmaciones. Para la mayoría de ellas, usted encontrará que tiene cierta ¡dea de qué tan factible o no es que estos eventos ocurran. Trate de darles un valor entre cero (imposible) y 100 (altamente posible), dependiendo de qué tan probables piensa usted que sean.123456789 1 2 3 4 5 6 7 8 9
Lloverá el miércoles de la próxima semana. Tomará desayuno el primer día del mes entrante. Su profesor de psicología estornudará en la siguiente lección. Le darán a usted un millón de pesos el próximo año. El sol saldrá mañana por la mañana. Pensará en elefantes más tarde el día de hoy. Alguien chocará con usted más tarde, hoy mismo. Un volado lanzado con entusiasmo caerá mostrando "águila Dos monedas lanzadas con entusiasmo caerán, ambas, “águllá".
Probabilidad y significación • 285
Para el número uno, si usted vive en el Reino Unido, en cualquier época del año, habría contestado 50, pero si vive en Bombay y el mes es octubre, hubiera dicho como 3. Los punteros dos y siete dependen de sus hábitos y la hora que sea del día. ¡Me interesaría en 5o que pasa con el número 6 ahora que lo digo! Ahora, divida todos los valores que dio entre 100. Así, si respondió 20 al número siete, por ejemplo, entonces divida 20 entre 100 y obtiene 0.2. La probabilidad siempre se mide de manera oficial en una escala de: 0--
----------------------------------- a ------------------------------------------------ 1
NO es posible
DEBE suceder
. . . por lo común en valores decimales como 0.3, 0.5 y demás. Tratará ahora de explicar cor qué esto tiene sentido.
PROBABILIDAD LÓGICA Su respuesta al número ocho del ejercicio anterior debió ser exactamente 50, que se convierte en 0.5. Si respondió 25 al número nueve (se convierte a 0.25), ya que puede asted calcular la probabilidad (¡probablemente!). Las afirmaciones ocho y nueve son muy distintas de las demás. Podemos calcular la probabilidad implicada con base en principios lógicos. El razonamiento para la afirma ción ocho es como sigue: Existen dos posibles resultados: “ águila” o “ sol” (¡Descartamos las veces que cae de canto!) Uno de éstos es el resultado que queremos. Entonces hay una oportunidad en dos de que salga “águila” . La fórmula para la probabilidad lógica es: P
_ número de formas en que el resultado deseado puede ocurrir número total de resultados posibles
donde p significa “probabilidad” cuando todos los eventos son posibles por igual. Entonces, cuando echamos un volado, utilizando la fórmula anterior y en relación con lo que acabamos de decir acerca de los resultados:
(o 0.5) para la probabilidad de que caiga “águila” (o “sol”). Observe que la probabilidad de obtener “ águila” (0.5) sum ada a la probabilidad de que caiga “ sol” (0.5) = 1. Esto toma sentido porque conocemos que el pronóstico de lo que debe suceder es 1 y ocurrirán ya sea “ águila” o “ sol” . Esto nos lleva a una de dos reglas de probabilidad: Regla 1 de probabilidad: (la regla “o” )
la probabilidad del evento A o del evento B es p(A) + p(B) donde p(evento) es la probabilidad de ocurrencia de un evento.
286 • Métodos de investigación y estadística. . .
(Capítulo I*
Ahora podemos también introducir la regla 2. Suponga que echa un volado con dbe monedas. ¿Cuál es la probabilidad de obtener dos “águilas” en dos volados inde pendientes (pregunta 9 anterior)? Bueno, una manera de contestarlo es con la regla 2: Regla 2 de probabilidad: (la regla “y ”)
la probabilidad del evento A y el evento B es p(A) x p(B '
De acuerdo a esta regla, nuestra respuesta es 0.5 x 0.5 = 0.25 (o V 4). Hagámoslo de h manera larga utilizando nuestra fórmula básica de probabilidad mencionada antes y verifiquemos que estamos de acuerdo con el resultado de la multiplicación. ¿Cuántas eventos posibles tenemos? Bueno, éstos se listan en el cuadro 14-1.
Cuadro 14-1. Eventos posibles que pudieron ocurrir al lanzar dos monedas -
Había cuatro posibles resultados y sólo nos interesaba uno de ellos. Los valores para la ecuación de probabilidad, entonces, son 1 arriba y 4 debajo, dando V4 (0.25).
Si hubieran 20 estudiantes en su clase y el prófesbr fuera a elegir a uno de ustedes para hablar sobre la lectura de la semana, ¿qué tan probable es que lo elija a usted (suponiendo que su elección sea aleatoria)? ¿Qué tan probable es que elija a alguien más?
El profesor tiene 20 posibles opciones y usted sólo es una de ellas. Así, la posibilidad de que usted sea el elegido es V2o, que representa el 0.05, muy cercano a cero. La posibilidad de que alguien más tenga que hablar es l9/29, ya que existen 19 maneras de que esto ocurra. Esto nos lleva al 0.95 (observe que la suma de ambas probabilidades nos da 1, ¡el profesor va a elegir a alguien!). A pesar de que fracciones como ]U y '/20 se pueden leer como “ una de cuatro” (oportunidades), la mayoría de las cifras de probabilidad no son tan sencillas. De hecho, para interpretar la estadística en psicología, usted requerirá ser muy ágil en la conversión a valores decimales (como 0.05) y valores porcentuales (como 5%, el equivalente en una escala de 0 a 100, de 0.05 en una escala de 0 a 1). Esto es justo lo que estaba haciendo en el ejercicio anterior. Para aquellos que en verdad se contunden permutando entre uno y otro, el apartado 14-2 les ayudará.
Probabilidad y significación» 287
Apartado 14.2 Conversión decimal % De porcentaje a decimal 5% a p = 0.05 1 Retire el signo "%” (= 5)
De decimal a porcentaje p = 0.05 a 5% 1 Mueva el punto decimal dos lugares a la derecha (005.) 2 Coloque el punto decimal desp 2 Elimine los ceros a la izquierda del primer dígito entero también de la iz número (= 5.)* quierda (= 5.) 3 Mueva el punto decimal dos lugares a la 3 Elimine el punto decimal si no hay nada a su derecha (= 5) izquierda colocando ceros según sea necesario (por ejemplo, primer movi miento 0.5, segundo movimiento 0.05) 4 Agregu' * Si ya hay punto decimal, déjelo donde está y pase de inmediato al pasó 3, por ejemplo: 2.5% -» 2.5 -> 0 .2 5 -+ 0.025
por ejemplo para 0. 0.025 -> 00.25 -> 0 0 2
PROBABILIDAD EMPÍRICA En el caso de echar volados es relativamente fácil saber lo que pasaría de acuerdo con las ■‘leyes de la probabilidad” . Con eventos de la vida real, como la posibilidad de un terremoto, un accidente aéreo o que Inglaterra le gane a Francia en fútbol, no podemos hacer tales cálculos. Existen demasiadas variables por explicar. Sin embargo, en estas circunstancias, los expertos en estadística se basan en datos de “actuarios”, que son datos que ya se tienen disponibles. El proceso es mirar hacia atrás y no hacia adelante. Decimos, para estimar la probabilidad de X evento, “ ¿cuántos eventos del tipo X han sucedido hasta ahora del número total de eventos relevantes? Por ejemplo, la probabilidad de que su profesor estornude en la próxima lección se estima con: número de lecciones en las que su profesor ha estornudado hasta ahora número total de lecciones hasta el momento
Podemos emplear la probabilidad empírica para respaldar nuestro cálculo analítico de la posibilidad de obtener dos “ águilas” en dos volados. Le pedí a mi computadora que “lanzara dos monedas” 1000 veces. Le tomó como cuatro segundos y me dio 238 casos de dos “ águilas” . 238/1000 = 0.24, no es una mala estimación de nuestra probabilidad lógica de 0.25. De hecho, la distribución que obtuvo la computadora se muestra en la figura 14-1.
DISTRIBUCIONES DE LA PROBABILIDAD Del lado derecho de la figura 14-1 se ipuestra la DISTRIBUCIÓN DE LA p r o b a b il id a d esperada al lanzar dos monedas. Observe que, a pesar de que anoté frecuencias esperadas
288 • Métodos de investigación y estadística
F r e c u e n c ia s p ro d u c id a s p o r c o m p u ta d o ra
(Capítulo 14)
P=
497
de e n s a y o s
238
0 G rá fic a
1
500
0.5
265
N o.
F r e c u e n c ia s e s p e r a d a s e n 1 0 0 0 la n z a m ie n to s a p artir d e la te o r ía d e la p ro b ab ilid ad
2
de fre c u e n c ia
250
n
250
0.0 N o. d e e n s a y o s
0
1
. 2
D istrib u ció n d e p ro b ab ilid a d
Figura 14-1. Lanzamiento de dos monedas 1000 veces.
de 1000 en las columnas, la gráfica es una de las probabilidades para cada evento. No muestra lo que ha ocurrido; muestra las proporciones esperadas de las cosas como deberían suceder utilizando las “ leyes” de la probabilidad. Esto se puede transformar en frecuencias esperadas cuando usted sabe cuántos eventos van a ocurrir juntos, en este caso, 1000. Si la probabilidad de obtener dos “ águilas” es 0.25, entonces esperamos 0.25 x 1000 casos de dos águilas. Esperamos 250; obtuvimos 238. La segunda columna a la derecha de la figura 14-1 muestra que la probabilidad de obtener “ águila” o “sol” es 0.5. Si mira el cuadro 14-1 verá que hay dos maneras de ob tener “águila” y “ sol” . Puede obtener un “sol” seguido de un “ águila” o un “ águila” seguida de un “ sol” . La parte alta de la ecuación de la probabilidad es 2 y la baja es 4, como antes. Por cada vez que obtengamos dos “ águilas”, esperaremos el doble de resultados que contengan un “ sol” y un “ águila” . Por último, claro está, esperaremos tantas veces dos “ soles” como obtengamos dos “águilas” .
COMBINACIONES De lo que hemos comenzado a hablar es del tema de combinación de eventos. Dijimos que para el volado con dos monedas tenemos cuatro combinaciones de resultados y los mencionamos. Si ahora recordamos a nuestra amiga adivinadora del sexo de bebés, nos ayudaría si supiéramos cuántos resultados posibles de 10 intentos hay (parte baja de la ecuación de probabilidad) y después ver cuántas maneras hay de obtener siete correctos, ocho correctos, etcétera (parte alta de la ecuación). Podemos avanzar hacia esta meta considerando tres monedas. No olvide que si ella está adivinando, su elección de niño o niña es probable por igual, y esto es lo mismo que un volado. Sólo estamos probando la probabilidad de eventos con dos resultados igualmente posibles. Para lo tres eventos le gustará mirar la figura 14-2. Imagine que colocamos un péndulo en la parte alta del diagrama en el punto “ elección” . “Elige” ir a la derecha o izquierda de manera aleatoria. Una vez hecho esto, se encuentra otro punto de elección y de nuevo va a la izquierda o derecha de modo aleatorio, y así continuamente. Estamos
Probabilidad y significación • 289
Figura 14-2. Resultados posibles al lanzar tres monedas.
interesados en cuál proporción de círculos “elegirá” para terminar a la extrema derecha. En términos de monedas, si lanzáramos tres muchísimas veces, ¿cuántos resultados serían tres “ águilas”? Más que regresar a mi computadora humeante, probémoslo de manera formal con nuestros principios iniciales. ¿Cuántas combinaciones posibles tenemos? ¿De cuántas maneras pueden caer las tres monedas? Si usted sigue la figura 14-2, verá que hay tres maneras (caminos) de obtener dos “ águilas” o un “ águila” , pero una sola manera de obtener cero “águilas” o tres “águilas” . Estos resultados se listan en el cuadro 14-2. La probabilidad de obtener tres “ águilas” en un evento es ocho = Vg = 0.125. Obtener dos “ águilas” y un “ sol” es tres veces más posible, tres eventos de ocho: 3/g o 0.375 y así. Ahora sabemos que si nuestra amiga adivina tres sexos de bebés de manera correcta sucesivamente, la probabilidad de que esto ocurra por azar sería 0.125.
Cuadro 14-2. Resultados del lanzamiento de una moneda una manera de obtener un águila tres maneras de obtener dos águilas + un sol
er dos soles + un águila ¡s Resultados totales posibles = 8
0.375
0 0
290 • Métodos de investigación y estadística. . .
(Capítulo 14)
P ro b a b ilid a d e s ra c u a tr o m o n e d a s
N o. d e e n s a y o s
N o. d e e n s a y o s
Figura 14-3. Distribuciones de probabilidad al lanzar tres y cuatro monedas.
La figura 14-3 muestra la distribución de probabilidad para tres y cuatro monedas. ¿Cómo obtuve los valores para cuatro monedas? Por fortuna no necesitamos volver a los principios iniciales o a una figura 14-2 demasiado larga para contar las posibles combinaciones. Observe el triángulo de Pascal en la figura 14-4. Si mira la segunda y tercera líneas verá la frecuencia para dos y tres monedas que esperábamos a partir de la teoría de probabilidad. Cada número en el triángulo se obtiene de sumar los dos números arriba de él de manera que, en teoría, podemos continuar estas cifras infinitamente y los números muy pronto serían enormes. Para la cuarta línea, las frecuencias son 14 6 4 1, una manera de obtener las cuatro “águilas” , cuatro maneras de obtener tres “águilas” y un “ sol” , etcétera, con 16 combinaciones posibles juntas. La probabilidad de obtener cuatro “ águilas” se puede calcular de inmediato como Vi6 = 0.0625. Para tres “águilas” y un “ sol” (en cualquier orden) la probabilidad es 4A6 (o 0.25) y así. Observe que las probabilidades para todas las columnas siempre suman 1.
[Total]
1 1
1
1 1
2
1
1 3 3 1 1 4 6 4 1 1 5 10 10 5 1 1 6 15 20 15 6 1 1 7 21 35 35 21 7 1 1 8 28 56 70 56 28 8 1 1 9 36 84 126 126 84 36 9 1 1 10 45 120 210 252 210 120 45 101
Figura 14-4. Triángulo de Pascal.
2 4 8
16 32 64 128 256 512 1024
Probabilidad y significación • 291
Ahora sabemos que si nuestra ámiga adivina de manera correcta el sexo de tres bebés de cuatro, la probabilidad de que esto ocurra al azar es 0.25. Observe que la probabilidad de adivinar tres o cuatro o algo mejor (por ejemplo, tres o cuatro correctas de cuatro) es 0.25 más 0.0625 (= 0.3125). Ahora podemos hacer un salto rápido para calcular la probabili dad de que nuestra amiga adivinadora del sexo de bebés adivine los 10 bebés de manera correcta. La línea 10 del triángulo de Pascal nos muestra que hay 1024 combinaciones posibles, de las cuales, sólo una abarca el adivinar correctamente los 10 sexos (como obtener 10 “ águilas”), así que la probabilidad es V1024 o 0.001. No importa cuántas monedas lancemos, siempre habrá una sola manera de obtener que todas caigan del mismo modo. C ada moneda debe caer así y nosotros seguimos la orilla externa del diagrama en la figura 14-2. Verá que el triángulo de Pascal comienza y termina con 1 en todas las líneas. También podemos ver que la probabilidad de nuestra amiga adivinando sólo nueve sexos es 10/io24 (0.01) y ocho correctos sería 45/ io24 (0.044). Todo está bien. Creo que la mayoría de nosotros aceptaría que si la oportunidad de nuestra amiga de adivinar correctamente a los 10 bebés es menor que uno en mil, rechazaríamos la idea de que simplemente está adivinando. En términos formales, como dijimos en el capítulo 1, éste sería un caso para “rechazar la hipótesis nula” de que sus resultados variarán sólo en el nivel de oportunidad. Aceptaríamos que algo estaba pasando aunque permaneceríamos sarcásticos acerca del péndulo de piedra. ¡Tal vez ella utiliza la forma corporal o tiene acceso a los registros hospitalarios de los estudios de escáner!
AHORA EL PROBLEMA ES LA SIGNIFICACIÓN Siempre existe en una clase alguna persona cínica, quien aún no acepta que V1000 p = 0.001) es suficiente para descartar el azar. Como mi amigo de 11 años, ellos dicen: "¡ah! pero si todavía pudiera suceder por azar” , con lo cual me verla forzado a estar de acuerdo. A esto yo añado: “ Sí, pero tenemos que pensar hacia adelante. Si predigo que X sucederá, como resultado de una teoría, y sucede, con menos de una probabilidad de V1000 de que ocurra por azar, en nuestra vida cotidiana por lo común aceptamos que tenemos algún tipo de control o de comprensión. Por ejemplo, imagine que pido a algún miembro de la audiencia que elija un número entre 1 y 1000. Entonces le pido a usted que saque un número de 1000 boletos de sorteo ya revisados y revueltos en una bolsa. Si yo ‘consigo’ tomar el mismo número, usted pensará que soy un muy buen mago, ¡no sólo suertudo! ” Podemos confiar en los extremos de la probabilidad, tanto como si en una fiesta de pueblo nuevo un taller local ofrece, sin riesgo, un automóvil gratis si alguien tira siete “ seises” con siete dados.
SIGNIFICACIÓN Siempre nos enfrentamos a decisiones de significación informal en la vida cotidiana. Imagine que recibió 62% en su ensayo anterior y 60% en el que acaba de hacer. ¿Lo está haciendo peor o sólo son fluctuaciones sin importancia en las calificaciones? Si usted
(Capítulo 14/
obtuviera 45% en el siguiente usted sabría que hay una diferencia de consideración. Sin embargo, la diferencia actual no lo inquieta. Así, tenemos la certeza de que una diferencia indica un cambio real y a veces no. Ésta es la parte fácil. ¿Cuándo cambiamos de una decisión a otra? ¿Qué valor por debajo de 62% indica una caída real en sus calificaciones? Lo que ahora estamos buscando es un sistema para tomar decisiones de SIGNIFICACIÓN ESTADÍSTICA.
Un anuncio común de televisión muestra la promoción de un líquido lavatrastes que limpia más pilas de loza que su competidor anónimo. Sin embargo, no se le da al televidente la oportunidad de descubrir si la diferencia es significativa estadísticamente. De modo similar, con frecuencia vemos a una sola persona eligiendo con éxito una margarita promocionada en vez de su rival anónimo. ¿Cuánta gente querría usted ver haciendo esta elección afortunada antes de que usted se convenciera de que el resultado no es por chiripa? Para situaciones como ésta, necesitamos una prueba formal. Siempre habrá cierta diferencia entre los resultados de dos condiciones en un experimento o investigación. No es suficiente que una diferencia ocurra en la dirección que deseamos o predijimos, que es todo lo que hacen los anuncios en la televisión. Debemos mostrar que la diferencia es significativa. Dé un vistazo a los resultados de los dos experimentos de memoria en el cuadro 14-3.
PRUEBA"AOJO” Una p r u e b a A OJO es una inspección de los resultados previa a la prueba formal. Aun sin conocer las reglas formales acerca de las decisiones de significancia, podemos llegar a conclusiones bastante seguras de los resultados en el cuadro 14-3. Del lado derecho, podemos ver que la diferencia entre las medias es poco notable. Observe, para aspectos posteriores en este libro, que consideré de manera intuitiva la variación entre las puntua ciones individuales en cada muestra, con el fin de decidir si 12.75 y 12.5 no es obviamente una diferencia notable. Del lado izquierdo, parece también obvio que algo ha sucedido. ¿Con certeza estas diferencias no fueron causadas por fluctuaciones azarosas solas? Uno nunca debe confiar solamente en pruebas a ojo. Siempre debe aplicarse una prueba estadística formal a los datos principales. Sin embargo, es útil donde se hipotetizan
Cuadro 14-3. Resultados del experimento de memoria
comunes 1
2 3 4 5 6
7 8
15 14 10 18 16 12 9 16
Media = 13.75
Pt
Palabras de 6 letras
10
1
7 6 11 4 7
2
14 13
comunes
2
3 4 5 6 7
9
8
Media = 7
Diferencia entre las medias = 6.75
10
15 9 11
12
16 Media = 12.5
Diferencia e
Palabras de 7 letras 13 14 12 13 7 15 13 15 Media = 12.75
Probabilidad)/ significación • 293
varias diferencias y algunas de ellas pueden considerarse sin valor para evaluación debido a la obvia insignificancia. No obstante, lo que ahora buscamos es un nivel formal de corte. ¿Qué tan improbable tiene que ser una diferencia antes de considerarla como una “significativa” ? Al inicio del capítulo le pedí que pensara acerca de cuántas elecciones exitosas de sexo, de un total de diez, lo convencerían de que su amiga no estaba adivinando nada más. Algunos habrán contestado que 10, otros que 9, otros menos. Si usted dijo 5, está aceptando que su amiga lo haría más si sólo estuviera adivinando. Asi que el número que debemos establecer para estar convencidos de que el resultado es significativo cae alrededor de entre 6 y 10, a menos que usted sea en realidad muy cínico. El problema de dónde trazar la línea de decisión entre suerte o efecto real se conoce como PRUEBA DE SIGNIFICACIÓN.
NIVELES DE SIGNIFICACIÓN Los científicos sociales tienen diversos niveles en los cuales rechazan la hipótesis nula. Calculan la probabilidad de que las diferencias en sus resultados puedan ocurrir sólo por izar. Si esta probabilidad es menor que el nivel establecido, rechazan la hipótesis nula re que el resultado ocurrió sólo por azar y demandar apoyo para la hipótesis de nvestigación. Dicen que los resultados son significativos y que el nivel de significancia 55 una medida de qué tan seguros están de que los resultados no son por chiripa. Sin embargo, existe un nivel de probabilidad que es estándar. Si la probabilidad de me una diferencia ocurra es mayor que este valor, entonces, por convención, ningún rrvestigador sostendría que sus resultados son significativos. Ahora, ¿cuál es este nivel? l a probabilidad de una diferencia debiera ser siempre inferior a 0.001 (V1000), 0.01,0.05 * qué?
Veam os ahora si usted ya intuyó dónde puede estar el límite. Suponga que le doy un paquete de cartas. Hay sólo dos posibilidades: o todas las cartas rojas están hasta arriba o están mezcladas aleatoriamente. La segunda alternativa equivale a la hipótesis nula. Su labor es decidir cuál de estas dos alternativas es la verdadera al voltear una carta a la vez desde la parte de arriba. Hay una trampa. Usted comienza con $1000. Cada v ez que usted voltea una carta, esta cantidad se reduce a la mitad. Si usted intenta adivinar después dé voltear dos cartas, usted puede recuperar $250. ¿Déspi voltear cuántas cartas usted podrá decidir con toda confianza que las rojas están todas hasta arriba? Si usted espera a que se volteen 17 , le quedará s r o ja s , ¡ g a n a r á sólo 1 centavo! Aun despué Ahora haga su elección.
l a probabilidad de sacar una carta roja de arriba de un montón completo revuelto es 0.5 lay dos colores posibles, representados por igual, y queremos uno de ellos). Hacerlo rostro veces en sucesión, reemplazando cada vez, nos da 0.54 (0.5 x 0.5 x 0.5 x 0.5) = ‘ ?63 ((’/2)4 = Vié). De hecho, para ser completamente precisos, debemos calcularlo sin reemplazo, ya que así es como se adaptó el problema. Esto sería: 26 52
25 51
24 50
23 49
------ X ------ X ------ X -------
0.055
294 • Métodos de investigación y estadística. . .
(Capítulo 7-4
ya que hay 26 cartas rojas con las cuales iniciar, pero una menos cada vez que se una roja. Un gran número de gente dice que con cuatro rojas se siente muy seguro deas* el paquete está arreglado y no revuelto (y otros más están de acuerdo que con cinco). Ex otras palabras, rechazan la hipótesis (nula) de que esta corrida suceda por azar.
Nivel de significación al 5% Los científicos sociales llaman a una diferencia significativa y rechazan la hipótesis m k de no diferencia cuando su probabilidad de ser verdadera cae debajo de 0.05. Esto se conoce de manera popular como N IV EL DE SIG NIFICACIÓN al 5 PO R CIENTO. Puede v e r por el pequeño ejercicio anterior que, si reemplazamos las cartas cada vez, una tira d a s cinco cartas será significativa pero una de cuatro, no. Si sólo tomamos la carta sir reemplazarla, entonces, una tirada de cuatro rojas está muy cercana de contar comr significativa. En otras palabras, en una baraja completa revuelta saldrán cuatro toé; consecutivas en una oportunidad de 20. ¿Le gustaría intentarlo? Esto haría un preciospequeño ejercicio de programación, si es que estudia computación. De otro modo, ¡por favor crea en la teoría! El punto es que mucha gente toma una decisión de manera intuitiva, en alrededor del nivel del 5% de que la secuencia de eventos no fiie una chiripa.
DECISIONES DE SIGNIFICACIÓN Hemos llegado a un principio fundamental que apuntala toda la investigación en las ciencias sociales: la noción de rechazar la hipótesis nula en un nivel de significacice específico. La teoría oficial dice que, antes de conducir un estudio, se debe especificare nivel en el cual se rechazará la hipótesis nula. En la práctica, el nivel de p < 0.05 es el es tándar de oro, la vara general con la que se mide si las diferencias o relaciones sor significativas o no. Para resumir: • Si un resultado es significativo (p < 0.05), se rechaza la hipótesis nula. • Si un resultado no es significativo (p > 0.05), se mantiene la hipótesis nula. Por “resultado significativo” quiero decir la aseveración larga y sinuosa de: “ Si no es probable que la diferencia (o relación) haya ocurrido por azar en el nivel fijado” . De modo usual se dice que si los resultados alcanzan este nivel, usted califica pare su publicación. Sin embargo, como dije en el capítulo 1, existen momentos cuando e' sustento de nuestra hipótesis nula es lo que dice nuestra teoría: el hallazgo de que no existe diferencia puede ser muy importante. Pero en ese caso, el nivel utilizado para tomar una decisión seguiría siendo p < 0.05, excepto bajo circunstancias especiales.
¿Pero no podrá ser todavía una chiripa? Más o menos una vez en 20 usted sacará cuatro cartas rojas de la parte superior de una baraja revuelta. Puedo escuchar a los estudiantes regresar a casa y jugar “rápido” con su hermano(a) menor, diciéndole: “ ¡Mira, cuatro rojas!. .. y ese Coolican dice que es raro’-.
Probabilidad)) significación • 295
3ueno, esperamos que usted obtenga este resultado alrededor de una vez en veinte, recuérdelo. Asi que ahora se escucha una vocecita (como la de mi amigo de 11 años) Sciendo “Bueno, eso quiere decir que si los científicos sociales aceptan resultados menos posibles de 0.05 por azar, ¡una vez en veinte aceptan resultados por chiripa!” ¡Y la voz réne razón! (De algún modo.) Veamos esto:
¿Qué pasos se deben tomar para asegurar que, cuando un investigador encuentra resultados significativos al p ^ 0.05, el patrón de resultados no es una ocurrencia casual?
Lo que los investigadores hacen es replicar los estudios. Si un efecto se considera significativo y por consiguiente se publica, alguien más tratará de obtener los mismos resultados en una repetición del estudio original. Las oportunidades de que ocurra una segunda diferencia significativa otra vez por azar son menores que cuando ocurren por Trímera ocasión.
.ALOR CRÍTICO Necesitamos aplicar lo que acabamos de ver con la adivina de sexos de bebés. Queremos saber el número de predicciones correctas que puede hacer para que la probabilidad de sos esfuerzos caigan debajo de 0.05. Ya conocemos sus cifras de que no obtenga ninguna Torrecta, una correcta, y demás, utilizando el triángulo de Pascal. Las diversas probabili dades se listan en el cuadro 14-4. Verá que los valores que acabamos de calcular se encuentran a un costado de las predicciones correctas 8,9 y 10. Para simplificar las cosas en la primera prueba estadística del capítulo siguiente, podemos cambiar nuestro pen samiento hacia ¿cuántas obtendrá mal y aún tener sus resultados como significativos? Los valores siguen siendo los mismos. Si obtiene ninguna equivocada, la probabilidad es 0.001. Si obtiene una mal, p = 0.01; para dos errores, p = 0.044. Imaginemos que rbtiene dos errores. Quisiera saber cuántos lectores están diciendo ¿“ eso es suficiente”? No predijimos que nuestra amiga obtendría exactamente dos errores. Lo que reeremos es la probabilidad de que lo hará correcto. En otras palabras, queremos la trobabilidad de que obtendrá dos errores o menos. Ésta es la probabilidad para ninguno, mo o dos errores sumados juntos. Es 0.001 + 0.01 + 0.44 y esto da 0.055. Por desgracia, este valor está por encima del valor de probabilidad que permitimos para tomar una decisión de efecto significativo, por ejemplo,- no podemos rechazar la hipótesis nula de ree su ejecución produce resultados casuales. Sin embargo, si tuviera sólo un error (nueve jciertos), la probabilidad resultante sería 0.001 +0.01 y esto es apenas 0.011. Si usted Tensó que nueve aciertos lo convencerían, entonces su sentir es el mismo que el de un Tsicólogo con estos resultados. Si usted aceptó ocho o menos, entonces fue un poco rsneroso y es probable que acepte menos adivinanzas. Si quiso 10 (o aún más), entonces Tsted erró del lado de la cautela, siendo un poco “conservador” con la significancia.
296 • Métodos de investigación y estadística
(Capítulo /-
Cuadro 14-4. Probabilidades a partir del triángulo de Pascal No. d e prediccione s co rrectas (N)
0 1 2 3 4 5 6 7 8 9 10
P robabilidad d e qu e N o cu rra sólo al a z a r (adivinar)
Fracción
Decimal
1/1024 10/1024 45/1024 120/1024 210/1024 252/1024 210/1024 120/1024 45/1024 10/1024 1/1024
0.001 0.01 0.044 0.117 0.205 0.246 0.205 0.117 0.044 0.01 0.001
Entonces, en términos del número que nuestra amiga puede obtener mal, habla ríamos del VALOR CRÍTICO de sólo 1. Si obtiene un error, no más, podemos rechazar h hipótesis nula de que sus resultados están en el nivel de la casualidad. Pero tuvo dos errores. Debemos mantener la hipótesis nula. No significa que ella sea una impostora. No decimos que la hipótesis nula sea verdadera, sólo que, hasta el momento, no tenemos suficiente evidencia para rechazarla. Debemos intentar de nuevo con otros diez bebés.
Figura 1 4 -5 . Distribución de probabilidad de 10 predicciones de dos resultados posibles.
La distribución de probabilidad de 10 eventos (volados, adivinar sexos, u otros) se muestra en la figura 14-5. Espero que vea que ésta es una representación gráfica de los números en la línea 10 del triángulo de Pascal. El evento más factible de ocurrir (en fe base del azar) es cinco correctos y cinco erróneos, límite cercano a seis correctos, cuatro erróneos y cuatro correctos, seis erróneos. Si mira las áreas involucradas, puede ver qué tan posible es que el número de intentos correctos caiga en algún lado alrededor de tres y siete, y qué tan poco probable es que el resultado caiga hacia lo que se llama las “ colasde la distribución.
Soponga que nuestra amiga se equivocó en todas las predicciones. ¿Diríamos que es una adivinadora de sexos de bebés sin futuro? O ¿sería un resultado fascinante? Después de redo, la probabilidad de hacerlo por azar también es de 0.001. Podríamos imaginar que tiene un buen método pero que ¡colocó su instrumento de manera equivocada o que lo leyó incorrectamente! Una HIPÓTESIS DIRECCIONAL se formula cuando predecimos la dirección de nuestros resultados. Por ejemplo, podemos predecir que los sujetos recordarán más palabras comu nes que no comunes. La prueba de esta hipótesis se conoce como PRUEBA DE UNA COLA. Una HIPÓTESIS N O DIRECCIONAL se formula cuando predecimos una diferencia pero no enfatizamos ninguna dirección esperada. Podemos predecir que los varones y mujeres diferirán en sus actitudes hacia la homosexualidad masculina, pero no hacemos asevera ciones acerca de quién será más positivo. La prueba para esta hipótesis es de DOS COLAS. Si conducimos una prueba de una cola y los resultados van en dirección opuesta a lo predicho, no podemos rechazar la hipótesis nula aunque la probabilidad de su ocurrencia sea inferior a 0.05. Con una prueba de dos colas podemos rechazar la hipótesis nula cualquiera que sea la dirección que tomen los resultados, mientras que la probabilidad de su ocu rrencia sea inferior a 0.05. Entonces, ¿por qué no hacer siempre predicciones de dos colas? Una razón es que las hipótesis de una cola por lo general serán una predicción específica de una teoría. Si los resultados son extremos en dirección opuesta a la predicha, no tenemos sustento para nuestra teoría y debemos regresar al pizarrón para encontrar una de varias cosas: una variable confosa en el diseño o procedimiento, una falla en nuestra predicción lógica de resultados, o una manera de revisar nuestra teoría para explicar los resultados conflictivos. Otra razón es que la significación con predicciones de dos colas es más difícil de alcanzar, como intentaré explicar.
COLASDEUNADISTRIBUCIÓN La figura 14-6 muestra una versión expandida de la “ cola” hacia la derecha del histograma de probabilidad de la figura 14-5. Para la significación ya calculamos que un resultado debe estar en el área sombreada. Si la adivinadora de sexos hiciera sólo ocho predicciones correctas, el área involucrada sería (0.055) 5.5% del total, demasiado para 'a significación. 0 .0 4 4
P 0.01
8
9
10
Figura 1 4-6 . Expansión de tres columnas hada la derecha de la figura 14-5.
Suponga que estuviéramos interesados en la probabilidad de que nuestra amiga tuviera una ejecución demasiado buena o demasiado mala. Predecimos, en otras palabras, que su resultado estará separado de manera significativa de la hipótesis nula de la mera adivinanza, en cualquier dirección. Estamos haciendo una hipótesis no direccional. La probabilidad de que nuestra adivinadora obtenga, ya sea nueve o más predicciones correctas, o nueve o más incorrectas, es la suma de las siguientes probabilidades: 10 correctas 9 correctas 10 incorrectas 9 incorrectas Total
¿7 = 0 .0 0 1
¿7 = 0.01 p = 0.001 ¿7 = ¿7 =
0.01 0.022
Añadimos las probabilidades en cada cola de la distribución. Aunque hubiéramos predicho que ella obtendría muchas correctas o muchas erróneas, su resultado de nueve o diez aciertos hubiera sido significativo, ya que la probabilidad de que esto ocurriera era 0.022 y por ende muy por debajo de 0.05. Pero en otros casos esta duplicación de probabilidades para una prueba de dos colas hubiera elevado la probabilidad total arriba de 0.05 y dejado el resultado como no significativo. En otras palabras, si usted protege sus apuestas, la probabilidad se incrementa. Un corredor de apuestas disminuye sus ventajas si usted cambia su predicción de “primero” a “ primero o en los tres primeros”. En la figura 14-5 usted verá que el área en la que deben caer los resultados para significación en una prueba de dos colas está sombreada. El extremo izquierdo es la imagen en espejo del extremo derecho en la figura 14-6. Los resultados que caen en cualquier otra columna no son significativos.
DISTRIBUCIÓNNORMALDEPROBABILIDAD Puede ver en la figura 14-5 que un histograma de probabilidad para diez eventos igualmente posibles forma un patrón simétrico semejante a los “tubos de un órgano” . Imagínese cómo se vería si lanzamos al aire 32 monedas muchísimas veces. Obten dríamos el patrón mostrado en la figura 13-15 en el capítulo anterior. Sin embargo, en lugar de mostrar frecuencias reales, podríamos mostrar probabilidades de ocurrencia esperadas para 0 águilas, 1 águila, etcétera, hasta llegar a 32 águilas. Si ahora generaliza este patrón, espero que vea que, para muchísimos eventos, la forma terminaría viéndose muy parecida a una curva normal (puede ver una distribución de probabilidad que ocurre de modo natural con esta forma cuando observa piedras muy antiguas o trozos de madera, ¿por qué se curvean al centro?). Podemos utilizar la distribución normal como una curva de probabilidad de manera muy semejante a lo que hicimos con la figura 14-5 para 10 eventos. Por ejemplo, piense de nuevo en las puntuaciones z y desviaciones del capítulo anterior. En el ejemplo de la prueba de lectura, espero que sea obvio que la probabilidad de que cualquier niño, elegido de manera aleatoria, obtenga una puntuación de lectura mayor a 40, es 0.5. También sabemos que 68.26% de todas las puntuaciones cayeron entre las puntuaciones z de +1 y —1. El área bajo la curva en esta sección es 0.6826. Por ende, podemos decir que la probabilidad de que cualquier niño, seleccionado de manera aleatoria, obtenga una puntuación z entre+1 y -1 (esto es, una puntuación de lectura entre 30 y 50 en el ejemplo) es de 0.6826.
Probabilidad y significación • 299
Éste es el gran valor de la curva de distribución normal y del porqué, en el capítulo anterior, se enfatizó el área bajo la curva. Este pensamiento completo es inmensamente importante cuando lleguemos a utilizar pruebas de significación para decidir cuándo dos medias, por ejemplo, son diferentes de manera significativa una de la otra. Podemos ver ahora un ejemplo de la prueba de “ una muestra” de lo que podemos concluir con esta curva.
Prueba de significación simple Suponga que descubrimos algunos niños criados en una comunidad donde la “ escolarización” se ha conducido dentro de la misma pequeña comunidad como parte de la vida diaria. La lectura no se ha “ enseñado” en lecciones, sino que se ha integrado a las actividades normales. Un visitador educativo está impresionado y quiere comparar a estos niños con la media nacional. Imagine que nuestra prueba, en el capítulo 13, está estandarizada a nivel nacional. La media para la población es entonces 40. El promedio de nuestros niños es 61. La desviación es 61 - 40 = 21. Para obtener la puntuación z dividimos la desviación entre la desviación estándar, lo que nos da: 21/10 = 2.1. Si buscamos un valor z de 2.1 en la tabla 2, encontramos que corta el restante 0.0179 del extremo derecho del área bajo la curva. En otras palabras, nuestros niños parecerán ser mejores, en promedio, que todos menos 1.79% de la población, y buenos dentro del máximo 2.5%. Ello se muestra en la figura 14-7. Una puntuación z de 1.65 corta la parte superior al 5% de toda la distribución y una puntuación z de 1.96 corta al 2.5%. Así que la media de los niños parece ser genuinamente inusual, no hay una fluctuación azarosa en el promedio.
Figura 14-7. Colas de una distribución.
En las evaluaciones de significación en general, con una prueba de dos colas, cualquier resultado debe asociarse con una puntuación z de cualquiera de las dos, o más □ue 1.96 o menos que -1.96, con el fin de contar como significativa al 5 por ciento. Para una prueba de una cola la puntuación z debe ser mayor que 1.65, en la dirección predicha. Pero no podemos cocinar el pastel y también comerlo. Si nos sometemos a una prueba
300 • Métodos de investigación y estadística
(Capítulo 14
de una cola sólo necesitamos obtener este valor z inferior, pero si resulta ser un valor negativo, el resultado se fue en la dirección opuesta a lo esperado, no importa por cuánta no podemos reclamar ninguna significación. Es discutible si la prueba de nuestros niños de la comunidad sería de una o de dos colas, pero de cualquier modo, terminaron por arriba del promedio de modo significativo.
OTROSNIVELESDESIGNIFICACIÓN Si la adivinadora de sexos hubiera obtenido las 10 predicciones correctas, parecería necesario decir que no produjo un resultado que fuera apenas significativo al 5 por ciento. Su resultado fue menos posible quep = 0.001 que es el 0.1 por ciento. Cuando esto ocurre, los psicólogos puntualizan el nivel obtenido en su informe final. Existe una tendencia a utilizar el siguiente lenguaje en el informe de resultados: Significación al 5% “Los resultados fueron significativos” Significación al 1% “Los resultados fueron altamente significativos”
Nivel del 10%(p< 0.1) Un investigador no puede fiarse de los resultados o publicarlos como un efecto si el nivel alcanzado es sólo del 10 por ciento. Pero si el nivel de hecho es cercano al 5% (como los resultados de la adivinadora de sexos, si alcanza ocho predicciones correctas), se puede decidir qué bien vale la pena continuar la investigación. Él procedimiento requerirá ajuste o modificaciones, el diseño podrá cambiarse un poco, y el muestreo deberá someterse a escrutinio.
En ocasiones es necesario estar más seguros de nuestros resultados. Si estamos a punto de desafiar una teoría bien establecida o algún hallazgo de investigación al publicar resultados que las contradigan, lo convencional es alcanzar una significación del 1% antes de su publicación. Otra razón para requerir el 1% de significación es cuando el investi gador nada más tiene una oportunidad de demostrar el efecto. La réplica puede ser imposible en muchos estudios de campo o “experimentos naturales” . En cualquier casa la significación al 1% proporciona más seguridad a los investigadores para rechazar una hipótesis nula.
Inferioral 1%(p<0.01) En la investigación que puede producir aplicaciones que afectan a la salud humana o cambios de vida, como la prueba de drogas para efectos psicológicos o conductuales no deseados, querríamos estar mucho más seguros de que no se registran efectos azarosos.
Probabilidad y significación • 301
Superior al 5% (p > 0.05) Sí, parece que abarcamos éste con el nivel del 10 por ciento. Pero el énfasis aquí es diferente. Un investigador puede estar replicando un estudio que era un reto para su trabajo. Pudiera ser que el mostrar que no hay una diferencia es la meta de la investi gación. Éste sería el caso de una infinidad de estudios modernos cuyo objetivo es demostrar la ausencia de diferencia entre varones y mujeres en diversas pruebas y tareas. En este caso la predicción es que se mantendrá la hipótesis nula. La probabilidad asociada con los resultados deberá caer ahora en el extremo menor del 95% del área bajo la curva de probabilidad.
VALORES CRÍTICOS BAJO DIVERSOS NIVELES DE SIGNIFICACIÓN Observe que para la significación del 1% (una cola) la puntuación z debiera ser 2.33 o superior, ya que el valorz de 2.33 deja sólo 0.01 del área que se sitúa sobre el lado derecho de la distribución. Verifique en la tabla 2, apéndice 2, utilizando el lado derecho de la columna el “ área izquierda” . Sólo para asegurarse de que ha entendido por completo lo que son los valores críticos y cómo fiincionan, intente resolver el siguiente ejercicio. Si lo encuentra capcioso, por favor no golpee su cabeza contra la pared, no abandone la psicología ni se sienta decepcionado. La mayoría de la gente lo encuentra engañoso en un inicio. ¡Haga el ejercicio con un amigo, apéguese a él, e importune a su profesor con ejemplos hasta que lo consiga!
Respuestas:
Dos colas 10% = 1.65 2% = 2.33 Una cola 2.5% =1.96 1% = 2.33
1% =2.58 0.1% =3.11
ERRORES TIPO IY TIPO II Una vez que hemos terminado de analizar los resultados de la investigación y hemos hecho las pruebas de significación, emitimos una afirmación de que necesitamos aceptar o rechazar la hipótesis nula al nivel de significación establecido, comúnmentep < 0.05. Podemos estar en lo correcto o equivocados. Nunca podemos estar absolutamente seguros de que un efecto aparente no es una casualidad. Por ejemplo, digamos, corremos un experimento en el que hay dos condiciones: recuerdo de palabras comunes, como
302 • Métodos de investigación y estadística
(Capítulo 14)
“gato” , y recuerdo de palabras no comunes como “perezoso” . Una diferencia significa tiva al p < 0.001 parecería inexpugnable. Sin embargo, dentro de la investigación en psicología, los resultados rara vez son tan claros como éste, a pesar de que la buena investigación lucha por alcanzar los niveles altos de significancia. Si un investigador demanda apoyo para su hipótesis de investigación con un resultado significativo, cuando en realidad las variaciones en los mismos se deben a variables aleatorias solas, entonces se dice que ocurrió un error tipo UNO. A través de un diseño defectuoso y muestreo deficiente, los investigadores pueden fracasar en obtener significancia, a pesar de que el efecto que intentan dem ostrar en realidad existe. En este caso se diría que han cometido un ERROR tipo dos . Estos datos se resumen en el cuadro 14—5.
Cuadro 14-5. Resumen de resultados La hipótesis nula es:
Es obvio que si fijamos un nivel de significación estricto (bajo), como al 1%, bien podemos cometer un error tipo dos. AI 10%, es mucho más probable un error tipo uno.
Valor con el que una estadística, calcu lada a partir de datos de muestra, se puede comparar con el fin de decidir si debe rechazarse una hipótesis nu la; el valor se relaciona al nivel par ticular de probabilidad elegida Predicción que afirma la dirección en la que ocurrirán las diferencias (o corre lación) Prueba informal de datos que se hace simplemente por la inspección y cálcu los mentales, más que por la experien cia de los valores Predicción que no enfatiza la direc ción en que ocurrirán las diferencias (o correlación) Prueba que se hace si la hipótesis es direccional
Probabilidad y significación • 303
Medida de la probabilidad basada los datos existentes y que compara el número de eventos objetivo aue ocurrido con el número tos relevantes Medida de la probabilidad calculada a partir de fórmulas analíticas y prin cipios iniciales Medida de la probabilidad hecha con base en evaluaciones internas hu manas, con frecuencia emocionales
5% (p < 0.05) Nivélele significación preferido por ser de mayor seguridad que el conven cional, el cual deberá fijarse cuando la investigación es controvertida o única Prueba utilizada con él si la hipótesis nula debe rechazarse o mantenerse
prueba de significadón/decisión
304 • Métodos de investigación y estadística.
E je r
(Capítulo I4>
c ic io s
1 Determine si los siguientes valores de z (en una distribución normal) son significativos o no ( r < 0.05) para: a) Pruebas de una cola 1.32 1.75 - 1 . 9 -0 .7 8 b) Pruebas de dos colas -2 .0 5 1.89 - 1 . 6 1.98 2
Determine si las pruebas de las siguientes hipótesis requerirán pruebas de una o dos colas: a) Los diabéticos estarán más preocupados por la salud que las otras personas. b) Los extravertidos e introvertidos diferirán en su capacidad para aprender los nombres de las personas. c) La satisfacción laboral se correlacionará de manera negativa con el ausentismo. d) La autoestima se correlacionará con la confianza hacia el exterior.
3 Una estudiante desea demostrar que el cambio de actitud será mayor si a la gente se le paga más por hacer un discurso que contradiga sus actitudes actuales. Su profesor le indica que esto va directamente en contra de los hallazgos de investigación sobre “disonancia cognos citiva”. a) ¿Cuál sería para ella el nivel de significación apropiado a establecer? b) Si de modo original hubiera intentado utilizar el nivel ar5% ¿tiene ahora mayor o menor posibilidad de cometer un error tipo dos?
4 Una puntuación z (de dos colas) es significativa con p < 0.05. puesto que es mayor que el valor crítico de 1.96 para p < 0.05, es por ello que la primera línea del siguiente cuadro se señala como "verdadera”. ¿Puede usted completar el resto del cuadro con palomitas ( y ) cruces ( / ) ?
a) b) c) d) e) f)
2.0 1.78 23 2.88 3.35 2.22
Prueba de una o dos colas Dos Una Dos Una Dos Una
Verdadero o falso 0.05 0.05 0.025 0.002 0.001 0.01
verdadero
Sección II i
Pruebas simples de diferencia — no paramétricas
EMPLEO DE PRUEBAS DE SIGNIFICACIÓN — PROCEDIMIENTO GENERAL L a s pruebas de significación se utilizan cuando usted ha recopilado y organizado sus datos y ha llegado a un punto donde hace preguntas como: “Bueno, tenemos una diferencia justo como lo predijimos, pero ¿es una diferencia lo bastante grande o no como para que descarte una casualidad?” O “Es obvio que funcionó (la variable independiente); pe ro ¿ahora hacia dónde voy?” Escribir la sección de pruebas estadísticas de informes prácticos es una de las tareas más difíciles para un estudiante nuevo de psicología, con frecuencia debido a que todo el proceso lógico no se ha absorbido por completo, así que ’.e recomiendo regresar a esta sección siempre que desee organizar esta parte de su informe práctico. Veamos, en términos breves, lo que hicimos en el capítulo anterior. 1 Obtuvimos una diferencia. Una descripción de nuestros datos brutos fue: correctos 8; incorrectos 2. 2 Calculamos el máximo número de errores (con esta forma y datos cuantitativos) que daría un resultado menos posible de ocurrir que cinco veces en 100. Este valor fue 1. 3 Comparamos el resultado de nuestra amiga con este “valor crítico” . 4 Decidimos el lado en el que está el valor crítico —el lado no significátivo— porque quisimos 1 para significación, pero obtuvimos 2 (conocido como s en la prueba de signo más adelante).
306 • Métodos de investigación y estadística.
(Sección.
5 Por consiguiente informamos la significación o no en el nivel de probabiüóK establecido (0.05). En forma oficial, este nivel debe fijarse antes de realizar la pruebe, perop < 0.05 es el máximo tradicional. Ésta es una manera de establecer cuán seguros estamos de que la hipótesis nula es incorrecta. Si los resultados no son significativas, no estamos lo bastante seguros para rechazar la hipótesis nula. Ésta es la secuencia lógica detrás de cualquier prueba de significancia, sin importar k* complicada que pueda volverse. De hecho, un aspecto de la secuencia anterior es aún más sencilla. No calculamos el valor crítico —lo buscamos en las tablas. Usted verá, a p a r r del cálculo de la PRUEBA DE SIGNO más adelante, que el valor 1 que hemos manejado er el capítulo anterior se proporciona directamente en las tablas al final del libro. Si e ss utilizando un programa de cómputo, obtendrá la probabilidad exacta de que la hipóte?? nula sea correcta y no tendrá, ni siquiera, que consultar las tablas. El cuadro I I —1 muescz el proceso completo en términos formales. Las primeras pruebas cubiertas en este libro se llaman “ no paramétricas” . Obtiene* este nombre debido a que no hacen ninguna conjetura acerca de parámetros de población subyacentes (capítulo 17). Esto es, no confia en estimaciones de la media y desviacicc estándar de la población, con el fin de ver qué tan lejos están los datos obtenidos de dicte? estimaciones. Esto es lo que sucede en las pruebas paramétricas, las que abordaremos er capítulos más adelante.
Cuadro 11-1. Procedimiento estándar para conducir e informar resultados de una prueba estadística de significación Elija u n a prueba estadística apropiada
Cuando hayamos cubierto todas las pruebas, el capitulo 24 le ayudará con este punto
C a lc u le la p ru eb a e stad ística
En nuestro caso del tipo de sexo fue 2, el número en que se equivocó nuestra amiga. Én todos los casos, la estadística se denotará por una letra, por ejemplo, t 0 U. En nuestra prueba, s = 2
C o m p a re la p rueba e stad ística con tos valo re s crític o s en las tablas
Considere
Al final del libro se proporcionan las tablas de todas las pruebas abarcadas. Al calcular el valor crítico, consideramos:
1 Número de casos en la muestra o g l
1 N = 10
2 Si es de una o dos colas
2 Prueba de una Col|
31
3 p < 0.05 Valor crítico de 1
D ecida e n q u é la d o d e F v á lb r crítico está su resultado: ponga atención a las
Nuestro resultado estuvo en el lado no significativo del valor crítico
instrucciones que indican las tablas Mantuvimos la hipótesis nula. Encontra mos una probabilidad > 0.05 que fue verdadera. Así no tuvimos la suficiente seguridad para rechazarla
Pruebas de nivel nominal
Esta sección presenta pruebas de diferencia significativa. Es muy importante comprender y utilizar !a manera convencional y lógica de los pasos del informe en el proceso de decisión de significación. B conjunto general de pasos, para cualquier decisión de significación, se da y se relaciona con mantener o rechazar la hipótesis nula. Las pruebas que se presentan en este capítulo son “no paramétricas", lo que significa que no confían en suposiciones de parámetros de población subyacentes (media, varianza) como se requiere para las pruebas paramétricas. Las pruebas que abarcamos aquí están en el nivel nominal de medición. Estas pruebas son: • Prueba de signo binomial (mejor conocida como solamente “prueba de signo”). • Chi cuadrada (X2) — prueba de asociación entre dos variables. — 2x2.
— R x C (más de dos columnas o renglones). — Bondad de ajuste. — Una variable, dos niveles. Existen limitantes en el uso de la X 2: los datos deben ser de frecuencia, no razones, medias o proporciones, y deben pertenecer de manera exclusiva a una u otra categoría, por ejemplo, el mismo caso (persona) no debe aparecer en más de una ''celdilla” de la tabla de datos. Hay un debate estadístico en cuanto a qué hacer cuando las celdillas de frecuencia esperadas son bajas. Lo mejor es evitar, en lo posible, frecuencias de celdas bajas, pero con todas las muestras de tamaño mayor a 20, el riesgo de un error tipo I es bajo de manera aceptable, sin utilizar la corrección de Yates (como era tradicional).
308 • Métodos de investigación y estadística..
(Capitulo 13
DATOS RELACIONADOS — PRUEBA DE SI$NO BINOMIAL (COMÚNMENTE ABREVIADA COMO “PRUEBA DE SIGNO”)
CONDICIONESPARASUUSO • Diferencias o correlación • Nivel de datos • Tipos de diseño
Diferencias Nominal Relacionado
DATOS Un psicoterapeuta desea evaluar el proceso terapéutico. Una manera es preguntarle a los clientes si después de tres meses de terapia se sienten mejor consigo mismos. Se les pide que valoren su autoimagen dando una puntuación, entre 20 posibles, antes y después de los tres meses de terapia (cuadro 15-1).
Cuadro 15-1. Datos de la terapia A
B Puntuaciones
Nó. cliente (N =10)
Preterapia
Después de tres m eses de terapia
Diferencia (B-A)
Procedimiento
Cálculo de nuestros datos
1 Calcule las diferencias entre A y B, siempre restando en la misma direc ción. Si se tiene una hipótesis de una cola, tiene sentido restar la puntua ción que se espera sea la menor de aquella esperada a ser la mayor. Anote la diferencia en la columna C.
Véase la columna C.
Pruebas de nivel nominal • 309
2 Anote el signo de la diferencia en la columna D. Ignore cualquier valor cero (por ejemplo, en casos donde no existe diferencia en pares de pun tuaciones). 3 Sume el número de veces que ocurre el signo de menor frecuencia. Llámele “s” . 4 Encuentre la línea pertinente de valo res críticos en la tabla 3, apéndice 2, donde N = número total de signos positivos y negativos (no ceros). De cida si pone atención a valores “p ” de una o dos colas. 5 Compare s con los valores críticos mos trados para el nivel de significancia fijado, s debe ser igual o menor al valor crítico para que los resultados se consideren significativos. 6 Haga un enunciado de significación.
Véase la columna D. N se convierte en 9 porque un resultado es cero.
Los signos negativos ocurren con me nos frecuencia, así que s = 1. Consulte la tabla y mire la línea hori zontal junto a N = 9. Debido a que la terapia debió m ejorar la autoestima de la gente, estamos conduciendo una prue ba de una cola. Nuestra s es 1. El valor crítico bajo la columna denominada “p < 0.05” (una cola) es 1. Entonces, nuestros resultados se ajustan a las condiciones requeridas para significancia. Rechazamos la hipótesis nula. La pro babilidad de estar equivocados al hacer lo es p < 0.05 (pero véase el apartado 15.1).
RESUMEN La prueba sólo mira la dirección de las diferencias. El valor Crítico nos dice el número máximo de diferencias en la dirección no deseada que podemos obtener y, aún así, considerar nuestros resultados significativos en un nivel particular.
NOTASEXPLICATIVAS El nivel es nominal porque, para cada resultado, todo lo que sabemos es si hubo diferencia y su dirección. Comenzamos con datos de intervalo plástico pero lo redujimos a sólo signos de diferencia, perdiendo así cualquier información acerca de los tam años de las diferencias. Para cada resultado sólo tenemos tres categorías posibles: “ +” , o “ 0” . En nuestra prueba sólo utilizamos dos de éstas, ignorando los ceros. Aquí la hipótesis nula es que los signos “más” no son más numerosos de lo que esperamos por azar. Implícito a esto está el punto de vista interpretado de que nuestros 10 clientes no se va loraron a sí mismos muy distinto de cualesquiera otras 10 personas que se Ies pidiera valoraran su autoimagen con un intervalo de tres meses y sin terapia. Rechazamos este en foque porque estamos rechazando la hipótesis nula estadística. Otra manera de ver este razonamiento de manera puramente estadística es obtener muestras de nueve eleatorias (ignorando ceros) y con reemplazo, de un barril que contiene igual número de signos más y menos podríamos obtener una distribución así de extrema (8:1) menos veces que 1 en 20.
310 • Métodos de investigación y estadística..
(Capítulo I:
Apartado 15-1. Fijando el nivel de significación antes y después de tener los resultados Existe un debate de antaño entre los expertos en estadística “ortodoxos” é investi gadores prácticos. Los primeros argumentan que las “reglas” dél juego, al probar la significación, dicen que uno debe fijar el nivel que es aceptable antes de realizarla, y que entonces éste es el único nivel que se debe informar de manera legitima. P(K ejemplo, suponga que afirma que rechazará la hipótesis nula si la probabilidad de un error tipo I (equivocarse en el rechazo de la hipótesis nula) es menor a 0.05. Si sucede que su resultado es en realidad extremo, le “pega" al valor crítico para p < 0.001, por ejemplo, de acuerdo a este enfoque, usted no puede informar nada más que sus resultados fueron significativos en el nivel establecido (0.05). Sin embargo, en la práctica, la mayoría de los estudiantes e investigadores en psicológía hubieran informado el “mejor” valor obtenido. Por ejémplo, en la prueba de signo que acabamos de calcular, el investigador puede informar que la diferencia fue significativa con p < 0.025, porque si mira de nuevo las tablas, verá que I también es un valor crítico en la columna de 0.025 (una cola). Creo que no soy ortodoxo en esto. Me parece que no está mal decir: “Nuestro resultado fue, de hecho, menos probable de ocurrir por azar que 2 V2 veces en 100”. Es importante recordar que un resultado significativo en p < 0.001 no es de manera necesaria “mejor” que aquel en p < 0.05. Un efecto altamente significativo puede, sin embargo, ser muy débil si la muestra es muy grande. Éste es un argumento más en contra de muestras demasiado grandes que se explica con mayor amplitud en el capítulo de correlación.
+
-
8
1
Figura 1 5-1 . La prueba de signo da la probabilidad de obtener signos positivos y negativos aleatoriamente.
DATOS NO RELACIONADOS — LA PRUEBA X2 (TAMBIÉN ESCRITA COMO CHI CUADRADA)
CONDICIONESDEUSO • Diferencias o correlación • Nivel de datos • Tipo de diseño
Diferencias (probadas por “ asociación”) Nominal No relacionado
Pruebas de nivel nominal • 311
■ Nota especial
Los datos deben estar en forma de frecuencias. A pesar de que estamos buscando diferencias en el efecto de la VI, de hecho, la prueba se enfoca a la asociación entre las categorías de renglones y columnas.
Basten otras limitantes en el uso de la X s, señaladas al final de este capítulo.
ZATOS lo s resultados en el cuadro 15-2a en realidad se obtuvieron de un taller de psicología •jct estudiantes que observaban conductores varones y mujeres ante un semáforo para peatones. Observaron si el conductor se detenía o no al acercarse a la luz del semáforo otando ésta cambia a ámbar. Éstas son las frecuencias (capítulo 12).
Procedimiento
Cálculo de nuestros datos
1 Otorgue una letra por celdilla a los datos brutos (FRECUENCIA S O BSERVAD AS ) 2 Calcular las FRECUENCIAS ESPERADAS correspondientes como sigue:
Véase cuadro 15-2a
X
323 -«i OO
Celda A: £ =
177 _
Fórmula: E = — donde:
Celda B: £ =
R = total de celdas de renglón (A + B) o (C + D)
Celda C: £ =
145 x 146 = 65.54 323
C = total de celdas de columna (A + C) o (B + D)
Celda D: £ =
145 x 177 _ = 79.46
T
323
323
312 • Métodos de investigación y estadística.
(Capítulo 15
T= total de todas las celdas (A + B + C + D) 3 Denomine a los datos de las celdas ob servadas “O” y a las celdas esperadas “E ” y coloque los valores en la si guiente ecuación x2 =
^ procediendo asi:
Paso a Celda ( O - E )
a) Reste £ de O b) Eleve al cuadrado el resultado del paso a c) Divida el resultado del paso b entre
£
d)
Sume los resultados del paso c
4 Encuentre los GRADOS DE LIBERTAD como sigue gl = ( R - 1) ( C - 1) donde R es el número de renglones y C el de columnas 5 Utilizando el gl encontrado, consulte la tabla 4 (apéndice 3) y encuentre el valor crítico pertinente 6 Tome la decisión de significación
gl = 1 x 1 = 1 Utilizando gl = 1 encontramos que se requiere un valor de 3.84 para una sig nificación con p < 0.05. Nuestro valor obtenido es mayor que e! valor crítico requerido. Observe qua con X , los valores que se obtienen deben ser mayores que el valor crítico. Siempre verifique las instrucciones en las tablas. También observe que no hubiéramos podido presentar la significación en un nivel más alto. No “ alcanzamos” e’ valor crítico parap < 0.01, que es 5.41.
N ota 1: P ruebas d e u n a y dos COLAS CON X 2 —Siempre utilice valores de dos colas excepto en el caso especial que se analizará más adelante. ¡No se preocupe! X2 es la única prueba que no sigue el patrón usual de las pruebas de una y dos colas. Aquí no importa en qué dirección hagamos la predicción, seguiremos utilizando valores de dos colas.
Pruebas de nivel nominal • 313
^tfT A 2: GRADOS d e LIBERTAD —Éste es un concepto muy complicado de explicar con n rtitu d . Para diversas pruebas en este libro, antes de verificar los valores críticos en las re? as, es necesario que sepa cuáles son los grados de libertad. En la pruebaX 2 se calcula rorro se mostró antes. Una manera de pensar en este concepto es preguntar “¿Cuántas re as celdas (A, B, C y D) en una tabla de frecuencia de 2 x 2 son libres de variar?” Si rorocemos los totales de los renglones y columnas, entonces, una vez que llenemos una recilla, todas las demás se hacen de modo automático. En el cuadro 15-2a, una vez que arem os que hay 90 conductores femeninos que se detuvieron, dando los totales de •renglones y columnas, los valores 88, 56 y 89 siguen de manera automática; no pueden « r diferentes. Por ende, sólo tenemos un grado de libertad en una tabla de 2 x 2, ya que mro una celda es libre de variar.
*ota 3: Algunos libros de texto, y la primera edición de éste, aún se apegan a una versión renservadora de la fórmula de X 2 cuando gl = 1, utilizando lo que se conoce como 'rorrección de Yates” . Sin embargo, de acuerdo con la mayoría de la práctica moderna, ase uso se ha desechado en esta segunda edición. Aún existe algún peligro, con ■frecuencias totales bajas, de rechazar la hipótesis nula cuandop > 0.05. Esto se analizará Tías adelante en esta sección.
=5nnula rápida de 2 x 2 >5*o se puede utilizar cuando haya dos columnas y dos renglones, como en el ejemplo Hiterior. Elimina el trabajo de calcular frecuencias esperadas y si tiene calculadora, verá m e se puede hacer con un movimiento de las celdillas totales:
ámde N es el tamaño total de la muestra. RESUMEN La prueba considera la variación entre las frecuencias observadas y las esperadas —aquellas esperadas si, dados los totales de renglones y columnas, no hubo en absoluto •ringuna asociación entre las variables verticales y horizontales—, es decir, ninguna relación sistemática entre la VD y los niveles de la VI.
IOTAS EXPLICATIVAS 5 considera nuestros datos, es obvio que, de los 177 varones que se observaron, sólo 50% de ellos se detuvo ante la luz ámbar, mientras que 62% de las mujeres (90 de 146) s lo hizo. La prueba X 2 observa estas proporciones relativas. Consideremos un ejemplo frcticio pero conveniente. Suponga que a 50 personas muy extravertidas y a otras tantas muy introvertidas se ’es preguntara si se sentirían a gusto ep una playa nudista. Los resultados podrían ser am o aquellos en el cuadro 15-3a. Observe que, del total de 100 personas, 50 dijeron
314 • Métodos de investigación y estadística. . .
(Capítulo 75
Se sentirían: Confortable Incómodo Total
que sí estarían confortables y 50 dijeron que no. Pero estos 50 no están distribuidos de manera equitativa entre los dos tipos de personas. Una amplia proporción de los extraver tidos se sentiría cómoda. Estadísticamente, ya que 50 de 100 personas en total dijeron que se sentirían a gusto, esperaríamos que la mitad, tanto de introvertidos como de extravertidos, dijeran esto, si es que no hay relación entre extraversión/introversión, y sentirse bien en una playa nudista. Si usted está de acuerdo con este punto, entonces, de hecho habrá realizado mentalmente una versión de la fórmula de celdillas esperadas T
Estuvo de acuerdo en que 1/2 (50/100) de cada 50 debieran aparecer en cada celdilla, por ejemplo. 50 100
-----------X
en 50
Imagine que tomamos demasiadas muestras de este tamaño de manera puramente aleatoria. Obtendríamos muchos resultados cercanos a los mostrados en el cuadro 15-3b. Aquí, la hipótesis nula es que nuestra distribución observada (los resultados que de hecho obtuvimos cuadro 15-3 a) no difiere en modo significativo de aquellos en el cuadro 15— 3b. La función de A* es decimos qué tan improbable es que esto suceda. Permítame presentar otro ejemplo imaginario que, espero, explicará de manera gráfica lo que hace la A2. Suponga que lanzamos pelotas hacia el centro del equipo que se muestra en la figura 15-2, que se supone es una caja dividida en cuatro compartimentos iguales. Las pelotas rebotan alejadas del centro de manera aleatoria. Nos detenemos cuando todos los renglones y columnas suman 50 — lo que hace todo el proceso no aleatorio, pero sólo es un ejemplo ilustrativo. Cada vez que hagamos esto obtendríamos resultados similares a los del cuadro 15-3b. Sin embargo, ahora de nuevo, bajo las “ leyes” de la probabilidad, pueden ocurrir variaciones extrañas muy distantes de estas frecuencias. El cálculo de X' nos dice qué tan frecuente, en términos de probabilidad, podríamos esperar un resultado tan extremo como el que en realidad observamos.
o
o
o -o o
o
o
o o o
o
De hecho, el cálculo de A2 en los datos de extraversión/introversión muestra una gran xsvíación de los datos esperados. A2 es 33.64 y la probabilidad de que este valor ocurriera roe: p < 0.0001. Entonces, podemos asumir con seguridad, si estos resultados fueran rm o s, que se puede rechazar la hipótesis nula, lo que sustentaría (¡no probaría!) la teoría re rué el sentirse confortable con nudistas se asocia con la extraversión. La prueba A2, de -eróo, se denomina con frecuencia, PRUEBA DE ASOCIACIÓN entre dos variables. De regreso a nuestros datos originales reales, tenemos que las frecuencias esperadas ronestran que 178 conductores sí se detuvieron de un total de 323, entonces esperaríamos 323 de los 146 conductores femeninos a detenerse, si el sexo no está asociado con retenerse ante la luz ámbar. Este valor esperado es 80.46. De hecho, 90 mujeres se retrovieron. Los conductores masculinos se detuvieron con menos frecuencia que lo que - totales esperados pudieran predecir en la hipótesis nula. Al ser la A2 significativa en - < 0.05, suponemos que el sexo (femenino) está asociado con detenerse ante la luz ámbar.
Precaución con pruebas y exámenes! Es muy fácil tener la idea equivocada de frecuencias esperadas. Al preguntar qué son, la rente contesta que son “ lo que el investigador espera” o algo similar. Espero que usted re dé cuenta de que son lo opuesto a lo que el investigador (por lo común) quiere que receda. Las frecuencias esperadas son lo que se espera que suceda (de modo usual) m jo la hipótesis nula, (por ejemplo, si “nada está pasando”). PRUEBA R x C / *odemos extender esta prueba a situaciones donde cualquiera de las dos variables sujetas i prueba de asociación tiene más de dos valores. Pueden haber R renglones y C columnas, ’tir ejemplo, cuatro universidades se pueden comparar en cuanto a la ejecución de sus ju d ian tes en un examen de psicología de nivel elemental A:
■ Aprobado Reprobado Total
32 5 37
B
e
o
Total
46 12 58
34 18 52
23 1 24
135 36 171
316» Métodos de investigación y estadística
(Capítulo 1.
La prueba nos dirá si estas tasas de aprobado y reprobado son diferentes de mod* significativo entre las cuatro universidades. Los grados de libertad serían aquí (R - ! (C - 1) = (2 - 1) (4 - 1) = 3. Puede ver que, una vez que se conocen tres celdillas, fes demás se ajustan dados los totales de los renglones y columnas. No he incluido el cálcu»? ya que sigue exactamente el método anterior. El resultado de A2 es 11.14 y p < 0.02.
PRUEBA X2 DE “BONDAD DE AJUSTE” Un empleo especial de A2 ocurre cuando deseamos investigar un conjunto de datos medidos bajo una sola variable. Por ejemplo, suponga que no estamos interesados en las diferencias de sexo al detenerse ante la luz ámbar. Sin embargo, nos interesa el compor tamiento de los conductores ante una variedad de puntos de detención del tránsito. Considere este cuadro:
Cuadro 15-6. Infracciones por no detenerse para el Condado de Undershire
Glorieta 47
Luz roja en intersección 17
Semáforo 19
Cruce peatonal
Intersección controlada por policía de tránsito 3
Total
Una “ prueba a ojo” de estos datos con seguridad nos lleva a sospechar que los conductores son mucho más descuidados o irrespetuosos de las reglas de tránsito en las glorietas que en otros lugares (y, claro, ¡obedientes con los oficiales de policía!). Podemos considerar esto como una prueba RC con sólo un renglón pero con cinco columnas. Tenemos que calcular los grados de libertad desde los principios iniciales porque R -1 = 1 -1 = 0 ¡lo cual no se permite! Pero, hay cinco celdillas y, conociendo el total dd renglón, cuatro de ellas están libres de variar antes de que se ajuste la última. Así que los grados de libertad para una prueba de “bondad de ajuste” se dan por C - 1.
Cálculo 1 Calcule las frecuencias esperadas con la base de la hipótesis nula de que todas las celdillas deben ser iguales. 2 Utilice la ecuación de X2 como antes, usando los valores observados del cuadro 15-5 y las frecuencias es peradas calculadas:
98 -H5 = 19.6
O: Al 17 19 12 3 E\ 19.6 19.6 19.6 19.6 19.6
I
Pruebas de nivel nominal • 317
(0 -E ) Celdilla A 4 7 -1 9 .6 = 27.4 Celdilla B 17 -1 9 .6 = -2.6 Celdilla C 19-19.6 = -0 .6 Celdilla D 12-19.6 = -7 .6 Celdilla E 3 -1 9 .6 = -16.6
b
(0 -E )2
27.42 = 750.76 -2.62 = 6.76 -0.62 = 0.36 -7.62 = 57.76 -16.62 = 275.56
c
(O - E f/E
750.76/19.6 = 38.30 6.76/19.6= 0.34 0.36/19.6= 0.02 57.76/19.6= 2.95 275.56/19.6 = 14.06 X2 = 55.67
-I Encuentre el valor crítico usando gl y valores de dos colas.
gl = 4 el valor crítico parap< 0.001 es de 18.46.
5 Tome la decisión de significación,
Suponga que podemos rechazar la hipótesis nula de no haber diferencia con p < 0.001 de un error tipo uno.
Vuestro resultado es mucho más alto que el valor máximo en la tabla, así que hay una ^protuberancia” significativa en la distribución de las puntuaciones. Observe que el cálculo de la celdilla E contribuye, en gran medida, al valor global de X2, pero nunca como la contribución de la celdilla A. El mal comportamiento en la glorieta está muy alejado del número promedio de infracciones menores por categoría de lo que está la Obediencia en cruceros controlados por policías de tránsito.
'BONDAD DE AJUSTE” Y DISTRIBUCIONES NORMALES Esta prueba se puede utilizar para decidir si una muestra grande se aproxima de modo cercano a una distribución normal o no. En este caso, nuestras frecuencias esperadas se calcularían conforme a la tabla 2 (apéndice 3), la cual muestra qué proporción de una población distribuida normalmente cae entre diversas puntuaciones z. Por ejemplo, para reía distribución normal esperamos que 34.13% de todos los valores caiga entre la media > una desviación estándar (z = + 1) y 13.59% debiera caer entre una y dos desviaciones estándar de la media (entre z = + 1 y z = +2). La “bondad de ajuste” de X 2 compara la proporción de nuestra distribución real con estas proporciones ideales.
UNA VARIABLE, SÓLO DOS CATEGORÍAS Éste es un caso especial de “bondad de ajuste” de A2, donde podemos tener datos medidos en una sola variable y divididos en dos celdillas. Suponga, por ejemplo, que le dijimos a !a gente que una persona ficticia es “cálida” y le pedimos que decidiera si también sería alegre o triste. Les podríamos pedir que valoraran varias opciones como “ opuestas bipolarmente” , pero manejaremos sólo un resultado que se muestra en el cuadro 15-6. Si la gente hace elecciones aleatorias (la hipótesis nula), entonces tendríamos cerca de la mitad del total en cada celdilla, esto es, 25. Así que las frecuencias esperadas son 25 para cada celdilla. Entonces, el cálculo procede de la manera habitual.
318 • Métodos de investigación y estadística
(Capitulo 15*
Cuadro 15-6. Puntuaciones de "cálido” D esconten tó N o. de s u je to s q u e eligen
8
El valor de A2en este caso sería 23.12. Espero que lo encuentre altamente significativo. Éste es el “ caso especial” al que nos referimos con anterioridad cuando decidimos que la prueba fuera de una cola, si nuestra hipótesis predijera de manera correcta la dirección de cualquier diferencia.
LIMITACIONES EN EL USO DE LAX2 Las observaciones deben aparecer sólo en una celdilla. Por ejemplo, si vemos a varones y mujeres nadadores y en carrera con vallas, una persona podría aparecer en ambas categorías si practicara ambos deportes. Esto invalidaría el uso de la A2. Las frecuencias reales deben aparecer en las celdillas, no porcentajes, proporciones o números que hagan cualquier otra cosa que contar. Por ejemplo, no puede aparecer la media de una variable de nivel de intervalo.
Frecuencias bajas esperadas Una limitación con la que la actual generación de profesores de psicología del nivel elemental (incluyéndome a mí) probablemente se ha desarrollado es que en su mayoría uno no debe proseguir con la prueba A2 donde las celdillas de frecuencias esperadas caen por debajo de 5. En la primera edición de este libro, recomendé la regla general que yo heredé y que proviene de Cochran (1954), la cual se refiere a que no más de 20% de las celdillas esperadas deben caer por debajo de 5. Esto eliminaría cualquier 2 x 2 en la que al menos una celdilla esperada fuera menor que 5.
Cuadro 15-8. Edad
5 años 7 años Total
C o n serv ad o
N o c o n s ervad o
Total
2 6 8
6 2 8
8 8 16
Pruebas de nivel nominal • 319
No me había percatado de la trampa en la que estábamos cayendo. Después de recibir thersas comunicaciones, me aboqué a investigar con más detalle. La posición más roraún en la investigación contemporánea parece ser que con una m uestra total de más fe 20, la prueba acepta frecuencias esperadas tan bajas como 1 o 2 en una o dos celdillas. Ir? un diseño 2 x 2 , que utilizan muchos estudiantes en sus prácticas, para obtener tres resdillas con frecuencias esperadas inferiores a 5, debe haber algo muy cargado hacia un 3Co en el muestreo. Hablando en términos estadísticos, un típico conjunto de datos ^servibles pudiera ocurrir con un proyecto mal pensado donde, como se muestra en el roadro 15-7, se ha decidido ver si, de una clase disponible de estudiantes, los zurdos •ambién tienen mejor audición del lado izquierdo. No se necesita tomar un curso de sad ística para darse cuenta de que ninguna conclusión importante se obtendrá de estos réros. P ara m uestras totales de tam año inferior a 20 y dos celdillas por debajo de 5, el riesgo de un error tipo uno es muy alto. Por ejemplo, los datos mostrados en el cuadro '5 -8 dan una A2 de 4.0 (que es “ significativa” para un gl) aún és sencillo ver, de nuevo, sm mucho entrenamiento estadístico formal, que el resultado era más o menos posible de aoe ocurriera, sólo dos niños en cada grupo de edad necesitaron irse, en direcciones rpuestas, de las frecuencias esperadas de cuatro en cada celdilla para que estos resultados ocurrieran. De los principios iniciales (manejando todas las combinaciones posibles) la TTObabilidad de que estos resultados ocurrieran es en modo sustancial mayor a 0.05. Si osted tiene este tipo de datos, no toma mucho tiempo manejarlos a partir de los principios iniciales, pero es mucho mejor asegurarse de que su análisis será válido tomando una -nuestra lo bastante grande con un diseño sensible. Aun con cuadros mayores a 2 x 2, si diversas frecuencias esperadas caen por debajo de 5 y los totales del renglón o columna =on muy sesgados, se incrementa la posibilidad de un error tipo I. '
Prueba exacta de Fisher Esta prueba se puede utilizar si los totales del renglón y columna están arreglados antes de comenzar el estudio. Sin embargo, esto es muy raro en la investigación psicológica. Un ejemplo podría ser cuando usted decide seleccionar 20 niñas y 20 niños, y se asegura de que a 20 de ellos les gustan las armas y al resto no, entonces busca la asociación entre el sexo del niño y la preferencia por las armas.
GLOSARIO Número de celdillas en cuadros de frecuencia libres de variar si se conocen los totales de renglón y columna. También empleados en otras pruebas donde se define el número de valores individuales libres de variar cuando se conoce el total del grupo
grados de libertad
320 • Métodos de investigación y estadística. . .
(Capitulo 15
Prueba de asociación entre dos va riables usando datos no relaciona dos de nivel nominal Prueba de nivel de frecuencia usada para decidir si una distribución dada se acerca lo suficiente a un patrón teórico Prueba de nivel nominar para dife rendas entre conjuntos de datos relacionados
E j e r c ic io s
1 Conduzca una prueba X123con los siguientes datos: a favor en contra Políticos de izquierda de derecha
17 33
48 16
2 ¿Se puede llevar a cabo una prueba X2 con los siguientes datos?
7 1 2 7
3 Una encuesta (ficticia) informa que en una muestra de 100 personas, 91 están en contra de la privatización de los servicios de salud, mientras que 9 sí apoyan la idea. a) ¿Qué prueba de significación se puede realizar con estos datos? b) ¿Esa prueba sería de una o dos colas si los resultados estuvieran en la dirección predicha? c) Si para una muestra grande sólo sabemos que 87% de las personas estuvieron en contra de la idea y 13% a favor, ¿podríamos realizar la misma prueba para ver si esta división es significativa? d) Calcule el valor de X2 y verifique su significación.
Pruebas de nivel nominal • 32 J
* Un estudio de campo arrojó la siguiente tabla de resultados:
Frecuencias o b se rvadas S a b o r preferido
A
B
F recuencias esp erad as
A
C
B
C
Edad
Menores de 14 14 a 30 Mayores de 30
3 4 3
8 6 7
4 2 23
2.5 2.0 5.5
5.25 4.2 11.55
7.25 5.8 15.95
a) ¿Cuántos grados de libertad están involucrados aquí?
b) ¿Parece prudente conducir una prueba X 2 con estos datos?5 5 Se envió a 9 personas a un curso de entrenamiento de habilidades interpersonales. Se les pidió que valoraran su opinión acerca de la necesidad de este tipo de cursos, antes y después de la asistencia al mismo. Siete de ellos valoraron la necesidad más baja al haber asistido, uno la valoró más alta y otro no cambió de opinión. Utilizando una prueba de signo, decida si es significativo este efecto negativo en apariencia acerca del curso. ■
Pruebas de nivel ordinal
Las pruebas que aquí se presentan están en el nivel ordinal de medición. En este caso, a los datos que en principio pudieron estar en el nivel de intervalo (o intervalo “plástico”) se les dan rangos y éstos son los valores que se utilizan en las pruebas. Éstas son:
• Rangos con signo de Wilcoxon — Datos relacionados • Ude Mann-Whitney — Datos no relacionados • Suma de rangos de Wilcoxon — Datos no relacionados (más sencillos de calcular que la Mann-Whitney) Se proporcionan fórmulas para cuando N es grande, donde la estadística de la prueba de nivel ordinal se puede convertir a puntuación z y ser verificada en tablas de distribución normal.
DATOS RELACIONADOS —PRUEBADERANGOS CONSIGNODEWILCOXON(7)*12 E s t a es una de las dos pruebas principales utilizadas a nivel ordinal para la prueba de referencias. Una es para diseños relacionados y la otra para no relacionados. Hay dos puntos en los que se debe ser cuidadoso: 1 El estadístico de Wilcoxon se conoce como “ 7” y es demasiado fácil de confundir con la prueba (minúscula) que conoceremos más adelante como una prueba paramétrica. 2 También hay una prueba de “suma de rangos” de Wilcoxon que trabaja con datos no relacionados y que puede utilizarse en lugar de la prueba Mann-Whitney, misma que veremos después de ésta.
324 • Métodos de investigación y estadística.
(Capítulo 16}
CONDICIONESDEUSO • Diferencias o correlaciones • Nivel de datos • Tipo de diseño • Acotaciones especiales
Diferencias Ordinal; los datos deben poder convertirse en rangos de modo significativo* Relacionado No se confunda con: 1 La prueba t 2 Prueba suma de rangos de Wilcoxon para datos no relacionados Cuando N es grande (> 20) véase más adelante ‘‘Cuan do N es grande”
DATOS Se pidió a unos estudiantes que evaluaran dos métodos de ensefianza/aprendizaje, experimentados por un periodo escolar cada uno, utilizando un cuestionario de actitudes desarrollado de manera especial.
Cuadro 16-1. Datos de evaluación de los estudiantes E studiante ( N = 15)
Arturo Benito Bonifacio Carlos César Genaro Hugo Lauro Mauricio Pablo Pedro Raúl Sergio Tomás Wilfredo
C alificación de clase tradicional A
C alificación del m éto do basado en tareas B
D iferencia (B -A) C
23 14 35 26 28 19 42 30 26 31 18 25 23 31 30
33 22 38 30 31 17 42 25 34 24 21 46 29 40 41
10 8 3 4 3 -2 0 -5 8 -7 3 21 6 9 11
R ango de d iferencia D
12 9.5 3 5 3 1 6 9.5 8 3 14 7 11 13
* No es legítimo hacer rangos con los datos cuando una diferencia no es altam ente más significativa que la otra. Esto puede suceder cuando existen efectos de techo (y piso). Por ejemplo, si A na m ejora de 10 a 15 puntos en la prueba de lectura, pero Javier increm enta de 17 al máximo que es 20, no es justo indicar que el incremento de Ana es “ m ejor” , y a que Javier no tuvo oportunidad de m ostrar su incremento potencial.
Pruebas de nivel ordinal • 325
“ rocedimiento 1 Calcule la diferencia entre los pares de puntuaciones (en las columnas A y B), siempre restando en la misma direc ción. AI igual que con la prueba del signo, con la hipótesis de una cola tiene sentido restar en la dirección que se predice irán las diferencias; es decir, predecir el valor más pequeño del más grande. 2 Dé un rango a las diferencias de la ma nera usual (véase la página 156). Ignore el signo de la diferencia. Por ejemplo, a la puntuación de Laver (-5) se le da el rango 6 porque es el siguiente más grande, en tamaño absoluto, después del valor (+4). También ignore cual quier valor cero. Estos resultados se omiten del análisis.* 3 Encuentre la suma de los rangos de di ferencias positivas, y la suma de ran gos de diferencias negativas. La menor de éstas1" es T. Si la suma de un con junto de rangos es claramente mucho más pequeña, sólo necesitará añadir ésta. 4 Encuentre la línea relevante (utili zando N, la cual no incluye diferen cias cero) en la tabla 7 (apéndice 2) y decida si pone atención a valores de una o dos colas. 5 Encuentre el valor crítico más bajo al que no exceda T. Si T excede todos los valores críticos, los resultados no son significativos.
Cálculos en nuestros datos Véase el cuadro 16-1.
Véase el cuadro 16-1. Observe que los resultados de Higgs se sacaron del aná lisis.
Suma de rangos de diferencias de signo negativo (-2, -5 y -7) serán menores de modo obvio. Entonces, sume sus ran gos: 1 + 6 + 8. Por tanto, T = 15.
La línea relevante es N=\A (recuerde que se descartó un resultado). Asuma que no se predijo el método de en señanza preferido. Por tanto, es ap ropiada una prueba de dos colas. T no excede 25,21 ni 15, pero sí excede 6. 15 es, por tanto, el valor crítico es relevante. Está debajo de p < 0.02.
* Casi todos los escritores indican que se deben ignorar las diferencias en cero, así que siéntase seguro de hacerlo. Sin em bargo, incurrió en un pequeño sesgo y Hays (1973) aconseja lo siguiente: con núm eros p a re s de diferencia cero, dé a cada uno el prom edio de rango que todos los ceros pudieran obtener (su rango es inferior a 1) y de m anera arbitraria dé, a la mitad, un signo negativo. Haga lo m ism o con un núm ero im p a r, pero primero descarte uno de ellos de m anera aleatoria. Esto puede hacer algunos resultados significativos que de otra m anera no se conseguirían. Observe que esto no tiene ningún efecto sobre nuestro cálculo, con una diferencia en ce ro los métodos son los mismos. r Algunos libros de texto indican que T es la sum a de los rangos del signo de m enor frecuencia. Esto se debe a que p o r lo co m ú n tam bién es la menor sum a de rangos. Cuando no lo es, usted puede estar seguro de que las diferencias no fueron significativas en el 5 por ciento. Si desea conocer la probabilidad de incidencia exacta (con un ligero error para m uestras pequeñas), entonces puede utilizar la fórm ula en la página 331 para hacer la conversión a puntuaciones z. El utilizar una sum a de rangos le dará el m ism o valor z que el otro, excepto con un signo opuesto. De m anera singular, ¡MINITAB mr siem pre le proporciona la sum a de los rangos positivos! (Pero tam bién le da la probabilidad exacta de T para ese valor.)
6 Emita un enunciado respecto de la significación.
Las diferencias son significativas (p <
0.02).
RESUMEN La prueba de Wilcoxon estima las diferencias entre los valores de pares relacionados. Les da rangos de acuerdo con su tamaño absoluto, ignorando la dirección de la diferencia. La T estadística se calcula al sumar los rangos de las diferencias positivas y negativas y tomando la menor. Los valores críticos son el valor máximo que puede tomar T para un nivel de significación en particular. En cierto sentido plantea la pregunta: ¿qué tan probable es que las diferencias de este tamaño, relativo a todas las otras diferencias, ocurra en la dirección “ equivocada” ?
NOTAS EXPLICATIVAS Al igual que la prueba del signo, la prueba Wilcoxon busca las diferencias de niveles apareados. La prueba del signo busca sólo la probabilidad de que el núm ero de diferencias en la dirección menos frecuente sea tan baja. La Wilcoxon también estima el rango de estas diferencias en relación con las otras. Si hacemos una predicción de una cola, de que las puntuaciones en una condición serán mayores que las puntuaciones en la otra, podemos decir, de manera informal, que el número más pequeño de diferencias (negativas) es “ indeseable” . La prueba pregunta, de hecho, “ ¿qué posiciones toman en el grupo total estas diferencias no deseadas en relación con las sí deseadas?” Suponga que le pedimos a varias personas que reciten el alfabeto de manera ascendente y descendente y tomamos el tiempo de su ejecución. ¿Podríamos predecir con seguridad un grupo de diferencias positivas si restamos el tiempo ascendente del descen dente? El muestreo aleatorio podría haber introducido a una persona con un manejo deficiente del lenguaje o a una que ha aprendido a recitar el alfabeto al revés como un truco para fiestas, o incluso a alguien que le encanta obstruir los experimentos psicológi cos. Este tipo de participantes podría producir un tiempo más rápido en reversa. Algunos participantes podrían realizar la tarea de manera cuidadosa en ambas direcciones, en cuyo caso las diferencias podrían estar de modo marginal en favor del descendente o del ascendente. Pero, en conjunto, deberíamos de encontrar la mayoría de las diferencias en la dirección más rápida descendente. Podemos aceptar un número pequeño de diferencias grandes en la otra dirección o bien un número grande de unas más moderadas. La tabla de valores críticos de T refleja esto. Por ejemplo, con N = 10, T debe ser menor o igual que 11 para que sea significativo al 5%, una cola. Por consiguiente la puntuación más baja (rango 1) y la más alta (rango 10) pueden estar (y sólo éstas) en la dirección no deseada. La T será entonces 11 y aún será significativa. Por otro lado, las puntuaciones de los rangos 2, 3 y 6 pueden estar en la dirección equivocada, como lo pueden estar los de las rangos 1,2, 3 y 5, puesto que, en cada caso, la T sólo es 11 y, por tanto, significativa. Esto demuestra las debilidades de los datos ordinales en donde no tomamos en cuenta la cantidad de la diferencia implicada. Dé un vistazo a los datos del cuadro 16-2.
Pruebas de nivel ordinal • 327
En ambos casos T = 11 y el resultado es significativo. El signo negativo significa que el niño ha respondido en la dirección opuesta a la tendencia, Juan y Tony han aumentado su agresividad y reducido la cooperación. El aumento de Juan es bastante mayor que cualquier reducción de la agresión, pero el nivel ordinal de los datos únicamente lo ponen en décimo lugar en el tamaño absoluto de cambio. Mientras que una T de Wilcoxon nos lleva a rechazar la hipótesis nula para ambos resultados, una prueba paramétrica (i) no lo haría, sugiriendo de este modo que rechazar ta hipótesis nula sería un error tipo uno, puesto que las pruebas paramétricas son las más poderosas.
DATOS NORELACIONADOS —PRUEBA(U) DEMANN-WHITNEY CONDICIONES DE USO • Diferencias o correlaciones • Nivel de datos • Tipo de diseño • Acotaciones especiales
Diferencias Ordinal; los datos deben convertirse de manera signifr cativa en rangos No relacionado Cuando N es grande (> 20) véase más adelante “Cuándo N es grande”
DATOS Se observó la tendencia de los niños al estereotipo de acubrdo con los roles sexuales tradicionales. Se les hizo preguntas acerca de varias historias. La puntuación máxima fue 100, que indicaba un estereotipo extremo. Se evaluaron dos grupos, uno con madres que tenían trabajo de tiempo completo y otro con madres que no trabajaban fuera de casa.
328 • Métodos de investigación y estadística .
(Capítulo 16)
No trabajan fu era de casa
Tenía n trab ajo s de tiem p o co m p leto N=7
Rango
A/ = 9
Observe que, debido a que el diseño es de muestras independientes, no se requiere que las muestras sean iguales en tamaño.
Procedimiento
Cálculo en nuestros datos
1 Si un grupo tiene menos sujetos lláme lo grupo A. 2 Dé un rango a todas las puntuaciones como si fueran un solo grupo. 3 Encuentre la suma de los rangos en el grupo A (Ra) y grupo B (/?B). 4 Utilice la siguiente fórmula para calcu lar U\.
Las mamás que trabajan tiempo com pleto son el grupo A. Véase cuadro 16—3. Véase cuadro 16-3. R a = 40; R b = 96.
5 Después calcule U b con base en: = 63 + - - 9 6 = 63 + 4 5 - 9 6
2
=
6 Seleccione el más pequeño entre Ua y UB y llámelo U. 7 Verifique los valores de U contra los valores críticos de la tabla 5, apéndi ce 2.
12
Puesto que 12 < 51, entonces U= 12. Los dos tamaños de nuestra muestra son 7 y 9. Manejaremos la prueba como de una cola. Para p < 0.01 la U debe ser igual o menor que (<)9. Nuestro valor
Pruebas de nivel ordinal • 329
8 Haga aseveraciones de significancia.
no es tan bajo. El valor crítico para p < 0.025 es 12, así que nuestra U apenas alcanza este valor. Informaremos los resultados como sig nificativos parap < 0.025. Si la prueba hubiera sido de dos colas, podríamos informar parap < 0.05.
Si existen muchos rangos igualados, deberá utilizar la fórmula que se proporciona debajo del encabezado “ Cuando N es grande” más adelante.
RESUMEN La prueba busca las diferencias entre las sumas de dos grupos de rangos. El valor U se calcula con la suma de los dos rangos. El valor crítico da el valor de U para el número particular de sujetos en cada grupo, debajo del cual caería menos del 5% (o del 1%, etcétera) de las U, si los miembros de cada grupo adquirieran su rango sobre una base aleatoria.
NOTASEXPLICATIVAS Esta prueba puede relacionarse con una situación muy familiar en la que observamos el desempeño de dos equipos. Suponga que usted es una de cinco personas de un equipo a campo traviesa de una escuela, que compite contra una escuela local. Usted habría de impresionarse si el otro equipo ocupara, digamos, los primeros cuatro lugares y el último de ese equipo llegara en séptimo lugar. La suma de sus lugares es 1 + 2 + 3 + 4 + 7 = 17 . La suma total de lugares (1 a 10) es 55. Nuestra suma de rangos debe ser 55 - 17 = 38. Imagine, en lugar de eso, que elegimos a miembros de los dos equipos con números del uno al diez, puestos en un sombrero. La prueba Mann-Whitney, en cierto sentido, iresca todas las combinaciones de suma de rangos que sean posibles cuando se hace esto. Al comparar nuestros resultados (para U) con las tablas, sabemos si nuestra división en sama de rangos (17 contra 38) es una que pudo ocurrir menos del 5% de las veces, si repitiéramos muchas veces el acto de sacar números. En otras palabras, el valor crítico es el punto por debajo del cual empezamos a decir: “ ¡La superioridad aparente de la otra escuela no era casualidad!” ¡Algo que por supuesto admitiríamos de inmediato! Una vez más, tenemos la debilidad de que la prueba maneje sólo las posiciones relativas y no puntuaciones absolutas. Si los primeros ocho corredores estuvieran cuello con cuello en la cinta de vídeo (raro en la competencia a campo traviesa), entonces no aos sentiríamos tan apenados, al menos no enfrente de los que vieron la carrera. Este Tonto es el que se trata en el capítulo sobre “Medición” . Como dijimos antes, esto se debe a que estamos perdiendo información al manejar daos a nivel ordinal más que de intervalo. Si conociéramos los tiempos de los corredores, podríamos realizar una prueba de significación más sensible. Las pruebas que manejan caos a nivel de intervalo se conocen como PARAMÉTRICAS y las veremos en el capitulo 17.
330 • Métodos de investigación y estadística. . .
(Capítulo 16i
Figura 16-1. La posición del equipo B se ve bien — la lógica de la prueba de Mann-Vhitney.
PRUEBADESUMADERANGOS DEWILCOXON (Las condiciones de uso son las mismas que para Mann-Whitney.) El procedimiento aquí es el mismo que para la prueba Mann-Whitney e incluye la asignación de rangos a los datos. Desde este punto tan sólo tomamos la suma de rangos inferior (40 en nuestro ejemplo del estereotipo en los niños), llame a éste T, y confróntelo contra los valores críticos en la tabla 6 (apéndice 2) para Á/j = 7 y Nz = 9. Encontramos que, para la prueba de una cola en p < 0.05, nuestra T necesita ser inferior a 43, y parap < 0.025, nuestra suma de rangos apenas alcanza el valor crítico N\ = N a, N i = AB. ¡Tenga cuidado de no confundir esta prueba con la de RANGOS CON SIGNO de Wilcoxon! Si usted recuerda que sólo en una de estas dos pruebas Wilcoxon los signos son relevantes, usted estará correcto. Cuando Apara muestras grandes es mayor que 20, utilice la conversión de puntuacio nes z que se muestra más adelante.
¿Mann-Whitneyo sumade rangos de Wilcoxon? Es obvio que la prueba de Wilcoxon que acabamos de comentar es mucho más sencilla que la Mann-Whitney. ¿Es preferible una más que la otra? En realidad no. El motivo por el que incluimos la Mann-Whitney es que es muy popular, es la única prueba que se m enciona o incluye en diversos compendios y programas de cómputo.
CUANDONESGRANDE Las pruebas de rangos no paramétricos utilizan tablas en las que N, para cualquier grupo, sólo se eleva a un valor modesto de 20 a 25. Para valores más grandes de modo usual hay una fórmula de conversión que da una puntuación z. Para muestras grandes, los valores de las pruebas U de Mann-Whitney y Tde Wilcoxon, si se realizan muchas veces en dos grupos de rangos producidos de manera aleatoria, formarían una distribución cercana a la normal. Para cualquier Uo ^particular, podemos averiguar si caería en esta distribución
Pruebas de nivel ordinal • 331
en términos de una puntuación z. Queremos lograr una puntuación z que corte el último 5% (una cola) o 2.5% (dos colas) de la distribución. Con base en la tabla de distribución normal del apéndice 2 (y vea la figura 14-7, en la página 299), espero que usted esté de acuerdo que una puntuación z de 1.65 lo da la primera y 1.96 la última. Las fórmulas apropiadas son:
Mann-Whitney
Cuando N = la suma de A a y NB y
12 cada vez que una cantidad de valores se vincula a un rango particular y t es el número de veces que ocurre el valor. Por ejemplo, para los datos del cuadro 17-2, la puntuación 8 aparece tres veces, t = 3 y T = ( 33 - 3)/12 = 2. Esto se repetiría entonces para 9, el que ocurre dos veces. Esta vez T = (23 - 2)/12 = 0.5. Esto se repetiría para 10, 12 y así de modo sucesivo.
Rangos con signo de Wilcoxon (relacionados) N ( N + 1) - 4 T z =
J
^2 N ( N + 1)(2 N + l ) >
en donde T es la T de Wilcoxon calculada de la manera usual.
Rangos con signo de Wilcoxon (no relacionados) 2 T - N A( N + 1 ) z
en donde T se calcula de la manera explicada en el método de suma de rangos, NA es el aranero de valores en la muestra más pequeña y N b es el número en la muestra más grande.
GLOSARIO Prueba de nivel ordinal para diféren das entre dos conjuntos de datos no relacionados— utilizando U
Mann-W hitney
Prueba de nivel ordinal para diferend a s entre dos conjuntos de datos no relacionados — utilizando T
suma de rangos de Wilcoxon
332 • Métodos de investigación y estadística.
(Capítulo n
GLOSARIO(continuación) Prueba de nivel ordinal para diferen cias entre dos conjuntos relacio nados de d a to s — utilizando T
rangos con signo de Wilcoxon
Aspecto de ios datos cuando se dan a las puntuaciones valores de rango idénticos
igualación (datos igua lados)
E je r c ic io s 1 Encuentre si las siguientes pruebas estadísticas son significativas y a qué nivel para la prueba indicada de una o dos colas. Puede anotar en la columna en blanco debajo de “sig” el valor de la probabilidad (p) alcanzada. Slg.
No. en cada grupo W=
« =
U =
(a) 15 (b) 8
14 12
49 5
N o ta :
Una cola
T Dos colas
(SRW) = 158 68
Slg. Una cola
T Dos colas
N=
(RSW) =
(c) 18 (d)30
35 48
Slg. Una cola
Dos colas
SRW = suma de rangos de Wilcoxon; RSW = rangos con signo de Wlcoxon.
2 Lleve a cabo la prueba apropiada (ya sea Mann-Whitney o Rangos con signo de Wilcoxon' con los datos en:
a) Cuadro 17-1 (en el capítulo 17) b) Cuadro 17-2 (en el capítulo 17) y pruebe los datos para significancia utilizando valores de una cola. ■
Sección I I I Pruebas simples de diferencia — paramétricas
Pruebas a nivel de intervalo/razón*•
Las pruebas paramétricas tienen un poder más eficiente (son mejores en la detección de diferencias genuinas), pero pagan el precio en las restricciones a las que se someten los datos en ellas. Estas restricciones (suposiciones por ejemplo) son: • Por lo menos datos de nivel de intervalo • Homogeneidad de varianza (importa principalmente donde los números de la muestra son muy diferentes en un diseño no relacionado) • Las muestras se obtienen de una población distribuida normalmente Las pruebas también son robustas, lo que significa que pueden resistir alguna divergencia en estas suposiciones y continuar siendo confiables. Las pruebas son: • Prueba t para datos relacionados • Prueba t para datos no relacionados La prueba t relacionada supone que la diferencia entre las medias proviene de una población de distribución normal de medias diferentes, cuyo valor medio es 0. La varianza de la diferencia entre pares de puntuaciones se utiliza para estimar la varianza en la diferencia media de la población, t e s el número de desviaciones estándar (o "errores estándar"), la diferencia de la media que se obtiene será de la media hipotética de cero. En los casos no relacionados, se supone que ambas muestras provienen de la misma pobladón. La población hipotética implícita referida es una distribución de diferendas entre las medias estimadas de dos muestras utilizando varianza combinada ("agrupada”) de las dos muestras obtenidas. La diferencia obtenida entre dos medias se compara con el error estándar de esta distribudón hipotética. De nuevo, t es una medida de errores estándar de la diferencia de la media hipotética de cero entre las medias de dos muestras. Los valores críticos se encuentran en las mismas tablas para la prueba relacionada.
336 • Métodos de investigación y estadística. . .
(Capítulo 17)
PRUEBAS PARAMÉTRICAS E n un capítulo anterior analizamos los “ parámetros” . Quizá a usted le gustaría tratar de recordar qué son, antes de seguir leyendo, o bien revisarlo en la página 252. De cualquier manera, aquí está una definición. Los parámetros son medidas de las poblacio nes, en particular la media y la varianza. Recuerde que la varianza es el cuadrado de la desviación estándar. Las pruebas paramétricas se llaman así porque su cálculo im plica una estim ación de los parám etros de la población con base en m uestras estadísticas.
Mientras más grande sea la muestra, más exacta será la estimación. Mientras más pequeña sea la muestra, más distorsionada estará su media por los valores raros extremos.
PODER Se dice que las pruebas paramétricas tienen más PODER. Éste se define como la proba bilidad de la prueba para d etectar una diferencia significativa cuando la hipótesis nula es falsa, por ejemplo, en realidad hay una diferencia asociada con la variable independiente. Visto de otra manera, es la probabilidad de no cometer un error tipo II. Las pruebas no paramétricas requieren más datos (más conjuntos de puntuaciones, más participantes en el estudio) para alcanzar el mismo poder que las pruebas paramétricas. Varios aspectos afectan el poder de las pruebas: • Tipo de prueba • Realización de mediciones más precisas
• Tener una hipótesis de una cola
Las paramétricas son más sensibles Nuevamente, éste es el énfasis en un pro cedimiento sólido y variable dependiente medida y definida con claridad Esto disminuye el valor critico requerido para niveles equivalentes de significancia
La comparación del poder, digamos, de una prueba paramétrica y una no paramétrica se conoce como EFICIENCIA y se expresa como una razón. En un texto más avanzado encontrará las matemáticas detrás de esto. Sin hablar de manera matemática, la eficiencia es, en un sentido, los ahorros alcanzados por la prueba más poderosa en términos de encontrar más diferencias que no sean aleatorias y, por ello, ayudar a descartar suposi ciones de “no diferencia” . Sin embargo, es importante recordar que las pruebas paramétricas no pueder deshacer el daño ya hecho. Si los datos se recopilaron de manera deficiente, o existec pocos datos, o ambas cosas (N es muy baja), entonces la gran sensibilidad de la pruebe paramétrica no se compensará por esto. Con frecuencia, la ligera ventaja de la prueba pa ramétrica puede neutralizarse utilizando una prueba de tipo de rango como las del capitule anterior, con sólo tomar un poco de más participantes para evaluar. Las pruebas ty paramétricas también tienen la ventaja de ser, con frecuencia, más fáciles de calcular; de tener una utilidad más amplia. Como veremos en un momento, las pruebas paramétrcas sólo pueden emplearse con cierto tipo de datos. Usted puede ver ejemplos del poder superior de las pruebas paramétricas al final o: este capítulo en la página 349.
Pruebas a nivel de intervalo/razón • 337
El poder mayor de las pruebas paramétricas proviene de su gran sensibilidad a los falos. Esto resulta porque utilizan toda la información disponible. Consideran el tam año fe las diferencias y los valores incluidos, no sólo los rangos (orden por tamaños). Por ■auto, son más sutiles en sus análisis de los datos. Sin embargo, se tiene que pagar por ese poder y exactitud. Las pruebas hacen estimaciones de los parámetros de la población subyacente. Estas estimaciones se hacen sobre el supuesto de que la población subyacente tiene ciertas características, principalnente que tenga una distribución normal. Ésta sólo ocurre si el nivel de medición que estamos utilizando está al menos a nivel de intervalo. Con datos a nivel de intervalo se rueden realizar ciertas operaciones matemáticas complejas que no pueden hacerse con falos a nivel ordinal (rangos). Éstos son los supuestos que debemos satisfacer antes de TTOceder con una prueba paramétrica:
SUPOSICIONESQUESUBYACENALAUTILIZACIÓN DELASPRUEBASPARAMÉTRICAS 1 El nivel de medición debe ser al menos de intervalo. 2 Los datos de la muestra se obtienen de una población normalmente distribuida. 3 Las varianzas de las dos muestras no son diferentes de manera significativa, esto se conoce como el principio de HOMOGENEIDAD de la var ia n za . Notas acerca del número de supuestos: 1 Debemos tomar una decisión acerca de nuestra variable dependiente. ¿Es en realidad un nivel de intervalo? Si es una escala no estandarizada, o si se basa en estimaciones o calificaciones con seres humanos, ¿sería más seguro hacerla ordinal? Recuerde, a menudo los datos no se recolectan como ordinales. Con frecuencia aparecen como intervalo (intervalo plástico) pero los reducimos a nivel ordinal al darles rangos. 2 Este principio suele malentenderse como “ la muestra debe distribuirse normalmente” . No es así. La mayoría de las muestras son demasiado pequeñas para siquiera parecerse a una distribución normal, la cual sólo obtiene su característica forma de campana con la acumulación de muchas puntuaciones. Puede evaluarse la probabilidad de que una muestra bastante grande venga de una distribución normal, utilizando la prueba de “bondad de ajuste” de la A2revisada en el capítulo anterior. En la práctica, para muestras pequeñas, tenemos que asumir que la población de la cual se obtuvieron posee una distribución normal con base en experiencia pasada o la teoría. Se puede saber, a partir de otras investigaciones, que la variable evaluada se distribuye de modo normal, o quizá sea posible argumentar que es razonable supo nerlo, lo que sí sabemos. 3 Los especialistas en estadística han investigado más sobre este requisito, el cual exige varianzas muy similares. Por fortuna, ahora podemos ignorarlo en gran medida cuando tratamos con muestras relacionadas, sin gran riesgo de distorsionar nuestro resultado. Para muestras no relacionadas necesitamos ser más cuidadosos cuando los tam años de las m uestras sean bastante diferentes. Se puede hacer una comprobación sencilla de la diferencia de varianza entre las dos muestras si cotejamos los dos rangos. Una verificación más cuidadosa implica el uso de la prueba F (capítulo 20), la cual evalúa las diferencias entre las varianzas de dos
338 • Métodos de investigación y estadística ..,
(C apütio r~
muestras de una manera muy similar a la prueba t (véase más adelante) y contra* y hay una diferencia significativa entre las dos medias. Aun esta prueba se consnes riesgosa cuando las poblaciones provienen de distribuciones normales. (Véase Hcwel 1992, de donde puede obtener pruebas muy complicadas pero confiables de O’B r » o Levene). Entonces, ¡lo más seguro es que se intente tener muestras casi idénticas =• tamaño en su proyecto!
LASPRUEBASPARAMÉTRICASSONROBUSTAS Los principios arriba señalados no están esculpidos en piedra. Uno puede hacer prue&E paramétricas con datos que no se ajustan de modo exacto a las premisas. El hecho de ok las pruebas, bajo tales condiciones, todavía den estimaciones probabilísticas b a s ta s exactas ha llevado a llamarlas ROBUSTAS. No se refutan ni producen muchos errores s decisiones de significancia, a menos que los supuestos se cubran con mucha deficiencia.
COMPARACIÓNENTREPRUEBASPARAMÉTRICASYNOPARAMÉTRICAS Paramétricas
No paramétricas
Más poder; más poder-eficiencia en comparación con las pruebas no para métricas
El poder no está lejos del de las panmétricas Pueden necesitar N mayores para igvlar el poder de las pruebas paramétrics Más sencillas y rápidas de calcular
Más sensibles a las características de los datos recopilados Robusta —los datos pueden provenir un poco de suposiciones
No requieren, en lo más mínimo, a jo tarse a los requerimientos de datos de las pruebas paramétricas
PRUEBAS PARAMÉTRICASYSUS EQUIVALENTESNOPARAMÉTRICOS Diseño relacionado Parám etro
Equivalente no param étrico
Diseño no relacionado Correlación
Relacionado (o “corre- No relacionado (o “no Pearson lacionado”)* Prueba/ correlacionado”)* Coeficiente de corre Prueba/ lación producto-mo mento Rangos con signo de U de Mann-Whitney rho (p) de Spearman Wilcoxon (o suma de rangos de Wilcoxon)
* L a s pruebas en m uestras relacion ad as (m ed id as rep etid as o pares igu alad os) co n frecuencia ñ d en om in an “ co rrela cion ad as” , d eb id o a q u e e l valor en un grupo está c o r r e la c io n a d o con t v alor en el otro. L o s valores v ien en en pares relacion ad os. E s im portante n o dejar q u e e l uso u e ste térm in o lo co n fu n d a al pensar q u e s e está em p lean d o una prueba de c o r r e la c ió n (véase z sig u ien te cap itu lo).
Pruebas a nivel de intervalo/razón • 339
PRUEBA TPARADATOS RELACIONADOS CONDICIONESPARASUUSO • • • •
Diferencias o correlaciones Nivel de datos Tipo de diseño Acotaciones especiales
Diferencias Intervalo o razón Relacionado Los datos deben satisfacer las suposicio nes paramétricas
DATOS Se les dieron a los participantes dos juegos equivalentes de 15 palabras para memorizar bajo dos condiciones. En la condición A se les dieron instrucciones para formar vínculos de imaginería visual entre cada elemento y el siguiente. En la condición B se les indicó cue sólo ensayaran las palabras conforme las oían. Los participantes tuvieron dos minutos inmediatamente después de la presentación de la lista, para “recordar libremente” las ralabras (recordarlas en cualquier orden).
JUSTIFICACIÓNDELUSODELAPRUEBAT • Los datos están a nivel de intervalo. • De manera común se asume que el total de unidades recordadas en una tarea de recuerdo libre como ésta formaría una distribución cercana a la normal. • Las desviaciones estándar son bastante diferentes. Sin embargo, éste es un diseño relacionado y, por tanto, el requisito de homogeneidad de la varianza no es tan importante.
=ÓRMULA
Vote: Existen diversas variaciones de esta fórmula, así que no se preocupe si encuentra xra que se vea diferente. Ésta es la más sencilla para trabajar con una calculadora estándar. En la siguiente página se encuentra otra versión aún más sencilla, siempre y mando su calculadora le dé desviaciones estándar o usted ya las haya calculado.
340 • Métodos de investigación y estadística. . .
(Capítulo I
Cuadro 17-1. Datos de palabras recordadas N úm ero de palabras re c o rd ad as en: C ondición de
C ondición de
Procedimiento
Cálculo en nuestros datos
1 Calcule la media de las puntuaciones en cada condición. 2 Acomode la tabla final de resultados, de modo tal que la primera columna tenga la media más grande y llame a este grupo (o columna) A. Llame a su media xA. Llame a la otra media xB y al grupo (o columna) B (véase nota más adelante). 3 Reste la puntuación de cada partici pante B de su puntuación A. Llame a esto d. 4 Eleve al cuadrado d para cada partici pante. 5 Sume todas las d (Id ) y todas las d2
Véase cuadro 17-1 Véase cuadro 17-1
Véase cuadro 17-1
Véase cuadro 17-1 I d =59 I d 2= 349.
Pruebas a nivel de intervalo/razón • 341
Eleve al cuadrado Id . Observe que éste es (Id )2. ¡Tenga cuidado de distinguir entre I d 2 y (Id )2! "Multiplique A (el número de pares de ias puntuaciones que hay por I d 2. i Reste (Id )2 del resultado del paso 7. * Divida el resultado del paso 8 entre t
(Id )2 = 3481.
13 x 349 = 4537. 4537-3481 = 1056. 1056 -r 12 = 88.
v-1.
Encuentre la raíz cuadrada del paso 9. 21 Divida I d entre el resultado del paso 10 para que dé t. 22 Encuentre los grados de libertad (gl). Para un diseño relacionado es N- 1 donde N es el número de pares de valores. !3 Encuentre el valor más grande de t en la tabla 8. Apéndice 2, dados los grados de libertad y el número apro piado de colas, que no exceda el va lor t obtenido. Emita un enunciado sobre la significación.
V(88) = 9.381. 59 + 9.381 =6.289 t = 6.289. 1 3 - 1 = 12,
El valor crítico parap < 0.01 es 3.055, suponiendo una prueba de dos colas. La tabla no va más allá de esto. Nuestro valor de 6.289 lo excede con facilidad. Por tanto, la probabilidad de que nues tro valor t ocurra sólo por azar es tan bajo como 0.01 y probablemente mucho más bajo. Por consiguiente, la diferen cia es sumamente significativa.
Notapara el paso 2: si su hipótesis es de una cola (usted espera que una media sea mayor me la otra desde su teoría y objetivo de investigación), entonces no es necesario cambiar as columnas de esta manera. Sólo tome los valores que predijo que serían menores que os otros. Si está equivocado y los resultados, de hecho, van para el otro lado (la otra Tiedia es más alta), entonces su valor de t tendrá un signo negativo (y de todas maneras, io tendrá un resultado significativo).
BROCEDIMIENTOCONCÁLCULOAUTOMÁTICO DELADESVIACIÓNESTÁNDAR Si su calculadora le da la desviación estándar de un grupo de valores de manera directa, bay una vía bastante más fácil para obtener t. Ésta es: a t = — -—
y/s/N 1 Calcule la desviación estándar de las diferencias utilizando la versión estimada de población. En el ejemplo de arriba DE = 2.60 2 Encuentre DE2 (Ésta es la varianza de las diferencias) (= 6.76) 3 Divida DE2 entre N (= 0.52) 4 Encuentre la raíz cuadrada del paso 3 (= 0.721) 5 Divida la media de las diferencias (3) entre el resultado del paso 4 (/ = 6.297)
342 • Métodos de investigación y estadística
(Capítulo
NOTASEXPLICATIVAS La base de esta prueba puede entenderse al asumir la posición de la hipótesis nula, f o dice, de hecho, que no hay diferencia entre las medias de la muestra. Veamos lo a r pasaría si en verdad no hubiera diferencia. Entonces podemos ver si nuestro resultar parece similar a los esperados cuando no hay diferencia entre condiciones. Puesto que éste es un argumento bastante complejo, sugeriría que lo tomara pasez paso, deteniéndose de vez en vez para revisar en dónde estamos. 1 Primero, encontremos una situación en donde la hipótesis nula sea verdadm. Tenemos dos listas de palabras difíciles por igual. Probamos una muestra de a población acerca de su capacidad para aprender y recordar ambas listas, por supuesc utilizando contrabalanceo. 2 Si no hay diferencia entre las listas, entonces el desempeño de las personas de manoz teórica debería ser exactamente el mismo en cada una. Pero en la vida real siempre hay pequeñas diferencias (errores aleatorios). Encontramos que la lista uno se recuera marginalmente mejor. Mostramos esto observando la media de las diferencias, úe ahora en adelante le llamaremos una “media de diferencia”) tal como en el cuadre 17-1. En teoría, la media de diferencia debería ser cero. 3 Tomamos un segundo grupo y lo ponemos a prueba. Esta vez existe una difereode menor en la dirección opuesta. La media de diferencia es negativa en lugar de positin. 4 Repetimos este procedimiento una y otra vez en quizás 200 muestras de personas. (Nr se preocupe, esto es lenguaje estadístico, nunca nadie hace o necesita realmeoE hacerlo. ¡Trabajamos con base en estimaciones!) Muchísimas medias de diferenca serán pequeñas, la mitad a cada lado del cero. Muy pocas serán grandes, pero esir ocurrirá aun de manera repartida a ambos lados del cero. 5 Graficamos la distribución que se forma con todas las medias de diferencia y ob tenemos la curva que se muestra en la figura 17-1. A esto se le llama una DISTRIBUCION DE m u e s t r e o de las medias de diferencia.
Figura 17-1. Distribución de muestreo de medias de diferencia.
Pruebas a nivel de intervalo/razón • 343
* La desviación estándar de una distribución de muestreo se conoce como error ESTÁNDAR. Si conociéramos este valor, lo compararíamos con cualquier media de diferencia en particular y obtendríamos lo que cuenta como una puntuación z. Podríamos ver a cuántas desviaciones estándar (o “ errores”) estaba nuestra media de diferencia particular respecto de la media teórica de cero. ' Los especialistas en estadística consideran que pueden estim ar el error estándar de esta distribución, a partir de una muestra en particular, obteniendo la raíz cuadrada de DE2/N, en donde DE2 es la varianza de la muestra. De hecho, esto es lo que hicimos en la fórmula rápida para t más arriba. La operación continuó para dividir nuestra media de diferencia entre el error estándar para obtener 1.1 es entonces el núm ero de errores estándar que nuestra media de diferencia se aleja de cero a la mitad de la distribución teórica. S Tal como lo puede haber adivinado, el objetivo, cuando probamos una hipótesis, es ver si nuestra media de diferencias particular cae dentro del 5% más extremo de las medias de diferencias que podrían esperarse. Para una prueba de una cola, se trata del 5% del lado derecho de la curva en la figura 17-1. • Suponga que para cada una de las 200 y tantas muestras obtenemos la t calculada. Estos valores (que son muy parecidos a las puntüaciones z) formarían por sí mismos una distribución. La curva formada tendría una forma familiar. Si gl para nuestras muestras fuera bastante grande, la curva se vería distribuida de manera normal. Para una gl menor, la curva estaría un poco más plana y más ancha. Lo importante es que la curva t tiene la misma forma y tiene los mismos valores, sin importar qué valor tuvieron las variables medidas reales. Su forma depende sólo de gl. Se basa, después de todo, en una razón entre las desviaciones estándar y las desviaciones particulares. Estamos en deuda con William Gosett por la teoría detrás de í y su distribución. Trabajó para Guinness, quien en este tiempo no autorizaba a sus empleados a publicar datos en relación con su compañía. Entonces, él lo publicó bajo el seudónimo de Student y ahora la estadística de distribución se conoce como la t de Student.
Figura 1 7 -2 . Curva t para gl = 12.
344 • Métodos de investigación y estadística
(Capítulo
10 La curva/para g /= 12 se parecerá algo a la figura 17-2, mostrando en ella los valora de una cola para 5 y 1% de significancia. Simplemente queremos comparar nuescz / con ésta como lo haríamos con una puntuación z en una distribución normaL Su embargo, la tarea consiste en consultar tablas más que las curvas reales. Los vakres para / con g l diferente se dan en la tabla 8 apéndice 2. Observe cuán similares s e los valores / respecto a z cuando gl se hace relativamente grande. La tabla nos muestra la distribución esperada cuando la hipótesis nula es ventar dera. Las pruebas / para el desempeño de las personas en nuestras dos lis » equivalentes deberían caer dentro de este patrón. Sin embargo, si como en nuesrr experimento de imaginería, estamos prediciendo que la operación de una variabe independiente creará una diferencia significativa entre dos condiciones de recuerde, nuestra / deberá, de manera simple, ser m ayor que el valor crítico al 5 o 1%. e extremo de la distribución.
PRUEBA 7 PARADATOS NORELACIONADOS CONDICIONESPARASUUSO • • • •
Diferencias o correlaciones Nivel de datos Tipo de diseño Acotaciones especiales
Diferencias Intervalo o razón No relacionado Los datos deben satisfacer las suposicio nes paramétricas
■
DATOS Se pidió a 12 participantes que utilizaran la vinculación por imaginería visual pan memorizar una lista de 15 palabras. A 13 participantes se les indicó que recurrieran sota al ensayo en la misma lista de palabras. Todos los participantes emplearon el recuenta libre para demostrar la retención.
JUSTIFICACIÓNPARAELUSODELAPRUEBAT • Los datos están en un nivel de intervalo. • Por lo común se asume que los totales de unidades recordadas en una tarea de rememoración libre como ésta formarían una distribución cercana a la normal. • Las desviaciones estándar no son muy diferentes. Incluso si lo fueran, los números de muestra estarían muy cercanos y, por tanto, el requisito de homogeneidad de la varianza no sería tan importante.
Pruebas a nivel de intervalo/razón • 345
Cuadro 17-2. Datos recordados imaginería/ensayo N úm ero d e palab ras co rre c ta m e n te re c o rd ad as en:
Ésta es la fórmula más compleja del libro, con el mayor número de pasos, así que trate ie ser cuidadoso y paciente!
Drocedimiento
Cálculo en nuestros datos
1 Sume todas las puntuaciones (xA) en el grupo A para que le dé ZxA.
Véase cuadro 17-2
346 • Métodos de investigación y estadística
2 Sume todos los cuadros de las pun tuaciones del grupo A (xA2) para que
(Capítulo 1
Véase cuadro 17-2
d é lx A 2
3 Eleve al cuadrado el resultado del pa so 1 para que le dé (SxA)2. De nuevo tenga cuidado de distinguirlo de I x A 4 Divida el resultado del paso 3 entre NA (número de resultados en el gru po A). 5 Reste el resultado del paso 4 del re sultado del paso 2. Para los pasos 6 a 8. Repita los pasos 1 al 3 en las puntuaciones del grupo B para obtener: I x B (paso 6), £xB2 (paso 7) y ( I xb) 2 (paso 8).
Véase cuadro 17-2.
24 336+ 12 = 2028
2 1 2 8 - 2 0 2 8 = 100.
Véase cuadro 17-2.
9 Divida el resultado del paso 8 entre N b (número de resultados en el grupo B). 10 Reste el resultado del paso 9 del re sultado del paso 7. 11 Sume los resultados de los pasos 5 y
10. 12 Divida el resultado del paso 11 entre
(Aa +A b -2 ). 13 Multiplique el resultado del paso 12. por N a + N b
( 12+13) . . . . 25 8.435 x f--------- 1 = 8.435 x ___ 1 2 x1 3 156 = 8.435 x 0.16= 1.35.
N a x Nb 14 Encuentre la raíz cuadrada del resul tado del paso 13.
VT35=1.162.
15 Encuentre la diferencia entre las dos medias: xA - x B.
1 3- 11 =2.
16 Divida el resultado del paso 15 entre el resultado del paso 14 para que dé t.
2 + 1.162 = 1.721 por tanto í = 1.721.
17 Calcule los grados de libertad cuan do g l = N a + N b - 2.
12+ 1 3 - 2 = 23.
18 Consulte la tabla 8, apéndice 2 y ela bore un enunciado sobre la significa ción para la t relacionada.
Para una prueba de una cola, con g l =23. el valor crítico de íes 1.714 para una sig nificación a p < 0.05. Por tanto, nuestro resultado es significativo (¡por el marger más estrecho!). Observe que, para unprueba de dos colas, no será significativo
Pruebas a nivel de intervalo/razón • 347
IOTAS EXPLICATIVAS itocho del razonamiento aquí es similar al de la t relacionada. Podría ayudar a clarificar = razonamiento detrás de la t no relacionada, con un ejemplo concreto, no psicológico. Suponga que de manera reciente compró dos lotes de una docena o algo así de resarm adores en una tienda local. Usted sospecha que los del segundo lote, en general, 5® más cortos que los del primero. Regresa con el tendero, quien le asegura que los dos pertenecen al mismo abasto. Esta posición es la de la hipótesis nula. Propone que i diferencia entre las medidas de las dos muestras es sólo a causa de fluctuaciones xzsionales en la longitud de los desarmadores, siendo todos ellos de la misma población. posición de usted es la de la hipótesis experimental que sostiene que el segundo lote re desarmadores proviene de una población con una media menor. El resultado de la reoeba t nos dice en qué medida necesitan diferir nuestras dos muestras con el fin de rechazar la hipótesis nula. Suponga que hicimos esto muchas veces Tome dos muestras al azar de entre una población de desarmadores (es decir, todos los de existencia en una caja de almacén). Saque la media de cada muestra. Obtenga la diferencia entre las dos medias sustrayendo la segunda media de la primera. Repita los pasos 1 a 3 muchas veces, siempre restando la segunda media de la primera.
Entonces hasta el momento ¿cuántas diferencias hay mayores a la nuestra?
¡Oh! no muchas Parece que nuestra diferencia se acerca a los dos errores estándar de cero
Tome dos muestras de tamaño N al mismo tiempo
Figura 1 7 -3 . Cómo
nuestra
diferencia
no
error estándar
decidir la significancia -¡m ejor calcule una prueba t y utilice las tablas!
Si graficáramos todas las diferencias entre las dos medias, obtendríamos una dis tribución de muestreo de la diferencia entre las dos medias, que de nuevo se parecería mucho a la figura 17-1. Las diferencias serían principalmente pequeñas, rara vez grandes, y podrían estar en cualquiera de las dos direcciones, negativa o positiva. Por tanto, se agruparían alrededor del cero. La distribución tiene un error estándar, estimado a partir de las varianzas de las dos muestras. La diferencia que obtuvimos se divide entre éste, para averiguar a cuántos
348 • Métodos de investigación y estadística. . .
(Capítulo F~
.errores estándar dista nuestra diferencia de la diferencia de medias hipotética de vatacero. Esta división nos da nuestro estadístico t. Una vez más, rechazamos la hipóte» nula cuando t es lo bastante grande. Si usted observa la bastante desagradable fórmula de la t no relacionada, puede ver que la diferencia entre las medias está en la parte alta y. por tanto, por debajo está la estimación del error estándar para la distribución hipotética. Si se rechaza la hipótesis nula, después de realizar una prueba en las dos muestres de la tienda, asumimos que las dos muestras en verdad provienen de dos distributions separadas acomodadas de manera parecida a la figura 17-4.
muestra con la media más pequeña obtenida de aquí
muestra con la media más grande obtenida de aquí
Figura 17-4. Dos poblaciones separadas.
Ahora podríamos interrogar más al tendero y claro que él podría sostener que h discrepancia de usted es “sólo una de esas cosas” . Podría ser una coincidencia, par supuesto, pero hemos demostrado que la probabilidad de que así sea es menor de 0.05. Si el comerciante juega según las reglas de la ciencia social, se podría investigar más. Quizás un ayudante cometió un error. Acaso una caja abierta de manera reciente tiene e* realidad una media menor que la caja anterior. Podríamos tomar otra muestra de aquí, y otra de la caja previa, en un intento de repetición.
RESUMEN — PRUEBA T RELACIONADA Esta prueba estima la media de las diferencias (media de diferencia) entre pares de valores relacionados. Utilizando la varianza de las diferencias, estima el error estándar de u i e distribución de muestreo de diferencias similares. La hipótesis nula asume que la media de esta distribución de muestras sería cero. El valor t dado es el número de errores estándar a los que se alejará de cero la media obtenida. El valor crítico de las tablas es el valor : que debe alcanzarse o excederse para lograr significación.
RESUMEN — PRUEBA 7 NO RELACIONADA Esta prueba estima la diferencia entre las dos medias de dos grupos de valores ik relacionados. Estima, utilizando la varianza combinada de ambos conjuntos, el error estándar probable de una distribución de muestreo de diferencias entre dos mediar
Pruebas a nivel de intervalo/razón • 349
obtenidas de la distribución hipotética implícita en la hipótesis nula, la cual tiene una media de cero, t es el número de errores estándar con que se aleja de cero la diferencia obtenida entre las medias en esta distribución. El valor crítico de las tablas es el valor que rdebe alcanzar o exceder para ser significativo.
REVISIÓN DE LA EFICIENCIA DE PODER; COMPARACIÓN DE NUESTROS RESULTADOS DE LA PRUEBA TCON UNA PRUEBA NO PARAMÉTRICA Vimos con anterioridad en este capítulo la eficiencia de poder. Dijimos que las pruebas paramétricas tenían mayor poder y que las estimaciones probabilísticas que proporcionan ooseen una mayor validez. Cuando el margen de significancia es bastante pequeño nuestro valor obtenido sólo excede al valor crítico), la prueba no paramétrica equivalente ruede no mostrar significación, por tanto, podemos cometer un error de tipo dos con esta última prueba. Si usted le da rangos a los valores del cuadro 17-2, y después suma los rangos para cada grupo, encontrará que la más pequeña de estas dos sumas es 140. Si usted busca en las tablas la prueba de suma de rangos de Wilcoxon, cuando la A más pequeña es 12 y la oras grande es 13, encontrará que no debemos exceder 125 para la significancia a p = 0.05, de una cola. Incluso la prueba t que realizamos, nos dijo que el resultado sí era significativo. En algunas circunstancias también es posible que una prueba no paramétrica muestre significación cuando una prueba paramétrica no lo haría.
Como ejercicio final de este capítulo, trate de realizar la prueba t aprc y una prueba de suma de rangos de Wilcoxon con la tabla de datos mo aquí, la cual es para dos muestras no relacionadas.
Usted encontrará que aqui la prueba no paramétrica da s cuando el valor t no alcanza el valor critico. ¿Qué tipo de error podrís cometiendo el investigador si se rechazara la hipótesis nula (verd¡ después de utilizar la prueba Wilcoxon?1
Observe que este error es posible debido a que la prueba de rango no “ conoce” que los valores presentes están tan cercanos. De nuevo vemos que el valor de los datos a nivel de intervalo toma en cuenta las distancias reales entre los valores, más que las solas posiciones. E rro r tip o un o .
350 • Métodos de investigación y estadística.
(Capítulo l. t
Pruebas a nivel de intervalo/razón • 351
Comente qué tan inteligente sería realizar una prueba f en los siguientes dos grupos de datos: 17 18 18 16
23 9 (datos no relacionados) 31 45 16 18 17
b)
17 18 18 16 12 15
23 11 24 29 19 16
6 Para cada (a) y (b), ¿cuál es la prueba no paramétrica apropiada?
2
Un informe sostiene que un valor t de 2.85 es significativo (p < 0.01) cuando el número de personas en un diseño de mediciones repetidas es de 11. ¿Podría haber sido de dos colas la hipótesis probada?
3
¿A qué nivel, en dado caso, son significativos los siguientes valores 1 7 Las últimas tres columnas son para que usted las llene. No olvide pensar en los grados de libertad.
t 1.750 2.88 1.70 5.1 2.09 3.7
4 ¡J) =i
4
N 16 20 26 10 16 30
Diseño del estudio
Una o dos colas
relacionado no relacionado no relacionado no relacionado relacionado relacionado
p<,
Significativo al (%)
¿Rechaza la hipótesis nula?
1 2 1 1 2 2
Se observa el número de veces que dos grupos de niños tienen una respuesta generosa durante un día. El investigador desea realizar una prueba paramétrica para registrar las diferencias entre los dos grupos en relación con su “puntuación de respuesta de generosi dad”. Una agmpación aproximada de los datos muestra esta distribución de puntuaciones: Número de respuestas generosas 0a3
4a6
7a9
10 a 12
13 a 15
2 5
16 18
24 19
8 10
3 5
16a 19
20a22
Grupo A B
0 1
1 3
¿Por qué un colega del investigador lepconseja que una prueba t sería inapropiada en esta ocasión? ■
Sección I V Correlación
Correlación y su significación La correlación es la medición del grado en el que pares de valores relacionados en dos variables tienden a cambiar juntos. También proporciona una medición del grado en que pueden predecirse los valores en una variable, a partir de los valores de la otra variable. Si una variable se incrementa con la otra, la correlación es positiva (cercana a + 1 ). Si la relación es inversa, es una correlación negativa (cercana a -1 ). La ausencia de correlación se muestra con un valor cercano a cero. Se presentan dos cálculos principales para la correlación: • Correlación producto-momento de Pearson — basada en la varianza de dos conjuntos de puntuaciones, res alta cuando se aparean desviaciones grandes. • Correlación de rango de Spearman — obtiene el rango de los valores en cada variable y una fórmula especial de caso utiliza diferencias entre estos pares de rangos. El caso general es calcular la rde Pearson en los pares de rangos y esto se hace cuando existen rangos igualados. Los aspectos importantes para las correlaciones son: • Causa: no se puede inferir por la existencia de una fuerte correlación entre las variables, • Fuerza: es una medida de asociación, pero la significación evalúa qué tan improbable es que ocurra tal asociación. Esta evaluación depende del tamaño de N . Cuando N es grande, los coeficientes de correlación muy pequeños pueden ser significativos. • Diagrama de dispersión: pueden demostrar la fuerza de la correlación y si la relación tiene alguna propiedad peculiar. • Muestreo: la debilidad del muestreo puede incrementar o disminuir de manera artificial un coeficiente de correlación. • Los usos comunes de la correlación en psicología son: - estudios ex post facto con medición de dos variables - evaluación de la confiabilidad de las escalas, pruebas y cuestionarios - análisis factorial - estudios gemelos - en regresión múltiple, donde se emplean diversas correlaciones como pronostlcadores de una variable blanco. Las correlaciones de variables dicotómicas se abarcan de manera breve (correlación de punto biserial y coeficiente Phi).
356 • Métodos de investigación y estadística
(Capítulo 18
NATURALEZADELACORRELACIÓN CORRELACIONES POSITIVAS Y NEGATIVAS C o n sid e re las siguientes afirmaciones: 1 2 3 4
Mientras más viejo me hago, empeora mi memoria. Mientras más le das a los niños, más esperan. La gente más alta tiende a ser más exitosa en su carrera. Mientras más castigo físico reciben los niños, más agresivos se vuelven cuando son mayores. 5 Los buenos músicos es común que sean buenos en matemáticas. 6 Las personas que son buenas en matemáticas tienden a fallar en literatura. 7 Mientras más practiques al tocar la guitarra, menos errores cometes.
Éstos son ejemplos de relaciones conocidas como c o rr ela ció n . En cada afirmación se propone que dos variables están correlacionadas, es decir, van juntas en el sentido de que. ambas: a) Conforme una variable aumenta, también lo haga la otra. Por ejemplo: Mientras más caminas, más dinero recolectas para caridad. Mientras más papeles tengas que entregar, mayor será el tiempo que necesites. O bien b) Conforme una variable aum enta, la otra disminuye. Por ejemplo: Conforme aumenta la temperatura, las ventas de ropa de lana disminuyen. Mientras más papeles tengas que cargar, más lento caminas. Las correlaciones del tipo señalado en (a) se conocen como POSITIVAS, y las de (b ) como n e g a tiv a s (alguien sugirió una vez el siguiente “gancho” de memoria para la corre
lación negativa “conforme cae la lluvia, surgen los paraguas” , una experiencia negativa bastante común para ios británicos. Hay un ejemplo más gráfico en la figura 18-1, pero el sube y baja sólo será una experiencia negativa para algunos lectores.
Figura 18-1. Una correlación negativa perfecta entre d1 y 2 . . . pero ¿es una experiencia negativa'
Correlacióny su significación • 357
Decida cuál de las correlaciones propuestas (1—7) antes son positivas y cuáles negativas. Piense en otros ejemplos de correlación positiva y negativa, en particular dos de cada una, basadas en la investigación que usted ha estudiado hasta ahora.
DISEÑO DE UN ESTUDIO CORRECCIONAL Es bastante fácil ver cómo podríamos verificar la validez de la afirmación 6 anterior. Podríamos considerar las calificaciones de las evaluaciones de clase o los resultados de ios exámenes para las personas que han llevado las dos materias. Para evaluar la afirmación 3 tenemos una medida directa de la variable uno (estatura), pero ¿cómo medimos la segunda variable, “ éxito en la carrera”? ¿Medimos sólo el salario o de beríamos incluir un factor de “ satisfacción en el trabajo” , y con qué lo sopesamos? Necesitaríamos operacionalizar nuestras variables.
Describa de manera específica las dos variables por com parar en cada afirmación de la 1 a la 7 y exactam ente cómo las operacionalizaría para obtener una medición precisa.
MEDICIÓN DE UNA CORRELACIÓN A menudo en la bibliografía teórica se hacen afirmaciones como “hay una correlación entre el castigo severo y la delincuencia posterior en varones jóvenes” o “ el castigo severo y la delincuencia en varones jóvenes tienden a correlacionarse” . En realidad, está faltando la palabra dorada “ significativo” en la primera afirmación y “ significati vamente” en la segunda. Ambas fallan en expresar la fuerza de la relación. En verdad podemos calcular la fuerza de la correlación entre dos variables medibles bajo el sol, siempre y cuando exista la manera de aparear valores. Éstos pueden aparearse porque pertenecen al mismo individuo (por ejemplo, calificaciones de matemáticas y literatura en clase), o a unidades más abstractas y grandes (como recursos de la escuela y pases de examen, temperatura promedio en la semana y el número de suicidios ocurridos en la misma). Sin embargo, cuando se anuncia una correlación de la manera vaga hecha antes, se asume que la relación no es casual ni que sólo sea por azar. El cálculo de la correlación entre dos variables es una medida descriptiva. Medimos la “ cercanía” de dos variables. Evaluar la correlación para la significación es deductivo. La FUERZA de la relación entre dos variables es el grado en el cual una variable sí tiende a ser alta si la otra lo es (o baja, para una correlación negativa). Esta fuerza de relación se expresa en una escala que va de un rango de -1 (negativa perfecta) a cero (no hay relación) a +1 (positiva perfecta). La cifra a la que se llegó para expresar la relación se conoce como COEFICIENTE DE CORRELACIÓN. Esta cifra puede calcularse para la relación entre cualquier par de variables y, como se explicó con anterioridad, cuando se establece que hay una correlación, lo que se quiere decir es que el coeficiente calculado
358 • Métodos de investigación y estadística
(Capítulo 18
es lo bastante fuerte para no considerarse como mera influencia del azar. De manera extraña, un coeficiente bastante débil, tan bajo como 0.3 puede considerarse como significativo si el número de pares de valores es bastante alto, este aspecto se explicara más adelante. No es posible obtener un coeficiente menor de -1 o mayor de +1. Si usted obtiene un valor así, hay error en alguna parte de sus cálculos (pero esto no puede indicar un error en sus datos en bruto). En general, la interpretación de la escala del coeficiente de correlación es: p e rfe c ta
-1
fu e rte
m o d e ra d a
débil
d é b il
m o d e rad a
f u e rte
sin relació n
fuerza creciente
i
0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1
0
p e rfe c ta
fuerza creciente 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8
0 .9 + 1
Figura 1 8-2 . Escala de correlación.
Algo puede no concordar aquí. ¿Cómo puede describirse algo que cada vez se hace más negativo como cada vez más íuerte? Bueno, sí se puede. El signo simplemente nos dice la dirección de la relación.
¡Advertencia para pruebas y exámenes! Es fácil llamar a una correlación negativa “no correlación”, tal vez porque en ocasiones los términos “negativo” y “no” son equivalentes. ¡Mucho ojo aquí! Para evaluar la fuerza de la correlación, ignore el signo. La correlación negativa significa que las dos variables se relacionan de manera inversa. Correlación cero indica que no existe ninguna corre lación.
DIAGRAMAS DE DISPERSIÓN Una manera de investigar la relación entre dos variables es colocar los pares de valores (uno en la variable A, el otro en la variable B) en una gráfica conocida como DIAGRAMA DE DISPERSIÓN, llamada así porque muestra la dispersión de los pares. El grado en el cual los pares de lecturas no se dispersan de manera aleatoria en la gráfica, sino que forman un patrón consistente, es un signo de la fuerza que tiene la relación. Espero que los siguientes diagramas de dispersión de la figura 18-3 a la 18-11 lo demuestren. Los primeros tres representan datos de una persona tomados después de cada ensayo en una tarea de manejo simulada: En el primer ejemplo (figura 18-3), usted verá que la cruz para el par de valores 4 ensayos/105 puntos está colocado en una línea vertical arriba del punto 4 del eje “ ensayos” y en una línea horizontal a partir del 105 en el eje de los “puntos” . Todos los puntos se grafican de esta manera. Con la relación ensayos/puntos tenemos una imagen de una relación fuertemente positiva, para ensayos/tiempo tomado (figura 18-4) una fuertemente negativa, y para ensayos/número de palabras habladas a lo largo del ensayo (figura 18-5) no tenemos relación alguna. Las correlaciones perfectas tomarán la forma de las figuras 18-6 y 18-7.
Correlación y su significación • 359
P u n tu a c io n e s
Diagrama de dispersión
1
2
3
4
5
Números de ensayos Figura 1 8-3 . Puntos en la tarea de manejo. D atos
Tiem po (segundos)
Tiempo para completar laruta(seg)
Figura 18-4. Tiempo en la tarea de manejo
360 • Métodos de investigación y estadística
(Capítulo 18
Diagrama de dispersión
1
2
3
4
Número de ensayos
5
Variable
Y
Figura 18-5. Tarea de manejo-palabras habladas.
Figura 18-6. Correlación positiva perfecta.
Figura 18-7. Correlación negativa perfecta.
Si no hubiera ninguna relación entre las dos variables, podríamos terminar con diagramas de dispersión como ios mostrados en las figuras 18—8 y 18-9. En la figura 18-8 no tenemos relación porque la variable Y no cambia en ninguna forma que se relacione con los cambios en la variable X. Otra manera de expresarlo es
Correlación y su significación • 361
¿ficiendo que los cambios en Y no son predecibles en lo absoluto a partir de los cambios mX. En la figura 18-9 no tenemos relación porque la variable 7 se queda con el mismo valor sin importar qué cambios ocurran en la variable X. Si X fuera el tiempo y Y la Temperatura corporal, ésta es la relación que esperaríamos en una persona saludable, calmada y en reposo.
Variable X
Variable X r =
0
Figura 18-8. Sin relación.
r =
0
Figura 18-9. Sin relación.
¿r= 0 SIEMPRE SIGNIFICA QUE NO HAY RELACIÓN? ¿Por qué molestamos en graficar los valores si el tamaño de r nos dice la fuerza de la relación? Hay varios patrones de relación que podrían mostrarse en un diagrama de dispersión cuando nuestro cálculo de r resulta cercano a cero. Vea, por ejemplo, las figuras i 8-10 y 18-11:
Variable X Figura 18-10. Relación curvilínea.
Variable X Figura 18-11. Relación curvilínea
362 • Métodos de investigación y estadística. . .
(Capitulo 18
A éstas se les llaman relaciones CURVILÍNEAS por razones obvias. ¿Qué podría mostrar esta relación? ¿Qué hay acerca de las temperaturas y los meses del año? ¿Hay un buen ejemplo psicológico? Freud sostenía que mientras más estaba uno sub o sobre gratificado, había más probabilidades de una fijación en una etapa psicosexual. La gente se desempeña pero en tareas de memoria ya sea cuando ha habido privación extrema o bien sobrecarga sensorial. El interés de uno en una tarea podría aumentar y después disminuir, con el aumento de la práctica.
1 Dibuje los diagramas de dispersión para las otras tablas de datos en este capítulo (cuadro 1 8 - 1 ,1 8 - 4 y 1 8 -5 ). 2 ¿Puede usted pensar en otras relaciones entre variables que pudieran ser curvilíneas?
CÁLCULO DE LOS COEFICIENTES DE CORRELACIÓN Los datos coeficientes utilizados con mayor frecuencia son: Nombre
Símbolo
Nivel de datos utilizados
Pearson
r
Intervalo/razón (PR U EB A
Spearman
p*
Ordinal (PR U EB A
PA RA M ÉTRICA )
N O PARA M ÉTRICA )
* se pronuncia “ro” , es la letra griega rho y también se escribe como rs.
CÁLCULO DE LA CORRELACIÓN
COEFICIENTE DE CORRELACIÓN PRODUCTO-MOMENTO DE PEARSON
CONDICIONES DE USO • Diferencias o correlación • Nivel de datos • Tipo de diseño • Acotación especial
Correlación Intervalo/razón Relacionado (por definición, las correlaciones lo son) Los datos deben estar en la forma de pares relacionados de puntuaciones
Correlación y su significación • 363
El gran título de este coeficiente podría hacerle sentir que es un poco más complica ré* . . . ¡y estaría en lo cierto! Sin embargo, hay una forma más simple de empezar. Una rermula para la r de Pearson es: r _ SfofZy) N -1 =n donde Zx es la puntuación estándar (o puntuación z) para el primer valor (variable A ) en cada par, y Zy es la puntuación z para el segundo valor (variable Y ). Suponga que estamos evaluando la validez de una nueva prueba de lectura com parándola con una versión más antigua. Esperamos que los niños obtengan puntuaciones zproximadamente iguales en ambas pruebas.
Cuadro 18-1. Resultados de la prueba de lectura
67 72 45 58 63 39 52 56.6
10.4 15.4 11.6 1.4 6.4 17.6 -4.6 sx = 11.9
0.87 1.29 -0.97 0.12 0.54 -1.48 -0.39
65 84 51 56 67 42 50 Y =59.3
5.7 24.7 -8.3 -3.3 7.7 -17.3 -9.3 Sy= 13.9
0.41 1.78 -0.60 -0.24 0.55 -1.24 -0.67
0.36 2.29 0.58 -0.03 0.30 1.84 0.26
Z (zxZy.) = 5.6
r Pearson = — = 0.93
* S ó lo p a r a re c o rd a rle : u n a p u n tu a c ió n z e s el n ú m e ro d e d e s v ia c io n e s e s tá n d a r e n q u e u n v a lo r p a rtic u la r se a le ja d e la m e d ia . E n la p r u e b a a n tig u a , la d e s v ia c ió n e s tá n d a r e s 11.9, la p u n tu a c ió n d e 6 7 d e l n iñ o n ú m e ro u n o e s tá a 10.4 p u n to s d e la m e d ia d e 5 6 .6 y é s te e s 1 0 .4 /1 1 .9 d e s v ia c io n e s e s tá n d a r. P ie n s e e n u n id a d e s d e 11.9 ¿ A c u á n to s 1 1 .9 se a le ja d e la m e d ia ? E s to d a la p u n tu a c ió n (z) e s tá n d a r d e 0 .8 7 . '
Así, la r de Pearson toma cada par de puntuaciones z y las multiplica, luego suma esta cantidad y la divide entre N -1. Sin embargo, hay una fórmula que se ve complicada para hacer esto, la cual elimina el problema de calcular las puntuaciones z, y que puede utilizarse de manera directa (con una calculadora) a partir del cuadro 18-2. a)
_
N I (XY) - I X I Y Á[Ñ IX2 - (XA)2] [ N l f - (IT )2]
364 • Métodos de investigación y estadística. . .
(Capítulo 18
pero si usted ya ha calculado sus desviaciones y desviaciones estándar:
es mucho más fácil. Observe que s* y s^ son las formas estimadas de población de h desviación estándar (utilizando N - 1 como denominador) como se explicó en el capítulo 1?.
Procedimiento empleando la versión a
Cálculo en nuestros datos
1 Encuentre I X y (IX )2. 2 Sume todas las X 2 y obtenga I X 2. 3 Multiplique I X 2 (resultado del paso 2) por A.
Columna: Niño número
A Puntuación
Véase columna A, cuadro 18-2. Véase columna B, cuadro 18-2. 23256 x 7 = 162792.
B C (Puntuación Puntuación
D (Puntuación
X)‘ 67 72 45 58 63 39 52
4489 5184 2025 3364 3969 1521 2704
65 84 51 56 67 42 50
4225 7056 2601 3136 4489 1764 2500
4355 6048 2295 3248 4221 1638 2600
EX = 3 9 6
EX* = 2 3 2 5 6
EV = 4 1 5
E V *= 25771
EX Y = 24405
<\2 _ (EX)2 = 156816
2_ (EVf= 172225
4 Reste (IX )2 del resultado del paso 3. 5 a 8 Repita los pasos del 1 al 4 en los datos de Y. 9 Multiplique el resultado del paso 4 por el re sultado del paso 8. 10 Saque la raíz cuadrada del resultado del paso 9. 11 Multiplique I X por IY. 12 Encuentre I X Y (multiplique cada A por su Y y sume los resultados). 13 Multiplique el resultado del paso 12 por A. 14 Reste el resultado del paso 11 del resultado del paso 13. 15 Divida el resultado del paso 14 entre el resul tado del paso 10. Para la significación verifique, gl = A-2.
162792-156 816 = 5976. Ver columnas C y D, cuadro 18-2 25771 x 7 ) 180397. 180397-172225 = 8172. 5976x 8172 = 48 835 872. V48835872 = 6988.27. 396x415 = 164 340. Véase columna E, cuadro 18-2. 24405 x 7 = 170 835. 170835 - 164340 = 6495 6495 + 6988.27 = 0.929 = 0.93 gl = 5 ,p < 0.005, una cola.
Como ejercicio, trate de vei resultado.
i la fórmula (b) produzca el mismo
RESUMEN □ coeficiente de correlación de Pearson (r) muestra el grado de correlación en una escala de +1 a -1, entre dos variables de nivel de intervalo, donde cada valor en una variable tiene un compañero en el otro conjunto. Mientras mayor sea el valor de r, más positiva será la correlación. Mientras menor sea el valor (debajo de cero) más negativa será la correlación.
MOTASEXPLICATIVAS El cálculo de la correlación se basa en la idea de dispersión (revise el capítulo 13 sobre esto). Piense todos los valores en términos de su distancia de la media del grupo. Si existe n a correlación fuerte y una persona está muy por encima de la media en una variable, a n b ié n deberá estarlo en la otra. De modo similar, cualquiera por debajo de la media, deberá también estarlo en la otra. En general, debe existir semejanza entre las distancias ie la media de cada persona, en ambas variables. Si multiplicamos estas distancias de la raedia (“ desviaciones”), entonces el resultado máximo ocurrirá cuando exista una relación fuerte, ya que se multiplicará alto con alto (y aun cuando las dos distancias sean rogativas, el resultado será positivo). Considere los datos del cuadro 18-3 y verá que esto sucede con los distintos totales de las desviaciones que se multiplican. Imagine que las desviaciones en la variable A son las mismas en cada ocasión.
Para la positiva perfecta, las desviaciones más altas se igualan con las más altas, y viceversa, resultando en el máximo producto posible de 28. Para la negativa perfecta, ocurre lo opuesto, y el producto máximo es de -28. Estos dos resultados producirían ios valores de r más altos y más bajos posibles, respectivamente. Una mezcla aleatoria de desviaciones da un valor intermedio de 4, que producirá un valor muy alto de r.
366 • Métodos de investigación y estadística
(Capítulo /?
De hecho, ia fórmula de Pearson no sólo multiplica desviación por desviación yz que, si la varianza para cada grupo de puntuaciones o para ambos fuera baja, entonces »■ sería baja. Pearson utiliza las puntuaciones estándar y esto también toma en cuenta fe desviación estándar de la muestra.
RHO DE SPEARMAN
CONDICIONESDEUSO • • • •
Diferencias o correlación Nivel de datos Tipo de diseño Acotación especial
Correlación Ordinal Relacionado (las correlaciones lo son por definición) Los datos deben estar en la forma de pares de pun tuaciones relacionados
DATOS Los siguientes datos ficticios dan calificaciones de estudiantes en las pruebas de matemáticas y música. Las columnas C y D dan los resultados por orden de rango. Fórmula: rs = 1
C Lé N(N2 - 1 )
Juan Julia Jorge Jimena Jacinta José Jazmín
Correlacióny su significación • 367
Antes de empezar con ei procedimiento de Spearman, vea las diferencias de los rangos al cuadrado én la columna F. Si esperamos que la gente obtenga puntuaciones similares en ambas pruebas, ¿qué tamaño se esperaría que tuvieran estos valores, grande ó pequeño? ¿Q ué tam año se esperaría que tuviera I d 2 si ha de haber una fuerte correlación positiva?
Espero que esté de acuerdo en que, si debiera existir una correlación fuerte entre pares de valores, cada una de las diferencias (d) debería ser pequeña o cero. Esto indicará que 'os alumnos están calificando en más o menos la misma posición en ambas pruebas, i d 2 debe, por ende, ser pequeña. Veamos cómo el enfoque de Spearman incorpora esto.
Procedimiento
Cálculos con nuestros datos
1 Dé rangos a los valores de la variable A 2 Dé rangos a los valores de la variable Y 3 Reste cada rango en Y de cada grupo apareado en A 4 Eleve al cuadrado los resultados del paso 3
Véase columna C, cuadro 18-4. Véase columna D, cuadro 18-4. Véase columna E, cuadro 18-4.
5 Sume los resultados del paso 4 6 Inserte el resultado dei paso 5 en la fórmula ri
, CLdr 1 —-----5------
N(N2 - 1) en donde N es el número total de pares** 7 Calcule n y consulte la tabla 9f 8 rs debe ser igual o mayor que el valor de la tabla para el nivel de significación que se consulte 9 Emita un enunciado sobre la significación
Véase columna F, cuadro 18-4. Total de la columna F = 64. 6 x 64 7 (7 2 -1 ) "
,
384 336
-0.143
r5= - 0.143 El valor crítico para p < 0.05, en donde N = 7 y la prueba de dos colas es 0.786 El coeficiente no es significativo*
* Ve la cantidad 1 aquí. Los estudiantes a menudo informan sobre resultados maravillosamente exitosos, acerca de los cuales se sienten complacidos de manera comprensible, sólo para encontrar que su resultado de, digamos, 0.81 aún tiene que restársele a 1. " Observe que en todas las otras pruebas, la prueba estadística (/, U, etcétera) se emplea con la finalidad de determinar la significación. Con frecuencia se utilizan los coeficientes de correlación como estadística descriptiva para indicar la fuerza de la relación, y también se pueden emplear en otros cálculos (por ejemplo, selección de candidatos en psicología aplicada). * Si hubiéramos hecho una predicción de una cola en que la correlación fuera positiva, no hubiera existido discusión ni necesidad de consultar las tablas, ya que el signo negativo nos indica que, sin importar la magnitud, la relación que se encontró es inversa (es decir, negativa).
368 • Métodos de investigación y estadística..
(Capítulo 13
Cuando existen rangos igualados La fórmula de Speafman anterior técnicamente se utiliza sólo cuando no existen rangos igualados. Si esto ocurriera, la estadística se convierte en un estimado débil de lo que se supone debe medir. De hecho, la fórmula es un caso específico de lo que se hace en genera.’ para correlacionar valores ordenados. El enfoque general es conducir un cálculo ce Pearson con los pares de rangos. Esto es lo que usted debe hacer, entonces, si los valores son iguales. En el cuadro 18-4 calcularíamos una correlación de Pearson en las columnas C y D. El coeficiente resultante aún se denomina r de Spearman. En realidad, la diferenrá entre la fórmula de Spearman y el uso de Pearson en los rangos cuando están igualados es muy pequeña, en especial con muestras grandes. Por ejemplo, con N = 40 y 75% ce los valores iguales, la diferencia entre el cálculo con la fórmula y el empleo de Pearsoc en los rangos es de cerca de 0.001 o menor. Sin embargo, los expertos en estadística es tán en lo correcto al insistir que la fórmula de Spearman no es adecuada cuando ocurren igualaciones. Esto no genera problemas si utiliza una computadora, pero le dará más trabajo si lo hace con calculadora.
CUANDO N ES MAYOR QUE 30 La tabla de valores críticos para rs se detiene en A = 30. Si la N es más grande que 30, r% (o r de Pearson) puede convertirse en un valor t utilizando:
después se verifica el nivel de significación de t con grados de libertad N - 2 .
RESUMEN La Rho de Spearman rs o p, muestra el grado de correlación entre dos grupos de rangos igualados en una escala de +1 (positivo perfecto) a -1 (negativo perfecto).
NOTAS EXPLICATIVAS Al igual que con la prueba de rangos con signo de Wilcoxon, aquí buscamos diferencias entre pares de rangos, registrado en cada una de las dos variables. Con la correlación de Spearman, sin embargo, no queremos que las diferencias positivas sean grandes para mostrar un efecto. Aquí, queremos que todas las diferencias sean lo más pequeñas posibles si deseamos mostrar una correlación positiva y fuerte. En consecuencia, la suma de las diferencias al cuadrado serán pequeñas.
¿FUNCIONA LA FÓRMULA? Si observa la fórmula verá que I d 2 es el único valor que puede cambiar. 6 es un número y A se ajusta por el número de pares de rangos en la muestra. Si no existen diferencias entre los pares de rangos, I d 2es cero y el valor a restarse de 1, en la ecuación de Spearman, será cero, ya que A (A2- l ) dividido entre cero es cero. Entonces tenemos el coeficiente de correlación perfecto de +1.
Correlación y su significación • 369
1 2 3 4 5
19 17 18 15 16
5 3 4 1 2
1 3 2 5 4
8 24 15 45 32
4 0 2 -4 -2 Id =0
16 0 4 16 4 Sd2 = 40
Observemos la correlación negativa perfecta. En el cuadro 18-5 verá que mientras a i s anagramas resolvió la gente, m enor tiempo les llevó resolver el primero. Insertando Z¡f en la fórmula tenemos: ___
r 5=
6 x 40
„
240
« „
1 ---------------------------= 1 --------------------- =1
5x24
-
2 = -1
.
120
l a correlación negativa perfecta alcanza el valor de -1.
.ENTAJAS Y DESVENTAJAS DE LA RHO DE SPEARMAN las desventajas son que la prueba es no param étrica, y, por tanto, sufre de todas las debilidades asociadas a estas pruebas, las cuales se presentaron en la sección anterior. Las ventajas son que es sencilla de calcular y puede utilizarse con datos que no son 3e intervalo.
SIGNIFICACIÓNYCOEFICIENTES DECORRELACIÓN Ahora regresemos a un tema familiar. Considere los resultados en música y matemáticas i d cuadro 18-4 y los resultados de la prueba de lectura en el cuadro 18-1. Espero que isted esté de acuerdo en que, mientras que resulta bastante obvio (mediante una “prueba i ojo”) para matemáticas y música que nada pasa en términos de una relación, para las rasntuaciones de la prueba es también obvio que hay una relación. El diagrama de rspersión en la figura 18-12 muestra esto también. El asunto es qué podemos decir cuándo una correlación es significativa de manera lóvia (tal como lo podría haber dicho usted cuando la adivinadora del sexo de los bebés •enía éxito) y cuándo es obvio que no lo es. ¿Cómo decidimos cuándo un coeficiente de ion-elación llega a ser significativo? Necesitamos conocer, para un número particular
370 • Métodos de investigación y estadística
(Capitulo l f
de pares de puntuaciones (es decir, N = 7 en los dos ejemplos) el valor de r sobre el co¿ ocurriría 5% de coeficientes si estuviéramos haciendo cálculos en pares asociados de manera aleatoria. Permítame aclarar. Pruebas de lectura
Figura 18-12. Relaciones puntuación-prueba.
Suponga que algunos participantes nos dieron una composición sobre “Mi familia y yo” . Usted tiene que calificar cada redacción respecto a la autoconfianza, mientras que yo los calificaré respecto a la calidez en los sentimientos expresádos por cada participante hacia sus padres y hermanos. Estamos prediciendo que las dos calificaciones se correlacionarán de manera positiva. Calificamos colocando las composiciones por orden de rango en nuestras dos variables. Obtenemos los resultados mostrados en el cuadro 18-6 con sólo tres participantes. Trataremos esto como datos ordinales, orde nados.
Cuadro 1 8 -6 . Rangos de la escritura de los participantes A utoconfié
Participante A Participante B Participante C
C a lid e z
1 2
2
3
3
1
La fuerza de la correlación es +1, perfecta. Pero, ¿es significativa? ¿Qué tan probable es que mis calificaciones concuerden de manera exacta con las de usted? En otras palabras, ¿cuál es la probabilidad de que yo produzca mis calificaciones ai azar, por ejemplo, tan sólo eligiendo de un sombrero que contiene los tres números? Recuerde que la probabilidad es:
Número de resultados esperados Número de resutlados posibles
Los rangos que yo pude haber producido se muestran en el cuadro 18-7,
Correlación y su significación • 371
La probabilidad de que yo produjera (al azar) el orden que di es, por tanto, 1/6 porque febía seis rangos posibles que podía producir. C u a d ro 1 8 - 7 . P o s ib le s ra n g o s e n c a lid e z a p a r e a d a c o n a u to c o n fia n z a R ango dado p o r Usted en a uto confianza
R angos posib les q u e p u d e hab er D roducido:
icipante ¡cipante icipante
Expresado de la manera usual, la probabilidad por lo consiguiente era de 0.167. Esto es suficientemente bajo para ser significativo. Requerimos un valor menor que 0.05. ¿Qué pasa si hay cuatro participantes y nuestros dos grupos de rangos se igualan a a perfección? Los rangos uno a cuatro pueden ordenarse de 24 maneras diferentes. Por ■anto, la probabilidad de una igualación perfecta es ahora 1/24 y esto d a p = 0.042: un Jor suficientemente bajo para ser significativo. En el caso de cinco participantes, la probabilidad de una igualación perfecta es 0.008. La probabilidad de estar justamente un rango fuera, como en el cuadro 18-8 por ejemplo, s p = 0.033.* id
C u a d r o 1 8 - 8 . C o r r e la c ió n d e c in c o p a r tic ip a n te s
Autoconfianza
C alid ez
Participante A Participante B Participante C Participante D Participante E N = 5
Probabilidad de correlación de 0.9 = 0.033 Probabilidad de correlación de + 1 = 0.008 Por tanto, la probabilidad total de que ocurra ya sea 0.9 o +1 es: 0.041
Por consiguiente, la probabilidad de obtener una correlación de +1 o de 0.09 es un ixal de 0.041. Por tanto, podemos considerar la correlación del cuadro 18-8 como significativa, puesto que la probabilidad de que ésta, o una correlación mayor, ocurra por izar en total es menor que 0.05. El siguiente valor posible para el coeficiente es 0.8 y la raobabilidad de que éste ocurra es bastante máyor que 0.05.
* Hay cuatro m aneras en la s cu a les se pu ed en ordenar lo s ran gos d e ca lid ez, d e m o d o tal q u e estén sólo un rango fuera d e lo s ran gos d e au toconfian za. H ay 120 form as en total d e ordenar lo s ran gos del 1 al 5 4 /1 2 0 = 0 .0 3 3 .
372 • Métodos de investigación y estadística
(Capítulo 12
El VALOR CRÍTICO para la r de Spearman cuando A = .5, por tanto, es 0.09 (una cote-. Cuando N = 6, las tablas dan el valor crítico de 0.829 (una cola). Si tuviéramos los números del 1 al 6 en dos sombreros separados y sacáramos uno de cada sombrero pan crear seis pares, la probabilidad de lograr una correlación entre estos dos pares de más eré 0.829 es 0.05 o menor. Otra forma de decirlo es que si fuéramos lo bastante perverse? para repetir esta operación de apareamiento muchas veces, obtendríamos un gran númen de correlaciones bajas y sólo 5% de los resultados sería 0.829 o superior. Sin embargo, para N = 20 el valor que sólo 5% de los resultados excedería es tw bajo como 0.38. Conforme A aumenta, así la distribución de la frecuencia de correlacione? disminuye o se “ amontona” , como espero lo aclare la figura 18-13. Los valores pare A = 6, en particular, no formarían una curva tan continua. En realidad, habría un númerr distinto de pasos: valores que puede tomar rs. Pero la forma aproximada que tomarían b? curvas es como en la figura 18-13. Observe que conforme aumenta A, de igual modo disminuye el valor crítico de 5** de significación. Ésta es, en sí misma, una correlación negativa. Observe también que si con A = 6 usted predijo una correlación negativa, digamos, entre la autoconfianza y los sentimientos de dependencia, entonces su coeficiente de correlación calculado debe ser absolutamente mayor que 0.829. Por ejemplo, - 0.93 se
Figura 18-13. Distribución de correlaciones cuando N
=
6 y N = 20.
consideraría como significativo puesto que es más extremo, en el final negativo de fe curva, que - 0.829.
PERO¿SINDUDAUNAFUERTECORRELACIÓN DEBESERSIGNIFICATIVA? Estoy seguro de que nuestra inclinación natural es sentir que así debe ser. Pero reconsidere lo que hemos estado viendo. Es fácil obtener un coeficiente con alto valor con una A baja Con tres pares obtendríamos +1 o -1 cada vez en los tres ensayos así que, por las regía: de investigación en ciencias sociales y del sentido común, con dificultad podemos llamar a estos resultados significativos, aun cuando sean perfectos en fuerza. Por otro lado, ti
Correlación y su significación • 373
como antes vimos para la muestra de tamaño moderado de 20, no se esperarán correlacioaes arriba de 0.38 más del 5% de las veces y, por tanto, son significativas cuando ocurren, aunque débiles.
ERRORDECONJETURA, VARIANZAESTIMADA OCOEFICIENTEDEDETERMINACIÓN Tenemos dos problemas ahora. Uno es que un coeficiente bastante bajo puede decimos que dos variables son significativas, aunque conectadas con debilidad. ¿Qué significa esta conexión débil? ¿Qué podemos inferir de ella? El otro es que el coeficiente de co rrelación no esté en una escala de razón. Una correlación de 0.6 no es el doble de “buena” o predictiva de una de 0.3. Una manera de convertir estas cifras a una escala de razón es elevar al cuadrado el valor del coeficiente, es decir, obtener r2. Los especialistas en estadística lo utilizan como m a VARIANZA ESTIMADA, argumentando lo siguiente: Cualquier grupo de puntuaciones (por ejemplo, el grupo de puntuaciones X de la prueba de lectura) tiene una variación dentro de sí, lo que conocemos como varianza. Las puntuaciones Y de la prueba de lectura también tienen una varianza. Nuestra r para estos dos grupos de puntuaciones fue 0.93 y r2 sería, por tanto, 0.86. Se dice ahora que 86% de la variación en Vse puede predecir a partir de la variación en X. El otro 14% se considerará, ya sea, por errores aleatorios de ejecución o alguna diferencia entre la prueba nueva y la anterior. La estimación de la varianza se hace utilizando el co efic ien te de deter m in a c ió n . Este valor es: r2 x 100, el cual simplemente es nuestro valor r2, expresado anteriormente como porcentaje. Como otro ejemplo de la varianza estimada, suponga que escuchó de un estudio que muestra una correlación de 0.43 entre la cantidad de castigo físico que se impone a raí niño (digamos, evaluado a través de observación y entrevista) y la medición de la agresión en el mismo. Usted supondría que 0.18 (0.43 x 0.43) o 18% de la variación en ra agresión contra el niño estudiado se vincula con (o se explica por) la variación en la cantidad de castigo físico que recibe. Recuerde que no podemos decir que el castigo causó la agresión, sólo que ambas están relacionadas y que la agresión se puede predecir, 'casta cierto punto, por las puntuaciones del castigo. Todo esto se asocia con un tópico Mamado REGRESIÓN que analizaremos en el capítulo 23 con las técnicas estadísticas más complejas que tenemos disponibles. Aun si usted dejara sólo ese capítulo, sería prudente cue leyera la sección de regresión y predicción, con el fin de comprender mejor la tuerza y el valor de la correlación. Al hablar de la “ fuerza” de la correlación, déjeme “ darle una rrobadita” de cómo puede utilizarse la regresión. La predicción anterior de 18% parecerá imitada, en especial cuando el coeficiente 0.43 parece considerable. En la REGRESIÓN MÚLTIPLE, sin embargo, es posible sum ar el poder de predicción de varias variables y entonces obtener una combinación mucho mejor de variables predecibles. Por ejemplo, en la predicción de la agresión, pudiera ser, la cantidad de programas violentos de Televisión que se ven, actitud de los padres hacia la agresión física, el comportamiento íe los hermanos, y demás.
374 • Métodos de investigación y estadística..
(Capitule
LOQUE NOSE PUEDEASUMIRCONUNACORRELACIÓN CAUSA Y EFECTO Vea si puede detectar fallas en las siguientes declaraciones: La investigación ha establecido una fuerte correlación entre el uso del castigo físico por parte de los padres y el desarrollo de la agresión en sus hijos. Por tanto, los padres no deberían utilizar esta forma de disciplina, si no quieren que sus hijos acaben siendo agresivos. Hay una correlación significativa entre el destete temprano y una posterior irritabilidad en el infante, asi que no se apresure a destetar si usted quiere un niño con buen temperamento. La pobreza está correlacionada con el crimen, asi que, si usted puede lograr un mayor ingreso, sus hijos tienen menos probabilidad de ser infractores.
En cada caso mencionado se asume que una variable es la causa de la otra. Con una correlación significativa hay varias interpretaciones posibles: 1 2 3 4
La variable A tiene un efecto causal sobre la variable B. La variable B tiene un efecto causal sobre la variable A. A y B se relacionan con otro u otros factores de vinculación. Tenemos un error del tipo uno (es decir, una coincidencia casual).
Un buen ejemplo de la situación 3 sería la correlación perfecta de dos termómetros adyacentes, uno en °C y el otro en °F. El factor común por supuesto es el calor y un ter mómetro no puede afectar al otro. De manera similar, el castigo físico puede ser ur método de control utilizado en mayor medida por los padres que tienen más probabilidad de fomentar la agresión o de no poder controlarla, o bien que tienden a vivir en ambientes en donde es más probable que florezca la agresión. Otra vez, la interpretación 2 es interesante. Quizás la agresjón tiene una base hereditaria sustancial y los niños que nacieron con más disposición agresiva invocan más métodos físicos de control en se? padres; no es una explicación que yo respalde, sino tan sólo una posibilidad que no puetré descartarse. Cuando se le pregunta a usted: “ Un investigador concluye de un resultado de correlación q u e . . . (A es la causa de B ) . . . ” ¿Podría haber una interpretación alternativa’ —trate de que B cause A como alternativa. Después trate de buscar de modo visual causas comunes a ambos, A y B con las flechas representando la dirección causal: Interpretación 1 A ------------ ►B
Interpretación 2 B -------------►A
Interpretación 3 otra variable (s)
Correlación y su significación • 375
Lftándo es más probable la causa 1 L a VARIABLE p r e v ia : Una variable puede ser previa a la otra. Por ejemplo, si se
encontrara que la gente alta fuera más exitosa, el éxito difícilmente pudiera haber afectado su estatura. Puede, por supuesto, hacerlos “ caminar con aire de superioridad” y es cierto que afecta la percepción de otros sobre su estatura, como lo muestra la investigación estadounidense, la cual indica que la gente tiende a sobreestimar de manera significativa la talla del candidato ganador en las elecciones presidenciales. Pero el éxito posterior no puede influir en la carga genética para el desarrollo físico de la estatura. Sin embargo, es posible una explicación del tipo 3. Otras cualidades genéticas de la gente alta podrían contribuir al éxito en la vida posterior, no el factor de estatura en sí mismo. 2 EN EXPERIMENTOS: En una correlación no experimental entre dos variables medidas, es riesgoso sostener que una de las variables es la causa de ia otra. Cuando un investigador realiza un experimento demasiado controlado en el labo ratorio, por ejemplo sobre horas de privación de alimento en ratas y sus errores para aprender a correr en un laberinto, la variable independiente puede tomar varios valores y, por tanto, podría emerger un diagrama de dispersión de ios resultados como ios que se muestran en la figura 18-14:
X X
X X
X X
X X
1
I
I
I
I
I
I
I
2
4
6
8
10
12
14
16
Horas de privación de comida ¿Correlación positiva o negativa?
Figura 18-14. Diagrama de dispersión de los resultados del aprendizaje de las ratas.
Observe en la figura 18-14 que en la medición del aprendizaje al comparar los errores a n el paso del tiempo se produce de manera clara un esbozo de correlación negativa am o en ésta. De manera similar, podemos mostrar palabras variando pequeños intervalos y medir = número correcto de reconocimiento en cada ocasión. Aquí podemos tener más a»fianza de que A causa B, aunque hayamos utilizado una correlación. La correlación 31 sólo sirve para algún propósito estadístico: demuestra una tendencia entre la VI y la MD. En el ejemplo de mostrar palabras por periodos breves, al incrementarse éstos, rambién aumenta el número de palabras que se reconocen de manera correcta. El diseño am es experimental. Podemos hacer las mismas suposiciones que hacemos en un
376 • Métodos de investigación y estadística.
(Capítulo 18
experimento tradicional de dos condiciones, acerca de que la variable independíenle afecta a la dependiente. Puesto que la VI se ve alterada primero, la VD no puede caúsa los cambios en la VI, aunque, por supuesto, podría ser una variable confusa.
Mitad perdida Mediante la selección de ciertos grupos para incluirlos en un estudio correlacional, investigador podría demostrar un fuerte efecto de correlación. Por ejemplo, tal correlació* podría anunciarse entre el estatus financiero y los embarazos no deseados, en el sentida de que más familias de bajos ingresos informaron haber tenido embarazos no deseados. Esto podría utilizarse políticamente, ya sea para culpar a ios pobres de una alta tasa de nacimientos (junto con el pecado de ser pobres), o para una campaña en contra de íes bajos ingresos y de una mejor educación sexual. Sin embargo, los hechos reales pueden haberse oscurecido por un sesgo en el mues treo de sólo determinadas familias de bajo y alto riesgo. Dé un vistazo a la figura 18-15.
Alto
X X X
X X X
XXX X
X X
(a)
X
Bajo
Bajo Ingreso familiar -
(b)
X
X
X X
X
Ingreso familiar -
Figura 1 8 -1 5 . Embarazos no deseados/estado financiero.
Las muestras selectivas obtenidas (a) podrían mostrar una tuerte correlación, pero una muestra más representativa (b) no lo hará. Un efecto opuesto pudiera ocurrir cuando el rango se restringe de manera diferente, “ rango” significa todo el posible continuo de puntuaciones en cualquier variable Suponga que una empresa contrata a un psicólogo industrial para evaluar candidatos para un puesto, utilizando una batería de pruebas psicométricas y, comparándolo después cor la productividad de aquellos contratados después de un año de laborar. Si utiliza los d a te de la figura 18-16, el psicólogo puede concluir que los resultados de la prueba no se relacionan mucho con la productividad, ya que la correlación calculada utilizaría sólo lo? datos del lado “ seleccionado” del diagrama. Si hubiera sido posible medir la productivi dad después de un año de aquellos rechazados, la correlación, al utilizar todos los d ate en el diagrama, hubiera sido mucho más fuerte.
Correlación cuando una variable es nominal En general, si una variable es una medida de la categoría puramente nominal, no pueóí llevarse a cabo la correlación, a menos que sea dicotómica como mujer/varón (véase mra
Correlación y su significación • 377
rielante). Considere los datos en las dos primeras columnas del cuadro 18-9. Suponga zae pedimos a personas por separado que evalúen a diferentes propietarios de Hiromóviles para ver su honradez. La variable del auto es de tipo nominal. No podemos ordenar los tipos de autos de manera significativa (a menos que el valor sea relevante, 3i cuyo caso haríamos rangos de valores). No puede tomarse como dato la correlación 5el tipo de auto con el promedio de la clasificación.
Cuadro 18-9 Auto
% de calificación en h on radez
N um ero por arriba d e la m edia
N úm ero p o r debajo d e la m edia
(media de honradez = 58.99) Vaüxhall BMW Rover Citroe Porsch Jaguar
4 6 8 8
14 9 49
Recuerde del capítulo 15 que a A2 se le llamó una prueba de asociación. Como ya vimos en este capítulo, la correlación también es una medición de asociación entre dos variables. Lo que sí podemos hacer con datos nominales, como el de propietarios de autos, es reducir la otra variable continua al nivel nominal y conducir una prueba A2 en el resultado. Sin embargo, esto sólo es posible cuando haya recolectado varios casos en cada categoría. En el lado derecho del cuadro 18-9 imagine que 12 personas evaluaron al propietario de un Jaguar, 15 al de un BMW y así. Podemos encontrar la media global de clasificación y registrar, para cada categoría de automóvil, cuántos juicios estuvieron por encima de esta media y cuántos por debajo. Entonces podemos proceder con una prueba estándar A2 de 2 x 6.
Correlación con una variable nominal dicotómica El caso especial, mencionado antes, es cuando la variable nominal/categórica tiene dos valores con todo incluido. Ejemplos serían mujer/varón, propietario/no propietario de auto, aprobado/reprobado. Aquí se nos permite dar un valor arbitrario de acuerdo a la pertenencia a una categoría, por ejemplo, 1 para mujer y 2 para varón. El número puede ser cualquier valor como 5 = aprobado y 10 = reprobado. Entonces se procede a la correlación de Pearson usual. La correlación se conoce como correlación de punto biseria! y se simboliza como rPh. Este valor se puede convertir en una t ordinaria, itilizando la fórmula de la página 304 que transforma la correlación en un valor t. La significación se encuentra, entonces, empleando N —2 gl. Esto puede sonar a broma porque anteriormente enfatizamos que, Pearson es paramétrica y que necesitan hacerse suposiciones usuales con los datos. Es cierto sólo si usted quiere hacer algunas suposi-
378 • Métodos de investigación y estadística. . .
(Copiado
ciones acerca de sus resultados en poblaciones precedentes, que en su mayoría son warn complejas para el nivel de este libro. Volveremos a mencionar esto de manera b re e aunque considerando las suposiciones implícitas en la regresión múltiple. Para verificar estos trabajos, trate de buscar rph y el valor t resultante, empleando f e datos en el cuadro 18-9 y dando un valor a cada uno de los autos europeos (B V I Porsche, Citroen), y otro a los autos restantes (tipo de) del Reino Unido. Entonces, catare una prueba t independiente en los mismos dos grupos. Encontrará que los valores t sor idénticos —lo que no es sorprendente. Decir que hay una asociación entre el tipo de a r e (la VI, medida en dos grupos) y las puntuaciones de honradez (VD), es lo mismo ore decir que existe una diferencia significativa en la clasificación de honestidad entre ire dos grupos.
Productividad
no seleccionados seleccionados Puntuación de la batería de pruebas Figura 18-16. Rango restringido de correlación prueba-productividad.
¿Dicotomía verdadera o artificial? Usted habrá reducido lo que alguna vez fueron datos de intervalo a dicotomía, como Ir hicimos antes con el cálculo de arriba/debajo de la media. Aquí, se dice que la dicotonnz es “ artificial” porque hay una escala de intervalo debajo de ella. Si las dicotomías para ambas variables son “verdaderas” (como en mujer/varón), aun existe una correlaciór para ésta, llamada f.
Coeficiente Phi Si am bas variables son verdaderamente dicotómicas, a ambas pueden dárseles valore arbitrarios y calcular la Pearson nuevamente. El resultado se llama <(>, COEFICIENTE PK. y la significancia es aun más sencilla de probar con ésta, pues obtenemos X 2 = N§2 y ¿ verificamos del modo usual utilizando 1 gl. La A2 resultante es el mismo valor qo-: obtenemos del cálculo 2 x 2X2 en los datos.
Correlacióny su significación • 379
¿Porqué molestarse con asociaciones cuando as pruebas de diferencia arrojanel mismo resultado? Observe que una 2 x 2X2 es como una correlación colapsada. Correlaciones y X 2 son amebas de asociación entre dos variables. En una tabla de frecuencia de 2 x 2 sencillairente no tenemos información de cómo se separan los casos (ordenados o medidos) o m pueden separarse. El objetivo de encontrar <|> o rph es considerar los grados de asociación entre nuestras variables, en una escala de -1 a +1, más que las diferencias (o d valor de X 2). Con seguridad, si evaluamos ya sea la asociación o la diferencia de significación, llegaremos a la misma decisión. También existen otras razones estadísticas rá s avanzadas del porqué estas asociaciones estadísticas se utilizan con mayor freraencia.
USOS COMUNES DELACORRELACIÓNENPSICOLOGÍA Además de los diversos usos ya descritos, hay áreas particulares de investigación en ¿onde la correlación es especialmente útil y popular.
Vrvestigación expost facto Hasta el momento, el uso más común de la correlación, es en el tipo de estudio donde se extrae una muestra y se miden dos variables que ya existían, como cuando el estudio es ao experimental. Ya hemos dado algunos ejemplos en este capítulo, pero algunos otros son: cantidad de cigarros filmados y nivel de ansiedad, actitudes ante el sexismo y ante racismo, locus de control y estrés experimentado en el trabajo. Es por esto que en ocasiones a los estudios no experimentales se les llama “correlaciónales” , pero como •nencioné en el capítulo 5, esto puede ser engañoso, porque no todos estos estudios arilizan correlación, y ésta puede emplearse en experimentos. Éonfiabilidad
Cuando evaluamos la confiabilidad, el método test-retest implicaría obtener un grupo de •nedidas en, digamos, 50 personas en una ocasión, después se vuelve a evaluar a las ■ismas personas en una fecha posterior, digamos, seis meses después. Posteriormente realizamos una correlación entre dos grupos de puntuaciones. Las pruebas entre califi cadores (personas que califican) para medir la confiabilidad de su juicio también utilizan a correlación, al igual que lo haría una comparación entre dos mitades o dos formas equivalentes de la misma prueba (capítulo 9).
Análisis factorial Éste utiliza una matriz de todas las correlaciones posibles entre varias pruebas (una ^batería”) realizadas por los mismos individuos. Se dice que los factores obtenidos de aranera estadística del análisis “explican” las relaciones mostradas en la matriz.
380 • Métodos de investigación y estadística
(Capítulo
Estudios de gemelos Los gemelos idénticos (y en cierta medida los gemelos fraternos) forman un diseño idea’ de PARES IG UALA DOS. Muy a menudo se correlacionan las puntuaciones de pares eré gemelos. Esto se utiliza principalmente en estimaciones de hereditabilidad y depende e* exceso del debate del CI heredado donde una correlación fuerte entre gemelos criados por separado era una evidencia poderosa para la contribución genética. Fue la fuerza iré la correlación para números altos de pares de gemelos lo que en un inicio alentó a Lee* Kamin a investigar los famosos datos defectuosos de Sir Cyril Burt, pero fueron tes coincidencias misteriosas de obtener exactamente el mismo coeficiente, hasta en tres decimales con cantidades distintas de pares, lo que condujo a alegatos de fraude.
Correlación y su significación • 381
(Tomado de un artículo en el Times Educational Supplement, 3 June 1988) ... enseñar el sonido y la forma de las letras puede dar a los niños preescolares una ventaja inicial. . . los niños que se comportaron mejor a la edad de siete tendieron a ser aquellos que tenían más conocimiento y entendimiento de la lectura, la escritura y la aritmética a la edad de cuatro años. En el caso de la lectura, el predictor más fuerte de capacidad entre los niños de siete años fue “el número de letras que el niño podía identificar a la edad de cuatro años y nueve meses"... Tizard concluye que los maestros de guardería deberían dar más énfasis a la capacidad de leer y escribir y a las habilidades numéricas. . .
382 • Métodos de investigación y estadística..
(Capítulo 19
a) ¿Qué conclusión, diferente de la del investigador, se podría obtener aquí? b) De manera breve describa un estudio que pueda ayudamos a decidir entre estas intemr=taciones alternativas. c) ¿Qué tipo de correlación deben haber encontrado los investigadores entre el n ú m e ro * letras identificadas a los cuatro años y el número de errores de lectura a los siete a t e positiva o negativa? d) Suponga que la correlación entre la capacidad para sumar a los cinco años y la capacitar matemática a los siete años fuera +0.83 (Pearson). ¿Cómo describiría usted de maner= verbal la fuerza de este coeficiente? e) ¿Qué nivel de significación alcanzaría una correlación de 0.83 (una cola) si la m u e s tra * niños fuera de 33? Varios estudiantes en su grupo llevaron a cabo correlaciones, obtuvieron sus resultados, conocen el nivel de significación que necesitaban alcanzar, pero por desgracia han olvidad? cómo verificarlo en las tablas de significación. Acuerdan hacer cálculos con los datos de ustec si sólo verifica los resultados de ellos y les dice que rechacen o acepten sus hipótesis nulas. La columna en blanco es para que usted la llene.
3 La correlación de Spearman siempre puede utilizarse en lugar de la Pearson. ¿Es verdad to contrario? Por favor, proporcione una razón. 4 Un investigador correlaciona las puntuaciones de un cuestionario interesado por la “fuerza del yo" con las mediciones de sus niveles de ansiedad, obtenidas mediante la calificación de sus respuestas verbales ante varios dibujos. ¿Qué medida de correlación debería emplearse? 5 Si una estudiante le dice a usted que ha obtenido un coeficiente de co,relación de 2.79, ¿qué le aconsejaría hacer? ■
Pruebas para más de dos condiciones
•fTRODUCCIÓNAPRUEBAS MÁS COMPLEJAS T r e s estudiantes están comentando un proyecto práctico que debe ser de su propio ¿ seño. Han decidido investigar si el conocer la actitud de la gente hacia su ambiente recta nuestra evaluación general de ellos mismos, medida como “ agrado” .
Toño: Así que un grupo escuchará qué nuestra persona ficticia (llamémosla Juana) se preocupa por el calentamiento terrestre y el otro grupo escuchará lo opuesto. Elena: ¡Sí! pero. . . espera un momento; no sería importante, bueno, más interesante tener un grupo control, sabes, una "medición de línea base", ¡caray; palabra rimbombante! Francisca: Está bien, así que el tercer grupo no escucha nada . . . o ¿deberla tener un poco de información acerca de Juana como una alternativa "neutral", nada que ver con el entorno, como un grupo placebo? (Ahora para estar a la altura de Elena introduce términos de jerga.) Elena: Tal vez debamos tener al grupo sin información y una especie de grupo placebo . . . pero ¡esperen! ¿Cómo podemos probar la significación entre más de dos grupos?
. . . y más. Tener más de dos condiciones en su investigación es muy común. Con mucha frecuencia cobra sentido tener “tratamiento A” , “tratamiento B” , sin “tratamiento” en o absoluto y aun el “tratamiento” placebo. Existen dos problemas que Francisca, Elena ;* Toño tendrán que afrontar, uno práctico y otro teórico (más seriamente).
384 • Métodos de investigación y estadística..
(Sección
r
PROBLEMA I — INCONVENIENCIA Antes de seguir leyendo, piense qué prueba sería la apropiada para probar la diferencré en significación entre puntuaciones de evaluación en las dos primeras condiciones qre mencionó Toño. Las pruebas paramétricas y no paramétricas se mencionan al pie de este página.* Ahora, si los estudiantes van a utilizar esta prueba para estimar la significacioe entre todas sus condiciones, sólo cuente el número de pruebas que tendrán que llevar k cabo. Las combinaciones de cuatro condiciones, tomando dos a la vez, se convierten a: seis, pero a lo mejor también quieren estimar la diferencia entre, digamos, la condició* de no preocuparse-por-el-calentamiento-terrestre y las otras tres juntas. Tal vez las otras tres sean similares, mientras que la información negativa produce evaluaciones más bajas de Juana. El primer problema, y el menos importante que los estudiantes enfrentan entonces, es la clara inconveniencia y el tiempo que implica conducir tantas pruebas t, lo que no es un gran problema si utilizan una computadora.
PROBLEMA 2 —CAPITALIZACIÓN DE LA OPORTUNIDAD La dificultad fundamental se refiere a lo que por lo común se denomina “ capitalizacióo de la oportunidad” . Si conducimos diversas pruebas de significación, incrementamos h probabilidad de que obtengamos una baja probabilidad de resultados (y por ende, “ significativos”) sólo por azar, por ejemplo, el error tipo I. Suponga que la hipótesis nula en realidad es verdadera para una predicción en particular. Cambiando el objetivo a diferencias de sexo en percepción, supongamos que varones y mujeres no difieren eo absoluto en el reconocimiento de colores. Si seleccionamos dos muestras aleatorias de varones y mujeres y los evaluamos por diferencia, y repetimos el proceso 20 veces, esperaríamos alcanzar una significación del 5% en alguna de estas pruebas. Esto es en lo que se basa nuestro estimado de significación original; el valor crítico que debemos alcanzar (en tablas) se calcula como aquel que sólo 5% de las pruebas alcanzaría si la hipótesis nula es verdadera, esto es, las muestras sólo varían entre sí por azar. Analizaremos este aspecto un poco más adelante bajo el encabezado “ Tasas de error” en la página 406.
PRUEBAS DEMULTINIVEL Todas las pruebas que mencionaremos en esta sección están diseñadas para considerar este razonamiento y para indicamos cuándo un c o n ju n to de muestras (por ejemplo, tres
* P a ra m é tric a = p r u e b a t n o re la c io n a d a ; n o p a ra m é tric a = M a n n -W h itn e y o s u m a d e ra n g o s' de W ilc o x o n .
Pruebas para más de dos condiciones • 385
7 más) difieren de manera significativa entre sí. Las pruebas que ya utilizamos para dos muestras son en su mayoría casos especiales de las pruebas más generales que presenraremos aquí. Algunas pruebas, denominadas de modo correcto como “pruebas multivariadas” , tienen que ver con situaciones donde el investigador utiliza más de una variable ^dependiente en forma simultánea. Estos “enfoques factoriales” los encontrará en los capítulos 21 al 23. Para las pruebas no paramétricas en el capítulo 19, no nos extendere mos en los antecedentes teóricos de cada una. Tan sólo aprenderemos cómo utilizar la mieba y cuándo es apropiada. Los lectores que deseen ahondar en esto deberán consultar cualquier libro disponible con la frecuencia que se menciona en la sección de referencias i? final del capítulo 22. En la página 458 hay un diagrama que indica el uso apropiado de as pruebas de multinivel. Debido a que el ANOVA (“ Análisis de Varianza” para pruebas paramétricas) es tan amplia y popularmente usado, incluí explicaciones más detalladas de as versiones y cálculos de esta técnica para la investigación de diferencias estadísticas entre múltiples muestras y variables.
TENDENCIAS El hecho de tener tres o más condiciones en un estudio de investigación introduce un suevo concepto concerniente a los resultados. No sólo desearíamos ver si las muestras riñeren de manera significativa entre sí, sino también probar la predicción de que, conforme se altera el nivel de la VI en una dirección, así lo hace el valor de la VD. Por ejemplo, podemos predecir que, dosis más altas de café o anfetaminas producen periodos más largos de vigilia o mayor precisión en tareas de atención. Podemos predecir que la Terapia que estamos promoviendo produce un mejoramiento más efectivo en el cliente que, digamos, el psicoanálisis, y que un grupo control sin tratamiento es el peor de todos. Estas relaciones en las variables dependientes se conocen como tendencias. En gran parte de esta sección trabajaremos con el mismo conjunto de datos. Supongamos que los estudiantes sólo pueden probar a cuatro personas en cada condición. Es obvio que se Ies sugerirá que utilicen más que esto en su propia investigación, pero este número bajo hará que los cálculos sean mucho más sencillos de entender y aprender. Supongamos que los estudiantes utilizan: Condición A: La persona no se interesa por el calentamiento terrestre. Condición B: No hay información acerca de la actitud de la persona ante el calen tamiento terrestre. Condición C: La persona sí se preocupa por el calentamiento terrestre. Los datos que se obtuvieron se muestran en el cuadro V -l
386 • Métodos de investigación y estadística. . .
Pruebas no paramétricas — más de dos condiciones
Este capitulo presenta cuatro pruebas nuevas para datos no paramétricos categorizados como sigue: • No relacionados - Diferencias:
Kruskal-Wallis, análisis de varianza unidireccional
-Tendencia:
Jonckheere
• Relacionados - Diferencias:
Friedman
-Tendencia:
Page
Las pruebas de diferencia se utilizan cuando nos movemos más allá de dos diseños de muestras. Nos dan la probabilidad de que dos muestras o más se tomen de poblaciones idénticas (no de poblaciones con la misma media). Las pruebas de tendencia evalúan la probabilidad de que los rangos de la muestra se incrementen de manera significativa en la dirección predicha. Todas las pruebas de rango pierden una cierta cantidad de fuerza, sopesada por la ventaja, que están "libres de distribución" — pueden utilizarse con datos de cualquier forma de distribución, mientras que las pruebas paramétricas requieren un patrón muy cercano a una distribución normal.
388 • Métodos de investigación y estadística ...
(Capítulo 19
DISEÑOS NORELACIONADOS
KRUSKAL-WALLIS—ANÁLISIS DEVARIANZAUNIDIRECCIONAL CONDICIONES DE USO • • • •
Diferencias o correlación Nivel de datos Tipo de diseño Acotación especial
Diferencias Ordinal No relacionado No se contunda con ANOVA —véase el siguiente capítulo
t s t a es una versión generalizada de la prueba de suma de rangos de Wilcoxon, mencionada con anterioridad. Si utilizamos la prueba como aquí se describe, en los datos del cuadro 16-3, debemos llegar a la misma conclusión acerca de la significación que cuando usamos la prueba de suma de rangos. Esto nos dirá si tres muestras o más difieren de manera significativa entre sí. Nos indica la probabilidad de que las muestras hayan sido tomadas de la misma población (la hipótesis nula). Si esta probabilidad es inferior al valor fijado (por lo comúnp = 0.05), podemos rechazar la hipótesis nula como probable de ser falsa. Eche un vistazo a nuestros datos tal como se ordenaron en el cuadro 19-1:
CÁLCULO DE LA PRUEBA KRUSKAL-WALLIS Procedimiento
Cálculo de nuestros datos
1 Ordene todas las puntuaciones sin tener en cuenta la muestra.
Véanse las columnas 2 ,4 ,6 en el cuadro 19-1.
Pruebas no paramétricas — más de d o s . . . » 389
2
Sume todas las puntuaciones para cada grupo y utilícelas en la siguiente ecuación: 12 // = £ | - 3 ( * + l) N (N + 1)
Véase el renglón “ Suma” en el cuadro 19-1.
r=
donde
significa que tome la ^ fie suma de los rangos para cada con dición (Re), elévela ál cuadrado, divídala entre el número de valores en esa condición (nc) y sume los re sultados de estas operaciones; N = total del tamaño de la muestra. 3 Entonces se puede tratar a H como un valor de X 2 con gl = C - 1 C = No. de condiciones.
12
v
142
l 262
382
12(12+ 1 ) ^ 4 + 4 + 4 -3 (1 2 + 1) (12/156 x (49+ 169+ 361))-3 x 13 (0.07692 x 5 7 9 )- 3 9 44.5 2 5 -3 9 5.537
Con dos gl (por ejemplo, 3-1), A2debe ser > 5.99 para la significación (p <0.05). Entonces, no podemos rechazar la hipó tesis nula de que todas estas muestras provienen de la misma población.
PRUEBADETENDENCIAJONCKHEERE CONDICIONES DE USO • • • •
Diferencias o correlación Nivel de datos Tipo de diseño Acotación especial
Diferencias (tendencia a través de muestras) Ordinal No relacionado • Debe predecirse la tendencia
Esto es apropiado no sólo cuando queremos saber si tres o más muestras no relacionadas probablemente provengan de poblaciones distintas, sino también si existe una TENDENCIA significativa conforme se incrementan los rangos totales de menor a mayor. Por supuesto, necesitamos predecir aquí que la tendencia irá en una dirección y orden específicos, por ejemplo, puntuaciones más bajas para “ no le importa” y puntuaciones más altas para “ sí le importa” . No podemos observar una tendencia post hoc (posterior al evento) y después probarla. Debe seguir a la teoría que intentamos sustentar. El cálculo en esta prueba :o envuelve a usted en muchos conteos simples y no en un trabajo difícil con fórmulas.
390 • Métodos de investigación y estadística
(Capítulo 19
CÁLCULO DE LA PRUEBA DE TENDENCIA JONCKHEERE Procedimiento
Cálculo de nuestros datos
1 Para cada puntuación, cuente cuántas la excedieron en cualesquiera de las columnas a la derecha. Es más sen cillo comenzar este proceso por la columna de la extrema izquierda. Véanse las columnas 3 y 5.
La primera puntuación en la columna! es excedida por 7, 9, 8, 10, 8, 7, 11 en las columnas 4 y 6. La puntuación de 7 en la columna 4 sólo es excedida por 8, 10, 11 en la columna 6 —no cuente las puntuaciones igualadas con 7.
2 Los totales de estas columnas con tadas se suman para dar un valor lla mado A.
La suma de las columnas 3 y 5: A = 28 + 11 = 39
3 Ahora encuentre el valor más alto que pudiera ser A, usando la fórmula: B = C (C - l)/2 x n2 donde C = número de condiciones y n = número de personas en cada con dición.
4 C alcule:/>= 2 A - B .
B = (3 x 2)/2 x 42 = 3 x 16 = 48
P = 7 8 - 4 8 = 30
La tabla 13 (apéndice 2) muestra que con C = 3 y n = 4, P debe ser > 2 4 (p< 0.05), así que aquí podemos rechazar la hipótesis nula de que la tendencia es un patrón oportunista, ya que P es 30.
Pruebas no paramétricas — más de d o s ... • 391
Vuestras desiguales o de tamaño grande Si el número de valores en cada condición no siempre es el mismo, o si n excede a 10, ssted tiene que utilizar la repugnante fórmula: z =
i
2 A - ' Z ( n xn ) - \
J — { N \ 2 N + 3) - 3E ( n 2) - 22 ( n 3) }
V 18 Ande/Ves el total de los tamaños de la muestra, n es el total en una muestra en particular, y donde j) significa multiplicar todas las combinaciones posibles de los tamaños de a muestra, 2 por 2, y sumar los resultados. Así, si los tamaños de las muestras fueran 4, 6 y 7 tendríamos (4 x 6) + (4 x 7) + (6 x 7) = 94. También observe que aquí E(«2) pudiera ser 42 + 62 + 72 = 101. z es una puntuación, y z verifica la significación, refiriéndose a las áreas de distribución normal de la manera descrita en el capítulo 14.
DISEÑOS RELACIONADOS FRIEDMAN CONDICIONESDEUSO • ■ • •
Diferencias o correlación Nivel de datos Tipo de diseño Acotación especial
Diferencias Ordinal Relacionado Calcula una X 2 conocida como X 2 de Friedman o X 2?
Esta prueba es apropiada cuando los datos están relacionados. Suponga que los datos en eí cuadro 19-3 son de la misma muestra de tres personas, pero tomados en tres condiciones. Se puede pensar que la prueba es similar a la de rangos con signo de Wilcoxon, pero para tres o más condiciones.
392 • Métodos de investigación y estadística ...
(Capitulo 19
Procedimiento
Cálculo
1 Aquí, primero ordenamos las pun tuaciones de cada persona a través de las tres condiciones. La primera línea horizontal (renglón) en el cuadro repre senta las puntuaciones de la primera persona, y cada renglón representa el conjunto de puntuaciones de otra per sona. 2 Encuentre la suma de las columnas de los rangos. 3 Coloque las sumas de los rangos de las columnas en la ecuación:
Véanse las columnas 3 ,5 ,7 Observe: para la persona “ 1” , su pun tuación de 2 (condición B) fue la más baja y obtiene el rango 1, la puntuación de 3 obtiene el rango 2 y el 10 obtiene el rango 3
donde c es el número de las condicio nes, N es el número de renglones (conjuntos de puntuaciones relacio nadas, por ejemplo, gente en este caso) y Rc es la suma de los rangos en cada condición X2f representa la A2 de Friedman gl = c - 1-
Véaseelrenglón “Suma” en el cuadro 19-4 IR a = 5 I R b = 8 IR c =11.
= 4.5
gl = 2, así que el valor crítico requerido es 5.99 y nuestro resultado no es signi ficativo parap < 0.05.
PRUEBADETENDENCIADEPAGE CONDICIONES DE USO • • • •
Diferencias o correlación Nivel de datos Tipo de diseño Acotación especial
Diferencias (tendencia a través de muestras) Ordinal Relacionado Se debe predecir la tendencia
Es apropiada cuando no sólo queremos saber si tres o más muestras relacionadas son factibles de provenir de diferentes poblaciones, sino también si hay una tendencia significativa conforme se incrementan los totales de los rangos de menor a mayor. Al igual que con la prueba Jonckheere, antes de que tenga sentido conducir una prueba de Page, las muestras deben haber producido puntuaciones de rango totales que se incre menten en el orden predicho. Supongamos que predijimos que, en el cuadro 19-3: las puntuaciones de la condición A
Pruebas no paramétricas — más de d o s . . . » 393
Procedimiento
Cálculo
1 Ordene los datos como en el cuadro
19-3 2 Use la fórmula: L = £ (Re x c) donde Re = suma de una columna de rangos y c es el orden predicho para esa columna. Predijimos que las pun tuaciones de la condición A (y por ende, el total del rango) pudieran ser las más bajas, así que el orden predi cho para el total del rango de A es 1
Del cuadro 19-3: L= 5 x 1 (para la columna 3) + 8 x 2 (para la columna 5) + 1 1 x 3 (para la columna 7) L= 5 + 16 + 33 Total = 54
De la tabla 14 (apéndice 2) tenemos que para las condiciones = 3 y N = 4 necesitamos igualar o exceder 54 para obtener significación (p < 0.05). Así que esta prueba de tendencia apenas alcanza la significación. Observe aquí que L se incrementa conforme se acerca a la significación, debido a que los totales de los rangos numerados más altos se multiplican por los números de las columnas con mayor número. Si las puntuaciones en la columna 2 hubieran sido contrarias a nuestras expectativas, mayores que aquellas en la columna 4, entonces un total de rango relativamente alto se hubiera multiplicado por 1 más que por 2, dis minuyendo asf el posible valor de L.
Muestras grandes Si N es mayor que 10, utilice: z=
\2L-3nc(c+\y t/c2(c2 -1 X c +
1)
donde:
n = número de la muestra y c = número de condiciones.
GLOSARIO Conducción de diversas pruebas de significación con los mismos datos (o parte de ellos), para que la probabilidad de obtener al menos un resultado significativo se incremente arriba de 0.05
capitalización de la opor tunidad
Prueba para diferencias significativas entre dos o más muestras relacionadas: datos en nivel ordi nal
Friedman
394 • Métodos de investigación y estadística.
(Capítulo 19
GLOSARIO (continuación) Prueba de tendencia a través de tres o más muestras independien tes; datos en nivel ordinal Prueba para diferencias significa tivas entre dos o más muestras independientes; datos en dinal Prueba de tendencia a través de tres o más muestras relacionadas; datos en nivel ordinal Tendencia de incremento en las puntuaciones de una manera pre dicha a través de diversas condi ciones
E je r c ic io
s
1 ¿Qué prueba no paramétrica es apropiada bajo las siguientes circunstancias? a)
b) c)
d)
Un investigador desea saber si hay diferencias significativas entre un grupo que recibe un estimulante, otro que recibe una píldora placebo y un grupo control, en relación con el número de errores que cometen al reconocer palabras presentadas de manera breve. Se pide a los participantes que separen cartas en montones por categorías, primero, cuando sólo hay dos categorías; después, cuando hay cuatro y por último, en ocho categorías. Se espera que el tiempo incremente a través de las tres condiciones. A tres grupos de niños se les dan conjuntos de palabras sin sentido, con escritura típica castellana y después se evalúan en memoria. Se espera que los niños mexicanos recuerden mejor, los niños estadounidenses peor, y los niños estadounidenses, con uno de sus padres mexicano, caigan en un lugar intermedio entre éstos. Se evalúa a un grupo de participantes en cuanto a su sensibilidad auditiva por la mañana a mediodía y por la tarde. Se esperan diferencias significativas entre los conjuntos de puntuaciones. ■
ANOVA unidireccional
El conjunto de procedimientos conocidos generalmente como ANOVA (análisis de varianza) son métodos paramétricos poderosos para probar la significación cuando se usan más de dos condicio nes, o aun cuando están involucradas diversas variables independientes. Los métodos con más de una variable Independiente se abordan en el capítulo 21 "ANOVA multifactorial". Aquí abarcaremos el ANOVA unidireccional que prueba la hipótesis nula para ver si obtienen dos o más muestras de la misma población al comparar las medias. Las prueba incluye comparar la varianza de las medias de la muestra (variación entre grupos) con la varianza intergrupos (un promedio de las varianzas al interior de cada muestra). Si las medias difieren entre sí mucho más que lo que la gente difiere al interior de los grupos, entonces la razón F será mayor a 1, a una magnitud significativa evaluada de las tablas utilizando los gl asociados con el “efecto” (la VI) y los gl asociados con el "error" (la varianza residual intergrupos). Las pruebas de comparaciones específicas (como A contra C o A y B combinadas contra C) son ya sea a pr/or/(“planeadas antes de la prueba, ya que se predice a partir de un razonamiento teórico) o p o s t h o c (evaluada sólo porque la diferencia parece significativa una vez que se tienen los resultados). Se pueden hacer una o quizás dos comparaciones simples, utilizando pruebas t y contrastes lineales que hacen posible la prueba de medías combinadas donde debe calcularse un conjunto de coeficientes. Realizar diversas pruebas con los datos eleva la probabilidad de obtener un resultado “significa tivo" sólo por azar (“capitalización de la oportunidad") y debe considerarse la tasa de error por familia.
Se pueden presentar tanto la disminución del nivel de significación para cada prueba o diversos tipos de pruebas para múltiples situaciones. Esto Incluye: pruebas t de Bonferroni, la prueba Newman-Keuls, prueba diferencia real significativa de Tukey y la prueba Scheffé.
396 • Métodos de investigación)’ estadística
(Capítulo 2t
MODELOS DE ANOVA — CONDICIONES DE USO • Diferencias o correlación • Nivel de medición de datos • Tipo de diseño*
• Acotaciones especiales
Diferencias (entre conjuntos de medias) Intervalo/razón No relacionado —entre grupos/sujetos Relacionado —medidas repetidas; intragrupos/sujetos Mixto —entre e intravariables de grupo Se emplea mayor fuerza con más de una VI, cada u e con diversos valores, cuando cada VI puede ser re lacionada o no relacionada Necesitan ajustarse a suposiciones paramétricas
¿ENTONCES, DE QUÉ SE TRATA EL ANOVA? S u p o n g a que Elena recuerda de su aprendizaje de nivel elemental que las pruebas t sor más poderosas y robustas que las pruebas no paramétricas, porque eran “paramétricasy utilizaban (al menos) datos de nivel de intervalo. Ella podría suponer (de modo correcto que cualquiera de las dos pruebas de diferencia descritas en el capítulo anterior (KruskalWallis o Friedman), debido a que sólo utilizan datos ordenados, podrían no ser lo bastante fuertes para mostrar diferencias significativas entre conjuntos de puntuaciones cuanda de hecho, hay una (por ejemplo, sospecha el peligro de un error tipo II). Está en lo correcto y sería favorable girar hacia el conjunto de métodos más populares que se mención® bajo el encabezado de ANÁLISIS DE VARIANZA (ANOVÁ, en siglas) siem pre y cuande sus datos satisfagan las suposiciones param étricas. El pensamiento detrás del “modelo” más simple es relativamente fácil de compren der. En el cuadro 19-1 todas las puntuaciones, consideradas como un conjunto, varían. Varían por dos razones —una, porque el grupo difiere y, dos, porque la gente difiere ai interior de cada grupo. En el ANOVA, la variación de todos los valores de los datos juntos se divide en la variación entre las condiciones y la variación “residual” , atribuible a un error aleatorio general al interior de cada condición. Si las medias varían mucha relativas a la variación restante, entonces es más factible que haya una diferencia reai entre condiciones. Esta sección depende fuertemente del concepto de varianza, así que si usted está un poco confuso acerca de ésta, le sugiero con sinceridad que retroceda y repase los conceptos. Recuerde que estamos estimando la amplitud de puntuaciones er tomo a la media. Observe que el término “ variación” se utiliza al hablar de diferencias entre valores de datos, más que “varianza” , excepto cuando se haga referencia a un cálculo de varianza. En general, “ variación” significa (definida no teóricamente) amplitud de puntuaciones o valores dentro de un conjunto. Los cálculos en el ANOVA pueden ser más bien complicados —un montón de números crujiendo más que cualquier cosa matemáticamente compleja— y es de esperarse
* L o s d is e ñ o s a n te rio re s s e a b o rd a rá n a h o ra y e n lo s c a p ítu lo s 21 y 2 2 . E s te c a p ítu lo a b a r c a s ó lr u n d is e ñ o u n id ire c c io n a l n o re la c io n a d o .
ANOVA unidireccional • 397
m e el lector de esta sección tenga acceso a uno de los programas de cómputo más usados
cae se encuentran disponibles hoy en día como el SPSSMR (para WindowsMR, PC o V'ACmr) y MinitabMR. Sin embargo, he incluido los cálculos de los modelos más sencillos reconociendo el hecho de que el cálculo a mano de las fórmulas de las pruebas conduce icma mayor comprensión de lo que ésta hace en realidad. Para los modelos más complejos TTuporciono un bosquejo, pero si usted requiere hacer los cálculos a mano, por favor consulte alguno de los textos que se indican al final del capítulo 22 .
TEORÍA GENERAL QUE SUBYACE AL ENFOQUE DEL ANOVA 5» considera los datos de muestra que utilizamos antes (cuadro 19-1), verá que, a pesar A que hay superposición entre puntuaciones en nuestros tres grupos, la media de la condición C es mayor que la media de la condición B, la que a su vez es mayor que la -media de la condición A. Con símbolos matemáticos es: xA
--“ c u e n c ia
A = puntuaciones del grupo inf. negativo B = puntuaciones del grupo no inf. C = puntuaciones del grupo inf. positivo
4
5
6
7
Puntuaciones de evaluación
Figura 2 0-1 . Extensión de datos del cuadro 19-1
Si trazamos las puntuaciones para los tres grupos de la manera en que se muestra en !a figura 20- 1 , podemos ver la posición de las medias y el grado de superposición entre ■os grupos. Espero que vea que si la variación de las puntuaciones en cada grupo es relativamente amplia, entonces la superposición de las mismas en los tres grupos será mayor que cuando la variación es pequeña.
398 • Métodos de investigación y estadística. . .
(Capítulo ? r
ANOVA — CONCEPTO FUNDAMENTAL Espero que le quede claro por completo que estaríamos más seguros de que un conjurar de medias difiere en forma significativa mientras la distribución de las puntuaciones x acerque más al tipo de patrón mostrado en la figura 20- 2a donde, en relación con te cantidad en la que las puntuaciones varían alrededor de su media indhidna (varianza de la muestra o intergrupos), las medias difieren de modo marcado. Por el o r lado, donde la varianza intergrupos es muy grande, relativa a las diferencias entre ® medias, estaríamos listos para suponer que las tres muestras vienen de la misma p o b la o s subyacente (figura 20-2b). Esto también se puede ver en la parte baja de las figuras 20-3r y 20-3b, donde las líneas horizontales delgadas representan desviaciones de los incviduos de las medias de sus grupos. La prueba de ANOVA hace una comparación directa entre la cantidad en te que varían las medias de las muestras y la cantidad en las que varía cada muestra alrededor de su propia media. De hecho, cuando abordamos la prueba t necesitamos una medición de la variación esperada de las puntuaciones alrededor de las medias de las muestras. En el cuadro-14-3 acordamos que las medias en el cuadro de la derecha se veían virtualmente sin diferencia No se podía tom ar esta decisión, a menos que considerara el grado de variación en Jos conjuntos de puntuaciones como un todo. Suponga que 12.5 y 12.75 hubieran sido tes medias, pero las puntuaciones en el primer grupo, por ejemplo, hubieran sido del order de: 12.51, 12.48, 12.505, etcétera, mientras que el segundo: 12.765, 12.745, 12.76. Ex este caso, 12.5 y 12.75 parecen un poco distantes. En este libro, con frecuencia hemos dicho que usted puede decir de manera “ intuitiva” que existe una diferencia real entre dos conjuntos de datos, pero en cada caso esto depende dfe que usted pueda considerar te cantidad relativa de variación ai interior de las muestras, tal vez sin reconocerlo de manera consciente.
¿CÓMO ES QUE EL ANOVA HACE LA COMPARACIÓN? El corazón del cálculo del ANOVA es la razón F. En el caso “unidireccional” simple que describimos:
F _ varianza estimada desde medias de muestras _ varianza estimada desde intragrupos
varianza entre GRUPOS VARIANZA intragrupos
De hecho, las partes alta y baja de la ecuación son la suma total de dos estimados de te varianza de la población. La parte baja es un promedio de las varianzas de cada muestra. Ya que la prueba es param étrica, debimos asumir la homogeneidad de varianza para que todas las muestras combinadas nos dieran un estimado fiel de la varianza de te población, como se explicó en el capítulo 13. La parte alta de la ecuación utiliza las medias que obtuvimos para estimar cuánto variaría la población para producir medias tan distantes como éstas. Es de suponer que la hipótesis nula es verdadera y que las poblaciones, en efecto, tienen las mismas medias. Lo lógico es lo inverso de la prueba l
ANOVA unidireccional • 399
"¿Crianza in te rg ru p o s a lta - e fe c to d é b il/sin e fe c to
Figura 2 0-2 a y b. Relación entre varianza y significación del efecto.
á n d e se utilizó un estimado de la varianza de población para calcular la posible variación ¿e las medias. Aquí tenemos (una muestra de) variación en medias. El punto crucial es, si las medias varían demasiado, relativo a la variación promedio intragrupos, entonces la parte alta de ia ecuación será grande, F será grande 7 podemos rechazar, en cierto modo, la idea de que las medias de la población son las mismas. Para la situación mostrada en las figuras 20-2a y 20-3b, debemos obtener una “ alta y, cuando sea mayor que el valor crítico de la tabla, rechazaríamos la hipótesis nula se que las medias de la población son iguales.
COMPONENTES DE LA VARIANZA EN EL ANOVA UNIDIRECCIONAL □ punto central en el pensamiento del ANOVA es la idea de que la variación total de udos los valores alrededor de su GRAN m e d í a se pueden dividir en diversos componentes ¿e variación. En un ANOVA unidireccional los dos componentes son los descritos arriba, a variación de valores alrededor de las medias de los grupos (“ error” ) y la variación re las medias del grupo (“efecto”).
400 • Métodos de investigación y estadística..
m u e s tra
m u e s tra
m u e s tra
A
B
C
\
I
(Capítulo 20)
/
pobladón
Muestras
M u e s tr a s
v a r ia d ó n e n t r e la s m e d ia s d e lo s g ru p o s
Figura 20-3 a . Si se retiene la hipótesis nula.
Figura 2 0-3 b . Si se rechaza la hipótesis nula.
Una manera de comprender esto es considerar el modo en que cada puntuación individual puede descomponerse. Suponga que miramos la variable de la edad y que tomamos dos muestras, una de 10 mujeres y la otra de 10 varones. Nuestra muestra de varones tiene una media de edad de 35 años y una persona de la muestra (Andrés) tiene 47 años de edad. La media de edad para la muestra de mujeres es 39. La “ gran media” para las 20 edades es 37. Podemos resumir: media de edad para la muestra de mujeres media de edad para la muestra de varones gran media edad de Andrés desviación de Andrés de la media
= 39 = 35 = 37 = 47 = 10
y esto se compone de: desviación de Andrés de la media de su muestra desviación de la muestra de Andrés de la gran media
= 12 = -2
ANOVA unidireccional • 401
Observe que 12 + (-2) = 10. Esta idea se puede ver en el diagrama de la figura 20-4, la -jia de la edad de Andrés a la gran media es vía su desviación de la media de su grupo y 'a desviación de la media de su grupo de la gran media. Gran medida
Medida de la muestra de varones
Media de la muestra de mujeres
h- T
10 Edad de Andrés
12 31
33
35
37
39
41
43
45
47
Figura 20-4. Componentes de una puntuación en desviaciones.
En el ANQ VA podemos considerar cada puntuación en una muestra como descompuesta ré una manera similar. Entonces, pasando de lo individual a un grupo: ’ ara el individuo: ¿esviación de Andrés de a gran media
= desviación de la media del + desviación de Andrés de la grupo de Andrés de la gran media de su grupo media
’ ara la muestra completa: Variación total
= variación entre grupos
+ erro r
¿POR QUÉ “ERROR”? De cierto modo, el ANOVA estima el grado en el que la desviación de cada persona de a gran media puede ser “ explicada” por la desviación de la media de sus grupos de las -nedias de otros grupos. El restante, la variación intergrupos, se conoce como “ error” rorque es la cantidad de la variación total no explicada por la variación entre las medias ¿el grupo. Es una medición de qué tanto la gente varía al interior de sus grupos, alrededor ¿e su media, como resultado de variables desconocidas y no de la VI. Si cada persona en cada grupo fuera un robot reproducido, entonces no habría “error” intragrupos. En cada grupo cada quien ejecutaría de manera exacta al mismo nivel, y la variación total estaría compuesta por la variación entre los grupos. Para calcular las diversas estimaciones de variación en los tres componentes dados Hites, utilizando la varianza, un paso central en el cálculo de ANOVA es encontrar la íUM A DE CUADRADOS. Ahora iniciaremos con la etapa más crucial.
402 • Métodos de investigación y estadística
(Capítulo 25<
SUMA DE CUADRADOS En el capítulo 13 dijimos que una ecuación para la varianza es muy importante parae? trabajo con el ANOVA. Ésta es:
En términos del ANOVA la parte a l t a de la ecuación se conoce como SUM A DE la parte b a j a son los GRA DOS D E LIBERTAD para el cálculo de la v a r ia n z z en particular que se conduce. Observe que la parte alta no sólo es la suma de cuadrados xs, sino que también incluye lo que se conoce como “ factor de corrección” que es fácil de dejar fuera cuando se haces cálculos a mano, ¡tenga cuidado! CU A D RA D O S;
Cálculo de los componentes de la suma de cuadrados Utilizando la parte alta de la ecuación anterior: 1 Suma de cuadrados total (SCt„t»i)
2 Suma de cuadrados entre grupos (SCgrupos)
• x es la puntuación de cada individuo • N es el número total de puntuaciones • ( I x f / N es el “ factor de correccióno “ constante” • Se utiliza como la segunda parte de todos los cálculos de la SC IT 1 • Ex2 se convierte en: — , donde Tes el total de los valores en cada grupo» n es el número en cada grupo*
3 E rro r de suma de cuadrados (SCo™) (es decir, la variación intragrupos)
• Reste SC entre grupos de SC totaL eS decir, SCenor SCtotal SCgnjpos ¡Esto no es una broma! El método completo es encontrar, p ara cada grupo, Ex2 - (Ex)2 In (donde se re fieren sólo al grupo) y sumar todos estos resultados. Pero con álgebra se puede mostrar que: S C t o u l = S C g n ip o , + S C error
Esto es a lo que nos referíamos antes con la división de la variación
* Es aquí donde estamos encontrando la variación del conjunto de medias. Sin embargo, más qur poner en la ecuación x donde está*, es más sencillo trabajar con totales. La división entre n hace que todo resulte bien al final, pero deberá poner atención en lo que es n en cada uno de los cálculos, en especial con versiones más complejas, más adelante.
ANOVA unidireccional• 403
'REGLAS” PARA TODOS LOS CÁLCULOS DEL ANOVA Los cálculos realizados en los pasos 1 y 2 anteriores son comunes a lo largo del ANOVA. El paso 1 siempre se realiza, es la suma de todas las puntuaciones elevadas al cuadrado en los datos completos, menos lo que se conoce como FACTOR DE CORRECCIÓN: (Ex2)/#. Otros cálculos de SC, como en el paso 2, siempre tienen la misma forma (cuando las -nuestras son iguales en tamaño): Tes el total de cada uno de los grupos (o muestras o condiciones o “ celdillas”) que son el foco de interés para el cálculo y n es el núm ero de valores que contribuyen a este x*al.
SUMA DE CUADRADOS MEDIA —VARIANZA ESTIMADA La varianza real estimada para cada componente se conoce como SUM A D E CUA DRADO (SM) y se consigue al dividir la suma de cuadrados obtenida entre los grados de Ebertad apropiados. Es el complemento de la ecuación en la sección “suma de cuadrados” interior.
v e d ia
CÁLCULO DEL ANOVA UNIDIRECCIONAL CON DATOS DEL CUADRO 19-1 1 Calcule SCtotai (suma de cuadrados total) utilizando la fórmula:
(IxY
I r 2 —-
N
(A)*
Observe la diferencia entre Ex2 y (£x)2 2 Calcule SCgn,pos (suma de cuadrados entre los grupos) usando: S T 1 (Ex)2 (B)* N donde T es el número total de valores en cada grupo y n es el número de valores por grupo. Observe que n siempre es el número de valores en cualquier conjunto cuyo total es T. Verifique más abajo si los números de las muestras son desiguales.
Ex
=3+5+6+3+2+7+9+8+ 10 + 8 + 7 + 1 1 = 79 SCioui = 32 + 52 + 62 + 32 + 22 + 72 + 92 + 82 + 102 + 82 + 72 + l l 2 ((79)2 + 12) = 611 -6241/12 = 611 -520.08 = 90.92 SCgrupo. = (172 + 262 + 362)/4 - 520.08 = (289 + 676+ I296)/4 - 520.08 = 2261/4-520.08 = 565.25 -520.08 = 45.17
D e a h o r a e n a d e la n te , n o s re fe rim o s a e s ta s d o s e c u a c io n e s c o m o “ A ” y “ B ” a lo la rg o d e l ANOVA.
404 • Métodos de investigación y estadística. . .
3
4
Calcule SCem>r (error de suma de cua drados) usando: SC,™ = SCtóui -SCgmpos Calcule los g l para tOtal N 1 grupos = C -l (donde C = número de condiciones) error = total - grupos
5 Calcule cada suma de cuadrados media al dividir la suma de cuadrados entre gl. 6 Calcule F =
SCmo, g/,otai g/gnjpos
(Capitulo y
= 9 0 .9 2 -4 5 .1 7 = 45.75 =
1 2- 1
=
11
=3-1=2
gimo,
= 11-2 = 9
SM ^i SMgmpw SMemr
= 90.92/11 = 8.26 = 45.17/2 = 22.59 = 45.75/9 = 5.08
SM grupos SM error
1 Busque la significación de F en la tabla 11 como se describe en el siguiente párrafo
gl para el numerador (entre grupos) = I gl para el denominador (error) =* verificando la significación con p <0.05: valor crítico para Fo os (2,9) = 4.24*
BÚSQUEDA DE LA SIGNIFICACIÓN DE F Requerimos consultar las tablas de la razón F (páginas 555 y 556) y utilizarlas con» sigue. Primero vaya a la tabla para p <0.05, debido a que éste es el valor más alto ce probabilidad en el que podemos esperar significación. Para encontrar el valor críticr debemos utilizar los grados de libertad para el efecto involucrado, esto es el num erador (ya que va en la parte alta de la ecuación de la razón F) y los grados de libertad para e error de la varianza estimada —esto es el denom inador en la ecuación. Como costumbre, si alcanzamos la significación conp <0.05, podemos entonces consultar para ver si nuestro valor F es mayor que los valores críticos para valores más pequeños de r. En las tablas de F esto significa cambiar a la siguiente página de valores de tablas (pen? vea la página 311).
TABLA DE RESULTADOS DEL ANOVA Es común presentar los resultados de una prueba del ANOVA como se muestra en re cuadro 20-1.
* Observe la manera de anotar nuestros valores críticos donde los gl en paréntesis se refieren, pri mero, al efecto (numerador) y después al error estimado de varianza (denominador).
ANOVA unidireccional • 405
Cuadro 20-1. Resultados de la prueba del ANOVA = uente d e variació n
(unidireccional no relacionada)
S u m a de cuad rados
S u m a re cuadn med
R azónF
P ro b ab ilid ad
Entre grupos*
■Referida con frecuencia como la variación para el “efecto".
CONCLUSIÓNDENUESTRAPRUEBA(INTERPRETACIÓN DELOSRESULTADOSDELANOVA) Utilizando el ANOVA tenemos justificación (por el margen más estrecho, suponiendo aoep=0.05 sea aceptable) para rechazar la hipótesis nula de que las medias de las muestras sen de grupos con medias de poblaciones idénticas.
WTERPRETACIÓNDELOSRESULTADOSDELAPRUEBAFENELANOVA Lo que sabemos de este resultado es que al menos una media difiere significativamente * al menos otra media. No sabemos cuáles puedan ser estas medias, pero podemos ver, i partir de las medias del grupo (grupo A: 4.25, grupo B: 6.5, grupo C: 9) que la diferencia irás significativa probable es entre grupo A y grupo C, con el siguiente contendiente ■cosible entre grupo B y grupo C. Para decidir qué grupos difieren en modo significativo re cuáles, sin capitalizar en oportunidad, y conduciendo sólo diversas pruebas t, requerimos considerar lo que se conoce como COM PARACIONES A PRIORI Y POST HOC.
COMPARACIONESAPRIORI YPOST HOC Edie un vistazo a los resultados (cuadro 20-2) de un estudio ficticio acerca de memoria, ronde las medias de las celdillas representan la media del recuerdo de reactivos de una ista de 25 palabras, por distintos grupos de participantes que se evaluaron desde el lunes rasta el viernes.
Cuadro 20-2. Media de memoria por condición (día de la semana) fa) Lunes
X 16.71
(b) Martes
(c) Miércoles
(d) Jueves
406 • Métodos de investigación y estadística
(Capítulo 29
Supongamos que la hipótesis nula “completa” es verdadera y que, para la poblaciór muestreada, el recuerdo no difiere de manera significativa a lo largo de ios días de * semana (pi = p2 = P3 = g4 = ps). En otras palabras, las medias teóricas para cada día ce la semana son todas del mismo valor. Suponga tam bién que en esta ocasión de eva luación en particular tuviéramos un resultado casual donde la media del lunes sí difiere de manera significativa de la media del miércoles, utilizando una prueba t no relaciona^ En esta ocasión ha ocurrido un error tipo I si rechazamos la hipótesis nula de que e s 3 dos medias provienen de poblaciones con las mismas medias.
COMPARACIÓNPOSTHOC Las comparaciones post hoc son aquellas que realizamos después de inspeccionar ios resultados de nuestra prueba de ANOVA. Suponga que una vez obtenidos los resultad® generales en el cuadro 20-2, decidimos hacer todas las pruebas posibles entre pares 3 medias y considerar cualquier diferencia significativa como justificación para rechazar la hipótesis nula. En esta ocasión, estaríamos destinados a cometer un error tipo I, ya ere tendríamos que probar las medias del lunes y miércoles junto con todas las demás.
COMPARACIONESA PRIORI Por otro lado, si hubiéramos decidido, con base en nuestra teoría general, que sólo se probarían las medias del lunes y viernes porque creemos que, digamos, la gente están más cansada hacia el final más que al principio de la semana, no cometeríamos este errotipo I. C ualquiera que haya sido nuestra predicción inicial, sólo tendríamos uní oportunidad en diez (p = 0.1) de cometer un error tipo I, dados los resultados comr ocurrieron. Habían 10 predicciones por hacer (una con 2 ,3 ,4 ,5 ; dos con 3 ,4 ,5 ; tres cor 4, 5, cuatro con 5) y sólo uno de los resultados que hubiéramos predicho sería “signircativo” . Esto supone que la predicción concierne sólo dos medias (conocida comr CO M PARACIÓ N PO R PA R E S). Las comparaciones a priori ( “ p l a n e a d a s ” ) son, entonces, comparaciones que podemos hacer, hecha una predicción específica basada en argumen tos teóricos, antes de conducir una prueba de ANOVA. Esto le debe recordar las pruebes de una y dos colas porque, en un experimento de dos condiciones, una hipótesis de ira cola es una comparación planeada a priori. H acer todas las comparaciones posibles produce una más alta probabilidad (te cometer un e rro r tipo I que si realizamos comparaciones a priori selectas y prede term inadas. De hecho, decidir de antemano hacer todas las pruebas posibles de com paración es lo mismo que conducir pruebas post hoc. Éstas implican inspeccionar todo y probar lo que parece posible. Las primeras significan lo mismo, ya que el plan inicial s evaluar todo y ver qué resulta ser “significativo” , a menos que haya un buen argumemr teórico para que todas las posibles diferencias sean significativas.
TASADEERRORPORFAMILIA Ya dijimos que si usted conduce 20 pruebas de significación en datos ordenados dr manera aleatoria, es mucho más probable que obtenga una diferencia “ significativa-
ANOVA unidireccional • 407
Ésta es la lógica de evaluar la significación. Buscamos resultados que sólo podrían ocurrir ?cr azar cinco veces entre 100 y los consideraremos como significativos si los predijimos ames de someterlos a prueba. Entonces, si fijamos la significación enp = 0.05 y hacemos múltiples pruebas con datos ordenados de manera aleatoria, sabemos que existe una roortunidad de 0.05 de que cualquier comparación que hagamos se considere en forma ETÓnea como significativa; por ejemplo, habremos cometido un error tipo I. Se dice que restamos trabajando con una TASA DE E RRO R PO R COM PARACIÓ N del 0.05. Si estamos tariendo varias pruebas con nuestros datos, es posible calcular algo conocido como TASA ZE ERROR PO R FAM ILIA, que es la probabilidad de cometer al menos un error tipo I al realizar múltiples pruebas.
°RUEBAS PARACOMPARACIONESA PRIORI usted ha predicho justificadam ente sólo una diferencia significativa (“planeó una comparación”), entonces no hay problema en evaluarlo con una prueba t especial (como se usa en el “contraste lineal” —véase más adelante), ya que tiene una oportunidad de T.05 de que ocurra un error tipo I. Si realiza dos pruebas, la oportunidad de cometer al «enos un error tipo I se incrementa cerca de 0.01. Se puede compensar al fijar su nivel 3 significación, antes de evaluar, en 0.025. La nueva prueba será:
Sonde SMtmr proviene del resultado global de ANOVA y «i y n2son números de muestras.
3RUEBAS TDEBONFERRONI 5ri embargo, en vez de hacer eso, puede utilizar estas pruebas. Sólo se recomiendan si resá haciendo pocas comparaciones. Si desea probar todas las comparaciones posibles, rereonces tendrá que utilizar una de las pruebas requeridas para comparaciones post hoc. Estas pruebas no las mencionaré aquí, pero las podrá encontrar en programas de cómputo =*no el SPSS'1™que corra ANOVA.
CONTRASTESLINEALES—PROBANDOCOMBINACIONESDEMEDIAS ■*5ede haber ocasiones donde quiera probar la significación entre combinaciones de •tredias, por ejemplo, en nuestro ejemplo de días de la semana y memoria, entre las medias combinadas para el lunes y martes contra las medias combinadas de jueves y viernes. Zaando esto ocurre es necesario usar el enfoque del c o n t r a s t e LIN EA L. En este texto id cubrimos los aspectos matemáticos pero, suponiendo que usted esté utilizando un
408 • Métodos de investigación y estadística
(Capítulo 20
paquete estadístico comercial (como el SPSS1™), el único cálculo tramposo que debeó realizar es proporcionar un conjunto de COEFICIENTES para que le indique ai program, utilizando códigos numéricos, qué combinaciones de medias desea usted evaluar. L e mismas pruebas utilizarán la razón F en sumas de cuadrados relevantes. También iwar podrá utilizar contrastes lineales para probar comparaciones simples entre sólo dos medias —básicamente una prueba t.
REGLASPARADETERMINARCOEFICIENTES DECONTRASTE 1 Todos los coeficientes juntos deben sumar cero. 2 La suma de coeficientes para una media o combinación de medias debe igual® la suma de coeficientes para la otra media o combinación de medias, pero com signo opuesto. 3 El coeficiente de cualquier media no probada debe ser cero.
Cuadro 20-3. Coeficientes utilizados para medias E xplicación utilizando reglas
Regla 1: los números suman cero Regla 2: 1 y - 1 suman cero Regla 3: otros números son 0 Regla 2: las dos medias marcadas se tomarán juntas y se contrastarán con la s dos m edias m a rc a d a s ~ 1 . Las demás reglas, iguales a las anteriores
x,+xm combinada contra
-1
Regla 2: -1 + -1 = -2 , M ié tie n e +2 y será c o n tra s ta d a con las otras dos juntas
Elegir los coeficientes es una tarea un tanto intuitiva. No hay una respuesta correcta. Por ejemplo, en el tercer renglón, en el cuadro 20-3 podríamos haber elegido: 0.5 0.5
-1 0 0.
ANOVA unidireccional • 409
PRUEBAS PARACOMPARACIONES POST HOC Éstas se utilizarán en cualquiera de estas dos situaciones: 1 Cuando se desean todas las comparaciones posibles, decididas a priori. 2 Cuando las comparaciones sólo se hacen después de la examinación de los resultados de ANOVA y no debido a cualquier predicción teórica. Existen diversas pruebas, cada una con variaciones y complicaciones, para conducir comparaciones post hoc. Sólo mencionaré dos de las más populares con sus características asociadas.
’ RUEBA NEWMAN-KEULS
Esta alternativa es generalmente controversial debido a que, bajo ciertas circunstancias, a tasa de error por familia se eleva. Esto puede ocurrir cuando diversos pares de medias 30 difieren, de hecho, de manera significativa, por ejemplo cuando diversas hipótesis mías son verdaderas. Esto sólo sucederá en estudios con muchísimas condiciones y, para estudios que incluyen sólo tres condiciones, la prueba Newman-Keuls proporciona una gran oportunidad de mostrar diferencias significativas reales con un riesgo ligeramente Tiayor de cometer errores tipo I que la prueba Tukey,. De nuevo, los cálculos para las pruebas Newman-Keuls y Tukey no se especifican aquí, pero se pueden encontrar en el programa SPSS*® o similar.
^ U E B A TUKEYa (DIFERENCIA REAL SIGNIFICATIVA)
Esta prueba con título gracioso se considera la más segura que puede utilizar si desea amducir todas las comparaciones posibles “por pares” (dos medias a la vez), y mantener a tasa de error por familia por debajo de 0.05. El precio que pagará es que la prueba es “conservadora” —puede perder diferencias reales al mantener a salvo su interpretación.
EJEMPLOSDERESULTADOSDELAPRUEBATUKEYa ?í hubiéramos conducido una prueba Tukey DRS con los datos de nuestra muestra, sisien d o el resultado de ANOVA en el cuadro 20-1, hubiéramos obtenido los resultados siguientes (figura 20-5), que es parte de*! programa SPSS™ (Windows™).
410 • Métodos de investigación y estadística. . .
(Capitulo 29
Conjuntos homogéneos (las medias más altas y más bajas no son significativamente diferentes) Subconjunto 1
Gpo. 1
Gpo. 2
Media
4.2500
6.5000
Subconjunto 2 Grupo
Gpo. 2
Gpo. 3
Grupo
Media
6.5000
9.0000
Media
Condición
4.2500
GPO-1
6.5000
Gpo.2
9.0000
.Gpo.3
Figura 20-5. Resultados de la prueba Tukey en el SPSS MR
Esto nos muestra que las medias para los grupos 1 y 3 son diferentes de manea significativa, pero que no existe ninguna otra diferencia. Esto significa que pódeme? suponer que los grupos 1 y 2 pertenecen al mismo “ subconjunto” —sus medias nr difieren de manera significativa. Esto también es verdadero para ios grupos 2 y 3 tomad® como un par. Pero, como sabemos, es poco probable que los tres provengan de la m ism población. En esta ocasión no podemos asegurar que el grupo 2 “pertene2x a” en realidad rf grupo 1 o al grupo 3, pero considere los datos en el cuadro 20-4. Aquí, de nuevo, e' resultado del ANOVA es significativo. Los resultados de la prueba Tukey nos indicar que los grupos 1 (A) y 2 (B) deben estar juntos, y que sus medias son am bas diferentes de modo significativo de la media del grupo 3 (C).
Cuadro 20-4. Resultado (prueba Tukey) en el SPSS1 Grupo A
Gr punt Subconjunto 1 Grupo Media Subconiunto2 Grupo Media
Gpo. 3 18.2500
ANOVA unidireccional • 411
OPCIONES GENERALES PARACOMPARACIONES CONELANOVA « Para una comparación planeada (o quizás dos, disminuyendo el nivel de signifi cación) entre pares de medias (“por pares”), utilice pruebas t indivi-duales (especial) o contrastes lineales. ■ Cuando esta comparación (o dos) incluye las medias de las combinaciones de grupos, utilice contrastes lineales. • Si se van a realizar diversas comparaciones planeadas (por pares o por combi nación), utilice el método de la prueba t de Bonferroni. - Si usted desea comparar todos los pares de medias posibles, o realizar más de dos comparaciones planeadas donde haya diversos grupos, utilice la prueba NewmanKeuls (o por seguridad, Tukey DRS). ■ Si desea comparar todos los pares de medias posibles cuando existen pocos grupos (cinco o más), utilice la prueba Tukey DRS. ■ Si desea realizar todos los contrastes posibles (por ejemplo, no sólo “por pares”, sino también todas las posibles combinaciones de medias contra otras), utilice la prueba Scheffé (no descrita aquí).
;DÓNDE ESTÁN TODAS ESTAS ALTERNATIVAS? Existen otras alternativas específicas dependiendo del diseño particular del estudio y de a® objetivos. Todas las comparaciones anteriores se encuentran en programas de es tadística como SPSS*®, pero deberá verificar alguno de los textos avanzados que se mencionan al final del capítulo 22 antes de continuar, con el fin de saber si su análisis es t-LÍdo.
lim eros desiguales en las muestras De modo común, es más seguro intentar tener el mismo número de gente en cada muestra, •hto a veces uno se ve confundido con números desiguales —por ejemplo, no podemos =nocer de antemano cuánta gente contestará un cuestionario de cierta manera. Los resultados de la gente pueden ser inutilizables o pueden ser irrelevantes para su valuación. En el caso del ANOVA unidireccional esto no es muy difícil. En el paso 2 áei cálculo del ANOVA unidireccional anterior, no encontramos la suma de todos los 7*, ato n ces divida entre n Dividimos cada 7s entre su n correspondiente. En el caso de las anebas del ANOVA multidireccional, las que abordaremos más adelante, está más allá aei objetivo de este libro proporcionar los cálculos pertinentes. Usted deberá, ya sea insu ltar uno de los textos más detallados referidos al final del capítulo, o verificar que a programa de cómputo pueda trabajar con distintos números en cada muestra. El 5?SS mr sólo se pone a trabajar y ¡listo!
412 • Métodos de investigación y estadística
Técnica estadística qué compara varianzas entre e intragrupos, con el fin de estimar la significa ción entre conjuntos de medias Suma de cuadrados de las des viaciones de las medias de un grupo de la gran media; usada para calcular el componente de la varianza relacionada con el “efecto”, por ejemplo, distancia entre medias de grupos
sum a de c u a d ra d o s entre grupos
Dado el nivel de significación es tablecido, la posibilidad de un error en cada prueba realizada a los datos La probabilidad de haber co metido al menos un error tipo en todas las pruebas hechas al con suma de todos los cuadrados de las desviaciones de cada pun tuación de la media de su grupo, para todas las puntuaciones en un conjunto de datos donde hay dos o más grupos; utilizada para calcular un estimado de la varian za "inexplicada”, con la cual se compara la varianza “explicada” de medias de gupos alrededor de la gran media
error de suma de cuadra dos
ANOVA unidireccional • 413
Valores que forman parte de una ecuación para el cálculo de "con trastes lineales” — véase ..más adelante Procedimiento para realizar prue bas entre pares de medias indi viduales o combinaciones de me tías cuando se han hecho comDaraciones planeadas (véase más delante) Suma de cuadrados dividida en f e grados de libertad; un compo nente particular de la varianza estimada en el ANOVA Procedimiento para probar todos los pares de media posibles en un conjunto de datos para su sig nificación, siempre y cuando el número de grupos sea relati vamente bajo Comparación de sólo dos medias de entre un conjunto de medias Pruebas que se intentan hacer antes de la recopilación de datos, debido a predicciones teóricas Pruebas entre medias o grupos de ellas que se deciden sólo des pués de inspeccionar los datos Procedimiento para probar todos los pares de medias posibles de un conjunto de datos cuando hay un número relativamente alto de grupos; con número bajo de gru pos, se considera un tanto con servadora Procedimiento para probar todas las posibles combinaciones de medias
414 • Métodos de investigación y estadística
E je r
(Capítulo 20)
c ic io s
1 Produzca tres muestras de ocho valores utilizando los números aleatorios en la tabla 1, apéndice 2 (comience por donde sea, para cada muestra, y seleccione los ocho números en cualquier dirección). Calcule un AVAR unidireccional (no relacionado) y verifique la razón F para su significación. Si resulta significativa, dígale a su profesor que usted está ¡un poco escéptico acerca del convencionalismo del nivel de significación al 5 por ciento! 2 Imagine que usted conduce un experimento con cinco personas en una condición, seis personas en una segunda condición y ocho en una tercera, y que usted hará un ANOVA unidireccional. Elabore el perfil de la tabla de “tipo de varianza”, incluyendo lo grados de libertad para cada componente. 3 En el experimento de la pregunta 2, si en realidad se rechaza la hipótesis nula y usted decide ahora probar todas las comparaciones por pares, ¿qué prueba sería la apropiada, Tukey o establecer alfa al 0.01 y conducir pruebas 7? 4 Imagine que en el experimento de la pregunta 2 usted predijo en su introducción que sólo diferirán la primera y tercera condiciones. ¿Cuál será la prueba legítima a utilizar ahora? 5 En el experimento de la pregunta 2 deseamos utilizar un contraste lineal para probar la diferencia entre las condiciones una y dos juntas contra la condición tres. ¿Cuál será eí conjunto de coeficientes más simple a utilizar? ■
ANOVA multifactorial
El capítulo trata acerca del ANOVA multifactorial donde participa más de una VI. Cada VI se conoce como factor y cada condición de una VI como nivel de ese factor. Un diseño donde todos los factores son entre grupos se conoce como no relacionado. Cuando al menos un factor es una medida repetida, el diseño es mixto, a menos que todos los factores sean medias repetidas, en cuyo caso el modelo es de medidas repetidas o intrasujetos. El empleo de más de un factor incrementa la posibilidad de que cada uno de ellos, por sí solo, no tenga un efecto general, pero el efecto puede ser significativo cuando se consideran los niveles individuales del otro(s) factor(es). A esto se le llama efecto de interacción. Un ejemplo sería que un factor, el sexo del autor, pudiera no tener efecto alguno en la evaluación de la calidad de un artículo, y otro factor, contenido del artículo con orientación masculina o femenina, pudiera también no tener efecto. Sin embargo, a un autor femenino se le puede otorgar una evaluación inferior en un artículo “para caballeros", y un autor masculino puede ser subevaluado en uno “para damas”. Los efectos que ejerce un nivel de un factor sobre los niveles de los otros (por ejemplo, efectos del contenido masculino sobre el autor femenino o masculino) se conocen como efectos simples. El efecto de un factor sobre todos los niveles de otro factor tomados juntos se conoce como efecto principal.
La variación total en un ANOVA multifactorial se divide en: • Variación entre grupos (variación “explicada”) la cual, a su vez, se divide en: -
Variación entre grupos —para cada factor, más Variación de interacción —un componente para cada posible combinación de factores.•
• Error —la variación intergrupos "¡nexplicada”.
416 • Métodos de investigación y estadística
(Capítulo 21)
EMPLEODEUNA0 MÁSVARIABLES INDEPENDIENTES SE EXPANDE EL PROYECTO ESTUDIANTIL S upongam os que a Tomás, Elena y Francisca (¿los recuerda?) se les han impulsado ideas más lejos. Uno de ellos se ha percatado de que las personas que evaluaron, al ser estudiantes, mantuvieron puntos de vista estrictos acerca del calentamiento terrestre. Elena sugiere que si hubieran evaluado a personas a las que no les importara ese asunto, tal vez los resultados hubieran sido distintos. Tal vez estas personas hubieran considerado como negativas a aquellas que sí se preocupan y como positivas a las que piensan igual que ellas. Se dieron cuenta de que debieron haber tomado muestras de entre aquellas que se sabía que no les importaba y de un grupo donde sí les importara el calentamiento terrestre, con la finalidad de evaluar esta hipótesis compleja. El ejemplo del ANOVA que ya consideramos incluye la manipulación de sólo una VI (con tres valores). Con frecuencia, los investigadores evalúan el efecto de dos variables independientes al mismo tiempo. Suponga que evaluáramos la hipótesis del estereotipo del sexo, donde la gente valorara más alto un artículo de un autor experto cuando se le dijera que es varón, más que cuando se les informara que es mujer. O bien que encontráramos que no hay diferencia en la evaluación de los autores varón o mujer. Pero imagine que investigamos aún más al agregar otra condición, un artículo acerca de un aspecto típicamente “mascu lino” , digamos, mecánica automotriz y otro, uno típicamente “ femenino” , como el cuidado de bebés; recuerde que aquí nos referimos a estereotipos, ¡no a la realidad! Ahora, lo que podemos encontrar es que no hay diferencia en la evaluación de los autores varón o mujer ni tampoco en la de los dos artículos. Lo que pudiera ocurrir es que el autor varón se valorara más alto en el artículo para “ varones” y la autora mujer, lo propio en el artículo “ femenino” . A esto se le conoce como EFECTO DE INTERACCIÓN. Resultados de estudios multifactoriales como éste con frecuencia se muestran en un diagrama como el de la figura 21-1, donde, en este caso ficticio, se muestra un efecto de interacción típico. Sin embargo, no existen diferencias generales entre participantes a los que se Ies da el autor “ varón” o “mujer” , ni entre aquellos que reciben el artículo del automóvil o del bebé. Se dice que no hay EFECTOS PRINCIPALES. Intentaré explicar con más detalle estos dos términos de “ efecto” en un momento.
Figura 2 1 -1 . Interacción entre el factor autor y el factor del tipo de artículo.
ANOVA multifactorial • 417
FACTORES Y NIVELES En los diseños del ANOVA multifactorial introdujimos alguna nueva terminología. Cada M se conoce como un FACTOR y cada uno de ellos tiene diversos n iv e l e s . Por ejemplo, en la evaluación del autor, un factor es el sexo del autor descrito con niveles de “varón” y “mujer” , mientras que el otro es el tipo de artículo, con “orientación masculina” u "“orientación femenina” . Con frecuencia, se hace referencia a los diseños por la estructura de su factor. El diseño del sexo del autor es un ejemplo de un diseño factorial de 2 x 2 (dos sexos de autor; dos tipos de artículo). Ahora describiré un diseño reciente, un poco más complejo. En 1986, Alexander y Guenther informaron de un estudio en el que manipularon los estados de ánimo de tres pupos de participantes al hacerlos leer oraciones. Esto condujo a estados descritos como “exaltado” , “ deprimido” o “ neutral” . Entonces, se les leyó una lista con igual número de rasgos de personalidad, positivo y negativo, para ver si el estado de ánimo afectaba el dpo de rasgo recordado. En apariencia así fue. Este es un ejemplo de diseño factorial de 2 x 3 (dos tipos de rasgos; tres tipos de estados de ánimo). (Nota: ésta, junto con otras posibles versiones modificadas del autor varón/mujer o estudios de memoria, serían aspectos interesantes para proyectos estudiantiles.) Sin embargo, los diseños pueden tomarse muy complicados. Un estudio en 1984 de Samuel y Byant (comentado en Gross 1994) incluyó evaluar cuatro edades de niños ' factor 1) en tres tipos de tareas, (factor 2) utilizando tres tipos de materiales (factor 3); on diseño 4 x 3 x 3 . ¡David y colaboradores (1986) utilizaron un diseño 4 x 2 x 16 en la investigación de accidentes en carretera, y Gulian y Thomas (1986) utilizaron uno 2 x 2 x 3 x 4, donde se evaluaron a mujeres y varones en sonidos altos o bajos, bajo tres conjuntos de instrucciones acerca del sonido a través de cuatro periodos de evaluación! No existe límite para la complejidad de los diseños, los que van más allá de la paciencia del investigador en el análisis de datos y del tamaño de la combinación de los particinantes.
DISEÑOS RELACIONADOS Y NO RELACIONADOS Si todos los factores de un diseño complejo del ANOVA son entre grupos, por ejemplo, muestras independientes para cada “nivel” , se le denomina diseño no relacionado. Si todos los participantes pasan por todas las combinaciones de las condiciones (aparecen en cada “celdilla” del cuadro de datos), es un diseño relacionado o de MEDIDAS REPETIDAS. Si al menos uno de los factores es no relacionado, y al menos uno es una medida repetida, entonces nos referimos a un diseño m i x t o .
Los diseños de nuestro estudio acerca de la actitud hacia el “calentamiento terrestre” y de la manipulación del estado de ánimo apenas comentado se muestran en el cuadro 21—1. Veamos si usted puede completar la información que se requiere para los otros diseños en el cuadro. Las respuestas se encuentran en la sección “Respuestas a los ejercicios” (pregunta 1), Apéndice 3.
418 • Métodos de investigación y estadística ...
Cuadro 21-
(Capítulo 21 >
ios del ANOVA
D escripción d e l e stu d io
N iveles
Diseñó factorial
1 Efecto sobre la percepción de una persona a' saber si están o no preocupadas por el calentamien to terrestre y cuando se le propor ciona mucha información
nivel 1 ■— saber que la perso na no está interesada nivel 2 — saber que la perso na está interesada nivel 3 — sin inforr
A N O V A unidi reccional no re lacionado; tres niveles de una sola VI
2 Efecto dél estado de ánimo (de primido, neutral, exaltado) en el recuerdo de rasgos positivos o negativos
Factor 1: Ánimo (no relacionado) nivel 1 — deprimido nivel 2— neutral nivel 3 — exaltado Factor 2: Tip o de (medida réDetida)
3 Investigación de distintos tiempos tomados por la misma gente para nombrar colores de parches de co lores, palabras sin coloro con color 4 Efecto del psicoanálisis, terapia hu manista o modificación de con ducta en grupos de clientes varo nes y mujeres 5 Efecto de la edad (Viejo contra jo ven) en la ejecución del re cuerdo, utilizando tres tipos de métodos de memorización en cada grupo de participantes 6 Efecto del café, alcohol o un pla cebo en la ejecución de una tarea de registro visual bajo condicio nes de ruido alto, moderado, in termitente y sin ruido — -todos los grupos tienen distintos partici pantes 7 A extravertidos e introvertidos se les da ya sea un estimulante, pla cebo o tranquilizante y se les ob serva mientras realizan una tarea vigorosa o tonta 8 Gente con un alto o bajo prejuicio racial observa, ya sea, una per sona de raza blanca o negra, rea lizar un acto prosocial, neutral u hostil. Se comparan sus puntua ciones hacia la persona observada
ANOVA multifactorial • 419
INTERACCIÓN Un aspecto importante de los diseños “ factoriales” (bidireccionales o más) es la posibili dad de detectar efectos de interacción. Con mucha frecuencia, al evaluar el efecto de una sola variable, uno se inclina a la especulación de que una aparente falta de efecto puede estar oscureciendo una diferencia en la ejecución entre tipos de personas o en distintas tareas. He aquí algunos ejemplos: 1 ¿La gente es mejor en la mañana o hacia la tarde en la ejecución de tareas que requieren buena atención? Tal vez no se obtenga una diferencia significativa, pero si Eysenck (1970) está en lo correcto, podemos esperar que los extraveriidos tengan una mejor ejecución por la tarde, mientras que los introvertidos, por la mañana. 2 Se dieron argumentos a los estudiantes para convencerlos de que su universidad debiera iniciar un sistema nuevo y más difícil de exámenes. Se les dieron ya fueran tres o nueve argumentos fuertes o débiles. Esto produjo cuatro condiciones. En general, los nueve argumentos fuertes produjeron mayor acuerdo que los tres, p ero nueve argumentos débiles produjeron aun m e n o s acuerdo que los tres (Petty y Cacioppo, 1984, véase figura 21-2). 3 En un estudio notable, Godden y Baddeley (1975) mostraron que las personas evaluadas en memoria tenían una mejor ejecución si recordaban en el mismo lugar donde aprendieron el material original, ya fuera en tierra fírme o bajo el agua, ¡utilizaron buzos! Aquí, una VI es el lugar de aprendizaje y la otra, el lugar del recuerdo. La interacción se produjo en esas palabras donde no hubo mayor diferencia al recordarse en tierra o bajo el agua y no importó, en general, dónde originalmente se aprendió la palabra. Los dos grupos que obtuvieron mejores resultados fueron aquellos que aprendieron y recordaron en el mismo lugar. Entonces, un efecto de interacción ocurre cuando el efecto de un factor depende de cuáles niveles del otro factor se consideren. En el ejemplo 3 anterior, las diferencias en la ejecución asociadas con el aprendizaje bajo el agua o sobre la tierra dependen de si el recuerdo se realiza bajo el agua o no. En el ejemplo 2, el efecto de tres más que de nueve argumentos debe considerarse junto con la fu erza de los mismos, ya que los argumentos débiles crearon efectos opuestos a los fuertes.
EFECTOS PRINCIPALES Éstos son los efectos familiares de una sola VI. Un efecto pr in c ipa l ocurre cuando una de las VI, sin tomar en cuenta cualquier otra variable, tiene un efecto significativo general. Por ejemplo, en el punto 2 anterior, los argumentos fuertes produjeron significativamente más acuerdo entre los estudiantes en g e n e r a l (sin importar el número de argumentos que se les dieron).
EFECTOS SIMPLES Un EFECTO SIMPLE ocurre cuando extraemos una p a r te de un resultado del ANOVA multifactorial y consideramos nada más el efecto de un nivel de una VI con uno de la
420 • Métodos de investigación y estadística
(Capítulo
otra VI. Por ejemplo, puede haber un efecto simple de cierta hora del día en I n extravertidos o la evaluación de la autora femenina a través de los dos tipos de articules. Los efectos simples pueden investigarse en cuanto a la significación utilizando pruebe? t, contrastes planeados o aun un ANOVA unidireccional. Por ejemplo, si en el estucSr del estado de ánimo y la memoria predijimos que los rasgos positivos se recordarían mi? por los participantes exaltados, un poco menos por los neutrales y aún menos por k« deprimidos, conduciríamos un ANOVA unidireccional a través de estas tres condiciones. Pero los efectos simples sólo pueden investigarse sin “capitalizar en la oportunidad- , como sucede con todas las otras comparaciones y contrastes explicadas en el capitate anterior.
Son posibles varios tipos de interacción y de efecto Drincroal. Eche un vistazo a la figura 2 1 -3 y trate de interpretar qué sucedió. Observ posible tener efecto principal y de interacción al mismo tiempo.
DATOS EN UN DISEÑO DE ANOVA BIDIRECCIONAL NO RELACIONADO Supongamos que nuestros estudiantes sí pensaron en principio en este diseño más complejo y que los datos que obtuvieron de 24 personas, 12 que sí se preocupan pore? calentamiento terrestre y 12 que no, se ordenaron como se muestra en el cuadro 21-2. Ellos no pueden tan sólo ir y tomar otro grupo de personas que no les importa, evaluarlos en las tres condiciones, agregar esto al conjunto de datos y conducir un ANOVA bidireccional, ya que se estará “ capitalizando la oportunidad” . Los dos grupos deben seleccionarse de manera aleatoria de sus poblaciones.
cantidad de acuerdo
argumentos: fuerte débil
9
3 no. de argumentos
Figura 21-2. Acuerdo después de tres o nueve argumentos fuertes o débiles (de Petty y Cacioppo, 1984, citado en Atkinson y colaboradores, 1993).
ANOVA multifactorial • 421
l «erección
y efecto srncipal para "condición'
5
A
B
C o n d ic io n e s
: Interacciones con efecto gnple para condición c
g. E fe c to p rin cip al p a r a "g ru p o " y “co n d ició n "
Nota para las gráficas lineales en resultados del ANOVA: Algunas personas argumentan que las gráficas mostradas en este estilo son engañosas, ya que no hay valores entre las condiciones A y B y por ello las líneas no deben unirse. Sin embargo, aquí seguiremos la con vención estándar de representar de manera gráfica la dirección de efectos, aunque podamos reconocer que este razonamiento es válido y las líneas no deben leerse como representantes de valores entre valores discretos de las variables independientes.
Figura 2 1 -3 . Efectos de interacción, efectos principal y simple en el ANOVA bidireccional.
Cada una de las seis secciones del cuadro 21-2, más adelante, que contiene un conjunto de datos y una media (A1B1, A1B2, etcétera) se conoce como “celdilla” del cuadro (un grupo).
DIVISIÓN DE LAS SUMAS DE CUADRADOS Cuando calculamos las sumas de cuadrados para un ANOVA unidireccional tuvimos tres términos: 1 SCtotal, 2 SCgrupos y 3 SCerrorPara un ANOVA bidireccional, dividimos las sumas de cuadrados como se muestra en la figura 21-4.
422 • Métodos de investigación y estadística. . .
(Capítulo 21
Aquí sólo piense en la SC entre grupos del ejemplo unidireccional separado es variaciones para las dos condiciones, más la variación de la interacción entre las dos condiciones. Qué es el (“error”) izquierdo, otra vez, la variación de las personas ai interior de sus grupos. Como ya se mencionó, espero que los lectores no tengan que calcular, a mana, pruebas en este nivel o mayores. Deseo que la mayoría esté utilizando un programa de cómputo. En consecuencia, de cualquier modo, incluí un enfoque paso a paso al cálculo del ANOVA bidireccional, con explicación, pero excluyendo los detalles aritméticos. Los cálculos, en este caso, son ya familiares, pues se utiliza la misma fórmula que para el cálculo de los componentes de la varianza. En lo que el lector necesita poner atencióc es en el significado de cada componente y su función en el análisis global.
Cuadro 21-2. Evaluación general de la puntuación de Juana (0 = negativo; 12 = positivo)
B 4 ,—
pante (grupo):
muy preocupado por el calentamiento terrestre (Grupo B1) TceHlla(A1B1) = 17 X a ib i =
4.25
Grupo A1B2
Tcewnia(A2B1) = 26 X a 2B1 =
Tcakjiiia(A3B1) = 36
6.5
Grupo A2B2
X a38i =
9
Grupo A3B2
sin preocupación por el calentamiento terrestre (Grupo B2)
CÁLCULO DEL ANOVA BIDIRECCIONAL (ALEATORIZADO) Cálculo del ANOVA bidireccional con los datos 1 Calcule SCtotai, como antes, utilizan do la fórmula contigua
Ix 2 - '
(Id)1 N
(A)
= 118.625
ANOVA multifactorial • 423
sc TOTAL SC EXPLICADA - (SC total entre grupo) dividida entre: '
‘
Factor A entre grupos = SCtactor a
------------ F a c to r B e n t r e g ru p o s = S C itóorB
------------- Interacción A x B = SCint -----------------------—
ERROR (variación “inexplicada” intergrupos) = SC ettot
Figura 2 1-4 . División de la variación en un diseño de ANOVA bidireccional no relacionado.
Observe que
es igual que antes, el cuadrado de la suma de todos los valores
(141)2 dividido entre el número total de participantes (24); este valor también se utiliza en la ecuación (B) más adelante 2 Calcule SCfaoor a (condición de infor mación), utilizando la ecuación (B), como antes T es el total de cada con dición (7cond) n es el número de cada condición = 8 3 Calcule S C f aclor b (grupo de actitudes participantes), utilizando la ecuación (B) anterior. T es ahora T^,»; n es el número de cada grupo = 12 4 Calcule S C Mid¡ii« —la variación pro ducida por todos los totales de las celdillas alrededor de su media. Aquí, T es Tceidiiias, los valores 17, 26, etcé tera, son los totales de los valores en cada celdilla mostrada en el cuadro 21-2; n es el número en cada celdilla = 4*
IP n
(Lx)1 N
(B )
SC info
10.75
SC,grupo
12.042
SCceldillw
* El cálculo del valor de SCceidillas es un paso corto para obtener el valor de la interacción SC y siempre se utilizará de ahora en adelante. Tomar los efectos principales del valor de las “celdillas” deja una cantidad residual, que es un estimado de la variación relacionada con la interacción de las dos variables independientes.
1Métodos de investigación y estadística. . .
5 Calcule S C f» ct0r a utilizando: SCfactorAfactorB
x factor b
—a interacción de
SCceldillas — S C factorA
SC
S C inf0
SC factorB
SCtotal
SCceldillas
= 62375 -10.75 — 1 2 .0 4 2
Calcule SCerror usando: SC error
x grupo
SC error
= 39.58? = 562 5
6 Calcule los grados de libertad Para cada factor es (nivel - 1) Para el efecto de interacción, multiplique juntos los gl para cada uno de los c o n te nentes de la interacción (por ejemplo, en este caso, información y grupo) Grados de libertad Total =N- 1 =~ Factor A (info) = 3 - 1 =2 Factor B (grupo) = 2 - 1 = Interacción =2x1 = 2 Error = gl total - gl efecto = 2 3 -5 - IF 7 Calcule la suma de cuadrados media como para el ejemplo del ANOVA unidirec cional, dividiendo cada suma de cuadrados entre su gl apropiado; los resultados se muestran en el cuadro 21-3. 8 Calcule F para todos los efectos como antes, dividiendo cada efecto (dos principales» una interacción) entre el término de error; los resultados están en el cuadro 21-3.
Encontrando la significación de F Necesitamos consultar las tablas de la razón F como se explicó en el ejemplo unidirec cional. Aquí, las consultamos para todos nuestros efectos, esto es, los tres valores F
ANOVA multifactorial • 425
■Bostrados en el cuadro 21-3. En cada caso, el efecto SCmedia es el num erador y el error 5Ctnedia, el denominador. Para nuestro ejemplo: Efecto Efecto principal-información Efecto principal-grupo nteracción (info x grupo)
Valor obtenido
gl
V alor crítico
1.72 3.853 6.333
2.18 1.18 2.18
Fo.os (2,18) = 3.55 Fo.os (1,18) = 4.41 F0oí (2,18) = 6.01
<0.05 <0.05 <0.01
WTERPRETACIÓNDELRESULTADO \ l parecer ninguna VI tuvo un efecto significativo, tomadas por separado, a través de Tsdos sus niveles, sin importar los niveles de la otra VI (no hubo “efecto principal”). Esto esu variar la información de la actitud acerca del calentamiento terrestre de Juana no tuvo m efecto consistente en toda la gente evaluada, tomada como un grupo indivisible. “Tampoco fue significativa la diferencia de la actitud del grupo preocupado hacia Juana, en relación con la actitud del grupo despreocupado, si ignoramos la división de éste, de acuerdo con la información que se les proporcionó acerca de ella. Sin embargo, hay un efecto de interacción significativo (figura 21-5). Los dos rmpos de participantes sí difieren en la actitud hacia Juana cuando consideramos las condiciones separadas de actitud al factor de calentamiento terrestre. Resulta que el efecto -nás fuerte proviene de la diferencia entre dos grupos cuando se les dice que Juana está Temas iado preocupada por el calentamiento terrestre. De predecirse, el efecto simple de “saber que Juana está preocupada” podría evaluarse en los dos tipos de participantes —preocupados y no— como una comparación simple.
El efecto de interacción parece surgir principalmente de esta diferencia
Ambiente -alta preocupación importa
Ambiente -baja preocupación
Figura 21-5. Actitud ambiental y percepción de una persona cuya actitud ambiental se conoce.
CÁLCULODELANOVATRIDIRECCIONAL Espero que no sea tan desafortunado para encontrarse realizando cálculos a manos de un ANOVA tridireccional no relacionado (no como algún evento posible del siglo X X I). Sin embargo, listaré aquí los componentes que se requieren para que usted comprenda lo que
426 • Métodos de investigación y estadística
(Capítulo 21
una computadora le está diciendo. Es importante que ordene sus datos de manera correcta, aunque utilice una computadora, ya que, de otro modo, se meterá en un lío viendo qué son todos los componentes de la tabla resultante. Imagine que nuestros estudiantes tenaces en principio utilizaron otra condición (C ), que es una ¡nueva condición “pública” donde los participantes deben o no declarar sus puntuaciones a una audiencia de estudiantes’ En este diseño tridireccional, necesitará encontrar los siguientes componentes:
SC entre grupos
SC TOTAL
(SCceldIUs B SC Interacción BC (SCcaUBas ABC -1 -2-3-4-5-S)* S C E R R O R (SC TO TA L - S C c u iim a b c )
Figura 21-6. División de la variación en un diseño tridireccional no relacionado.
* Utilice los totales globales de la condición A, ig n o ran d o los otros dos factores.
t SCceldillas a b se encuentra utilizando los totales de las condiciones A y B ignorando C como factor, por ejemplo, los totales de A1B1, A1B2, A1B3, A2B1, A2B2, A2B3. : SCceldillas abc utiliza los totales de todas las celdillas, A1B1C1, A1B1C2, etcétera.
GLOSARIO Diseño del ANOVA que Utiliza sólo muestras no relacionadas en todos los factorés (Vis)
com pletam ente aleatori-
Una de las Vis en un diseñó con más de una VI Diseño de investigación que in cluye más de una VI Efecto de un factor que es sig nificativo, pero que depende sólo de cierto(s) nivel(es) de otro(s) factor(es)
diséñó factorial efecto de interacción
ANOVA multifactorial • 427
GLOSARIO (continuación) Los diferentes valores (Condi ciones) de una VI
niveles
El efecto de un factor que es significativo a través de todos sus niveles considerados juntos sin tomar en cuenta a cualquier otro factor
efecto principal
Diseño del ANOVA que emplea al menos una VI de medida repetida y ál menos una VI no relacionada Un nivel de un factor tiene un efecto significativo sólo a través de los niveles de otro(s) fac tores)
Ej e r c ic io s
1 ¡Haga el ejercicio de la página 417 si aún no lo hace! 2 Imagine que a dos grupos de estudiantes, uno vegetariano, el otro carnívoro (Factor 1 - grupos 1 y 2) se les pide que memoricen palabras de animales, vegetales y flores (Factor 2 condiciones A, B y C), Hasta donde sé, no existe ninguna investigación que en su predicción suponga que los resultados, en cada uno de los ejemplos siguientes, haya ocurrido. Elija el diagrama en la figura 2 1 -3 que usted crea que mejor representa el resultado obtenido. Para evitar la repetición, suponga que las "diferencias", cuando se mencionan, son significativas. a) Los vegetarianos y carnívoros difieren. Sin otro efecto.
b) Los vegetarianos y carnívoros difieren y existen diferencias en las condiciones como un todo. Sin interacción. c) Existen diferencias generales sólo a través de las condiciones. d) Existe una diferencia entre los grupos en una condición nada más y ningún otro efecto. e) Existe sólo un efecto de interacción entre el estilo de comer y la condición de memoria, No existe diferencia entre los estilos de comer o entre las condiciones de memoria.
f) Existe una diferencia general en las condiciones, pero es significativamente más extrema para uno de los grupos. 3 Suponga que los siguientes datos se obtuvieron de un estudio acerca de la socialización de niños y niñas sin hermanos, que asistieron o no al jardín de niños antes de iniciar la escuela primaria. Calcule el ANOVA bidireccional y comente los efectos.
428 • Métodos de investigación y estadística.
Niños Niñas
(Capítulo 27
N iños c o n preesco lar pu n tu acio n e s de so cialización
N iños sin preesco lar P u ntuacion es de so cializació n
45
12
14
21
18
9
35
34
35
38
48
35
23 48
25 45
56
49
42
39
4 Imagine que medimos a la gente en una variable llamada “socialización” - “S” para ab n e w . Entonces investigamos su ejecución en una tarea sobre un cable móvil donde, al tocarlo car un palo con una argolla, suena un timbre y se registra un error. Suponga que es verdad
ANOVA de medidas repetidas
Este capítulo trata con el ANOVA unidireccional o multifactorial cuando al menos uno de los factores es medida repetida. El modelo de medida repetida unidireccional individualiza la variación que se supone debe relacionarse con la variación entre los individuos de la muestra. Puede ser que los individuos difieran mucho unos de otros. A ésta se le conoce como variación entre sujetos. No obstante, si todos difieren de la misma manera a través de las condiciones, por ejemplo, entre condiciones, la mayoría de la variación total será explicada por la variación entre condiciones y la variación entre sujetos, dejando poco “error” residual (que en realidad es la interacción de los sujetos con las condiciones, como si éstas fueran un factor y los totales de los individuos en la muestra fueran niveles de otro factor). Así, ocurrirá un valor alto de F. En los diseños multifactoriales de medidas repetidas, cada efecto principal y cada interacción tiene su propio término de error asociado, calculado a partir de la interacción de los totales de los individuos con el efecto principal o de interacción. En un diseño mixto, los factores no relacionados tienen mucho que ver como en los modelos no relacionados aleatorizados. Sus efectos principales, junto con la interacción para los factores no relacionados únicamente más al error, todos conforman la variación entre sujetos. La variación intrasujetos se compone de los efectos principales de los factores de medidas repetidas más su interacción, más sus interacciones con los factores no relacionados, más e! error residual para
los intrasujetos. Al final de este capítulo se incluyen algunas recomendaciones y más lecturas técnicas acerca del procedimiento del ANOVA.
H a s ta ahora hemos trabajado, con detalle, en diseños que utilizan sólo muestras independientes, conocidos como “ diseños no relacionados” . Suponga que ahora conside-amos un diseño que incluye m ed id a s r e p etid a s. En este caso, se evalúa a un grupo de participantes por lo menos dos veces en condiciones diferentes (niveles) de una VI. Por ejemplo, veamos un experimento ficticio basado en una investigación de “niveles de procesamiento”, conducido originalmente por Craik y Tulving (1975). Se hace a los 429
430 • Métodos de investigación y estadística. . .
(Capítulo —
participantes una de tres preguntas posibles acerca de cada conjunto de palabras presen tadas: 1 ¿Está en mayúsculas? 2 ¿Rima con ? 3 ¿Encaja en la oración
Estas tres condiciones se conocen como 1 “ física”, 2 “ fonética”, 3 “ semántica”, que se basan en el tipo de procesamiento que se supone debe realizar el participante con i palabra presentada para cada tipo de pregunta. Son 45 palabras en total, 15 para cada tmr de pregunta. Las condiciones se presentan en un orden aleatorio (capítulo 6). La hipótesi es que los participantes recordarán más de manera significativa, conforme el nivel avanzz. por ejemplo, mediai
Cuadro 22-1. Número de palabras recordadas de manera correcta C ondicion es P a rticipan te
Física (1)
Fonética (2)
1
8
2
5 3
Semántica (3) 9
5
10
3
4
8
12
18 24
4
6 5
6
11
23
10
19
23
31
52
I x —106
5 Ls 2QS5-
4
'
■ SUjS
22
FUNDAMENTACIÓN PARA EL ANOVA DE MEDIDAS REPETIDAS Si recuerda el capítulo 20, el ANOVA unidireccional se basa en la comparación de h variación intramuestras con la variación entre ellas (entre sus medias). En el cuadro anterior tenemos tres muestras de puntuaciones (pero cada muestra consiste de las mismas personas). Como antes, mientras más varíen las puntuaciones al interior de cada con dición, tendremos menos certeza de que las medias de la condición difieran de manera significativa. Pero, en un diseño de medidas repetidas como éste, la variación al interior de cada condición se relaciona con la variación en todas las demás. Más que pensar en la variación de cada condición como tres muestras separadas de la variación de la población en general, sabemos que parte de la variación en cada columna es predecible conociendo la variación de las otras, ya que proviene de las diferencias entre la misma gente. Estas diferencias generales entre la gente (en la columna “Tap” en el cuadro 22-1' se conocen como variación ENTRE SUJETOS. Por favor observe que he mantenido aquí el uso del término “sujetos” , ya que muchas otros trabajos que se conducen con el ANOVA lo siguen utilizando y no deseo confundir
ANOVA de medidas repetidas • 431
*ia gente más de lo que el ANOVA ya lo hace. Es un término enérgico que se refiere a sán ales, e incluso a plantas (en biología), asi como a resultados con seres humanos. Albinos programas de cómputo los refieren como “casos” , ¡pero no en un sentido medico!
VARIACIÓN ENTRE SUJETOS Vire los datos ficticios e idealizados en extremo en el cuadro 22-2b. De una manera vulgarmente simplista, lo que el ANOVA de medidas repetidas hace es, digamos, que libem os que el participante 4 (llamémosle Susana) es mejor que el resto. Su puntuación -rrígina variación al interior de cada condición. Pero podemos ignorar esta variación morque es completamente regular —se explica por la variación entre sujetos. Deseamos saber si ella varía entre condiciones igual que el resto.
Cuadro 22-2b Participante
SC total = 41 SC entre sujs SC entre conds Error SC = 0
432 • Métodos de investigación y estadística. . .
1 2 3
4
(Capitulo 22
A
B
C
2 2 2 8 14
4 4 4 6 18
6 6 4 22
6
12 12 12
18 54
SC total = 41 SC entre sujs = 9 SC entre conds = 8 Error SC = 24
Imagine que el cuadro 22-2 representa tres conjuntos d ife r e n te s de resultados que podrían ocurrir con cuatro participantes. En el cuadro 22-2a tenemos el resultado de? sueño experimental de las personas-como-robots ¡que las mentes científicas adorarían' Cada persona tuvo una ejecución exactamente al mismo nivel y, tan sólo el “tratamiento(VI) tuvo efecto en ella —siendo éste perfectamente regular. Aquí, la variación tobl (evaluada como siempre a partir de las sumas de cuadrados) se explica POR completo. por la variación ENTRE CONDICIONES. En el cuadro 22-2b el participante 4 tuvo una actuación de 2 puntos mejor que el resto, pero se ve igualmente afectada por las condiciones de tratamiento. Así que ahora las variaciones e n tr e c o n d ic io n e s y en tre su je to s ju n to s explican por completo la variación general en las “celdillas” del cuadra Sigue sin existir el error “ inexplicado” . Por último, en el cuadro 22-2c, algo insignificante más real, el sujeto 4 actúa como en el cuadro 22-2b, ex c e p to que los valores están en orden inverso. Aquí, hay in teracción entre las personas y las condiciones. Esto es e x a c ta m e n te como el concepto de interac ción en el ejemplo bidireccional no relacionado anterior —véase el ejercicio siguiente. Observe que la SC e n tr e su je to s no cambia en el cuadro 22-2b, pero la SC entre c o n d icio n es se redujo de modo sustancial. Podemos confiar poco en esta estrecha diferencia entre las condiciones, en especial si se considera la variación “ inexplicada(llamada a veces “ RESIDUAL” ), que queda en la SC “ error” y no explicada por las diferencias de los sujetos y condiciones en general. Se produce por la manera a sistem á tica en que la gente ha variado a través de las condiciones (en este caso, de hecho ¡sólo hay una “desviación” !). Se puede comprender a) ANOVA unidireccional relacionado al compararlo con d diseño anterior bidireccional no relacionado. Piense que hay dos factores —condiciones y sujetos— y las “celdillas” son las puntuaciones individuales de cada persona en cada condición. A manera de ejercicio, y si usted tiene el tiempo y la paciencia (o un programa de cómputo), tome cada uno de los datos del cuadro 2 2 -2 e intente calcular un ANOVA bidireccional no relacionado que resultaría de evaluar los datos como si se hubieran producido por dos variables, una llamada "conds” y la otra, “sujs”, con sólo un resultado para cada combinación (o “celdilla”), por lo que, entonces, hay 12 celdillas. Usted debe obtener las sumas de cua-
ANOVA de medidas repetidas • 433
drados mostradas antes bajo cada conjunto de datos, donde et error dé SC se convierte en la interacción entré “conds” y "sujs”. Observe, ya no queda ningún error después del cálculo de esta Interacción como debiera haber en un ANOVA bidireccional no relacionado, ya que sólo hay un valor por celdilla de conds X sujs y ¡no puede haber variación en esto!
PODERDEUNDISEÑODEMEDIDASREPETIDAS Esta técnica demuestra el verdadero poder de un diseño de medidas repetidas. Podemos aducir el valor de la porción baja (denominador) de la razón F —el estimado de la varianza Toblacional a partir de la variación intermuestras— al sustraer la variación intercondirkmes que podemos atribuir a las diferencias entre las personas. A menor denominador, •navor será F y tenemos un mejor estimado de la posibilidad de que la diferencia entre condiciones sea una fluctuación azarosa: por ejemplo, existe una baja probabilidad de un error tipo II. En el ejemplo unidireccional no relacionado, cada puntuación en cada ■nuestra no estuvo, de ningún modo, relacionada con las puntuaciones en las otras ■nuestras. Entonces, toda la varianza intercondiciones fue “error” o variación inexpli cada por cualquier número de variables aleatorias. Sin embargo, en el diseño de medidas -'spetidas se explica algo de esa variabilidad, atribuible a las diferencias individuales.
DIVISIÓNDELAVARIACIÓN—VARIACIÓN ‘ENTRESUJETOS”E “INTRASUJETOS” La VARIACIÓN TOTAL en el ANOVA relacionado se d iv id e en la variación ENTRE 5LTET0S, la que se d ice es “ parcializada” y la variación INTRASUJETOS que co n siste de: /
1 Variación entre condiciones: Manera en que difieren los individuos como resultado de las distintas condiciones, sin importar cualquier diferencia entre ellos mismos y: 2 E rro r restante: la interacción de los “ sujetos” con las condiciones, esto es, el grado en que gente distinta responde de manera asistemática a través de las condiciones. Es la variación residual o “ inexplicada” y, mientras menor sea, mayor certeza tendremos de la efectividad de la VI. SC TOTALES ----------- ENTRE SUJETOS
INTRASUJETOS
-----------SC entre sujetos
-----------SC entre condiciones -----------Error SC (como antes, la SC “residual” pero eliminada la SC entre sujetos)
Figura 2 2 -1 . División de la variación en un diseño de A N O V A unidireccional relacionado.
434 • Métodos de investigación y estadística. . .
(Capítulo 22
CÁLCULOSPARAELANOVADEMEDIDASREPETIRAS De igual manera que para el ANOVA bidireccional no relacionado, incluiré los pase? para su cálculo y notas explicativas, pero no los pasos aritméticos engorrosos:
Cálculo del ANOVAunidireccional de medidas repetidas con los datos del cuadro22-1 1 Calcule SQotai utilizando la fórmula (A) como an tes. Nota: N es el número total de valores, no el número de personas. Cada uno proporciona tres, así que aquí son 15 (tres condiciones x 5);
N SC ujtal
2 Calcule SCsu> (entre sujetos) usando, como siem pre, la ecuación (B) Aquí, T es TSUj, y N es el número de condi ciones para cada = 3. Nota: N no es el número de personas aquí; es el número de valores que conforman cada 7^;
IV
3 Calcule SCconds (entre condiciones) usando la ecuación (B) igual que para S C g ru p o o S C f actor anteriormente. T es Tends; n es el número en cada condición = 5
SC™
4 Calcule SCemr utilizando: SC error
SC total
SC sujs
=
(Ix)2
=
89.73
SC.™ = 112.93 -8.93 -89.7?
= i4.r
SCconds
5 Calcule los grados de libertad. Total = N - 1 Entre sujetos = (5 -1 )* Entre condiciones = (3 - 1 ) Error = total - entre sujetos - entre condiciones
112.93
= = = =
14 4 I ?
* Maneje “ sujetos” como un factor con cinco niveles 6 La media de los cuadrados y la razón F se calculan como antes y los resultados se muestran en el cuadro 22-3. Observe que sólo estamos interesados en el valor de F para entre condiciones (nuestra VI) y el error MC se divide en la MC intracondiciones.
INTERPRETACIÓNDERESULTADOS Aquí, nuestra hipótesis de que los números medios del recuerdo de palabras en cada une de las tres condiciones de procesamiento diferirían de manera significativa está sustentade con solidez por nuestro análisis de medidas repetidas.
ANOKA de medidas repetidas • 435
Cuadro 22-3 F uen te d e v ariación
(medidas repetidasunidireccional) Entre sujetos
S u m a de cuad rados m edia
R azón
F
P ro b ab ilid ad deF
DISEÑO(RELACIONADO) BIDIRECCIONAL
Para este diseño y el mixto, que veremos a continuación, los cálculos se complican y es difícil conceptuar cómo se explican los componentes de variación. Aquí, entonces, no incluí las ecuaciones, ya que son las mismas que utilizamos antes. De nuevo, espero que usted tenga acceso a cálculos del ANOVA por computadora. Aunque desee verificar los cálculos, lo importante es comprender lo que hacen los distintos componentes,, como puntualicé antes. Si usted comprende lo que debe hacer en estos dos modelos, y el ANOVA tridireccional no relacionado, entonces podrá manejar e interpretar todas las posibles combinaciones del modelo del ANOVA (en términos de variables intra y entre sujetos). En este diseño, el mismo grupo de participantes pasa por todos los niveles de todos tos factores, ¡si tienen la energía y el vigor! Aunque con frecuencia no se incluye en textos introductorios, de hecho es un diseño común en proyectos donde es difícil que acuda la gente y usted puede elegir a sus amigos, a sus familiares, o ambos, para hacer, digamos, dos versiones de la prueba Stroop bajo dos condiciones, como presentación rápida y lenta. Imagine que los datos ficticios del cuadro 22-4, más adelante, se obtuvieron de un estudio hipotético donde un grupo de controladores del tráfico aéreo ejecutan una tarea de vigilancia tanto simple como compleja, bajo condiciones silenciosa y de ruido. Los valores mostrados son errores. Se podría utilizar el contrabalanceo, claro, para igualar los efectos de orden. Lo que es nuevo en el cálculo del ANOVÁ bidireccional relacionado es la existencia de un término de error para cada uno de los efectos (principal y de interacción). Hacemos con cada factor lo mismo que con el factor simple, en el diseño unidireccional. Buscamos !a interacción de los sujetos con el factor —qué tanto varían sus puntuaciones a través de las condiciones— de manera contraria a como varían los totales de los mismos. Para cada efecto (principal y de interacción) consultamos las celdillas de interacción pertinentes, como lo haríamos para el diseño tridireccional no relacionado. Por ejemplo,
436 • Métodos de investigación y estadística.
(C apítu lo 2 2
Cuadro 22 -4 Tarea simple
Tarea compleja (A2)
(Al) S ilencio
Ruido (B2) A 1B2
A1 total
S ilencio (B1) A2B1
R uido (B2) A2B2
T otal A2
Participante
en el cálculo del error del factor A ( S C eiTOrA) consultamos las celdillas de interacción faetmA x sujetos. Éstos son los ocho valores en las columnas denominadas “ A l total” y AI total” en el cuadro 22-4. Consideramos el error o la variación “residual” no explica* por la variación del sujeto y de la condición —-justo igual que en el ejemplo unidirec cional. Entonces calculamos SCceidiiias para estas celdillas. Hay dos valores por total m celdilla (de las dos condiciones B) así que aquí, n es 2. Luego sustraemos SC del facer A y la SC entre sujetos, como lo hicimos en la versión unidireccional.
Cálculo del ANOVA bidireccional de medidas repetidas con los datos del cuadro 22-4 1 Calcule SCtotai usando la fórmula (A) como antes Nota: N es el número total de valores = 16
SC|0tíi
2 Calcule SCSUjj como antes
SC^
3 Calcule SCf>ctor a - Utilice los totales de A (45 y 85) en el cuadro 22-4. n = 4
SCr,corA
100
4 Calcule S C ^ a encontrando S C « id iiiasA s —véase ex plicación anterior. Entonces
SCceldillasAS SCcrrorA
1 7 3 .7 5
S C c n u rA 5
S C ccIdilluA S
3 7 1 .7 5
6 0 .2 5
1 3 .5
S C f,ctorA — S C ju js
Calcule S C factorB . Utilice los totales para B en el cua dro 22-4. n = 4
6 Calcule S C e rro r B Í^Udl QUC para SCerrorA» perO allOra utilice las celdillas B x S. Serán los ocho totales en las columnas B1 y B2. SCcíiorB = SSccIdillasBS — S C factorB
SC,u¡3
7 2 .2 5
SCceldilItsBS
SCerTO,B
1 4 2 .7 5 1 0 .2 5
ANOVA de medidas repetidas • 437
"Calcule S CfactorAfactorB, el factor de interacción. Para ello, coloque los totales de Al B 1, A 1B2, A2B1 y A2B2 en la ecuación estándar para encontrar SCMidiiiasABn será 4 SCAB
SCceldillasAB
S C factorA
SCceldillasAB
= 272.25
SC
=
ab
SC factorB
i Calcule el término de error para la interacción b C o ro rA B
S C to ta l SCeroorA
100
S C sy js — SCfactorA S C crrorB
SC
SCerrorA B
= 15.5
SCfactorB —
aB
•G rados de libertad: Total Entre sujetos Entre condiciones (A) ErrorA Entre condiciones (B) ErrorB Interacción (AB) Error ab
N - 1 = 16 valores - 1 = 4 -1 =
2-1
= 1x3* =
2-1
= 1x3 = 1x 1 ' .
* ErrorA es la interacción del factor A con los sujetos; entonces, m ultiplicam os gl para A x gl sujetos.
Cuadro 22-6 Fuente de variación (medidas repetidas bidireccionales)
Suma de cuadrados
gl
Suma de cuadrados media (SCIgf)
Razón F
Probabíli' dad deF
Entre sujetos IntrasUjetos
Factor A (tarea) ElTOrfactorA
22 .22 * 21.13
Factor B (nivel ruidoso) EtTO lfactorB
InteracciórtAB (tarea x ruido) ErrorAB Total
P < 0.02 P < 0.02
19.34 P< 0.05
■Cada efecto se divide entre su error MC asociado.
•íTERPRETACIÓNDERESULTADOS Tenemos efectos principales significativos para ambos factores (complejidad de la tarea y mido) y ün efecto de interacción también significativo. De hecho, la interacción es la
que requiere indagación, ya que parece haber una ejecución mucho peor por los contro ladores en la tarea compleja con condiciones de mido, en relación con todas las otras condiciones, que ha producido los resultados significativos.
438 » Métodos de investigación y estadística ...
(Capítulo 22
DISEÑOMIXTODELANOVA-UNA MEDIDA REPETIDAYUNFACTORNORELACIONADO
En el siguiente ejemplo, suponga que ahora tenemos dos grupos de participantes en e experimento descrito en la prueba unidireccional de medidas repetidas. A un grupo se fe presentaron los reactivos de manera visual y al resto, de manera auditiva. Observe (pe en los cálculos se encuentra un término de erro r tanto para los efectos entre sujetos corar intrasujetos. También, cualquier efecto que incluya el factor de medidas repetidas se considera como “ intrasujetos” . En este ejemplo, entonces, la interacción entre grupas? condiciones se cuenta como intra, ya que incluye el factor de condiciones intrasujetos.
3
4
3 7 6 5
22
6
9 7 6 8
^celdillas
27
33
25
7gajpo2 = 85
Tconds
50
64
77
Ex = 19*
6 7 8 9 10
5 4 9
3
12 16 15 1r
Nota: el siguiente cálculo para entre condiciones (no relacionadas) produce de manea exacta el resultado que ocurriría si se conduce un ANOVA unidireccional en h r resultados de los dos grupos para audición contra visual, ignorando la existencia de ic condiciones de medidas repetidas.
ANOVA de medidas repetidas • 439
Cálculo para diseño mixto — un factor entre sujetos y uno repetido = 186.97
1 SCtooi se encuentra utilizando la fórmula (A) como en ejercicios anteriores. Observe que A es, una vez más, el número total de valores, no gente
SCtotal
2 SCsujs se encuentra con la ecuación (B) como an tes. Tes TSUjS; n es el total para cada TSUj = 3
S C suj,
=
46.97
3 SCnorci se encuentra utilizando la ecuación (B). T es Tgmpo; n es el número de valores por grupo = 15
SCvis/aud
=
14.7 32.27
SCcTTor/cntrc
=
5 SCjntra se encuentra a partir de: SCtótai - SCsuj,
SCintra
= 140
6 SCrep se encuentra con la ecuación (B). Tes Tm„á, ■ n es el número por condición =10
SCnivel
=
" SCceidiiias se encuentra con la ecuación (B). T es Tceidiiias» ti, entonces, 5
SCceldillas
8 SC„o rei - rep se encuentra a partir de:
SCviVaud x nivel
= 60.2
SCerror/intra
= 43.33
4 SCerror/entrc eS SC sujs
SCceldillas
S C n o rel
S C n o rel
S C rep
= 111.37
SC rep
9 SCerror/intra se calcula de: SCjntra
36.47
S C n o rel x rep
W Grados de libertad: Total = N - 1 = 30 valores - 1 Entre sujetos = Sujetos - 1 Entre condiciones (no relacionadas) = conds - 1 Error/entre = entre sujs - entre conds (no rel) Intrasujetos = total - entre sujetos Entre condiciones (relacionadas) = conds - 1 Interacción (no rel x rel) = conds no rel x conds reí Error/intra = intrasujs - entre conds (rel) - interac
Fuente de variación
(modelo mixto: 2 (no relacionado) x 3 (relacionado)
Probabilidad deF
440 • Métodos de investigación y estadística.
(Capítulo 22)
INTERPRETACIÓNDELOSRESULTADOS Al parecer los niveles de procesamiento tienen efecto, pero que éste se limita sólo al grupo de presentación visual. Existe un efecto principal para los niveles, pero también una interacción significativa y podemos ver, por inspección, la progresión hacia arriba del recuerdo de palabras para el grupo de presentación visual, pero no para el auditivo. Éstos son datos ficticios; si alguien en realidad conduce este estudio, ¡por favor hágame saber los resultados! Observe que no hay efecto principal para el tipo de presentación, el grupo auditivo no tuvo peor desempeño, en general, que el visual.
s e TOTAL
En nuestro ejemplo
------------ SC ENTRE SUJETOS SC entre condiciones (no relacionadas) SCno real
Efecto principal para condicione; visual/auditiva
Error SC (para condiciones no relacionadas) SCerrof/entre
Obtenida mediante sustracción
SC INTRASUJETOS SC entre condiciones (repetidas) SCrep
Efecto principal para “niveles”
Interacción de nivel de procesamiento con presentación SC interacción (para condiciones visual/auditiva SC no reí * rep repetidas y no relacionadas) ■Error SC (para intrasujetos) SCerror/intra
La variación residual. Éste es el término de error para cualquecomponente intrasujetos
Figura 2 2 -2 . División de la variación en un diseño mixto (un factor relacionado y otro no relacionado)
DISEÑOS DEANOVAMÁSCOMPLEJOS Hemos llegado a un punto donde tiene sentido detenerse. Usted tiene ya los principios para diseños más complejos. Como he dicho dos o tres veces, dudo que realice estos cálculos a mano. Ahora usted debe ser capaz de interpretar los términos que se produces al someter sus datos a un análisis de cómputo. Si requiere conducir cálculos más complicados, los principios no son más que los que aquí se han presentado. Por ejemplo, en un diseño no relacionado doble más uno de una medida repetida, requerirá trabajar con la SC de dos factores no relacionados y su interacción, y sustraerlos de la SC entre sujetos antes de proceder a calcular la SC del factor intracondiciones y la SC p ara todas las interacciones de ella con los factores no relacionados. Es obvio que los cálculos son muy largos, pero si usted es cuidadoso al ordenar los datos de manera precisa y segurcada paso como se explicó antes, llegará hasta el final. Si requiere mayor comprensión teórica o necesita verificar cálculos con más detalles, entonces por favor, consulte alguno
¡
ANOVA de medidas repetidas • 44i
de los textos a los que me refiero a continuación. El último, de Winer, es considerado por muchos, con admiración, como la “biblia” para la teoría del ANOVA. El de Howell es, por momentos, muy profundo pero excelente, moderno y emplea, a lo largo de su obra, ejemplos de investigación actual.
LECTURAS ADICIONALES EN U S TÉCNICAS Y TEORÍAS DEL ANOVA Hays, W. L. (1974) Statisticsfo r the Social Sciences, New York: Holt Rinehart Winston. Hays, W. L. (1988) Statistics, New York: Holt Rinehart Winston. Howell, D. C. (1992) Statistical Methods fo r Psychology, Boston PWS-Kent. Winer, B. J. (1971) Statistical Principles in Experimental Design, New York: McGrawHill.
GLOSARIO Variación asociada con las diferen cias entre los totales generales de los participantes en un diseño de medidas repetidas; esta variación es parcializada a través del error general que podría utilizarse en un diseño no relacionado
variación entre sujetos
Variación calculada en un diseño de medidas repetidas que proviene de cómo varían las puntuaciones entre las condiciones, cuando se ha eliminado la variación entre los totales generales de los participan tes
Variabión entre condi dones
Término para la variación restante en un diseño de medidas repetidas cuando se ha eliminado la variarión restante "¡nexplicada”
residual
Eje r c ic io
s
1 Como en el capítulo 20, utilice cuadros de números aleatorios para generar tres conjuntos de ocho puntuaciones. En esta ocasión, suponga que los tres conjuntos son de las mismas ocho personas y conduzca un ANOVA unidireccional de medidas repetidas. De nuevo, ¡coméntele a su profesor si los resultados son significativos! 2 Elabore un bosquejo del cuadro de resultados de “fuente de variación" para un diseño mixto donde hay un factor de medidas repetidas con tres niveles y un factor no relacionado con cuatro niveles, y ocho personas en cada uno. Como en el capítulo 20, coloque los valores en la columna "grados de libertad”.
442 • Métodos de investigación y estadística.
(Capítulo 22
En el cuadro 2 2 -8 encontrará una tabla incompleta de resultados ficticios para un ANOVA 2 x 3. Para cada oración, elija entre verdadero/falso o la respuesta correcta: a) Hubo un efecto principal significativo para grupos
VF
b) Hubo un efecto principal para condiciones c) Hubo un efecto de interacción significativo entre grupos y condiciones
V *
d) El diseño fue completamente no relacionado e) Los grados de libertad totales fueron: 36
41
42
(elija una respuesta)
f) Hubieron tres grupos
VF
g) Hubieron tres condiciones
VF
h) El número de participantes fue: 7
21
14
Cuadro 22-8. Datos ficticios para la pregunta 3 Entre Sujetos Grupos Error entre Intrasujetos Condiciones Grupos x condiciones Error intra
Otras pruebas multivariadas complejas útiles — un breve resumen
Este capítulo da un vistazo a algunas otras técnicas estadísticas más complejas que podrán ser útiles en proyectos de algún tipo, pero que en realidad necesitan del apoyo de una computadora personal. MANOVA es un método de conducir análisis de varianza en diversas VD juntas, consideradas como una combinación. El análisis de covarianza (ANCOVA) ajusta las medias de las muestras de acuerdo al grado en que las puntuaciones de la variable medida se correlacionan con otra variable, conocida como covariada. El ejemplo utilizado en ese grupo puede dar inicio a un programa de entrenamiento muy inferior numéricamente que en el segundo grupo. Las puntuaciones en la prueba final para ambos grupos se sabe que se correlacionan con niveles numéricos Iniciales. Sin embargo, el nivel numérico micial confunde el cambio real en la capacidad, debido a la menor numerosidad del grupo original. El ANCOVA considera la puntuación numérica final y da, de alguna manera, la diferencia estimada entre las medias si los grupos se pusieron a hacer lo mismo. La regresión múltiple utiliza las correlaciones de diversas variables predictoras con una variable de criterio. Añade el poder predictivo de cada variable hasta que se alcanza el nivel óptimo de predicción de la variable de criterio, utilizando algunas o todas las variables pronostlcadoras. R2 es una medida de la predicción en general de la varianza en la variable de criterio. Un ejemplo del uso de este método en la práctica es para la selección de personal, que utiliza una batería de pruebas y otras medidas y conoce la correlación de cada una de éstas con la ejecución general. Utiliza el método básico de la regresión. Estima la mejor línea en una dispersión de pares de puntuaciones relacionadas con el fin de que se minimicen los residuos (distancia entre la puntuación real en Y y las puntuaciones predichas por la línea de regresión).
444 • Métodos de investigación y estadística.. .
(Capítulo 25
asi como un pensamiento posterior, debido a que este libro ha llegado tan lejos come debiera en lo referente a pruebas avanzadas, quisiera sólo mencionar tres formas más elaboradas de análisis, principalmente porque proyectos estudiantiles sencillos alguna* veces generan datos en los que pueden utilizarse estas técnicas si se tiene disponible na programa de cómputo.
MANOVA—ANÁLISIS DEVARIANZAMULTIVARIADO Expresado de manera simple, es un conjunto de procedimientos estadísticos que evalúan la significación de múltiples VD como un conjunto. Suponga que ha recopilado datos por valuar su curso universitario donde los estudiantes evaluaron utilidad, interés, gusto, etcétera. Con el MANOVA es posible probar estas VD como un conjunto a través de diversas condiciones de la VI, la cual, en este caso, pueden ser estudiantes de medio tiempo, tiempo completo o vespertinos. Aquí, es posible conducir un ANOVA undireccional para cada puntuación de evaluación por separado, o pruebas t si sólo se incluyeran dos tipos de estudiantes. El MANOVA también hace esto, pero además estima h significación de cualquier diferencia a través de los niveles de la VI, considerando todas las evaluaciones juntas (VD).
ANCOVA—ANÁLISIS DECOVARIANZA Éste será más sencillo de explicar si utilizamos primero un ejemplo. Imagine que conducimos un cuasiexperimento utilizando dos grupos de estudiantes, uno en clase matutina y el otro un grupo vespertino de medio tiempo. Éstos son los únicos dos grupos disponibles y queremos saber si un grupo que utiliza un paquete nuevo de cómputo interactivo para el aprendizaje de métodos de investigación y estadística con menos contacto convencional con el profesorado se desenvuelve igual que uno con enseñanza tradicional. El problema es que los grupos no se pusieron en marcha de la misma manera, numéricamente, en la competencia. El grupo vespertino que utilizó el programa de cómputo tiene más adultos que regresaron a la educación después de varios años y son por lo general trabajadores, a pesar de que existe mucha superposición entre los dos grupos y el rango al interior de cada uno es amplio. Además, cuando investigamos los resultados de las pruebas de fin de cursos como un todo, encontramos que el nivel numérico inicial se correlacionaba con fuerza con el “aprovechamiento final” , sin importar la clase en la que estaba el estudiante. Suponemos que el paquete de aprendizaje independiente sí ayudó al grupo vespertino, pero la diferencia entre los grupos no es significativa. Nuestros resultados son confusos por la numerosidad inicial disponible. Existen otras variables que pudieran ser responsables de la diferencia final entre los dos grupos —estudiantes vespertinos— más maduros, tal vez más comprometidos, y demás. Estas son las variables incontroladas por lo común problemáticas que difieren entre
Otras pruebas multivariadas complejas útiles . . . » 445
grupo del paquete de cómputo
Efectos supuestos del programa de enseñanza (y otras variables)
grupo control
1"
Media ajustada l de aprovechamiento!
Figura 2 3-1 . Medias observadas y ajustadas en ANCOVA.
cualquier par de grupos, en especial cuando no son el resultado de distribuciones aleatorias como en este caso. Sin embargo, sí tenemos un elemento de control sobre la variable numérica, debido a que sabemos cómo se correlaciona con las puntuaciones del rendimiento final. El ANCOVA nos permite “ parcializar” el efecto de las diferencias numéricas (conocidas como COV A RIA D O ). Nos proporciona un estimado de las medias de los dos grupos que ocurrirían si, de cierto modo, ambos grupos comenzaran con igual posición de numerosidad. Este enfoque se ilustra con los datos ficticios del cuadro 23-1 y figura 23-1.
Puntuacion es los estu d ian tes
Grupos Programa Control
Numerosidad Aprovechamiento Numerosidad Aprovechamiéfito
23 55 81 71
45 63 78 75
33 18 58 48 45 23 53 42
65 63 78 65
72 68 65 54
54 60 59 53
44.29 5 9 .2 9
6 2 .6 4
61.29 5 9 .0 0
5 5 .6 4
Diferencia entre medias obtenidas N/S Diferencia entre medias ajustadas ^ p = 0.029 Correlación entre numerosidad y aprovechamiento = 0.794
Observe que en estos datos ficticios ambos grupos terminaron bastante iguales en aprovechamiento, aunque el grupo con el programa comenzó bastante retrasado en nu merosidad, lo que tiene una gran influencia en las puntuaciones de aprovechamiento. Es importante destacar que el ANCOVA,hace dos cosas. Primero, si los grupos inician similares en el covariado, sólo eliminan la varianza que se supone debe causarse por el
446 • Métodos de investigación y estadística. . .
(Capítulo 23f
covariada Esto reduce el término de error del cálculo del ANOVA estándar. Es decir, hemos reducido el error “ inexplicado” en la mitad baja del cálculo de la razón F. Esto, en cambio, proporciona un estimado más preciso de las diferencias significativas entre las medias. Segundo, si los grupos difieren en el covariado con el que inician, el ANCOVA se emplea para conducir el análisis de varianza en el estimado de lo que la media debiera ser si no difirieran en el covariado.
REGRESIÓN MÚLTIPLE La regresión múltiple puede utilizarse cuando se tiene un conjunto de variables (Aj, X2, Xi, etcétera), cada una de las cuales se correlaciona de cierto modo, conocido con una variable (L), de la cual deseamos predecir valores. Por ejemplo, podemos predecir la posible satisfacción en un empleo a partir de una selección de medidas: capacidades, edad, intereses, calificaciones, etcétera, figura 23-2.
Y (criterio)
Figura 2 3 -2 . Concepto de regresión múltiple.
Numerosidad
Figura 2 3 -3 . Diagrama de dispersión de la correlación entre numerosidad y aprovechamiento.
Otras pruebas multivariadas complejas útiles ... • 447
Para explicar este método complejo es necesario, primero, explicar de manera breve lo que queremos decir con REGRESIÓN. Debemos pensar de nuevo en la correlación (capítulo 18). Recuerde que podemos trazar la relación entre dos conjuntos de puntuacio nes apareadas en un diagrama de dispersión. El patrón de correlación para numerosidad y puntuación de aprovechamiento del ejemplo anterior del ANCOVA se traza en la figura 23-3. La idea detrás de la regresión es que, si conocemos las puntuaciones en una variable (la VARIABLE PRED IC TO R A ) podemos, en una magnitud que depende del tamaño de r2, predecir puntuaciones en la otra variable (la v a r i a b l e d e c r i t e r i o ) . Esto se hace utilizando una línea de regresión que es la línea de “mejor acomodo” colocada entre los puntos mostrados en nuestro diagrama de dispersión. ¿Qué significa mejor acomodo? Bueno, si estimamos puntuaciones en Y a partir de puntuaciones en X, tiene sentido encontrar la línea que cree la menor diferencia entre lo que predeciríamos para (Y) (?) y los valores reales de Y. Este “ error de predicción” (también conocido como RESID U A L) es la distancia vertical entre cada punto en el diagrama de dispersión y la línea de regresión una vez que decidimos dónde debe caer. En otras palabras, la línea de regresión minimiza estas distancias verticales todos los valores (Y-Y). Las matemáticas empleadas son un tanto complejas pues incluyen el uso de cálculo. Sin embargo, para aquellos lectores con una vaga memoria del álgebra, podrán recordar que la ecuación para una línea recta se escribe así: Y= bX+ a. Aquí, b es el sesgo en la línea y a es el punto donde corta el eje de la Y (por ejemplo, cuando X = 0). Los programas estadísticos amablemente calcularán a y b. En nuestro ejemplo, a tiene el valor de 42.5 y ó es 0.318. Sustituyendo un valor más para A' nos da dos puntos con los cuales trazar la línea mostrada en la figura 23-3.
PREDICCIONES MÚLTIPLES Hasta aquí vamos bien. Hemos visto una manera en que los valores de una variable pueden predecirse, hasta cierto grado, a partir de valores conocidos de otra variable, si hemos conducido un cálculo de correlación en una muestra con tamaño decente (los errores de predicción serán mucho mayores mientras menor sea la muestra utilizada). La parte interesante comienza cuando nos preguntamos “ Si fuera parcialmente posible predecir el aprovechamiento porque conocemos las puntuaciones de numerosidad inicial de los estudiantes, ¿haríamos una m ejor predicción del aprovechamiento si tuviéramos infor mación de otras variables correlacionadas?” Ésta es la parte central de la regresión. Hacemos lo mismo que antes en aprovechamiento, y combinamos estas correlaciones individuales para obtener una predicción mejorada del aprovechamiento. Mire la figura 23-4. En la figura 23-4a tenemos una representación de la situación cuando dos variables, A y B, varían juntas en cierta medida. La porción sombreada representa la cantidad de correlación, o mejor dicho, la varianza que tienen en común. Recuerde que el cuadro del coeficiente de correlación se usa para estimar qué tanta varianza en una variable se “explica” por la varianza en la otra. En la figura 23-4b el óvalo mayor, etiquetado “APR” , representa la varianza de las puntuaciones de nuestros estudiantes en la prueba
448 • Métodos de investigación y estadística ...
(Capítulo 23
Figura 23-4. Regresión múltiple — concepto de covarlaclón
al final del afio (“ aprovechamiento”). Otras variables tal vez se correlacionan también con la puntuación de aprovechamiento, tales como al agrado por el maestro (AM), interés del maestro (IM) y la motivación (M). Hay dos variables más en la figura 23-4b. Una es “ P” que representa las puntuaciones en la prueba que mide la capacidad de la gente con patrones (reconociéndolos cuando se rotan, imaginando relaciones abstractas visual mente, y más). Supongamos que la numerosidad y el reconocimiento de patrones están un tanto correlacionados, y que ambos se correlacionan con el aprovechamiento, aunque numerosidad lo está más fuertemente. MC es la motivación por la carrera y, para fines de este ejemplo, supongamos que mientras que la motivación en general sí se correlaciona con el aprovechamiento, la motivación por la carrera no. El agrado por el maestro y el interés de éste resulta ser casi la misma cosa en términos de su correlación entre sí y con el aprovechamiento. Imagine que tenemos evaluaciones de nuestros estudiantes para todas estas variables. En la regresión múltiple, la predicción estadística de una variable se hace utilizando las correlaciones de otra variable conocida con ella. El grado en que cada variable predictora predice valores de los criterios (aprovechamiento, en este caso) se conoce como su COEFICIENTE DE r e g r e s i ó n . Aquí, N es un buen predictor de APR, lo mismo que P, aunque en menor grado. El punto más importante ahora es el aspecto de cuánto P extra contribuye a la predicción de APR. Ésta es la cantidad de varianza que comparte con APR pero no con N. Verá que AM no nos dice mucho más acerca de APR que IM. La contribución de M es única. Entonces, ¿para que sirve MC? Bueno, la prueba de motivación tiene una varianza con la motivación de la carrera y (estamos suponiendo) ésta no tiene nada que ver con el aprovechamiento en la prueba al final del año. Así, si armamos una prueba para la motivación de la carrera, podremos evaluar la contribución de ésta en la motivación general y restarla entonces de la contribución en varianza que la motivación imprime en la prueba de aprovechamiento. La motivación de la carrera se conoce como v a r i a b l e SUPRESORA, porque si no se le explica, suprime la cantidad que podemos predecir del aprovechamiento a partir de la motivación como un todo. El
Otras pruebas multivariadas complejas útiles.. . • 449
coeficiente de regresión para cada variable predictora se relaciona con su correlación con la variable de criterio, pero t a m b i é n considera estas intercorrelaciones entre todas las predictoras. Entonces, en la regresión múltiple hay una ecuación que predice Y, no sólo a partir de X como una simple correlación y regresión, sino de los coeficientes de regresión de A), X 2, Xj, y demás, donde X son variables predictoras cuyas correlaciones con Y son conocidas. La ecuación toma la forma de: A
Y = b o + biXt + b2X 2 + ¿3 X 3 . . . etcétera,
donde las b son los coeficientes de regresión para cada una de las predictoras (X) y b0 juega el papel de a en la ecuación de la regresión simple. Los programas para la regresión múltiple calculan R, que e s el c o e f i c i e n t e d e REGRESIÓN MÚLTIPLE (¡por supuesto que ustejji lo puede obtener calculándolo a mano!). R es una medida de la correlación entre: 1 Y, utilizando los coeficientes de regresión c o m b i n a d o s , y 2 los valores r e a l e s de Y. Mientras más predictoras tengamos que com partan alguna varianza ú n i c a con Y, podemos explicar más varianzas en Y. Igual que con la correlación simple, R2 es un estimado de la cantidad de varianza en Y que hemos “explicado” , en esta ocasión, utilizando una combinación de predictoras, no sólo una variable X. Esta técnica se emplea principalmente cuando los psicólogos ocupacionales intentan construir medidas predictivas del desempeño laboral, al combinar el poder predictor de variables como: años de experiencia, edad, calificación, puntuaciones de pruebas, etcétera. En el mismo contexto, se utiliza en la elaboración de una sola prueba para decidir cuál combinación de diversos reactivos son los mejores predictores de un criterio. Un programa “ completo” le ofrecerá el valor de R2 conforme se agregue cada reactivo adicional a la ecuación predictiva general. Por ejemplo, podemos encontrar que el reactivo 23 de una prueba de (potencial) aptitud para el cómputo es el predictor más fuerte, por sí solo, del resto de los resultados de la prueba después de un año de entrenamiento en computación. El reactivo 19 añade más poder predictivo al igual que el 12, 6,28, etcétera, mientras que después en el análisis encontramos reactivos virtual mente sin significación (en el sentido técnico) a la predicción de Y. Es importante recordar que esto no hace que el reactivo 19 sea el “segundo mejor predictor” , ya que sólo es cierto en el contexto de considerar primero al reactivo 23. Los cálculos de la regresión múltiple consideran las intercorrelaciones entre todas las variables predictoras. Tampoco quiere decir que c u a l q u i e r puntuación individual se pueda predecir en el nivel de exactitud encontrado. Como siempre, con las variables psicológicas, la certeza predictiva se refiere a muestras como un todo. Una compañía grande puede decidir, pues, que sobre números amplios, serían más imparciales y eficientes en sus selecciones si utilizaran esta forma de análisis de sus recursos de selección.
GLOSARIO Procedimiento estadístico utilizado para investigar diferencias entre dos medias que pueden ajustarse para permitir que los dos grupos difieran en una variable que se correlaciona con la VD (el "covariado")
ANCOVA
450 • Métodos de investigación y estadística
GLOSARIO (continuación) Variable que se correlaciona con la VD y en la que dos grupos, investigados por diferencias, difieren. El efecto de sesgo de esta variable confusa pue de ajustarse para un ANCOVA Variable que se predice en los pro cedimientos de regresión Procedimiento estadístico para ¿va luar los efectos de una o más VI s o bre m ás d e una V D
Procedimiento estadístico donde las correlaciones de diversas variables predictoras con la variables de crite rio se s u m a n para dar una mejor pre dicción de esa variable Valor que indica la fuerza de predic ción del conjunto combinado de varia bles predictoras utilizadas en la re gresión múltiple Variable empleada para predecir úna variable de criterio en procedimien tos de regresión Procedimiento para predecir una variablé de creterio (Y) a partir de una variable predictora (X), utili zando la "línea de mejor acomodo” alrededor de la cual los pares corre lacionados de las puntuaciones d e X y V se ordenan Valor que indica la magnitud en que cada variable predictora predice puntuaciones de la variable de crite rio en los procedimientos de regre sión múltiple Diferencia entre una puntuación real y la predicha por una variable predic tora utilizando procedimiento de regresión ( V - Y) Variable cuya varianza común puede parcializarse de la varianza de una variable predictora, con el fin de que esta última pueda predecir con mayor exactitud los valores de una variable de criterio (en procedimientos de re gresión múltiple)
(Capítulo 23)
Sección V I i
¿Qué análisis utilizar?
~
Elección de una prueba apropiada —
T ra ta r de elegir la prueba apropiada puede dejarlo con un sentimiento de duda, debido a que hay tantas pruebas y puede haber muchos datos y muchas hipótesis. La primera regia de oro es: ¡No sea presa del pánico! Permanezca en calma y luego . . . • • • •
Tome una hipótesis a la vez. Elija la prueba para esta hipótesis. Calcule la prueba. Decida si el resultado es significativo.
PRUEBAS PARADOSMUESTRAS La mayoría de las pruebas que detallamos en este libro suponen que usted tiene sólo dos muestras y que desea evaluar la diferencia o la correlación entre ellas. Si éste es su caso, tan sólo ignore la parte baja de la figura 24-1, a continuación de la sección titulada “ Mas de dos muestras” . Las pruebas para más de dos muestras se abordan después de que se describe el sistema general para toma de decisiones.
ELECCION Entonces, ¿cómo elegimos la prueba adecuada? Esto en realidad debe ser muy sencillo si usted sigue los tres pasos en el apartado 24-1 y utiliza el diagrama de la figura 24-1. Observe que la decisión que debe tomar en cada paso se muestra en dicho diagrama.
454 • Métodos de investigación y estadística
(Capítulo 24/
SUPOSICIONES DELASPRUEBASPARAMÉTRICAS Recuerde que (del capítulo 17) éstas son: 1 Se requieren datos de nivel de intervalo. 2 Las muestras se sacan de una población distribuida normalmente. 3 Homogeneidad de varianza ( . . . se permite cierta divergencia de éstas).
Apartado 24-1. Pasos para elegir una prueba estadística apropiada Decisión 1
¿Predice la hipótesis una diferenciación o una correlación?
Decisión 2
¿A qué nivel de medición están los datos? N o ta : Si el nivel es de intervalo y usted desea realizar una prueba para métrica, verifique que sus datos satisfagan los supuestos de las pruebas paramétricas antes de proseguir. Si éstos no se pueden cumplir razonablemente, tendrá que convertir sus datos a un orden de rangos.
D ecisió n 3
¿El diseño es relacionado o no relacionado?
EJEMPLOSDEELECCIÓNDEUNAPRUEBA Véase el cuadro 24-1. Los datos se obtuvieron pidiendo a varones y mujeres de 17 años de edad que estimaran su propio CI, midiendo su CI real, su estatura y el CI de sus madres.
Cuadro 24-1. Datos de CI en varones y mujeres M ujeres
V a rones
120 110 95 140 100 120 110 105
107 112 130 95 104 92 97 101
160 181 175 164 163 158 172 171
100 105 102 97 120 131 115 96
100 95 90 110 85 100 105 100
97 92 104 112 130 95 107 101
155 165 177 162 173 159 164 165
105 97 115 96 100 120 102 131
Suponga que la madre y su descedencia se pueden tratar como pares igualados. Suponga que no se puede tratar al CI estimado como datos de intervalo. Suponga que este investigador tratará el CI medido como datos a nivel de intervalo (aunque como se explicó con anterioridad, existe un debate acerca de esto).
Elección de una prueba apropiada • 455
Utilizando el diagrama de decisión (figura 2 4-1 ), trate de seleccionar la prueba apropiada para cada una de las siguientes hipótesis: 1 Las estimaciones dé CI para los varones son niayores que para las mujeres. 2 El CI medido en las mujeres es mayor que el de los varones. 3 Mientras más alta es la gene, mayor es su CI. El CI medido de las mujeres es mayor que el de sus madres.
Hipótesis 1
Decisión 1: Estamos buscando una diferencia. Decisión 2: Tendremos que convertir los CI estimados a datos ordi nales, por rangos. Decisión 3: El diseño es no relacionado; tenemos grupos separados de varones y mujeres. Nuestra elección es, por tanto, la prueba de M ann-W hitney (o la suma de rangos de Wilcoxon). Hipótesis 2
Decisión 1: De nuevo buscamos una diferencia. Decisión 2: Estos datos se están tratando a nivel de intervalo. Decisión 3: El diseño no está relacionado, como antes. Nuestra elección es, por consiguiente, la prueba t para m uestras no relacionadas. Se deben cumplir los supuestos paramétricos: • Y se hizo el supuesto de datos a nivel de intervalo. • Las pruebas de CI se estandarizan para asegurar que las puntuaciones para la población general están distribuidas normalmente en ellas. Por consiguiente, las muestras deben provenir de una población distribuida normalmente. • Utilizando una “prueba a ojo” , las varianzas no son demasiado diferentes. Esto no es un gran problema de cualquier modo, dado que, aunque tengamos un diseño no relacionado, los números en cada grupo son iguales. Hipótesis 3
Decisión 1: Se predice una correlación positiva entre la estatura y el CI. Podemos tratar a varones y mujeres como un grupo. Decisión 2: Se trata al CI como intervalo. La estatura está a nivel de razón y, por tanto, al menos, a nivel de intervalo. Decisión 3: Las correlaciones son diseños relacionados automáti camente. Nuestra elección es, por tanto, el coeficiente de correlación de Pearson. Se deben cumplir las suposiciones paramétricas: • Los argumentos son los mismos que para la hipótesis 2, pero incluyen el hecho de que la estatura está distribuida normalmente. Hipótesis 4
Decisión 1: Se predice una diferencia. Decisión 2: Se trata al CI medido como datos a nivel de intervalo. Decisión 3: Los pares igualados producen un diseño relacionado. Nuestra elección es, entonces, una prueba t para m uestras relacionadas.
456 • Métodos de investigación y estadística .. .
(Capítulo 24)
Se deben cumplir las suposiciones paramétricas: • Los argumentos son los mismos que los mencionados anteriormente. Para cada uno de estos casos en los que se elige una prueba paramétrica, por supuesto, usted podría haber elegido una prueba no paramétrica, si tan sólo quisiera utilizar una prueba más simple, sin embargo, es posible una prueba menos poderosa. Aquí hay algunas sugerencias generales para tener en mente cuando se hace la elección: • Las correlaciones deben ser siempre, por lógica, diseños relacionados. • La A2 prueba la diferencia entre las frecuencias observadas y las esperadas. Por esta razón se le coloca donde está en la tabla. Sin embargo, el resultado neto nos dice que si una variable tiene una asociación significativa [digamos, ser fumador (o no) y ser poco saludable (o no)]. Se le llama “prueba de asociación” . • Si los datos aparecen como frecuencias, por categorías, se indica una prueba A2. Aunque los números en las categorías sean números cardinales, si esto significa que todo lo que usted sabe es que, digamos, hay 22 personas en una categoría y no sabe nada más sobre ellas y tampoco las puede separar de ninguna manera (mediante rangos o puntuaciones), los datos están en formas de frecuencias y las categorías pueden tratarse como una escala nominal. • Si se ha estandarizado una prueba u otra medida psicológica, puede tratársele como productora de datos a nivel de intervalo. • Si los resultados en cuestión tienen la forma de puntuaciones o números producidos por estimaciones en seres humanos o “ calificando” hechos o conducta, en alguna escala arbitraria, es casi siempre lo más seguro convertir los números a nivel ordinal (dándoles un rango). Esto mismo ocurre para las puntuaciones en un cuestionario no estandarizado a encuesta de opinión. • Los datos ordinales aparecen como un grupo de rangos (“ ord” significa orden).
PRUEBASPARAMÁSDEDOSMUESTRAS Para descubrir cuál prueba es la apropiada a sus necesidades, necesita examinar cui dadosamente las tres decisiones descritas para pruebas de dos muestras. Cuando utilice la figura 24-1 observe la parte inferior de la sección marcada como “ más de dos muestras” . Lo que es importante, si usted tiene más de dos muestras, es que no sólo divida sus muestras en conjuntos de dos y conduzca una prueba t, digamos, en todas las diversas combinaciones. Cada vez que realice una prueba, el nivel de probabilidad para la significación es 0.05 y si usted realiza dos pruebas, es obvio que incrementa su oportuni dad de obtener un resultado “ significativo” por azar. Esto se conoce como “ capitali zación de la oportunidad” y se comenta con mayor amplitud en la introducción de la sección 5.
Elección de una prueba apropiada • 457
Sus decisiones para elegir una prueba de diferencia para más de dos muestras se pueden organizar como sigue: .Se cumplen las suposiciones paramétricas? SÍ:
Utilice el método del ANOVA a menos que prefiera un método no paramétrico Unifactorial
Multifactorial
NO:
No relacionado Relacionado .
no relacionado
-unidireccional no relacionado
medidas repetidas
-medidas repetidas
todos los factores no relacionados
-no relacionados
todos los factores relacionados
-medidas repetidas
al menos un factor no relacionado y otro relacionado
-mixto
diferencias tendencia diferencias tendencias
-Kruskal-Wallis -Jonckheere -Friedman -Page
ALGUNAINFORMACIÓNACERCA DEPROGRAMAS DECÓMPUTO Las computadoras han eliminado el trabajo pesado de la descripción estadística y la evaluación, de esto no hay duda. Al preparar este libro he podido calcular pruebas en pocos segundos, lo que hace algunos años me hubiera llevado varios minutos al tener sólo una calculadora. Sin embargo, como cualquier profesor diría, es sólo a través del cálculo, por lo menos de las pruebas sencillas, que usted se dará cuenta de lo que la prueba está haciendo, por qué muestra lo que muestra, cuáles son sus limitaciones y demás. Al manejar (o jugar) con números usted se dará cuenta de lo que sucede. Por tanto, yo le recomiendo, de manera definitiva, que calcule algunas pruebas para comenzar y verifique la significación en las tablas. Si sólo toma lo que la computadora le dice, terminará con un entendimiento pasivo y superficial de las evaluaciones estadísticas y perderá con fa cilidad los pequeños errores, ya que el resultado final no los hace evidentes. Con esto quiero decir que, una vez que ya comprenda lo que sucede, el masoquismo está fuera de lugar. En este terreno, las computadoras sirven para lo que se crearon, no lo dejan fuera de la jugada, pero le dan tiempo libre para concentrarse en cosas que requieren pensamientos nuevos y creativos. Las computadoras solían ser un lujo. Ahora se encuen tran en todas partes y aun el departamento universitario más pobre puede adquirir un programa barato que podrá adecuar a su nivel de trabajo. A continuación, presento una descripción breve de algunos programas que espero le sean de utilidad. Deben manejarse con paciencia, ya que emplean un lenguaje un poco distinto en ocasiones para los mismos conceptos.
458 • Métodos de investigación y estadística
Tipo de la prueba
Figura 24-1. Diagrama para la elección de una prueba apropiada.
(Capítulo 24)
Elección de una prueba apropiada • 459
SPSSMR Este programa era poco amigable en su configuración inicial, pero ahora se presenta en versión MAC*01 o MSDOS*® o bien bajo WINDOWS1** con todos los refinamientos de ese ambiente. Los datos se meten en el formato de hoja de cálculo donde cada renglón siempre es un “ caso” (participante). Hará todo lo que hemos mencionado en este libro y más, incluyendo análisis factorial, pruebas de confiabilidad, análisis de reactivos, re gresión múltiple, ANOVA multifactorial, etcétera. Ahora es muy amigable y se “comu nica” con otras aplicaciones como procesador de palabras y hojas de cálculo. También se puede operar con el lenguaje inicial si se requiere. Produce maravillosas gráficas editables, aunque lo hace un poco lento. Aquí el problema es el costo.
MINITABMR Éste es uno de los programas viejos favoritos que también viene en formato de hoja de cálculo donde puede utilizarse su lenguaje antiguo y debe hacerse para algunos pro cedimientos. Es difícil creer por qué algunas de las pruebas más comunes no aparecen en el menú, pero el lenguaje no es complejo (por ejemplo, “ttest c3” realiza una prueba t en un conjunto de diferentes en la columna 3). Si usted ingresa por error cualquier dato no numérico a una columna, no se lo hará saber hasta que vaya a calcularla (digamos, después de introducir 60 reactivos) y se dé cuenta que su columna está definida como “alfanumérica” , y la única manera de cambiar esto es borrar toda la columna y comenzar de nuevo. Fuera de esta situación, es maravilloso y realiza ANOVA, regresión múltiple, matrices y demás. Sus gráficas no se pueden editar como en el SPSS. El encanto, en este caso, es el precio. Existe una versión profesional en alrededor de 112 dólares y una versión estudiantil por 64 dólares del editor Addison-Wesley. Esta última versión no tiene tanta complejidad, pero es suficiente para el nivel licenciatura y trabajos de grados anteriores.
STATPAK Elaborado por Concord Informatics Ltd. y distribuido por Association o f Teachers o f Psychology (¡a la que debe pertenecer su profesor!), este programa es barato, alegre y escrito de manera especial para trabajos psicológicos de nivel licenciatura. Se puede obtener del Amstrad , PCWs, o de cualquier PC compatible con IBM''*. Utiliza todas las pruebas de licenciatura (rangos con signos de Wilcoxon, Mann-Whitney, pruebas í, correlaciones de Pearson y Spearman y Chi cuadrada). Una peculiaridad que la hace más útil que las demás para la enseñanza es la presentación de los pasos del cálculo en la prueba, para que usted vea cómo se obtuvo la respuesta. Por lo general trabaja sólo con dos muestras al mismo tiempo, pero almacena hasta 20 columnas de datos al instante para que usted pueda realizar diversas pruebas —pero tenga cuidado con la “capitalización de la oportunidad” .
Eje r
c ic io s
Todos los siguientes ejercicios se basan en pruebas para dos muestras únicamente. Los ejercicios que incluyen la elección de pruebas más complejas se consideran al final de los capítulos pertinentes (19 a 22) y también el texto del capítulo acerca del ANOVA.
460 • Métodos de investigación y estadística. . .
(Capítulo 24)
¿Qué pruebas se deben utilizar con los siguientes datos? Cuando haya una elección, elija la prueba más poderosa. 1 Estatura (en centímetros) de muchachas alimentadas con: Salvado Pan y jugo de carne 162 172 181 172 154 190 165 143 167 167 El investigador estaba interesado en saber si una de las dietas tendía a producir muchachas más altas.
2
Cuadro 24-2. Jugadores de billar — posición en el cuadro de la Liga Ju g a d o re s fu m a d o re s y bebedores
Tomás Días Herrera Alfredo López Alfonso Gálvez Beto S ánch ez,
Ju g ad o res abstem ios
Esteban García Emilio Hidalgo Cristina Cano Bety Barrera Susana Salazar
2 6 10 9 4
En este caso, queremos saber si los jugadores abstemios obtienen lugares más altos de manera significativa. 3
Número de hombres de negocios parados en el alféizar de las ventanas Tokio Nueva York
Número de hombres de negocios no parados en el alféizar de las ventanas
46 103
Si esto fue lo que ocurrió cuando se derrumbó la bolsa de valores en 1987, ¿fue peor la caída en Estados Unidos? ¿Qué prueba nos lo dirá? 4 Los estudiantes observan si los varones o las mujeres caminan o no debajo de una escalera. Quieren ver si un sexo es más “supersticioso" que el otro. ¿Qué prueba necesitan utilizar? 5 Veinte personas ejecutan una tarea sensoriomotriz bajo dos condiciones: una, en un cuarto tranquilo, a solas; la otra, en un cuarto iluminado de manera brillante con una docena de personas observándolas. Un contador electrónico toma un registro exacto del número de errores que cometen en cada condición. a) ¿Qué prueba sería apropiada para investigar la significación de las diferencias en ejecución entre las dos condiciones? b) Suponga que todos se deterioran en la segunda condición. ¿Qué prueba sería apropiada para ver si las personas tienden al deterioro, por arriba de la misma cantidad?
Elección de una prueba apropiada • 461
6 Un psicólogo sostiene tener una escala de medición muy bien estandarizada. ¿Qué prueba estadística se utilizaría para verificar su confiabilidad test-retesf? ¿Qué prueba se emplearía para verificar su validez en un grupo de norma que debería obtener puntuaciones mayores que las de un grupo control? 7 Un panel de jueces califica por separado la atractividad de varones y mujeres en un grupo de fotos de parejas. La hipótesis a prueba es que las personas que integran parejas tienden a poseer un nivel similar de atractividad. ¿Qué pruebas se utilizaría para comparar la similitud de los dos grupos de calificaciones para los miembros de uno y otro sexo? 8 La pregunta cuatro, capítulo 17, muestra dos distribuciones de puntuaciones (A y B). Suponga que el investigador sintió que éstas se alejaban significativamente del patrón de una dis tribución normal. ¿Qué prueba podría arreglar el problema? 9 Se seleccionan dos grupos de personas. Uno tiene una alta puntuación en “toma de iniciativa”, las puntuaciones del otro grupo son bastante bajas. Se les pide elegir sólo una de tres posibles actividades que prefieran hacer. Las opciones son: montañismo, bailar o leer un libro. ¿Qué prueba demostraría diferencias significativas entre sus elecciones? 10 Se registra el tiempo de lectura en voz alta de una lista de palabras que riman y de una lista que no rima para el mismo grupo de participantes. ¿Qué prueba es apropiada para mostrar si las palabras que riman toman de manera significativa menos tiempo para su lectura? 11 Un grupo de manejo de personal se somete a un curso intensivo acerca de problemas de competencia. Los ensayos escritos antes y después del curso son analizados en su contenido y evaluados en sus actitudes hacia la competencia. ¿Cuál prueba sería la apropiada para demostrar un cambio de actividad significativo como se expresa en los ensayos? 12 Se evaluó a un grupo de personas que intentan dejar de fumar, en cuanto a su progreso en dos ocasiones con una separación temporal de seis meses. Se descartaron las puntuaciones brutas y sólo sabemos de cada cliente si mejoraron, empeoraron o se mantienen igual. ¿Qué prueba mostrará cualquier cambio significativo en este periodo? ■
Análisis de datos cualitativos
Este capítulo proporciona una breve introducción a los métodos empleados por investigadores cualitativos que consideran estos datos como significativos y concluyentes en sí mismos, más que reducir los datos cualitativos originales a frecuencia o considerarlos como subsidiarios de datos cuantitativos obtenidos en el mismo proyecto de investigación. Los datos cualitativos se organizan con frecuencia en categorías, las que se analizan por su significado y, en ocasiones, por sus cualidades únicas y el conocimiento profundo que proporcionan. Se emplean analogías como en el trabajo de investigación inicial de cualquier ciencia. Se utilizan citas originales y con frecuencia se verifican con el participante, antes de su inclusión en el contexto propuesto por el investigador. Los investigadores cualitativos de modo constante permiten que la teoría se desarrolle durante el proceso de investigación, más que la preordenación de pruebas e hipótesis establecidas como en el modelo cuantitativo. Este principio de operación es básico en la teoría fundamentada. La validez, para los investigadores cualitativos, se establece a través de varios medios: • Triangulación —empleo de diversas perspectivas. • El hecho de que el ciclo de investigación se repite; por ejemplo, los participantes se vuelven a entrevistar y se profundiza en pequeños aspectos obtenidos con anterioridad. • Consulta y rapport con los participantes, reduciendo su cautela, reticencia o necesidad de ocultar sus opiniones y pensamientos verdaderos. L o s datos cualitativos consisten en cualquier información, recolectada durante la investigación, que no se ha cuantificado (todavía) de ninguna manera rigurosa.
DATOSCUALITATIVOSYPRUEBASDEHIPÓTESIS Debido al paradigma predominante de la ciencia natural, a menudo se asume que la hipótesis sólo se puede probar con datos empíricos cuantificados. Sin embargo, utili-
463
464 • Métodos de investigación y estadística. . .
(Capítulo 2?
zamos con mucha frecuencia datos cualitativos para apoyar o contradecir nuestres predicciones y explicaciones. Mucho de nuestro razonamiento sobre las motivaciones y la toma de decisiones * las personas se basa en evidencia cualitativa. Podríamos explicar la conducta poco usan o depresiva de una amiga, en términos de su situación específica de madre soltera qne acaba de perder el único progenitor que la apoyaba. Podemos predecir que los jóvenes infractores reincidentes se sentirán más resentidos hacia la sociedad de clase media. Podemos demostrar esto con la nítida fuerza y renctr del contenido de sus narraciones. No nos limitamos sencillamente a contar el número ce respuestas agresivas. Sin duda, se argumentará que la “ fortaleza y animosidad” deber provenir de comparaciones con otras explicaciones, pero lo que nos inform a son fes diferencias cualitativas en su contenido. Los positivistas podrían sentirse tentados a crear un cuestionario estandarizado a » base en los datos de los infractores, para utilizarlo con aquéllos en otro lado o en un grupr control. Sin embargo, el punto es que algunos investigadores en psicología han propugnado de manera intensa en favor de la necesidad de utilizar el contenido cualitativo obtenido en sus investigaciones. Es el significado inesperado, contenido en las explicaciones deT infractor, lo que será de utilidad, y no los hechos reales pero triviales, de que su argumento diferirá de algún modo de aquellos de los no infractores. Es lo que el infractor dice, y que nunca hemos escuchado, lo que la investigación descubre y enfatiza para debate. Los investigadores cualitativos podrían argumentar, también, que los conocimientos profun dos adquiridos al entrevistar un grupo de infractores se pueden generalizar con tanta validez como los resultados de un cuestionario. De la entrevista podría surgir una visión del mundo bastante novedosa e inesperada que le proporcione a otro entrevistador un nuevo rango de ideas para introducirlas con infractores diferentes, o con adolescentes “control” que no las compartan. Hemos visto en otra parte que los estudios de caso individuales pueden agrega información importante al fondo del conocimiento e ideas que constituyen nuestro entendimiento de los seres humanos y su conducta. El valor del estudio de Watson sobre el “Pequeño Alberto” no consistió en que fuera enteramente cuantitativo. En un estudio de un solo sujeto aprendimos cuán fácil era condicionar los miedos en un niño y adquirimos información interesante acerca de cómo éstos se generalizaban y no podían extinguirse. Parece un poco inútil argumentar que deberíamos comparar con un niño control, para asegurar que los estadios por los que Alberto pasó no ocurrieron sólo por azar. Existe información cualitativa muy valiosa contenida incluso en muchos informes de investigación tradicional. Las entrevistas con los participantes de Asch, posevaluación, son ilustrativas y fue necesario preguntarles a los participantes de Milgram por qué parecían reír al pensar que le aplicaban descargas eléctricas fatales a una víctima inocente. La magnitud de su estrés, que forzaba esta risa nerviosa, es mucho más fácil de obtenerse a través del proceso de entrevista y la discusión del significado de lo que los participantes dijeron.
DOSAPROXIMACIONESALOSDATOSCUALITATIVOS Al revisar la bibliografía sobre datos cualitativos, parecen emerger dos puntos de vista generales acerca de qué hacer con ellos. Corresponden a la dimensión positivista-no
Análisis de datos cualitativos • 465
I
positivista, pero se debe enfatizar que ésta es una dimensión, no existen sólo dos puntos de vista sino una amplia diversidad. Para los positivistas, los datos no cuantificados se aceptan dentro de un rol sub sidiario. Se considera que tienen los siguientes usos: • Pueden aclarar y dar un contexto a la estadística que, de otra manera, es neutral y pesada, como cuando Asch nos dice cómo sus participantes en proceso de amoldamiento se comportaban y se veían incómodos; • Nos puede llevar a hipótesis evaluables en términos cuantitativos, como con los niños de padres desempleados que se mencionaron en el capítulo 4. Sin embargo, el investigador cualitativo considera significativos por derecho propio a los datos cualitativos. De hecho, la utilización del término “ método cualitativo” suele indicar un compromiso para publicar los resultados de la investigación en términos cualitativos, recordando por supuesto que tal investigador no se opone a ver las cosas de manera cuantitativa, en caso de que surja la oportunidad y se le considere esclarecedora.
ANÁLISISCUALITATIVODECONTENIDOCUALITATIVO Vimos antes que el análisis de contenido puede utilizarse para manejar información originalmente cualitativa. Los datos se analizan de manera rigurosa y se reducen a unidades cuantificadas, cuya significación estadística es susceptible de comprobación. El investigador cualitativo también tiene que categorizar los datos. Alguna de las siguientes fuentes podría producir el conjunto total de datos: • • • • •
Notas y diarios de los participantes. Notas de campo del observador participante. Entrevistas informales o semiestructuradas. Preguntas abiertas (entrevistas o cuestionarios). Estudios de caso en profundidad (mezcla de entrevistas, observaciones y registros).
y podrían consistir de discursos, interacciones, patrones de conducta, y material grabado o escrito. También podrían incluir las propias ideas, impresiones y sentimientos del investigador, registrados conforme progresa el proyecto de investigación. El grupo de datos necesitará orden. Tiene que organizarse de modo tal que se puedan hacer y demostrar las comparaciones, contrastes e introspecciones. Sin embargo, el investigador cualitativo no categorizará con el fin de contar hechos. En vez de eso, los datos se categorizarán con la finalidad de analizar y comparar los diversos significados producidos en cualquier categoría. Por ejemplo, de las entrevistas con drogadictos acerca de sus experiencias al tratar de romper el hábito, podrían emerger varios miedos y percepciones del mundo “ recto” que sean únicos y diferentes de otros de manera cualitativa. Cada uno tiene un valor especial al dibujar un cuadro de la experiencia personal, invisible para los no adictos, pero de gran utilidad para los terapeutas en rehabilitación. El estudio de Bruner y Kelso (1980), descrito en el capítulo 7, es otro ejemplo de análisis de contenido cualitativo de este tipo.
466 • Métodos de investigación y estadística. . .
(Capítulo 25
Por tanto, la riqueza de las cualidades únicas que poseen los detalles de las categorías se conserva en el análisis cualitativo. Utilizando una analogía, en casa podría archivar artículos sobre “viajes por la India” en una categoría, ¡pero difícilmente lo haría debió? a que necesito contar cuántos tengo!
MÉTODOSDEANÁLISIS No es posible dar lincamientos precisos sobre el análisis y presentación de los datos cualitativos. No existe un paradigma universalmente aceptado. Las decisiones se verác influidas por el antecedente teórico o el modelo con el cual está trabajando el investigador. Se han desarrollado varios métodos de análisis bastante especializados para diferentes tipos de datos [conversaciones, comunicación no verbal, conducta peatonal y así sucesi vamente (véase apartado 25.1)]. Lo que sigue es una serie de puntos aplicables al acopio de datos producidos por los tipos de fuente mencionados antes. Después de eso, se dirigiré al lector a varios textos especializados que tienen más que decir sobre varios métodos cualitativos o de “ nuevo paradigma” .
Categorización El investigador cualitativo de manera inevitable empezará con una gran cantidad de notas y material (impresos que habrán transcrito los registros de audio y vídeo). Conforme se lean y relean las notas deberá ser posible empezar a agrupar los elementos. Como un ejemplo simple, si usted le hubiera pedido a estudiantes universi tarios que analizaran, durante entrevistas informales, acerca de sus reacciones a un cursa sus declaraciones podrían caer dentro de las siguientes agrupaciones:
Apartado 25-1. Transcripción del discurso Edwards y Potter afirman que según cómo uno elija informar o manifestar el lenguaje grabado (tr a n sc r ipc ió n ), dependerá de una posición teórica y no sólo de una decisión técnica. Si sólo se graban palabras, haciendo parecer el discurso como un texto en un libro, entonces esto genera una falta de interés en lo que la gente hace con el lenguaje o en la diferencia entre habla y texto. En cambio, podría reflejar la posición del investigador que percibe el discurso como una fiel reflexión directa de procesos mentales internos. Los análisis de discurso pueden variar un poco, pero ahora los investigadores se apegan demasiado a un sistema legado por Jefferson (1985). Lo siguiente es un texto de Edwards y Potter de 1992 parcial mente citado (* a *) y condensado. // significa lenguaje superpuesto o simultáneo:
O D aniel: Esa fue la — impresión que resultó muy//claramente G ustavo : En otras palabras, tu — tu tesis com pleta.
Dí manera alternativa, el inicio y final de ia superposición del lenguaje sé pueden marcar con corchetes como: N: Qü::es: ve yo [creo que pudiéramos]
E:
[Me gustaría obtener] unas pantüflitas pero uh,
Análisis de datos cualitativos • 467
A p a rta d o 2 5 - 1 . T ra n s c rip c ió n d e l d is c u rs o (c o n tin u a c ió n ) Los números en paréntesis indican pausa, registrada en décimas de segundo, mientras que el símbolo (.) representa una pausa que es audible pero demasiado corta para medir: ahora Primer Ministro (.2) cómo res T por::nde usted (.) a este reclamo de guipa (.) sería de vital importancia Un titubeo en la emisión de sonido se marca con un corte ser cilio: como recuer::do (1.0) con el Señor Jimén ::
{*)
prolongación simple del sonido ar énfasis agregado altas/bajas en la entohación alto repentino • representa inhalación audible antes de "hmnY rapidez/lentitud en la cadencia del lenguaje
contactos sociales vinculación con la carrera . . . y así sucesivamente
calidad de la enseñanza horario
recursos disponibles servicios (cafetería, etcétera)
Algunas declaraciones caerán dentro de más de una categoría. De manera tradicional, el analista haría varias copias de todos los datos, de modo tal que las unidades se pudieran cortar y anexar a varias categorías y agrupaciones. La forma moderna de ahorrar el trabajo es utilizar la computadora y un sistema flexible de base de datos.
Categorías inherentes Antes de que el investigador desarrolle sus propias categorías y agrupamientos, el analista suele considerar las que usan los pariticipantes mismos. Un ejemplo sería el de un grupo de estudiantes que se hacen llamar “ los cerebros” , mientras que el personal apoda a otros “ los hombres de Neanderthal” . Posteriormente, el analista podría comparar estos títulos y proponer explicaciones sobre su derivación.
Categorías del investigador .Algunas categorías pueden emerger con bastante claridad en el análisis o durante la recolección de datos. Por ejemplo, al estudiar lq organización de una escuela, podría salir a la luz que los maestros están divididos entre los que participan y los que no en actividades extraescolares. Empero, de manera más probable, habrá dimensiones res pecto dé las cuales las personas varían, por ejemplo, las actitudes de los profesores en lo jue concierne a la disciplina de los estudiantes. Éstas podrían jerarquizarse desde severas hasta moderadas o laxas. Esto podría sonar como una dimensión cuantitativa. Sin embargo, el investigador cualitativo se interesa más en la perspectiva de cada persona. Así que las posiciones que se encuentran a lo largo de la dimensión que va de severo a
468 • Métodos de investigación)/ estadística. . .
(Capítulo 25
laxo tienen sólo de manera aproximada un nivel ordinal, pero están determinadas por razones específicas dadas. Las personas se encuentran en una categoría a lo largo de b dimensión. Serían “ severos” aquellos que dicen que: “hay que mostrarles quién es el que manda” y cosas así. Los maestros “moderados” podrían decir: “No es bueno actuar como un padre estricto con ellos. Tienen suficiente de eso en casa y no lo respetan.
Tipologías Cuando las categorías y las dimensiones son descripciones de la gente, algunos investi gadores podrían entrecruzarlas con el fin de producir una matriz de “tipos” . Una profesora “ laxa” en la dimensión de la disciplina, pero también “solícita” más que “distante”, podría resultar que tiene una aproximación identificable hacia los estudiantes, diferente de la del resto del personal en cuanto a que de manera expresa trata de cultivar la autoestima y hacer que los estudiantes puedan controlar sus propias vidas. Los investi gadores algunas veces dan nombres a estos tipos. En este caso, el tipo podría ser “terapeuta” . No obstante, es importante recordar que el tipo es una mera analogía. Cualquiera de los tipos creados son producto del esquema actual del investigador para ponderar datos, y no se trata de realidades permanentes. Todas las ciencias utilizan la analogía y las metáforas. Con el fin de decimos cómo son los átomos, los físicos describen los electrones y los neutrones como pequeñas pelotas. La teoría eléctrica toma prestada la analogía de una corriente que “fluye” como un río. La analogía es necesaria con el propósito de comunicar bajo estas circunstancias. Nos dice cómo algo es único y novedoso, no lo que es. Sin embargo, de muchas maneras es útil crear la matriz de tipos. Podría valer la pena estudiar las razones por las que una persona no se ajusta a ninguno de los tipos creados y puede conducir a nuevos discernimientos. A la inversa, podría producirse un tipo al que nadie se ajusta.
Citas textuales El informe final de los datos cualitativos de modo usual incluye citas textuales de los participantes, que transportarán al lector a la realidad de la situación estudiada. Claro que a veces el investigador resumirá las perspectivas e interpretaciones de los participantes en el estudio. Pero es importante que estos resúmenes, que hasta cierto punto deben ser interpretativos o por lo menos selectivos, se identifiquen con claridad como tales. Las citas mismas se escogen de los datos en bruto que “ lo dicen tal cual es” . Muy a menudo nos apegamos a los comentarios para encapsular de manera perfecta la posición que parecen tener las personas acerca de una perspectiva o postura en la vida. Aquí hay algunos: "Todos allá parecen divertirse mucho excepto yo.” “Sólo quiero que todos me quieran.” “No tiene sentido que dé mi ipinión. Nadie quiere escuchar y me dirían de todos modos que está mal.” "Vivir para el mañana, eso es lo que siempre digo. No se puede deshacer lo ya hecho.”
La mayoría de los investigadores consideran importante que las citas, especialmente las que se intenta publicar, se verifiquen primero con el emisor original.
Análisis de datos cualitativos • 469
SEPARACIÓN DE LOS COMPONENTES DEL INFORME Un informe de investigación cualitativa contendrá datos en bruto y resúmenes de éstos, análisis, deducciones y, en el caso de la observación participante, quizás los sentimientos y reacciones del observador en el momento que ocurrieron los hechos significativos. Todos son componentes válidos para su inclusión, pero es importante que el análisis, la inferencia y las apreciaciones subjetivas estén separados con claridad y etiquetados como tales.
ANÁLISIS INICIAL Y FINAL La mayoría de los investigadores cualitativos concuerdan en que parte del análisis de datos puede tener lugar durante la etapa de recolección y no después. Esto puede dirigir al investigador hacia áreas y avenidas de cuestíonamiento para las que no estaba preparado en principio. Es obvio que es importante que este ANÁLISIS INICIAL no produzca ceguera hacia otras áreas. Sin embargo, en comparación con la investigación cuantitativa, es posible construir hipótesis después de que se ha empezado la recolección de datos y no antes de que comience. Patton (1980), un investigador evaluativo, establece: El principio cardinal del análisis cualitativo es que las relaciones causales y las afirmaciones teóricas emerjan claramente de los fenómenos estudiados y se fundamenta en ellos. La teoría surge a partir de los datos; no se impone a ellos.
Teoría fundamentada La afirmación de Patton se acerca mucho a los principios de la “ TEORÍA FUNDAMEN TA D A ” , defendida por Glaser y Strauss (1967). Esta publicación fue una vigorosa presentación del enfoque “no estructurado” de las observaciones sobre la conducta humana analizadas en el capítulo 7. Estos autores sostenían que los observadores deberían: a) entrar a una situación de investigación sin preconceptos teóricos previos y b) crear, refinar y revisar la teoría a la luz de la recolección de datos posterior. El resultado esperado es que las hipótesis “ fundamentadas” generadas a través de la observación presente serán más verdaderas que las deducidas a través de un enfoque previo, sea conductismo, o teoría piagetiana. De hecho, la teoría fundamentada es una importación de la sociología, pero varios de los psicólogos sociales cualitativos o del “nuevo paradigma” han incorporado sus principios:
INFORME FINAL Por tanto, el informe final de la investigación cualitativa deberá dar una explicación de las primeras hipótesis elaboradas y del grado en el que éstas guiaron o cambiaron la dirección de la búsqueda posterior. Muy a menudo, en este tipo de investigación, emerge un punto en una entrevista y el investigador podría pensar: “ Si sólo pudiera regresar y preguntarle a todos los entrevistados acerca de esto” . Cuando esto es posible, es exactamente lo que pasa. En alguna medida, el informe final puede ser un diario de las
470 • Métodos de investigación y estadística
(Capítulo 25
introspecciones y preguntas desarrolladas. Según el grado en que los investigadores intenten alcanzar la reflexión (capítulo 11), el informe también contendrá explicaciones del cuestionamiento del investigador de sus propias decisiones a lo largo del camino, así como análisis de sus autoevaluaciones acerca de prejuicios, emociones, dudas y temores.
CONFIABILIDAD Y VALIDEZ Los investigadores cualitativos argumentan que sus métodos producen datos más válidos por las razones ya analizadas (capítulos 4 y 11). También argumentarían que han desa rrollado salvaguardas en contra de la confiabilidad. A continuación se presentan algunas de ellas. T riangulación
Se tomó prestada de las encuestas y se utiliza en la investigación evaluativa. Ésta significa comparar dos puntos de vista diferentes de la misma cosa: la entrevista con los datos observacionales, las preguntas abiertas con las cerradas o el análisis de un investigador con el de otro.
Análisis de casos negativos Ésta es la consideración de por qué ciertos casos simplemente no se ajustan a los principales patrones delineados como resultado del análisis. La voluntad para hacer esto abiertamente se sostiene como una verificación de la validez. Otros pueden aceptar o no la explicación propuesta, y pueden pedir un nuevo análisis, analizar los datos en bruto ellos mismos, o intentar alguna forma de repetición.
Repetición del ciclo de investigación Los investigadores cualitativos pasan “ el ciclo de investigación” varias veces. Ellos verifican una y otra vez las inferencias y suposiciones hechas al principio. Conforme se desarrollan patrones y teorías, de la misma manera el investigador regresa a recolectar más información, la cual debe confirmar las hipótesis tentativas o ayudar a un me joramiento posterior que profundice y clarifique las categorías.
Consulta a los participantes Se consulta a los participantes y se les proporciona retroalimentación. Los investigadores cualitativos “en el final no enajenado del espectro [de investigación]” (Reason, 1981) incluyen a los participantes en la evaluación de las conclusiones tentativas y las mejoran a la luz de la retroalimentación de este proceso. Reason establece lo siguiente: Una vez que empezamos a hacer investigación, la cual no se conforma a los requisitos generales del método experimental, corremos el riesgo de que se nos acuse de ser simples publicadores, en verdad corremos el riesgo de serlo.
Análisis de datos cualitativos • 471
La respuesta de Reason a estas críticas es un argumento elocuente resumido en las dos últimas salvaguardas. Los publicadores argumentan que tienden a dar una vuelta y escribir una explicación bastante impresionista, con poco, si es que hay algún proceso de retroalimentación.
CONDUCCIÓN DE UN PROYECTO CUALITATIVO — ¡NO ES FÁCIL! Los dos últimos puntos anteriores son las razones por las que los estudiantes pueden encontrar que un proyecto cualitativo es más difícil de lo que pensaban en un inicio. Pueden sentirse orillados a “hacer un proyecto cualitativo” porque no les simpatizan los diagramas y “no son muy matemáticos” . Ésta sería una de las peores razones en las que puedo pensar para conducir un proyecto cualitativo. Debido a que los métodos comulgan mucho con la filosofía que rechaza el positivismo, creo que usted no puede comprender bien lo que una investigación cualitativa trata de hacer, sin una buena asimilación de lo que rechaza en el enfoque cuantitativo. Sin embargo, sería tonto comenzar cón una suposición básicamente cuantitativa (por ejemplo, creo que los fumadores son más ansiosos que los no fumadores) y después descartar la cuantificación así nada más o por fobia a los números. La comprensión de las debilidades cuantitativas fortalecerá un proyecto cualitativo, pero el principal motivo por el cual enfatizo precaución es porque conducir un buen proyecto cualitativo será difícil. El estudiante tendrá que llevar a cabo pocos ejemplos del enfoque y muchos datos brutos (verbales) antes de tener una idea de cómo procede el trabajo común (no existe un camino bueno o aceptado y eso es mucho del problema aquí). Dicho esto, si el estudiante está dispuesto a dedicarle tiempo y esfuerzo, entonces estoy seguro que su profesor estará complacido en ver más trabajo cualitativo en su camino. Únicamente, ¡no lo haga como una opción fácil!
Análisis del discurso Para ilustrar el punto anterior de que no existe un camino correcto para analizar datos cualitativos, dé un vistazo a lo que Potter y Wetherell (1993) tuvieron que decir en la disimilitud del análisis de discurso en métodos cuantitativos tradicionales: El análisis en esos entornos (cuantitativos) consiste en un conjunto de procedimien tos precisos: agregación de puntuaciones, categorizaclón de Instancias, ejecución de diversos tipos de análisis estadísticos y demás. A veces es tentador pensar que en el trabajo de discurso existe algún conjunto análogo de procedimientos codifi cados que se pueden poner en acción y que conducirán a otro conjunto de entida des conocidas como “los resultados". Ver las cosas de esta manera puede ser muy engañoso, a pesar de que la autoridad que resulta de estos procedimientos lo puede tentar a hacerlo . . . Mucho del trabajo del análisis de discurso es un arte, algo así como montar bicicleta o conocer el sexo de pollos, lo que no es fácil de determinar o describir de una manera codificada. En realidad, conforme el analista se vuelve más experimentado, es más y más difícil identificar procedimientos explícitos que puedan llamarse análisis. Sin embargo, existe un buen número de consideraciones que se presentan en el proceso de análisis.
472 • Métodos de investigación y estadística
(Capítulo 25)
Los procedimientos más ilustrativos son: 1 Empleo de la variación como palanca: la variación entre oradores es de obvio interés, pero la variación dentro del discurso de un orador, aunque sea pequeña, puede dar gran conocimiento de lo que la persona está haciendo con su discurso. Esto es una reminiscencia de la “ confiabilidad interna” excepto que aquí, más que manejarla como un “fastidio” como se hace en las mediciones cuantitativas, se trata como una de las informaciones más valiosas que se poseen. 2 L ectura de detalles: más que descartar detalles en el interés de la generalización, como es común, los analistas perciben detalles casi inocuos como indicadores del propósito detrás de las expresiones del lenguaje. El ejemplo de Potter es el uso de lo “más raro” (más que, digamos, “ inusual”) al referirse al cáncer curable, en un programa televisivo cuyo objetivo era disipar dudas acerca de los útiles productos de la investigación contra el cáncer. 3 Organización retórica: se inspecciona el discurso por la manera que encubre pers pectivas alternativas acerca de un aspecto, a través del argumento, mientras preserva una orientación exterior de “hechos” . Dicha retórica “distrae nuestra atención lejos de preguntas de cómo una versión se relaciona a una realidad supuesta. . . y la enfoca hacia cómo se relaciona a alternativas que compiten” . 4 Explicaciones: los aspectos del discurso que son retóricos se relacionan con frecuen cia a la “explicación” individual. Ésta no es una teoría de mero autointerés, inde pendiente de la verdad. Sugiere que, ya que existe raramente, si acaso, una “verdad pura” , el dircurso se construye con contraargumentos en la mente para presentar un caso más sólido. 5 Otros estudios de discurso: este grupo de investigadores cualitativos (y la mayoría de los demás) no intentan producir un conjunto alternativo de procedimientos rígidos y convenciones a los que se apeguen los estudios. Sin embargo, argumentarán que el estudio y hacer referencia al trabajo de otros investigadores es una manera de desarrollar la “mentalidad analítica” . De manera más específica, esto producirá lincamientos de investigación fructíferos, en particular, cuando hay un intento de reproducir los primeros hallazgos en estudios nuevos. Potter y Wetherell están ansiosos no de demandar que no existen procedimientos comunes o “mecánicos” para este tipo de análisis, sino que la utilización de tal método preordenado no garantizará, de manera automática, que “ se obtendrán de algún modo re sultados interesantes” .
LECTURAS ADICIONALES Burgess (1984) analiza la toma y organización de las notas de campo con gran detalle. Patton (1980) discute a profundidad el análisis de contenido de los datos cualitativos. Potter y W etherell (1987) incluyen una guía paso a paso para el análisis del discurso. Bromley (1986) declaró el objetivo parcial de establecer reglas de procedimiento para la recolección y análisis de datos de estudio de casos. Burgess, R.G. & Bryman, A (eds) (1993) Analysing Qualitative Data, London: es un volumen práctico muy útil.
Edwards, D. & Potter, J. (1992) Discursive Psychology, London: es muy ágil en su lectura y contiene el extracto de discursos analizados que se incluyen en este capítulo. Hayes, N. J. (in press) Introduction to Qualitative Research, Hove: LEA promete ser muy útil, ya que contendrá capítulos escritos por diversos investigadores cualitativos, donde ejemplificarán su enfoque hacia su propio trabajo con detalles suficientes para que el (estudiante) lector sea capaz de utilizar el método en su propio proyecto. GLOSARIO Formación de hipótesis e ideas teóricas durante la recopilación de datos
análisis inicial
Teoría “fundamentada en” datos observacionales específicos; pa trones que em ergen del conjunto de datos y no se le imponen antes de su recolección Análisis de las razones por las que un caso único no se ajusta a los patrones identificados hasta el momento
análisis dé caso nega tivo
Comparación de al menos dos puntos de vista acerca de la(s) misma(s) cosa(s): eventos, con ductas, acciones, etcétera
triangulación
Registro escrito del lenguaje grabado de manera directa, tan exac to como sea posible, pero que depende de la aproximación; por lo común incluye pausas, ento nación, y más
transcripción
ETICA Y PRACTICA C a p ítu lo 2 6 . A s p e c to s é tic o s y h u m a n is m o en la in v e s tig a c ió n p s ic o ló g ic a ........................................................4 7 7 C a p ítu lo 2 7. P la n e a c ió n d e p r á c t ic a s ....................................................................... 4 9 5 C a p ítu lo 2 8. R e d a c c ió n d e l in fo rm e p r á c t ic o ........................................................ 501 A p é n d ic e 1. P re g u n ta s e s t r u c t u r a d a s ....................................................................5 23 A p é n d ic e 2. T a b la s e s ta d ís tic a s
............................................................................... 5 3 7
A p é n d ic e 3. R e s p u e s ta s a lo s e je rc ic io s y p re g u n ta s e s tru c tu ra d a s ...........................................................................................5 59
Aspectos éticos y humanismo en la investigación psicológica ■
■
é m
■ ¥
m
u F
m
Este capítulo abarca dos grupos principales de responsabilidades que los psicólogos profesionales llevan consigo, sin importar si su trabajo es aplicado u orientado a la investigación. Primero, los psicólogos tienen responsabilidades, como una comunidad de investigación, de publicar únicamente resultados bien fundados con sustento convencional, abierto al análisis de colegas. También deben poner atención a posibles efectos sociales de los resultados de la investigación y evaluarlos con la moral y el clima político prevalecientes. Segundo, necesitan seguir códigos estrictos de conducta trazados tanto por la British Psycho logical Society como por la American Psychological Association, cuando se trabaja con participantes. Estos códigos abarcan: confidencialidad (de los resultados y de aquellos que los produjeron), intimidad, engaño (que se ha mantenido para disminuir la confianza del público en la Investigación psicológica), rendir cuentas (informar a los participantes y regresarlos a su estado preevaluatlvo), estrés mental y físico e incomodidad, reconocimiento del derecho del participante a retirarse y el poder especial del investigador, problemas con participantes involuntarios e intervención. Existen diversas técnicas que obtienen información y garantizan intimidad y confidencialidad, y varias otras se han sugerido para evitar la necesidad de engañar, pero la psicología tiene la característica peculiar de que el informar a la gente loque se está evaluando altera su comportamiento “natural". Se describen los argumentos en pro y en contra de la investigación animal.
INTRODUCCIÓN L a British Psychological Society (BPS) y la American Psychological Association APA) han acordado lincamientos sobre los problemas éticos implicados en la investi-
478 • Métodos de investigación y estadística..
(Capítulo 26
gación psicológica. La BPS actualmente tiene un folleto de declaraciones (1993), que cubre una amplia gama de problemas, así como un código de conducta (1985) adoptado a través de una votación por correo de todos sus afiliados. La revisión en 1992 de los principios de 1978 se titula Ethical Principles fo r Conducting Research with Human Participants (Principios éticos para conducir investigación con participantes humanos) e introduce la palabra “con” , al igual que modifica la palabra “sujetos” por “ partici pantes” , las cuales son enmiendas importantes. La APA (1987) tiene un grupo más extenso de principios éticos que incluye diez grandes categorías, cada una con varios subprincipios. El público en general puede hacer llegar sus quejas al comité de ética, quien ejerce las fruiciones de juez. El psicólogo implicado puede recibir un llamado de atención, ser cesado, se le puede solicitar que modifique su comportamiento o que asista al entrenamiento pertinente. Esta amplitud de principios y de poder disciplinario refleja la extensa aplicación de la psicología al público en general como consumidor en Estados Unidos. La mayoría de los principios más importantes es similar a los que tienen relevancia en la relación médico-paciente. Los principios de 1992 cubren las siguientes áreas: consentimiento, engaño, interro gatorio, retiro de una investigación, confidencialidad, protección a los participantes, investigación observacional, dar consejos (a los participantes) y la supervisión de colegas en la profesión. La Sección 2 de los principios, titulada “ Generales” se menciona como sigue:
Bajo toda circunstancia, los investigadores deben considerar las implicaciones éticas y consecuencias psicológicas para los participantes en la investigación. El principio esencial es que la investigación debe considerarse desde la posición de todos los participantes: deben eliminarse las amenazas previstas a su bienestar psicológico, salud, valores o dignidad. Los investigadores deben reconocer que, en nuestra sociedad multicultural y multiética y donde incluyen individuos de diversas edades, género y antecedentes sociales, pueden carecer del cono cimiento suficiente de las implicaciones de cualquier investigación hacia los par ticipantes. Debe permanecer en su mente que el mejor juez para decidir si una investigación causará ofensa será un miembro de la población de donde se extraerán los participantes para la investigación.
Tanto los principios británicos como los estadounidenses enfatizan que la investigación psicológica deberá conducir a un mejor entendimiento de nosotros mismos, a aumentar el valor de la condición humana y la promoción del bienestar humano. Ambos ponen énfasis en la necesidad de una atmósfera de libre encuesta con el fin de generar el cuerpo del conocimiento más amplio y válido. También remarcan que esta atmósfera libre requiere un compromiso con la responsabilidad por parte del psicólogo en términos de competencia, objetividad y bienestar de los participantes en la investigación. Desde 1987, se ha enmendado la Cédula Real de la BPS, llevándonos un tanto hacia el modelo estadounidense descrito antes. La Sociedad mantiene ahora un “ registro” de “psicólogos autorizados” . Éstos son personas que practican la psicología tanto en un medio aplicado como de investigación. Los miembros de este registro utilizan las siglas formales de “ C. Psychol”, pueden ser vetados por comportamiento antiprofesional, y se espera que sean reconocidos como practicantes de buena fe, de “ marca registrada” , a quienes el público en general reconozca y en quien confíen.
Aspectos éticos y humanismo en l a. . . » 479
En la década de 1990, la mayoría de las instituciones de investigación cuentan ya con un comité ético para revisar propuestas de investigación (de estudiantes y cuerpo técnico) en cuanto a procedimientos inaceptables en cualquier área que se pueda considerar.
PUBLICACIÓN Y ACCESO A LOS DATOS
Antes de ver los derechos y la protección de los participantes individuales, podemos considerar cómo se espera que los psicólogos se comprometan con la libertad de información. En general, un psicólogo no puede sostener que ha demostrado un efecto y esconder después los datos en bruto o la información sobre procedimientos y muestras utilizadas. A las personas que hacen esto por lo general se les considera como charlatanes. Cuando los psicólogos están preparados, como lo está la mayoría, para ser completamente abiertos en relación con sus datos, no deberían permitir que los presuntos resultados de sus trabajos afecten la vida de las personas, por ejemplo mediante la formulación de planes de acción, antes de que la comunidad científica haya verificado, evaluado y repetido de manera minuciosa los resultados siempre que sea posible. No deberían “ correr a publicarlos” . Hay ocasiones, de hecho, en que un científico puede sentir que la publicación de sus resultados es potencialmente dañina o incluso peligrosa. (Nos recuerda a las personas que primero estuvieron muy conscientes del horrendo poder del proceso de fisión nuclear.) En tales casos, se espera que el investigador busque la opinión de “colegas experimen tados e imparciales” ; una opción recomendada varias veces por la declaración de la BPS para varios dilemas. Un ejemplo significativo de los peligros evitados por estos principios es el del trabajo de Cyril Burt con gemelos idénticos separados, quienes parecían mostrar una clara evidencia del fuerte rol genético en las capacidades intelectuales humanas. Los resultados jugaron una parte sustancial en el debate político que produjo la evaluación británica “ 11 -plus” y un sistema de educación secundaria de dos (originalmente tres) hileras, en donde 20% de los niños que de manera exitosa pasaban el examen recibían una educación escolar en humanidades. Sólo después de su muerte, Leon Kamin (1977) logró establecer sin duda que los datos de Burt eran inconsistentes, a un grado más allá de la aceptabilidad y quizás fraudulentos. Kamin demostró que Burt era persistentemente vago acerca de las pruebas exactas utilizadas y no había hecho fácil la verificación de sus datos en bruto. El culto al “gran experto” también había inhibido la investigación del trabajo de Burt por investigadores “menores” . Joynson (1989) recientemente reabrió este debate, argumentando que estas acusacio nes estaban mal cimentadas y que debería exonerarse el trabajo de Burt. Los hallazgos sobre la diferencia racial (por ejemplo, en inteligencia o personalidad) casi siempre desatan controversia, lo cual apenas puede sorprender. Por esta razón, algunos psicólogos han llegado a sostener que debería realizarse una moratoria en las publicaciones. Argumentan que, puesto que la raza siempre está vinculada de manera inextricable con la cultura, los investigadores más responsables anunciarían sus resul tados con gran idoneidad. Sin embargo^ no pueden evitar que el racista lego o el lector ignorante utilicen la información no calificada en prácticas discriminativas o abusivas.
480 • Métodos de investigación y estadística
(Capítulo 26:
Los psicólogos también han discutido el problema del uso de pruebas proyectivas o de personalidad por legos para la selección de empleos u otras posiciones. También han sostenido que los investigadores psicológicos profesionales deberían ejercer la integridad en cuanto a las fuentes de su financiamiento, el cual tiende cada vez más a provenir de la industria, no interesada en el uso académico de los descubrimientos.
CONFIDENCIALIDAD E INTIMIDAD
Aparte de cualquier consideración ética, existe un argumento puramente pragmático para garantizar en todo momento el anonimato de los participantes. Si los psicólogos publi caran las identidades junto con sus resultados, el público en general pronto dejaría de ofrecerse de manera voluntaria o de estar conforme con participar en la investigación. Un investigador puede garantizar el anonimato o solicitar permiso para identificar a los individuos. Tal identificación podría ocurrir, por ejemplo, a través de la utilización de registros en vídeo como materiales de enseñanza, como en la película de Milgram: Obedience to Authority. Los participantes de una investigación a los que se ha engañado de modo serio tienen derecho a presenciar la destrucción de cualquier registro que no deseen que se conserve. Si se guardan los registros, los participantes tienen el derecho de asumir que éstos se guardarán en un lugar seguro y que nada más el personal investigador, informado de manera cabal, podrá hacer uso de ellos. Por lo general, no obstante, los resultados se convierten en anónimos tan pronto como es posible durante el análisis, mediante el uso de una letra o un número en lugar del nombre. Hay varias circunstancias especiales en las que un investigador podría contravenir la regla de confidencialidad y éstas son cuando hay daños claros y directos contra la vida humana. Un investigador que realiza investigación participativa sobre la vida de las pandillas tendría la clara obligación de romper la confidencialidad cuando estuviera por cometerse un delito grave. Informaría sobre el plan de suicidio de un paciente psiquiátrico o de asesinar a un compañero de cuarto. Los principios éticos implicados aquí son más amplios que los concernientes al desarrollo de investigación científica. El participante es obvio que tiene el derecho a la intimidad, y no deben planearse procedimientos que la invadan de manera directa sin una advertencia. Cuando un pro cedimiento es potencialmente íntimo, embarazoso o sensible, se le debería recordar con claridad al participante su derecho a rehusar su información o participación. Se requiere un cuidado particular, por ejemplo, cuando se les pregunta a los participantes acerca de actitudes o conducta sexuales (y recuerde la técnica de la “respuesta aleatorizada” en el capítulo 8). Este principio es difícil de seguir en el caso de la observación participante encubierta, y se han expresado serias críticas a los usuarios de esta aproximación bajo tales funda mentos. Los investigadores por lo común enviarán una copia del informe final de investi gación a todos los participantes, junto con una justificación de éste en términos de su contribución al conocimiento científico y al beneficio de la sociedad en general. Dicho procedimiento puede ser difícil cuando ha tenido lugar la observación participante encubierta en una situación de campo, y es claro cuando se ha utilizado una muestra muy grande en una encuesta.
Aspectos éticos y humanismo en l a . . . • 481
MILGRAM — EL EXPERIMENTO CLÁSICO PARA DEBATIR SOBRE ÉTICA
Cualquier discusión de principios éticos en la investigación psicológica, de manera inevitable, hace relucir las famosas demostraciones de obediencia de Milgram, muy al inicio en los procedimientos. Varios problemas éticos están implícitos en este estudio, así que permítaseme describirlo de manera breve y después pedirle que piense en cuáles son esos problemas. Con mucha seguridad ya habrá oído acerca del experimento y se proporcionan detalles más completos, por ejemplo, en Gross (1992). Se presentó a los voluntarios con otro “participante”, quien en realidad era un aliado experimental. El voluntario se convertía en un “maestro” a quien se le pedía administrar choques eléctricos que aumentaban en 15 volts por cada error cometido por el aliado. Se señaló 375 voltios como “Peligro: choque severo”. Una cinta grabada con gritos y negativas engañaban al maestro-participante, hacién dole creer que el cómplice estaba experimentando gran dolor y deseaba terminar la sesión. Se presionó al maestro-participante para que continuara, el experimen tador lo “picaba” diciéndole cosas como: “El experimento requiere que usted continúe” y “Usted no tiene otra opción más que seguir”. Para sorpresa de Milgram, 65% de los participantes dieron choques eléctricos hasta el final de la escala (450 voltios) aun cuando el aliado había dejado de responderá los 315 voltios. Milgram había consultado a “colegas expertos e imparciales", los psiquiatras predijeron que no más del 0.1% obedecerla hasta el final. El maestro participante con frecuencia mostraba ansiedad extrema. Uno incluso sufrió un ataque. Un observador escribió: “Observé a un hombre de negocios maduro e inicialmente equilibrado entrar al laboratorio y sonreír confiadamente. En un lapso de 20 minutos estaba reducido a un guiñapo tembloroso balbuciente que rápidamente se aproximaba al punto del colapso nervioso. De manera constante, se jalaba el lóbulo de la oreja y se retorcía las manos. En cierto momento apoyó los puños contra su frente y murmuró, “Dios mío, terminemos esto”. Milgram (1974).
Los resultados de este experimento se utilizaron para asumir que mucha gente común, bajo presión y retrospectivamente, es capaz de comportarse de una manera que se con sidera cruel. No sólo las personas absolutamente diabólicas son quienes llevan a cabo atrocidades. Haga una lista de los aspectos en ese experimento que usted considere carentes de ética. ¿Debió haberse realizado? ¿El fin (el conocimiento sor prendente y científico) justifica los medios?
ENGAÑO Se engañó en exceso a los participantes de Milgram. No sólo creían dar choques eléctricos a una víctima inocente, y que ésta sufría terriblemente, sino que también se distorsionó el verdadero propósito de la investigación, al que se hizo pasar como interesado en los efectos del castigo sobre el aprendizaje.
482 • Métodos de investigación y estadística
(Capítulo 2G
El ENGAÑO, o por lo menos la retención de información, es demasiado común en los experimentos psicológicos. Menges (1973) revisó cerca de 1000 estudios estadoan?denses y encontró que 80% dio a los participantes información menos que completa. Ear sólo 3% de los estudios se les dio a los participantes información completa acerca de x VI, y la información acerca de la VD fue incompleta en 75% de los casos. Parte de este engaño parece bastante inocuo. A algunos participantes se les dice qoe un bebé es niño, a otros que es niña, y se comparan sus descripciones. A los participantes que ejecutan una tarea sensoriomotriz, cuando el verdadero objetivo es registrar el efees? de un observador sobre la ejecución, se les dice que el observador está presente para observar detalles acerca de la habilidad en la conducta implicada. A los niños se les dies que no jueguen con un juguete porque pertenece a un niño de la casa de al lado. A los estudiantes se les dice que sus ratas experimentales son “ inteligentes” . Incluso el uso de placebos es un engaño. Cierto tipo de engaño es más grave. Ha habido participantes a quienes se les ha dicho que los resultados de la prueba demuestran que están deficientemente adaptados. A participantes mujeres se les retroalimenta diciéndoles que el hombre con quien se entrevistarán más tarde las considera o no atractivas. Bramel (1962) dio una retroalimen tación falsa a participantes varones acerca de su reacción emocional ante fotografías de hombres, de modo que sus respuestas parecían estar relacionadas con la homosexualidad. Los participantes en los experimentos de Latané y Darley (1976) pensaron que estaban oyendo por casualidad un ataque epiléptico auténtico. La VD era el acto de informar sobre el ataque y a qué velocidad lo hacían. Por consiguiente, ¿qué puede hacer un investigador si se ha utilizado el engaño? Primero, los principios de la BPS de 1992 recomiendan que, siempre que sea posible, se debe conducir la consulta con individuos que compartan los antecedentes sociales y culturales de los participantes. Segundo, en algunos casos es posible obtener permiso para engañar. Se le puede pedir a los voluntarios que seleccionen el tipo de investigación en la que están preparados para participar, por ejemplo: a) Investigación del reconocimiento de productos comerciales. b) Investigación en la seguridad de productos. c) Investigación en la cual usted será engañado en cuanto al objetivo de ésta hasta momentos posteriores. d) Investigación que incluye preguntas acerca de actitudes. Tercero, se debe atender con mucho cuidado al rendir cuentas.
RENDIR CUENTAS
En todos los estudios de experimentación, el investigador tiene la responsabilidad de rendir cuentas a cada participante. Se revelan el verdadero propósito y los objetivos, y se hace todo lo posible para asegurarse de que los participantes se sienten igual respecto de sí mismos antes y después del experimento. Cuando se engaña de manera profunda a los
Aspectos éticos y humanismo en la . . . • 483
participantes, esta responsabilidad merece un esfuerzo sustancial en tranquilización y explicación. El acto mismo de RENDIR CUENTAS acaso implique un poco más de engaño, como cuando se les dice a los niños que: “en verdad lo hicieron muy bien” , sin importar el verdadero estándar de su desempeño y, en caso de sospechar que de plano un participante está “deficientemente adaptado”, esto no se comunica. Si aplicamos lo anterior al experimento de Milgram, a los participantes que llegaron al final de la escala se les dijo que algunas personas lo hacían con bastante gozo, con el fin de que luego lo pudieran comparar de manera bastante favorable con su propia falta de voluntad para proseguir, junto con la ansiedad experimentada. (Milgram nunca informó que algún participante sí procediera gozosamente.) Sin embargo, al menos 26 de los 40 participantes sabían, cuando terminaron, que eran capaces, bajo presión, de infligir daño extremo, si no es que la muerte, a un ser humano inocente. Parece difícilmente posible que estas personas dejaran el laboratorio sintiendo lo mismo en relación consigo mismas que antes de entrar ahí. También en el paradigma clásico de Asch (1956) los participantes encuentran que se han “ amoldado” a dar respuestas tontas a problemas simples, debido a que un grupo de aliados dieron primero las respuestas. Estos participantes también mostraron gran ansiedad durante las sesiones experimentales.
¿FUNCIONA EL HECHO DE RENDIR CUENTAS? Milgram envió un cuestionario a sus participantes después del estudio y 84% dijeron estar contentos de haber participado, mientras que sólo 1% se arrepintió de haberlo hecho, el resto informó tener sentimientos neutrales. Ochenta por ciento creyó que debía realizarse más investigación como la de Milgram. Setenta y cinco por ciento encontró la experiencia significativa y autoesclarecedora. Algunos autores no toman en cuenta esta amplia gama de comentarios con dosis de agradecimiento e inspiración como un intento de Milgram para justificar un estudio éticamente inaceptable. Ring y colaboradores (1970) decidieron evaluar las consecuen cias que tenía para el participante un estudio en que, aunque los investigadores criticaban a Milgram, no sólo incluyeron los engaños del estudio original, sino que primero rindie ren cuentas de una manera deshonesta antes de una segunda que sí era honesta. Mostraron que una información superficial inicial reduce de manera notable cualquier evaluación ne gativa del participante acerca de la investigación. Sin embargo, también encontraron que un tercio de los participantes informaron tener un enojo residual y sentirse decepcionados consigo mismos, incluso después de la segunda información completa. Por pocos que sean los participantes que se sienten bastante negativos consigo mismos inmediatamente después del experimento, y el hecho de que muchos de ellos se sientan demasiado incómodos durante éste, ha llevado a muchos investigadores a la posición de que el engaño y el estrés hasta este extremo son éticamente inaceptables. Además de la cuestión ética, es imprudente que los investigadores se solacen con mía gran cantidad de engaño. Los estudiantes sospechan con mucha frecuencia que es falsa la estructura y explicación manifiesta de algún estudio en el que participan. Ring i encontró que 50% de sus participantes afirmó que en el futuro serían más cautelosos y 1 suspicaces con los estudios psicológicos. ' Como dicen Reason y Rowan (1981): “ La buena investigación significa nunca tener 1 míe pedir perdón” .
484 • Métodos de investigación y estadística..
(Capítulo 26
SI NOSEENGAÑA, ¿QUÉSEPUEDEHACER? Varios investigadores, a quienes les pareció bastante inaceptable el engaño excesivo a! nivel de Asch o Milgram, han recurrido al juego de roles o simulación. En el capituló se proporciona una descripción de resultados exitosos obtenidos por Mixon (1974), quiea utilizó el presente encabezado para dar título a su libro. Ring estaba entre los seguidores del juego de roles, mientras que Aronson y Carlsmith (1968) argumentaban que se perdería el realismo esencial. Horowitz y Roths child (1970) realizaron una repetición del diseño de Asch utilizando un grupo “pre venido”, al que se le dijo que el experimento era una farsa, pero se les pedía actuar b parte de un participante ingenuo, y un grupo “previamente instruido” que conocía en detalle el objetivo experimental. El grupo prevenido se “amoldó” de modo similar al que se engañaba de la manera tradicional, mientras que el grupo completamente informado no se amoldó en lo absoluto. Estos participantes parecieron comportarse de acuerdo con lo que la mayoría de la gente cree que en realidad ocurriría en el diseño de Ash. He aquí la razón por la cual después de todo, el estudio de Asch es tan famoso, absorbente y memorable para el estudiante de psicología. Desafia el sentido común. En consecuencia, y con base en esta evidencia, no parece muy bueno el pronóstico de que el juego de roles demuestre tales efectos contraintuitivos. Sin embargo, se demostró de manera común durante el juego de roles la capacidad que los estudiantes normales tenían para el autoritarismo agresivo y la subordinación, contra las predicciones en el estudio clásico de Zimbardo, descrito de modo breve más adelante. Esto no significa que el engaño de la intensidad de Milgram sea, por tanto, éticamente aceptable. Tanto la BPS como la APA exhortan al investigador vacilante a que pida de nuevo la opinión, de aquellos “colegas experimentados e imparciales” que no estén comprometidos con fervor con el deseo del investigador de confirmar una teoría con la hipótesis particular bajo prueba.
ESTRÉS E INCOMODIDAD No existe arguménte contra el principio de que los investigadores en psicología deberían garantizar la seguridad de sus participantes y que debería hacerse todo lo posible para protegerlos del daño o la incomodidad. La dificultad surge al tratar de decidir qué tipo de estrés o incomodidad, física o mental, es inaceptable. Los humanistas y otros podrían objetar que cualquier investigación experimental tradicional con “sujetos” es una afrenta a la dignidad humana. En un extremo inferior, los que valoran el procedimiento experi mental con seres humanos, no obstante, han criticado a algunos investigadores por ir demasiado lejos.
ESTRÉSMENTAL Anteriormente se dieron ejemplos de estudios que suponen un grado posiblemente sustancial de estrés mental. Éstos incluían el deterioro de la autoimagen de una persona
Aspectos éticos y humanismo en l a . .. • 485
o la tensión de sentirse responsable por una acción, en el estudio de Latané y Darley. Un ejemplo más, que causa cierta discrepancia, es aquél en el que se le pidió a un niño guardar el hámster mascota del experimentador, el cual se retiraba de su caja a través de un hoyo en el piso, cuando el niño no estaba mirando. Pero no todo el estrés mental emana del engaño. Puede exponerse a los participantes a secuencias de películas violentas o pornográficas. Los participantes que sufrieron “privación sensorial” (carencia de estímulos sonoros, táctiles y visuales) experimentaron incomodidad psicológica extrema, en forma de delirios y alucinaciones, a grado tal que, por lo general, terminaban con la experiencia después de tres días. La simulación de autoridad y obediencia dirigida por Zimbardo (1972) tuvo que detenerse después de seis de los 14 días que se supone debían durar. Los estudiantes actuaron extremadamente bien el papel de carceleros agresivos, sádicos y brutales. Sus prisioneros (otros estudiantes) se volvieron demasiado pasivos y dependientes. En un lapso de dos días, y en los pocos siguientes, se tuvo que liberar a los participantes, puesto que mostraban signos de graves trastornos emocionales y físicos (llanto incontrolable y gritos), e incluso uno desarrolló una comezón nerviosa. Los investigadores tienen la obligación no sólo de informar cabalmente, sino también de procurar deshacerse incluso de los efectos negativos a largo plazo que tengan los procedimientos de investigación psicológica. Un psiquiatra examinó a 40 de los partici pantes en el estudio de Milgram un año después del experimento, e informó que ningún participante había sido dañado psicológicamente a causa de su experiencia. Los prin cipios de 1992 de la BPS obligaron a los investigadores a informar a los participantes de los procedimientos, para contactarlos en caso de que se les generara estrés u otro daño después de su participación.
INCOMODIDADFÍSICA Muchos experimentos en psicología han manipulado variables como choques eléctricos, niveles extremos de ruido, privación de comida y sueño, fármacos productores de náuseas o ansiedad, etcétera. Watson y Rayner (1920), como es bien sabido, causaron que “ Albertito” , un niño pequeño, exhibiera ansiedad hacia una rata blanca, que de manera previa había acariciado con gozo, mediante la producción de un ruido fuerte y perturbador siempre que lo hacía. Al parecer, Alberto incluso llegó a ser cauteloso de otros objetos peludos blancos. Su madre se mudó y por ello se retiró a Alberto del proyecto antes de que se le pudiera descondicionar. Este procedimiento derivó en el “condicionamiento aversivo” que intenta eliminar conductas indeseadas y destructivas en clientes “deseosos” . El término “ deseoso” genera dificultades. En el caso sensible de homosexuales varones que se someten a terapia aversiva, sé argumenta que el tratamiento es antiético, ya que sucumbe a los varones a una estructura de normas convencionales que maneja su preferencia como indeseable o “ enfermiza” . En el trabajo de investigación en general, un participante “ deseoso” puede actuar bajo presión social. Pueden desear sostener una imagen de “hombre verdadero”, para ostentar, tanto como “ vencer” a sus compañeros. Pueden sentir que están arruinando el experimento o decepcionando al experimentador (el poder especial del investigador se analiza más adelante).
486 • Métodos de investigación y estadística..
(Capítulo 26)
Por estas razones, el investigador tiene un conjunto de obligaciones hacia los participantes para asegurarles de que no sufrirán indebida o innecesariamente. Esto se resumirá en la siguiente sección. En cualquier investigación donde se presume incomodi dad, se espera que el investigador busque la opinión y consejo de otros colegas profesiona les antes de continuar.
DERECHOALANOPARTICIPACIÓN El investigador está obligado a: 1 Dar al participante información completa en relación con el posible nivel de incomodidad, y a enfatizar la naturaleza voluntaria del ejercicio, así como el derecho a retirarse en cualquier momento. 2 Recordarle al participante su derecho a retirarse en cualquier punto del pro cedimiento donde la incomodidad parezca superar lo anticipado. 3 Suspender el procedimiento cuando los niveles de incomodidad sean sustancial mente mayores que los anticipados, o si el participante se encuentra obviamente alterado a un nivel inaceptable. Ahora podemos ver uno de los aspectos más objetables del estudio de Milgram. Su experimento contravino de manera flagrante todos estos principios. La APA enfatiza tanto la obligación de respetar el derecho de los participantes a retirarse, como el de recordarle al participante que tiene este derecho. Contrariamente a esto, empero, a cada participante que deseaba detenerse se le ordenaba continuar en interés del programa de investigación. La continuidad era “absolutamente esencial” y el participante “ no tenía más opción que continuar” . La APA incluso enfatiza una vigilancia especial cuando el investigador se encuentra en una posición de poder respecto al participante. Por supuesto, ésta fue precisamente la posición explotada de manera vigorosa en el estudio de Milgram. Es usual obtener el consentimiento informado de los "participantes en la investi gación. Como veremos más adelante, esto no siempre es en realidad posible antes de realizar la investigación, aunque siempre se puede obtener el consentimiento para los experimentos dé laboratorio. En la investigación con niños, primero debe obtenerse el consentimiento informado de los padres. Por razones obvias, los niños no deben some terse a una gran tensión, aun en la remota eventualidad de que los padres estén de acuerdo (sin embargo, existió Albertito). Dos factores que trabajan en contra del consentimiento informado son: la necesidad que tiene el investigador de engañar en algunas ocasiones, y el poder significativo que se adjudica al rol del investigador.
PODERESPECIALDELINVESTIGADOR En general, entonces, el investigador está obligado a dar al participante todas las oportunidades para no participar, ya sea antes o durante el procedimiento experimental.
Aspectos éticos y humanismo en l a ... • 487
Trabajar en contra de esto, tal como lo acabamos de decir, es la posición de influencia, prestigio y poder del investigador, Torbert (1981) dice: . . . el contexto de investigación controlado de modo unilateral es en sí mismo sólo un tipo particular de contexto social y un contexto políticamente autoritario. No debiera sorprender que algunos de sus hallazgos bien concebidos de manera notable se relacionen con las respuestas de las personas al autoritarismo. Una dimensión adicional a este poder emerge cuando consideramos la posición común de los estudiantes de psicología de Estados Unidos, quienes a menudo encaran una participación obligatoria en un proyecto de investigación que ellos eligen. En algunos casos se ofrece una exención, pero su costo es un ensayo adicional de fin de semestre, lo que hace a la opción más aparente que real. Otro problema de interés ético ha sido la práctica de obtener reclusos o pacientes psiquiátricos para estudios experimentales estresantes, en donde las persuasiones, tales como un paquete de cigarros o la liberación temporal de las rutinas diarias, son mínimas y normalmente no “comprarían” la participación fuera de la institución en particular. Los principios de 1992 de la BPS enfatizan de modo particular la manera en que se obtiene el consentimiento de personas arrestadas, y también en circunstancias especiales con infantes y adultos con deterioro en la comprensión o comunicación.
PARTICIPACIÓNINVOLUNTARIA En los estudios de observación participante, y en la observación naturalista (encubierta), las personas observadas casi nunca tienen conciencia de su propia participación. Esto parece bastante inobjetable cuando se realiza observación no intrusiva en absoluto, y cada observado es sólo uno en un conteo de frecuencia; por ejemplo, cuando se observa a los conductores con el fin de determinar si se detienen más varones o mujeres ante una señal de “ alto” en el camino. En la observación participante, se pueden invadir las vidas privadas de las personas. Humphreys (1970) investigó como “ vigía” de un baño público la conducta de ho mosexuales aquiescentes. Las personas observadas nada sabían del estudio ni de que se estaba anotando las placas de su auto con el fin de obtener posteriormente más informa ción sobre sus antecedentes. Algunos estudios de campo realizados en el terreno de interés público incluyen manipulaciones que interfieren con la vida de las personas. Un estudio en la calle es obvio que demora a cada respondiente, pero aquí siempre lo primero que se busca es el consentimiento. En los estudios de Piliavin y colaboradores (1969) sobre la intervención de los mirones, una persona que parecía lisiada o bien ebria “ se desploma” en un tren subterráneo. En una versión, el actor muerde una cápsula que producía un hilo como de sangre en su barbilla. De manera predecible, la persona “ lisiada” obtuvo más ayuda que la ebria, la condición de “ sangre” tenía un efecto reductor de la ayuda. El estudio de Piliavin, de hecho, contraviene los principios de apertura (no engaño), evitación del estrés y consentimiento informado antes de la participación. Doob y Gross (1968) demoraron en un semáforo a los conductores ya fuera de un auto nuevo muy elegante, o de uno más viejo, de menor nivel. Los efectos eran predecibles en el sentido de que los otros conductores tardarían más en tocarle el claxon al auto nuevo.
488 • Métodos de investigación y estadística
(Capítulo 26)
Si estos resultados son muy poco sorprendentes, ¿no podría tan sólo pedírseles a los participantes dispuestos que imaginaran la situación y consideraran su posible respuesta? ¿Funcionaría aquí la simulación? Doob y Gross también utilizaron un cuestionario, y no encontraron diferencia entre los informes de muestras independientes de estudiantes sobre cuánto tiempo pensaban que tardarían en sonar la bocina a cada auto. Curiosamente, de 11 estudiantes que dijeron que no sonarían la bocina, los seis que no lo harían al auto de bajo nivel eran varones, y los cinco que no le tocarían el claxon al auto de nivel alto eran mujeres. Los hallazgos del tipo “ como sí” eran tan diferentes de la conducta real, que los defensores de la investigación de campo parecen justificarse en su exigencia de datos más realistas. Sin embargo, para 1991, se ideó una simulación por computadora, lo que produjo resultados que confirman los hallazgos originales.
INTERVENCIÓN Anteriormente hemos tratado algunos aspectos de la INTERVENCIÓN breve con partici pantes ingenuos. Varios estudios han incluido la intervención en una escala sustancial pero con participación voluntaria. Por ejemplo, los psicólogos han trabajado con padres e hijos en el hogar en un esfuerzo por demostrar los efectos benéficos de la estimulación paterna sobre el aprendizaje y desempeño intelectual de los niños. En estos estudios es necesario un grupo control para establecer comparaciones de líneas de base. En los experimentos con nuevos fármacos que se realizan en hospitales, se suspenden los en sayos si hay éxito, fundamentándose en que no sería ético privar del tratamiento a los grupos placebo y control. Por desgracia, en la experimentación psicológica de interven ción, aunque sea aparente el éxito, usualmente no habría el poder político y los recursos para poner en práctica el “tratamiento” para todas las familias de muy baja condición socioeconómica. Por tanto, surgen problemas éticos al seleccionar a un grupo para aplicar un tratamiento especial. Cuando la intervención tiene lugar sólo para propósitos de investigación e incluye producir una conducta que por lo común se considera socialmente inaceptable, los principios éticos necesitan de una consideración muy cuidadosa. Leyéns y colaboradores (1975), por ejemplo, elevaron los niveles de agresión en niños mostrándoles una serie de películas de violencia. Se observó que eran más agresivos en las actividades diarias en comparación con un grupo control al que no se le pasaron películas violentas. Algunos otros estudios han producido el mismo efecto, algunos con adultos. Es bastante difícil ver cómo la pura información final pudiera dejar a los muchachos tal como estaban antes de que empezara el estudio.
INVESTIGACIÓNCONANIMALES No hay nada más seguro para producir un vivo debate entre los estudiantes de psicología que la discusión de si es necesario o no experimentar con animales indefensos. Muchos estudiantes se sienten mucho más indignados por la investigación hecha con animales, que respecto a los estudios más cuestionables con seres humanos, basándose en el hedió
490 • Métodos de investigación y estadística
(Capítulo 26
1 En un nivel fisiológico muy elemental, los animales y los seres humanos tienen cose en común. La naturaleza de la sinopsis, las conexiones neurales y la descarga, p
ELCASOENCONTRADELAINVESTIGACIÓNCONANIMALES Los teóricos han objetado la excesiva extrapolación de lo animal a lo humano que ha tenido lugar. He aquí algunas razones del porqué se consideran inapropiadas tales extrapolaciones. 1 Seligman (1972) ha sostenido el concepto de “preparación”, el cual implica que algunos animales nacen especialmente preparados a través de un proceso evolu tivo para aprender con facilidad ciertos patrones de conducta con valor de supervivencia para la especie. De la misma manera, algunos patrones son difíciles o imposibles de aprender, el animal está “contrapreparado” . Esto toma difíciles las comparaciones entre una especie y otra, ya no digamos la comparación entre animales y seres humanos. 2 Kohler (1925) demostró en simios lo que él llamó “aprendizaje por discerni miento” , al resolver un problema novedoso mediante una repentina reorgani zación de detalles, de modo muy parecido a lo que hacemos cuando de manera espontánea resolvemos uno de esos enfadosos problemas de hacer coincidir varitas. Si los simios pueden hacer lo que ciertamente hacen los seres humanos, entonces parece cuestionable la validez de comparar los procesos de aprendizaje humano con los de las ratas o de quienes no exhiben “ insight”. 3 Los etólogos han mostrado que mucho de la conducta, que en los seres humanos está sujeta a la variación cultural y al lento desarrollo del aprendizaje, es instintiva en animales, demostrada como “patrones de acción fija” . Los preludios del apareamiento y la defensa territorial están organizados de manera bastante rígida en un gran número de especies, aunque bastante poco generalizados en toda la extensión de las culturas humanas. 4 Los etólogos, entre otros, también han cuestionado la validez de que los animales hagan cosas anormales en el laboratorio, y se han concentrado en la conducta dentro de su ambiente natural, evaluando a los animales en el laboratorio sólo con las variaciones de estímulo que de manera normal se encontrarían fuera de él. 5 El lenguaje, definido con fuerza en términos de sintaxis y símbolos, parece ser único de los seres humanos. El lenguaje es el vehículo para la transmisión de los valores culturales, los significados y la construcción social de la realidad del individuo. Mucha investigación psicológica, de manera consciente o no, asume que estos valores y significados son integrales a la conciencia humana. La comparación con animales encuentra su punto más débil aquí. Los puntos anteriores se enfocan en el rechazo a la investigación con animales con fundamentos prácticos. Se alega que esta investigación no nos dirá lo que queremos saber. Otros argumentos toman una línea moral o humanitaria.
Aspectos éticos y humanismo en l a . . . • 491
6 Algunos argumentan que es sencillo y categóricamente erróneo infligir dolor y sufrimiento a cualquier criatura viviente. 7 Un argumento más profundo es que el “ ataque” de la naturaleza que hace el experimentador tipifica el modelo “controlado” de la humanidad asociado con el psicólogo como un científico neutral, duro y objetivo. En la actualidad se rechaza esta imagen del científico, no sólo por los psicólogos humanistas y muchos otros, sino también por los científicos en general que desean proyectar un modelo de interés por el ambiente. Los defensores de las objeciones anteriores impugnarían que se necesite privar a unos garitos de la experiencia visual, con el fin de estudiar el problema de la naturaleza y la crianza sobre la percepción. Los estudios de campo con niños en que de manera desafortunada se da el caso de que se les haya privado de este modo, se considerarían más validos y más éticos. De la misma manera, no es necesario privar a los monitos de sus madres. Muchos niños lo han vivido. El gran debate en la teoría del apego ha sido sobre el número y la calidad de los vínculos necesarios para un desarrollo óptimo y, en este punto, los estudios con monos es difícil que puedan ayudamos. Cualquiera que sea el fundamento racional para los estudios con animales, o las feroces y apasionadas objeciones, parece probable que continuarán como accesorios de la investigación psicológica, aunque quizás no con su intensidad original. La investigación británica se realiza bajo los lincamientos propuestos por la BPS (1985). En éstos se señalan los siguientes puntos: • El conocimiento que se obtenga debe justificar el procedimiento; no se fomenta la investigación trivial; los métodos alternativos, sí. • Debe utilizarse el menor número posible de animales. • Nunca deberán utilizarse miembros de especies en peligro de extinción. • Deben evaluarse respecto a la especie en particular bajo estudio: la privación de comida y los procedimientos que causen malestar o dolor. Un pro cedimiento más o menos moderado para una, puede ser dañino para otra. • Se prefieren los estudios naturales a los de laboratorio, pero los animales deberán ser molestados lo menos posible en su vida silvestre. • Los experimentadores deberán familiarizarse con los aspectos técnicos de la anestesia, los componentes farmacológicos, etcétera; deben hacerse verifica ciones médicas posoperatorias de manera regular. Los lincamientos también dirigen al psicólogo a las leyes pertinentes bajo las cuales se conduce la investigación con animales y a la necesidad de obtener varias licencias.
CONCLUSIÓN En conjunto, es difícil conducir mucha investigación sin tropezar con discusiones sobre ética. Es cierto que parece imposible proseguir con algo sin antes considerar las posibles objeciones éticas. Pero es como debería ser. Otras ciencias naturales tienen también sus asociaciones y comités para considerar la responsabilidad social de la investigación
492 • Métodos de investigación y estadística
(Capítulo 2 6
científica. Discuten acerca de qué uso podría darse a qué descubrimientos o acerca de cuáles organizaciones no sería prudente aceptar financiamiento. Atienden el posible impacto de su trabajo sobre la sociedad como un todo. De manera similar, la psicología tiene que hacer estas reflexiones. Pero, dado que los seres humanos, en tanto individuos en una sociedad, también son el punto focal de la investigación, apenas puede sorprender que la psicología, como una sociedad de inves tigación, tenga que ser bastante más sagaz y estar alerta para detectar los procedimientos incompetentes, el abuso, el descuido y la falta de profesionalismo. Si los psicólogos prefieren que las personas no den un paso atrás en las fiestas diciendo cosas como: “¿Apuesto que me está evaluando?” o “¿Es parte de un experimento?”, necesitan asegurarle de modo constante al público que no pueden pasar ahora algunos excesos del pasado y que en realidad se emplea el engaño sólo cuando es necesario. Los investigadores humanistas y del “nuevo paradigma” parecen haber ganado el alto terreno moral acerca de estos problemas éticos, no sólo porque anteponen la dignidad y la honestidad, sino porque ven sus métodos colaborativos o no directivos como la única vía para la información genuina no coercitiva. Como lo señala Maslow: “. . . si usted pincha a la gente como a las cosas, no le permitirán llegar a conocerla” Bueno, ¿qué opina? Es probable que discuta de manera acalorada con sus compañeros de estudio o colegas los aciertos y equivocaciones al realizar algunos experimentos. No puedo evitar el sentimiento de que la información proveniente del trabajo de Milgram sea valiosa en extremo. Ciertamente debilitó los estereotipos que yo tenía acerca de que culturas completas fueran inherentemente crueles. Pero tampoco puedo dejar de pensar de manera inmediata acerca de esos participantes que pasaron por todo el procedimiento. ¿Podemos estar tan seguros de que estaríamos en el 35% que se detuvo? Incluso no todos éstos se detuvieron tan pronto como la víctima estaba claramente en problemas. ¿Cómo nos sentiríamos el resto de nuestras vidas? ¿Impondríamos tal pérdida de dignidad en otros? No he tomado una decisión final respecto a este problema, ni para muchos otros debates psicológicos y dilemas filosóficos. Por fortuna, no estoy en una posición en la que tenga que votar. Pero, ¿qué piensa usted . . . ?
GLOSARIO Informar a los participantes la na turaleza y fundamento completos del estudio al que se sometieron y eliminar cualquier daño a la autoimagen o autoestima
rendir cuentas
Conducir al participante a que crea que otra cosa, distinta a la verdadera VI, se incluye, o al menos no proporcionarle la infor mación completa acerca de la VI, VD y el procedimiento en general
engaño
Aspectos éticos y humanismo en l a . .. • 493
Tomar parte en la investigación sin su consentimiento o bajo desco nocimiento del estudio
participación involun taria
Planeación de prácticas
S i usted va a planear y realizar su propio trabajo práctico en psicología, ¡buena suerte!
Es muy divertido y muy satisfactorio presentar un informe de trabajo que sea suyo por completo, en vez de una práctica que establece su tutor y lo envía a desarrollarla. Sin embargo, ¡tenga cuidado! Ciertamente su tutor tiene mucha experiencia planeando ejercicios semejantes, de modo tal que usted no desperdicie todos sus esfuerzos y termine con datos inútiles o se encuentre ejecutando un proyecto con obstáculos inesperados e irremediables, o con un diseño completamente inapropiado. Más adelante he anotado la mayoría de las cosas que creo necesitan atención antes de que usted empiece a recabar sus datos. Casi con certeza he olvidado algunas de ellas, pero espero que éstas le sean de ayuda. Sin embargo, nada de lo que he escrito puede sustituir una planeación cuidadosa, de preferencia con un grupo pequeño, antes de que empiece la recolección de sus datos. Recuerde que la “práctica” no empieza cuando comienza a realizar sus ensayos y evalúa a sus participantes. Eso es una mínima parte de todo el proceso. Existe una gran porción de tiempo que usted pasa planeando y otra enorme que transcurre analizando y •me atrevo a decirlo) ¡redactando su informe! He escrito estas notas teniendo en mente la prueba de hipótesis tradicional, “rígida” . Por consiguiente, se pone énfasis en la estricta definición de variables y en pensar acerca del sistema de análisis antes de empezar. Esto es obvio que va en contra de los princi pios de la investigación cualitativa y del “nuevo paradigma”. Sin embargo, la mayoría de los estudiantes encuentra que a través de los requerimientos del programa u otras fuerzas necesitan familiarizarse con este diseño tradicional. Además, puesto que es remo to que de la noche a la mañana desaparezca el “viejo paradigma”, creo que es necesario entender esta aproximación de manera completa, con el fin de comprender sus debilidades y despegar en otras direcciones.
496 • Métodos de investigación y estadística
(Capítulo 2
El estudiante que desee realizar un diseño algo más cualitativo necesitaría consultaampliamente con su tutor, con el fin de que no termine con un informe fascinante pero al que se considera como el trabajo principalmente anecdótico de un “novelista expa triado” .
OBJETIVOGLOBAL • ¿La idea nada más saltó en su cabeza? ¿Vale la pensa ver si hay teoría relacionada? Esto le podría dar ideas más firmes. Usted podría estar trabajando en el diseño de un programa donde se requiere que usted “ encaje” los objetivos de la investigación en alguna teoría antecedente. No hay nada erróneo en principio, sin embargo, al evaluar una idea personal que tuvo usted sin ninguna ayuda. La creatividad es favorable. No obstante, es probable que sí haya algún trabajo relacionado, aunque quizás sea difícil de encontrar en la biblioteca de su escuela. No obstante, siempre puede llamar por teléfono, o escribir a otras instituciones o bibliotecas, como lo sería la universidad local. • Ahora es el momento de establecer su hipótesis de manera muy cuidadosa, ¡no cuando tenga que redactar el informe!
DISEÑO • ¿Requiere cuantificar sus variables porque no existe .una medida? ¿Se puede hacer esto con sensibilidad? ¿Cómo se medirá, por ejemplo, el “autoconcepto” ? • Al pensar en variables será útil pensar en el análisis estadístico que empleará. Por ejemplo, si se le pidió que emplee correlación, entonces se sobreentiende que debe usar Pearson o Spearman, donde ambas variables deben medirse en por lo menos una escala ordinal. De otro modo, si usted trata de “correlacionar el sexo con la velocidad en el manejo” , por ejemplo, terminará con la diferencia entre varones y mujeres, ya que el sexo es una variable nominal —sólo tiene dos valores cualitativos. Existen los procedimientos especiales mencionados en el capítulo 18 (pero no puede obtener un diagrama de dispersión utilizando ambas coordenadas cuando una variable nada más tiene dos valores distintos. Con este tipo de variables es mejor evaluar las diferencias. ¿Podrá usted desarrollar una escala de calificación plausible para su(s) variable(s)? Por ejemplo, ¿se puede calificar la fotografía de una cara en una escala de 1 a 10 respecto a “ la felicidad” ? Utilizando esta aproximación, sólo podrá hacer una prueba no paramétrica. Si mide la capacidad para conducir depeniendo de si un conducto se detiene o no, sólo puede lograr datos a nivel nominal. ¿Es eso lo que quiere? De manera similar, compare el hecho de preguntar si las personas pasaron su examen a la primera, con el de preguntarles cuánto tiempo tardaron en aprender. • ¿Está usted manejando demasiadas variables para mantener lo suficientemente simple el análisis estadístico? Digamos que usted querría ver si los introvertidos mejoran en una tarea sin audiencia, mientras que los extravertidos mostrarían un deterioro. A usted le guastaría ver si esto es más cierto para varones que para mujeres y quizás si la edad también tiene un efecto. Admirable razonamiento sobre la interacción de variables,
Planeación de prácticas • 497
•
•
•
•
pero el análisis estadístico será muy complicado. Necesitará usar el ANOVA ¿Com prende el procedimiento? ¿Puede obtener fácilmente asistencia de cómputo? El último ejemplo sería muy costoso en el empleo de participantes. ¿Podría obtener los suficientes? En general, ¿podrá obtener suficientes personas para el diseño elegido? Recuerde, un diseño no relacionado requiere el doble de número de gente para obtener la misma cantidad de diferencias que un diseño de medidas repetidas. ¿Podrá igualar pares de manera apropiada? Quizá no pueda obtener la información que necesita para hacerlo (por ejemplo, la clase social). Si usted va a utilizar medidas repetidas, con evaluaciones en dos ocasiones diferentes, ¿estarán todos disponibles para la segunda vez? ¿Tiene todas las condiciones o grupos de control que necesita? Un par de estudiantes planearon una vez una prueba para la hipótesis de igualación. Querían ver si la gente tendía a aparear fotos de parejas cuando no sabían, de entre un grupo de 10 varones y 10 mujeres, quién estaba casado con quién. Realizaron la prueba e informaron con qué frecuencia sus participantes habían tenido éxito al aparearlas. De manera repentina se percataron de que ésta no era una prueba para la hipótesis de que la gente tiende a casarse con alguien físicamente similar a sí misma” . Carecían de un punto de comparación. Hicieron que la gente repitiera la prueba de nuevo, en esta ocasión con las fotografías boca abajo. Se podría haber calculado la tasa esperada de oportunidad “clave” , pero podrían existir señales en las distintas tarjetas empleadas en el estudio. Así que ¿necesitará una condición de comparación? ¿Podría utilizar un grupo placebo? Piensa en cómo apoyaría estadísticamente su hipótesis. ¿Hay alguna probabilidad de que existan variables confusas obvias? Si los investi gadores se han de aproximar al público en general, ¿importa que la mayoría de ellos sean mujeres? Algunos estudiantes que conozco iban a decir “hola” a transeúntes bajo dos condiciones, con una sonrisa y sin ella. ¡Les llamó la atención que todos ellos fueran mujeres y que podría haber una respuesta diferencial de los transeúntes varones y mujeres! ¿Son condiciones equivalentes? Si el grupo experimental tiene instrucciones más largas y complicadas y una introducción para su tarea, ¿podría esto actuar como una variable confusa? ¿Debería el grupo control tener instrucciones e introducción equiva lentes pero “ falseadas” , o tiempo equivalente con los experimentados?
MUESTRA(S) • ¿Tendrá usted que utilizar a los mismos “viejos amigos y conocidos” o a estudiantes en la cafetería? De ser así, ¿estarán demasiado conscientes de sus engaños previos? • ¿Revelarán la naturaleza de la investigación a participantes experimentalmente in genuos que usted aún quiere evaluar? • Aunque la muestra no puede ser aleatoria en realidad ni representativa, ¿puede equilibrar los grupos respecto a sexo, edad', etcétera? • ¿Debería preguntarles si ya han participado en esto antes? Usted no puede preguntar de antemano en muchos casos, por ejemplo, cuando muestra una ilusión. Tendrá que pre guntarles después y excluirlos de los resultados si no fueran “ ingenuos experimentalmente”. ■ Si usted sospecha que algunos participantes están “enmarañando” todo o ya conocen el objetivo y quizás tratan de “verse bien” , tendrá que decidir, una vez que jes haya preguntado, si es legítimo retirar sus resultados. Puede discutirlo con sus colegas.
498 • Métodos de investigación y estadística. . .
(Capítulo 2~
MATERIALES • ¿Son equivelentes para ambas condiciones? Algunos alumnos estaban haciendo una versión del estudio “ caliente-frío” de Asch. A las personas de un grupo se les mostró un juego de términos: inteligente, tímido, confidado, cálido, práctico, rápido, callado. Al otro grupo se les mostraron los mismos términos excepto que “ fríosustituyó a “ cálido” . Las personas tenían que juzgar otras características de la persona hipotética. Un estudiante había faltado a una clase y no tenía las formas con “ frío”, así que cambió la palabra “cálido” con tinta y sacó fotocopias. Esto dio una clave nada sutil a su segundo grupo en cuanto a cuál era la palabra importante del conjunto. ¿Pueden ser equivalentes dos listas de palabras para memorizar? ¿Puede decir que las palabras en cada una son igualmente frecuentes en el uso de lenguaje normal, o que dos grupos de anagramas son igualmente difíciles de resolver? Puede utilizar la preevaluación de los materiales para mostrar que no existe una diferencia real. • ¿Son inteligibles las instrucciones para los participantes? • ¿Hay demasiadas unidades en los materiales? ¿Tardará demasiado tiempo evaluar todo en cada participante? ¿Se pueden acortar? • S i usted quiere construir un cuestionario, vea el capítulo 9. Recuerde, la prueba de una actitud no suele hacerse con preguntas, sino con declaraciones con las que la gente deberá concordar/discordar o decir cuánto representa, de su punto de vista. No diga: “ ¿Cree usted en el aborto, el poder nuclear, las huelgas?” ¡Estas cosas existen! Queremos saber lo que la gente piensa de ellas. • Si usted no está seguro de la formulación del cuestionario, obtenga ayuda de alguien que sea bueno con el lenguaje. Los respondientes no respetarán ni tomarán en serio un cuestionario mal escrito. • En todos los casos, ¡pilotee! Pruebe los materiales con amigos y conocidos. Lleva muchos años el entrenamiento en interpretaciones psicoanalíticas de las pruebas proyectivas, como el Rorschach y el TAT. Se cuestiona mucho su validez dentro del mundo académico. Por tanto, no sería sensato tratar de incorporar el uso de estos instrumentos en una práctica estudiantil. Si usted se está enfocando hacia un grupo específico de personas, como un grupo étnico minoritario, entonces por favor lea “Elaboración de un proyecto de raza” en el capítulo 10 y sea muy cuidadoso con la elección del lenguaje. De ser posible, verifique con los miembros del grupo en cuestión, con otros “expertos” , su profesor, sus com pañeros de clase o con ambos. Esto se aplica siempre que un grupo específico sea el objetivo, ya sea que los miembros del grupo se interroguen entre sí o no, (como una nacionalidad, personas homosexuales, con discapacidades o enfermedades específicas o dificultades como dislexia y otras).
PROCEDIMIENTO • Puede ser que varios de ustedes tengan que ir a recolecar datos. Asegúrese de haber estandarizado el procedimiento justo antes de empezar. El problema más común que he visto entre los estudiantes que hacen una práctica conjunta es el de no hacer una revisión final de que todos hayan seguido de manera exacta los mismos pasos de1
Planeación de prácticas • 499
• •
• •
• •
procedimiento. No se apene por pedir a sus amigos que hagan una verificación final antes de que se precipiten a trabajar después de muchos cambios apresurados. No se sienta estúpido si no tiene confianza acerca de lo que tiene que hacer exactamente. Pregunte a sus amigos o al tutor, según corresponda. Es mejor tomar un poco más de tiempo, y admitir que usted no es perfecto, que terminar con resultados inútiles o, peor aún, teniendo que hacer las cosas de nuevo. Decida qué datos extra vale la pena registrar (sexo, edad) porque podrían mostrar una relación que no era parte de la hipótesis original. Registre toda la información en el acto. Si decide esperar hasta más tarde para registrar la edad u ocupación de su entrevistado, bien lo puede olvidar. Entonces se desperdiciará el resultado. Esté preparado para poner cómodos a los participantes y proporcione una introducción motivadora. Elabore las instrucciones exactas para los participantes. Haga una simulación com pleta con un colega. ¿Qué le ha faltado explicar? ¿Qué más necesita o quiere saber el sujeto? Decida cómo contestará las preguntas que puedan hacer sus participantes. ¿Tendrá respuestas preelaboradas o les pedirá preguntar hasta después de la prueba? Si el estudio es una observación: i) ¿Las observaciones serán en verdad discretas? Verifique de antemano las posi ciones de registro. ii) ¿Será fácil el registro? ¿Hablar ante una grabadora, por ejemplo, atrae mucho la atención? ¿Funciona el sistema de codificación? ¿Hay tiempo y suficiente espacio para redactar notas? iii) En interés de la confiabilidad, ¿habrá más de una persona registranda de manera simultánea?
Como estudiante es poco probable que esté bastante entrenado para realizar de manera satisfactoria una sesión de información final de resultados. En la actualidad, los psicólo gos mismos que realizan investigación profesional a menudo discuten sobre la convenien cia de revelar los objetivos, engaños y resultados para regresar a la gente a la normalidad y “deshacer” cualquier daño psicológico hecho. También es poco probable que tenga el tiempo o los recursos para rendir cuentas de manera apropiada. Acaso no tenga el financiamiento para enviar una copia de su informe a cada uno de sus participantes. Por consiguiente, es muy importante que el proyecto de investigación propuesto no com prenda ninguna de las siguientes situaciones:• • • • •
Invasión de la intimidad. Provocar que los participantes pierdan dignidad. Producir que los participantes piensen de sí mismos que son inferiores. Engaños que causen resentimiento u hostilidad (verifique que el engaño sea absolutamente necesario).. • Retención innecesaria de información. • Dolor o incomodidad.
500 • Métodos de investigación y estadística
(Capítulo 2T
• Quebrantar las prohibiciones locales (por ejemplo, beber alcohol en las ins talaciones de la universidad). • Cualquier cosa que incomode a los participantes. Asegúreles que se mantendrá el anonimato ¡y manténgalo! Es descortés y poco pro fesional hablar, incluso con colegas cercanos del proyecto o muy buenos amigos, de u n manera despectiva sobre los participantes, aun anónimamente. De ahí deriva un enfoque elitista y manipulative en relación con las personas que han tratado de ayudarle en su trabajo. También asegure a los participantes que no se sentirán ni parecerán estúpidos, ■ tampoco revelarán nada que no quieran sobre sí mismos. Asegúreles que podrán destTuk cualquier registro de comportamiento, en particular aquel del que se sientan incómodos. Recuérdeles que pueden detenerse si así lo desean. Al acercarse a personas desconocidas del público, dígales quién es usted, de dónde viene y la razón para hacer la investigación (por ejemplo, como parte de los requisitos del trabajo de curso). Asegúrese de que su tutor y colegas estén contentos de su manera de abordar a) público, puesto que recibirán cualquier queja si usted utiliza el nombre de la universidad. Si tiene cualquier duda, analice la propuesta con su tutor u otra persona responsable cuya opinión respete. AHORA, ¡DIVIÉRTASE! ■
Redacción del informe práctico
S i realiza algo de trabajo práctico, se enfrentará con la onerosa tarea de tener que escribirlo. Mi primer consejo es: ¡no lo posponga! Le parecerá mucho más difícil retomarlo cuando esté gastado cualquier entusiasmo que haya tenido sobre el proyecto y no podrá entender por qué se tomaron ciertas precauciones o de qué se trataban ciertas condiciones. Descubrirá que faltan detalles esenciales de los datos y del análisis y acaso necesite preguntarle a sus condiscípulos, quienes ya perdieron sus datos en bruto o están demasiado ocupados para ayudarle.
¿CUÁLESELPROPÓSITODEUNINFORME? Hay dos propósitos principales, ninguno de los cuales tiene que ver con alegrar a su tutor. El primero es decirle al lector de manera simple qué hizo, por qué lo hizo y lo que used cree que agrega al cúmulo de conocimientos y desarrollo de la teoría. El segundo consiste en registrar sus procedimientos con suficiente detalle como para que alguno de esos lectores, que esté dispuesto a hacerlo, replique su trabajo. En otro lugar hemos visto por qué esto es tan importante para el método científico. Por tanto, la regla de oro número uno para redactar informes es: A seg u ra rs e de que escrib e co n s ufic iente profundid ad y claridad para que alg u ien c o m p le ta m e n te ex tra ñ o repita d e m anera exacta lo que u sted h izo con to d o detalle.
¿CUÁLESSONLASREGLAS? No hay ninguna. Si embargo, su tutor por lo general actuará como si las hubiera cuando comente sobre su trabajo. Esto es porque hay convenciones aceptadas de manera bastante general. La mayoría de éstas tiene sentido y funciona en interés de la organización de un
502 • Métodos de investigación y estadística
(Capítulo 23
buen informe y de la comunicación entre los investigadores. Dé un vistazo a algunas revistas de la biblioteca de su escuela, si es posible, o pida prestada la copia de un volumes procedente de una institución académica local. Su tutor bien puede tener copias de trabajos de sus ex alumnos, aunque con mucha frecuencia sólo los trabajos más deficien tes se quedan rezagados. ¡Por qué esta tendencia sistemática? La Associated Examining Board (ahora parte del Southern Examining Group) le enviará ejemplos de trabajos calificados. Al final de este capítulo incluyo un informe ficticio con comentarios. Lo que sigue, entonces, es el formato aceptado de manera general, alrededor del cud la mayoría de los artículos varía sólo un poco. El trabajo inductivo cualitativo seguirá con mucho el mismo formato, pero no tendrá una hipótesis específica para probar. Sin embargo, tendrá objetivos globales establecidos con claridad. Otra gran diferencia será que la sección de “resultados” tenderá a mezclarse con la discusión. De lo contrario, el informe sobre los procedimientos y la evaluación de los datos, el diseño general y el método serían todos similares.
Plagio Tal vez me equivoqué en las reglas anteriores. Plagio es copiar de manera directa el trabajo de otro o parafrasearlo tan exacto que se reconoce como igual. En la publicación oficiaL esto es ilegal y se puede demandar a la gente por ello. En cursos universitarios, si su trabajo académico cuenta para notas finales, el plagio es lo mismo que copiar en un examen. En muchas carreras las reglas son firmes —si se copia una parte considerable, se hecha a perder todo el trabajo. El punto central es que el trabajo académico debe so propio (o, en algunos casos, grupal). En cuanto al aspecto educativo, resulta que se aprende muy poco de las copias, como lo sabrá por sus estudios psicológicos de memoria y procesos de aprendizaje. Desde el punto de vista ético, el copiado es robar. Así que tenga mucho cuidado de no copiar textos. Por supuesto que no podrá inventar sus ideas. El aprendizaje consiste en apreciar lo que se ha hecho con anterioridad y, entonces, con deseos, unirse a ello. El mejor procedimiento es leer, tomar notas, cerrar el libro hacerse preguntas a uno mismo para saber qué tanto ha entendido, y entonces, intentar escribir sus ideas como ahora las concibe. Esto es muy importante tanto en la sección de introducción como en la discusión de sus informes prácticos, al igual que en cualquier ensayo. El apartado 28-1 muestra el esquema de la estructura de las diversas secciones de un informe.
Apartado 28-1. Componentes de un informe práctico Título
Resumen/Abstrac Introducción/objel Hipótesis Diseño Métodos: " 1 1 Materiales/Apartados Procedimiento Resultados: Descripción/Resumen Análisis/Tratamiento Discusión Conclusión Referencias
Redacción del informe práctico • 503
Título Debe ser tan conciso como sea posible. No necesita “ Una investigación para ver s i . . . ” o algo similar. Sólo requiere de las variables principales. Con mucha frecuencia, en un experimento, puede utilizar la VI y la VD. Por ejemplo, “ El uso de la imaginería y los métodos de ensayo para recordar el material verbal” describirá de modo adecuado un estudio (quizás familiar). Para una investigación de campo que utiliza la correlación. “ La relación entre la edad y las actitudes acerca de problemas ambientales” dice lo suficiente.
Resumen También se le conoce como “abstract”. Pero, ¿por qué razón un resumen viene al principio? Bueno, suponga que se interesa en saber si alguien ha trabajado sobre el tema que usted se ha propuesto: ansiedad y trote lento en vegetarianos barbirrojos del Este de Londres. Al hojear rápidamente docenas de revistas buscando trabajos relacionados, es mucho más fácil ver el resumen de los hallazgos justo al principio del artículo, sin que tenga que leer con dificultad hasta el final. El resumen contiene los puntos principales del informe de investigación, “extraídos” de él. Durante la mayor parte de este siglo se han producido volúmenes mensuales llamados Psychological Abstracts, que contienen sólo resúmenes de artículos publicados en una enorme variedad de revistas de investi gación. Esto acelera la tarea de encontrar trabajos relevantes. En nuestros días, este proceso se ha acelerado enormemente con el uso de una base de datos en CD-ROM denominada P sychliftK. El resumen debe destacar del resto del informe al colocarlo en un cuadro, en distinto color, con sangría o en un tipo de letra diferente (con máquina de escribir o procesador de palabras).
Introducción Me gusta considerarla como un embudo. v Comience con el área del tema psicológico general. Analice \ la teoría y el trabajo de investigación que sea relevante \ p a r a el tema de investigación. Pase del área generat \ a la hipótesis particular que va a evaluar \ vía un argumento lógico y coherente \ en cuanto al porqué se han hecho \ las predicciones. Establezca de manera específica \ HIPÓTESIS. Si usted recuerda, en el capítulo 1 revisamos brevemente las razones del porqué se hizo la predicción de que al emplear el “ eslabonamiento de imágenes” se recordarían más palabras de una lista que cuando sólo se utilizaba el ensayo. La introducción de un estudio que ponga a prueba esta hipótesis no necesita contener un ensayo de cinco páginas sobre la psicología de la memoria, que incluya el trabajo de Ebbinghaus y el desempeño de testigos oculares en una corte. La prueba de la hipótesis pertenece a un área especializada de investigación sobre la memoria.
504 • Métodos de investigación y estadística
(Capítulo 28*
Podemos llevar a nuestro lector a través de la introducción en los siguientes pasos: • • • • • •
•
•
Conceptos de almacenamiento de memoria a corto y largo plazo. Perfilar el modelo de mejoría de los dos procesos. Alguna evidencia para el modelo de los dos procesos. Fenómenos que explica el modelo, tales como la supremacía y la novedad en las tareas de recuerdo libre. Concentrarse en el interés que pone el modelo en las repeticiones, así como el proceso mediante el cual se transfiere el material a la memoria de largo plazo. Introducir la objeción “cognoscitiva” de que los seres humanos siempre inten tan construir el significado de los datos sensoriales de entrada. Dé ejemplos de lo que esto significa. A partir de esta teoría, se deriva que un intento para dar algo de “ vida” a una lista de palabras no conectadas entre sí mediante la visualización y la conexión de los elementos que la componen debería tener más éxito para almacenar la información que la simple repetición mecánica de cada palabra. Aquí se puede dar apoyo adicional, haciendo referencia a estudios previos similares y al trabajo sobre la imaginería en la bibliografía.
Hemos presentado argumentos para nuestra predicción específica. Sólo resta establecer los objetivos y la hipótesis en los términos más claros, de modo que no pueda haber duda de cuáles eran los resultados que esperábamos.
Formulación de objetivos Una meta de nuestra investigación consiste en demostrar que nuestra hipótesis es válida, utilizando un experimento de recuerdo libre bajo dos condiciones. Un propósito global es desafiar el modelo tradicional de memoria de doble almacenamiento. Los objetivos son el para qué del proyecto, lo que se supone que ha de hacer. En los proyectos cualitativos, los objetivos pueden ser de alcance bastante más amplio y menos específico que los de un proyecto de prueba de hipótesis. Por esta razón, se debe tener particular cuidado para especificar los objetivos hasta este punto en la investigación cualitativa.
Hipótesis Se debe enunciar con mucha precisión. Es tan sólo una formulación clara de lo que se espera que pase. De nuevo, es útil concentrarse en la VI y la VD. Establecí la hipótesis para el experimento sobre memoria en el capítulo 1. Lo que no contiene la hipótesis es algo de la teoría acerca del porqué se hace la predicción. Contiene variables identifica das con precisión. A continuación, en el informe seguirá una definición más completa de las variables, tal como el significado preciso de “calificar” en el ejercicio 8 del apartado
28- 2 . Más adelante, en el apartado 28.2, he establecido del lado izquierdo las hipótesis de algunos de los ejercicios que se encuentran al final del capítulo 24. Sin embargo, las he planteado de manera muy vaga.Trate de escribir su versión precisa y correcta antes de verificar mis interpretaciones finales a la derecha. (¡Cúbralo!)
Redacción del informe práctico • 505
A p a r ta d o 2 8 - 2 . H ip ó te s is d e lo s e je r c ic io s (c a p ítu lo 2 4 )
Dem asiado vagas/lncorrectas Ejercicio No. 4 “Más personas de un sexo evitarán la escalera porque son supersticiosas”
Correctam ente “La diferencia entre el número de v a ra nes y mujeres que no caminen por deba jo de una escalera será significativo”
5 “La gente se desempeñará peor en la tarea sensoriomotriz frente a una au diencia"
“Los participantes tendrán significativa mente menos errores en la tarea sen soriomotriz frente a una audiencia que cuando están solos”
7 “Las calificaciones de atractividad se rán similares para cada miembro de una pareja”
“Habrá una correlación significativamen te positiva entre las calificaciones de las parejas de varones y mujeres sobre atractividad”
10 “Las palabras que no riman son más difíciles de leer”
“Los tiempos para la lectura de palabras que no riman serán significativamente más largos que aquellos para leer pala bras que riman”
11 “Los participantes mejorarán su acti tud hacia la competencia como resul tado del curso de entrenamiento”
“Las calificaciones de ensayos posterio res al curso serán significativamente mayores que aquellas previas a éste”
12 “Los fumadores mostrarán mejoría”
"De manera significativa se evaluará a más fumadores como “en mejoria”, que como “em peoram iento”
H i p ó t e s i s n u l a — A la hipótesis de investigación se le da a menudo el símbolo H\ y a la hipótesis nula, H0. Si hay más hipótesis para probar, se numeran lógicamente: Hi, Hh etcétera, cada una con' su H0 acompañante. Se formula la hipótesis nula de manera directa después de cada hipótesis. Nota: En los estudios psicológicos iniciales es un buen ejercicio especificar con precisión lo que está evaluando. La mayoría de los profesores le pedirán que cite su H0, y los sinodales también lo harán. De hecho, en informes de investigación publicados, la hipótesis nula rara vez se menciona o se cita de manera explícita. Aun las hipótesis no se expresan de manera tan dogmática como yo recomiendo. Sin embargo, los escritores sí aclaran con exactitud lo que evalúan, utilizando estilos de redacción, bien desarrollados.
Método Se acostumbra y es conveniente, pero no absolutamente necesario, segmentar el método utilizado en las siguientes subcategorías. Con frecuencia los materiales y el pro cedimiento pueden formar un solo encabezado. D i s e ñ o —Éste describe el perfil del “ esqueleto” que posee el estudio, su estructura básica. Por ejemplo, ¿es o no un experimento? En caso de serlo, ¿qué diseño se utilizó? mediciones repetidas, etcétera) ¿Qué condiciones hay y cuántos grupos se emplean?
506 • Métodos de investigación y estadística
(Capítulo 2 3
.¿Cuál es el propósito de cada grupo? (control placebo, etcétera) ¿Cuántos participantes hay en cada grupo? (aunque esta información puede ir más adelante, en la sección de “participantes”) En muchos casos, la descripción de los grupos será una forma de delinear la VI. En cualquier caso, aquí deben describirse la VI y la VD. ¿Qué controles se han empleado? ¿Existe un contrabalanceo y, de ser así, de qué tipo? En nuestro experimento sobre imaginería y ensayo, podríamos decir que “nosotros utilizamos un diseño de mediciones repetidas con un grupo de 15 participantes, a quienes se les presentó una lista de palabras con 20 reactivos en dos condiciones, una coo instrucciones de sólo repetirlas, la otra con instrucciones para utilizar eslabonamientos mediante imágenes. Se revirtió el orden para someterlos a las condiciones en la mitad de los sujetos. La VD fue el número de palabras recordadas en una situación de evocación libre” . . . y eso es suficiente. No necesita dar detalles del procedimiento ni de los materiales utilizados, de otra manera, se encontrará repitiéndose laboriosamente más tarde. Si el estudio no es experimental, se puede establecer su aproximación global (por ejemplo, observacional) junto con el diseño de estructuras del tipo longitudinal, transver sal, etcétera. De nuevo puede haber VI y VD (no controladas), por ejemplo el sexo y detenerse ante la luz ámbar de un semáforo. Se pueden haber incorporado controles, como las medidas para estimar la confiabilidad entre observadores. No mencione detalles aqui sólo que se empleó el control. P a r t i c i p a n t e s —Dé el número de ellos, incluyendo cuántos en cada grupo, así como otros detalles relevantes para el estudio. Si alguien desea replicar sus hallazgos acerca de los “ adolescentes” y sus autoconceptos, es importante que sepan exactamente la edad y sexo de sus participantes. Estas variables son menos importantes en tareas técnicas de laboratorio, aunque el rango de edad general es útil de modo usual, y conocer cuál es la mano dominante puede tener relevancia. Otras variables, como la clase social u ocupación podrían ser muy notables para algunos temas de investigación. Por cierto que es importante conocer qué tan ingenuos experimentalmente eran los participantes, de otra manera, mantenga los detalles al mínimo. ¿Cómo se obtuvieron los participantes? ¿Cómo se les asignó a los diversos grupos experimentales (si no se explica en su “ diseño”)? M a t e r i a l e s / A p a r a t o s —Una vez más aplique la regla de oro: Proporcione detalles suficientes para posibilitar una replicación apropiada. Esto significa dar especificaciones acerca del equipo construido (laberinto para dedos, caja de ilusiones) y la fuente (manufacturera, mandado a hacer, modelo) de los artículos comerciales (taquitoscopio, computadora). Aquí o en un ápendice se deben dar los detalles exactos de todos los materiales escritos, incluyendo: listas de palabras, cuestionarios, listas de las que tienen que elegir las personas, ilustraciones y así sucesivamente. ¡No necesita detallar las hojas de papel blanco ni los lápices! En nuestro estudio de memoria necesitaríamos dos listas de palabras porque no podemos hacer que las personas aprendan la misma lista dos veces sin que tengamos una variable confusa enorme. Estableceríamos en esta sección cómo justificamos que nuestras dos listas sean equivalentes por seleccionarlas de una lista de frecuencia de palabras, por tener el mismo número de términos concretos y abstractos, etcétera. Podría ser útil incluir un diagrama o fotografía de una estructura experimental o de la disposición de asientos. P r o c e d i m i e n t o s —Aquí la regla es simple. Describa con exactitud qué pasó desde un principio hasta el fin de la prueba. Esto debe ser suficiente para una buena replicación.
Redacción del informe práctico • 507
En este lugar o en un apéndice debe incluirse cualquier instrucción estandarizada, incluyendo todas las respuestas estandarizadas para las preguntas que se anticipa hagan los participantes. Se debe incluir la formulación verbal exacta utilizada en el entrenamiento de los participantes para emplear la imaginería en nuestro experimento de memoria, junto con todos los ensayos de práctica y las palabras utilizadas para éstos. Es muy tentador “examinar superficialmente” las secciones de materiales y pro cedimientos y dar muy poco detalle. Si usted no está seguro de haber escrito lo suficiente, mi consejo es: ¡DÉSELO A LEER A UN AMIGO O PARIENTE! Si su madre o su novio pueden entender exactamente lo que pasó, entonces está claro y es suficiente. (Podrían no captar muy bien las otras secciones si carecen de algún conocimiento psicológico.)
Resultados D e s c r i p c i ó n —Las grandes cantidades de datos crudos van en un apéndice. Una tabla resumida de éstos se presenta en la sección de resultados, incluyendo frecuencias, medias, desviaciones estándar o sus equivalentes. Cualquier tabla (que aparezca aquí o en el apéndice) debe estar bien rotulada. Por ejemplo, para nuestro experimento es inadecuado un cuadro que empiece como el cuadro 28-1. ¿Qué significan los números? Necesita mos un título como “Número de palabras recordadas en la condición establecida” . Si los resultados son en tiempo, poner “ segundos” o “minutos” ; si son medidas de distancia, señale las unidades.
Cuadro 28-1. Tabla de resultados experimentales incorrecta
Acaso desearía incluir una representación gráfica de sus datos, como un histograma o un diagrama de dispersión. Asegúrese de que están bien rotulados, también de que los ejes horizontal y vertical tengan títulos. Las tablas y cuadros necesitan numerarse para propósitos de referencia. A n á l i s i s O t r a t a m i e n t o —Si son varias las hipótesis a evaluar o diferentes tratamientos, tome una a la vez y divida esta sección en subsecciones [(a), (b), etcétera] con un encabezado que señale la hipótesis que se prueba en cada caso. Declare qué prueba estadística se está aplicando y justifíquelo utilizando los procedimientos de decisión descritos en el capítulo 24. Enuncie con claridad el resultado, y compárelo con el valor crítico apropiado. Justifique la elección de este valor crítico incluyendo N o grados de libertad, número de
508 • Métodos de investigación y estadística.
(Capítulo 28)
.colas, y el nivel de probabilidad correspondiente (“p < . . . ”). El apartado 28.3 es un ejercicio rápido para señalar lo que puede estar faltando para los enunciados sobre significación.
Apartado 28-3. Enunciados de significación incompletos En unciado s
¿Q ué falta?
“La prueba t mostró que las diferencias fueron significativas’'
¿A qué nivel? ¿Cuántos grados de liber tad? ¿Cuántas colas? Pero fue significativa, ¿a qué nivel? ¿La co rrelación fue positiva o negativa? ¿La predicción fue de una o dos colas?
“Hubo una diferencia significativa entre las dos condiciones al nivel 1%”
¿Cuántos grados de libertad? ¿Cuántas colas?
Diga si se conserva o se rechaza la hipótesis nula. Si desea incluir cálculos de sus pruebas, deberán aparecer únicamente en el apéndice. En la actualidad muchos cálculos se realizan por computadoras o con calculadoras especiales. El software utilizado y los resultados intermedios se pueden mencionar en un apéndice. Si hay varios resultados de pruebas, podrían presentarse en una clara tabla de resumen.
Discusión El primer paso aquí consiste en explicar en un lenguaje no estadístico lo que pasó de manera exacta, en la sección de resultados. Éstos deben relacionarse después con las hipótesis que usted elaboró para probar y con los objetivos originales de la investigación. Éstos a su vez se relacionan con el marco teórico, para corroborarlo o para demostrar la necesidad de modificar la teoría a la luz de los datos contradictorios o ambiguos. Los datos inesperados o las “peculiaridades” en los resultados también pueden analizarse como un problema secundario. De vez en cuando, tales “rarezas” llevan a nuevas direcciones de investigación. Usted puede tratar de explicarlas si tiene buenas razones.
Evaluación del método El investigador escrupuloso siempre evalúa el diseño y el método, destacando las fallas y las áreas de flaqueza. Esto no es sólo para detenerse empequeñeces. Un lector del informe bien podría venir y acusar al investigador de no considerar tales debilidades. El investigador puede anticiparse a las críticas presentando un buen argumento del porqué tales fallas no habrían de tener un efecto grave. El énfasis de la evaluación depende parcialmente del resultado: a) Si obtuvimos el resultado esperado, deberíamos considerar cuidadosamente el diseño para buscar posibles variables confusas que produzcan un error del tipo uno. Si predijimos que se apoyaría la hipótesis nula, deberíamos buscar maneras
Redacción del informe práctico • 509
en las que el diseño y los procedimientos hayan podido esconder diferencias o relaciones. b) Si no obtuvimos lo predicho, deberíamos buscar fuentes de variables aleatorias (aunque éstas también pudieron haber afectado la investigación con un resultado exitoso). ¿Qué aspectos del diseño, procedimientos y materiales utilizados resul tan insatisfactorios? Podría haber incluso una variable confusa que inhiba el efecto anticipado por nosotros. c) No todo puede ser perfecto en un experimento o investigación. No hay necesidad de hablar acerca de la temperatura no controlada o del ruido de fondo, a menos que haya una buena razón para suponer que su fluctuación podría haber afectado gravemente los resultados, lo cual suele ser bastante remoto. S U G IER A m o d i f i c a c i o n e s —La mayoría de las investigaciones lleva a más investi gación. Con base en las consideraciones hechas hasta ahora, usted podría sugerir modi ficaciones de este diseño o direcciones bastante nuevas, que den seguimiento o verifiquen los puntos logrados.
Conclusión Parte de la “erudición” de quienes enseñan psicología es que el informe principal debe terminar con una conclusión que contenga un resumen de las principales conclusiones estadísticas. Al hojear dos copias recientes de The British Journal o f Psychology, encontré que nadie lo hace. No hay sección llamada “ Conclusión” , aunque algunas veces haya una titulada “Comentario final” . Quizás ésta sea la mejor cosa por hacer —realizar un comentario sucinto en términos de los hallazgos globales, su relación con el modelo o teoría relevantes y sus implicaciones futuras. Sin embargo, evite repetir el resumen o el principio de su discusión. Un resumen verbal de los descubrimientos estadísticos puede ser útil cuando se habló del análisis de resultados de cada una de las pruebas durante la discusión. Vale la pena señalar que los verdaderos artículos de revista nunca muestran cálculos ni incluyen datos en bruto y rara vez justifican la prueba estadística elegida. Sin embargo, esta información siempre está disponible a través de la correspondencia privada. A los estudiantes que hacen trabajo práctico de modo usual se les pide sustituir la situación de la vida real e incluirlos en sus informes.
Referencias Éste es uno de los aspectos más tediosos al redactar un informe, en particular si usted ha hecho referencia en su trabajo a muchas y diferentes investigaciones. También existe siempre mucha confusión acerca de qué es lo que cuenta exactamente como referencia, qué se debería incluir. La regla de oro número 2 es: S i usted se refirió directam en te a una fu en te en alguna parte d el texto, in clu yala. Si no, ¡no la incluya!
Si usted escribió “ . . . Gross (1992) sostiene que . . .” ésta es una referencia. El año significa que usted le está diciendo al lector de dónde obtuvo la información. Si por
510 • Métodos de investigación y estadística ..
(C opiado 2*
casualidad leyó el libro de texto de Gross mientras preparaba su práctica o cuando tntái de escribirla —podría ser, por ejemplo, cuando consultó a Bower (1977)— entoac g Gross no será una referencia (pero Bower sí, en caso de haberlo incluido). Hablando -r sentido estricto, si usted leyó a Bower sólo en Gross, puede decir “ Bower (1977) más i® detalles de la referencia, citado en Gross (1992) . . . ” (etcétera), proporcionando 2 referencia completa de Gross y los número(s) de página(s). Si quiere decirle al lector ir que leyó sin citar de manera específica el texto, ponga los títulos en la “Bibliografía- sgusta. En otras palabras, sus “ referencias” son las que usted refiere en el texto, no loqne usted leyó en total. Escriba las referencias de la manera en que aparecen al final de este libro. Observe que los artículos de revistas tienen el título de la revista en itálicas. El artículo está ex impresión ordinaria. Para libros, el título del libro recibe tratamiento especial. Puede haber unos cuantos difíciles de manejar, que fueron artículos en la colección de articule? de otra persona, informes de gobierno y demás.
Apéndices Éstos pueden contener: cálculos, instrucciones dadas a los participantes, reactivos, de una. lista de memoria, cuestionarios, etcétera. Continúe con números la paginación normal Los temas separados van en apéndices numerados y separados (“ Apéndice 1". “Apéndice 2” , etcétera).
Presentación general Es útil una paginación continua de todas las hojas. Verá que es conveniente al referirse a las páginas de su texto. Una carátula hace resaltar bien todo el proyecto y un índice ayuda al lector para dirigirse a secciones específicas. Si usted ha presentado de manera simultánea una serie de proyectos, podría ayudar el empezar la serie con un índice y poner un “ encabezado” en cada página, que le diga al lector en qué práctica determinada nos encontramos.
LISTADEVERIFICACIÓNPARALAREDACCIÓN DEUNINFORMEPRÁCTICO ( N o ta : A l g u n o s d e e s to s p u n to s n o s o n a p lic a b le s a l tra b a jo n o e x p e r im e n ta l o c u a lita tiv o .) T
ít u l o
: ¿ D a u n a i n d ic a c ió n c la r a p e r o b r e v e d e l c o n t e n id o ?
C O N T E N ID O : ¿ H a e n u m e r a d o c a d a p á g in a ? ¿ H a i n c lu id o u n a p á g in a d e c o n t e n id o e n la q u e l i s t e la s p a r te s p r in c ip a le s d e l in fo r m e ? R
e su m e n /A b st r a c t o
: ¿ C u b r e l o s o b j e t iv o s , la s V I y V D , p a r t ic ip a n t e s , d is e ñ o ,
m e d id a s , p r in c ip a le s r e s u lta d o s e s t a d ís t ic o s y c o n c l u s i o n e s d e l p r o y e c t o d e i n v e s t ig a c i ó n ? ¿ P r o p o r c io n a u n a im p r e s ió n b r e v e p e r o e s e n c i a l d e la in v e s t i g a c i ó n e n m e n o s d e 2 0 0 p a la b r a s?
Redacción del informe práctico • 511
¿Ha dado un breve panorama general de los problemas y conceptos que son relevantes para el tema que contextualiza a la investigación? ¿Se men cionan los estudios similares o relacionados? ¿Ha explicado por qué emprendió su estudio? ¿Ha explicado los objetivos principales de la investigación? ¿Es tablece clara y directamente de una manera predictiva las hipótesis (en caso de haber), incluyendo la nula?
IN T R O D U C C IÓ N :
M É T O D O : ¿ T e n d r á e l le c t o r d e t a lle s s u f i c i e n t e s p a r a r e p e tir e l e s t u d io e x a c t a m e n t e c o m o u s t e d lo h iz o ? ¿ H a e l e g i d o u n a s e r ie d e s u b t ítu lo s a p r o p ia d o s q u e o r g a n ic e n la in fo r m a c ió n c o n c la r id a d ?
¿Ha descrito la forma de diseño principal (observación de campo, experi mento de mediciones repetidas, etcétera)? ¿Explica de manera sucinta por qué eligió este diseño? ¿Ha explicado de manera breve el propósito de los diferentes grupos y dio el número de participantes en cada uno? ¿Ha identificado la VI y la VD y descrito las condiciones? ¿Ha listado los controles introducidos “ ciegos”, contrabalanceo? P a r t i c i p a n t e s : ¿Está claro quiénes fueron y cómo se obtuvieron o eligiron? ¿Ha proporcionado cualquier información adicional que pudiera ser relevante para la investigación (edad, sexo, primer idioma, ingenuidad)? M a t e r i a l e s / A p a r a t o s : ¿ L o s ha descrito con suficiente detalle para fines de repli cación? ¿Ha hecho uso, en caso necesario, de dibujos y diagramas? ¿Ha descrito cualquier aparato técnico? ¿Ha incluido listas de palabras, cuestionarios, etcétera? P r o c e d i m i e n t o : ¿Ha explicado, en secuencia, de modo exacto qué hizo el experimentador/investigador y lo que experimentó cada participante? ¿Ha informado en detalle cualquier instrucción importante dada? (Copias de apéndices.) ¿Ha dado una clara impresión de la distribución espacial y el orden de los hechos? R E S U L T A D O S : ¿Hay una tabla resumida de resultados que proporcione los totales, medias desviaciones estándar o sus equivalentes? ¿Están los datos en bruto y extensos en un apéndice? ¿Ha explotado las oportunidades de presentación visual? ¿Están todas las gráficas y tablas completas, claramente rotuladas y enumeradas? ¿Ha dado a cada una de ellas un título y se muestran claramente las unidades? ¿Explicó con claridad cualquier código o sistema de clasificación, calificación de cuestionarios o cualquier otra manera en la que se manipularon los datos antes del análisis final? A N Á L IS IS /T R A T A M IE N T O : ¿Ha explicado y justificado su elección de la prueba estadística para hacer el análisis? ¿Ha dado una lista de los resultados de sus pruebas, su significación, los grados de libertad, número de colas? ¿Están los cálculos en un apéndice, o una explicación de cómo se hicieron? (Por ejemplo, por computadora.) ¿Los enunciados se formulan en términos de rechazar o no cada hipótesis nula? D i s c u s i ó n : ¿Hay una descripción verbal (no estadística) de los resudados? ¿Explica cómo se relacionan los resultados con sus hipótesis y cualquier teoría antecedente o investigación previa? ¿Puede explicar cualquier resultado inesperado? ¿Ha evaluado el diseño y los procedimientos utilizados? ¿Ha considerado explicacio nes alterantivas de los resultados? ¿Ha sugerido modificacioanes, extensiones o una nueva investigación para tratar estos tres últimos puntos? R e f e r e n c i a s : ¿ H a lis t a d o todos l o s ,e s t u d io s a l o s q u e u s t e d s e r e f ir ió ( c o n u n a f e c h a D is e ñ o :
e n tr e p a r é n t e s is ) e n s u t e x t o ? ¿ H a u t iliz a d o e l fo r m a to e s tá n d a r p a r a la s r e f e r e n -
512 • Métodos de investigación y estadística .
(Capítulo 28>
cías?, es decir: apellido, iniciales (fecha) título del libro. Lugar de publiación: Editor o apellido, iniciales (fecha). Título del artículo, título de la revista, Volumen, páginas. A P É N D IC E S : ¿Ha nombrado a cada apéndice de manera clara? ¿Continúa la numera ción de páginas en los apéndices? ¿Se incluye a los apéndices en la página de contenido y se hace referencia a ellos en los puntos apropiados del texto?
COMENTARIOSACERCADELINFORMEPRÁCTICO DEUNESTUDIANTE Lo que leerá a continuación es un informe ficticio de un estudiante. No es un buen informe, así que utilícelo con reservas, como un modelo, tomando en cuenta todos los comentarios que hago al margen. Mi razonamiento fue éste. Si incluyo un informe perfecto, los iniciados en la psicología, y sus convenciones acerca de informes prácticos, tendrán pocas pistas de lo que por lo común está mal al redactar un informe. Incluir todos los errores posibles sería producir un trabajo ilegible, sin ningún propósito. El siguiente informe se encontraría, con dificultad, en un rango medio del nivel inicial, tal vez un poco más abajo del primer grado (creo), pero su nota exacta dependerá del nivel o programa de estudios en particular. Entonces, me he abstenido de evaluarlo de manera formal. Contiene muchas omisiones y ambigüedades, pero pocos errores francos. Muchos de ellos sería engañosos. Condifiqué los comentarios como sigue: y Un buen punto. y Un error, omisión, ambigüedad; en general, un punto que demerita el informe. ? Ambigüedad o punto extraño que no demerita por sí mismo, pero que contribuye a ello si se repitiera. También se empleó para puntos de estilo gramatical o convencional que, nuevamente, por sí solos no son malos, pero que pueden acumular un sentimiento de “no tan bueno” (pero esto depende de su nivel de estudio). Suponga que se incluyen los materiales mencionados como en un apéndice (¡frecuente mente no lo son!).
UN EXPERIMENTOPARAMOSTRARSI LAGENTESE1 AFECTAALCONOCERELSEXODELESCRITORCUANDO JUZGAUNESCRITO RESUMEN Nosotros2 nos abocamos a ver si la gente hace suposiciones sexistas acerca de un autor cuando leen su escrito. Le pedimos a 3 9 participantes que leyeran un artículo y le dijimos a la mitad (19) que
Redacción del informe práctico • 513
el autor era varón y a los otros, que era mujer. Hicimos esto al ponerle el nombre de “John Kelly” al autor de un artículo y de "Jean Kelly" al otro.3 Debido a los estereotipos, esperamos que el grupo de "Jean Kelly" pensara que la calidad4 del artículo era peor. Los resultados no fueron significativos5 y se mantuvo la hipótesis nula. Se pensó que el artículo era neutral y que se hubiera votado menos por una mujer en un artículo técnico, mientras que por lo varones en uno de cuidados infantiles. Si los resutlados fueran válidos, se podrían interpretar como un cambio en las actitudes desde el trabajo6 de Goldberg (1968).
INTRODUCCIÓN La gente utiliza estereotipos cuando considera a los demás. Cuando percibimos a las personas, es como ver cosas en el mundo. Miramos a través de un marco de referencia que hemos aprendido y no vemos los aspectos reales, sino que nuestras impresiones acerca de ello están matizadas por lo que esperamos y por nuestros prejuicios. Bruner (1957) dijo que “ vamos más allá de la información que se nos proporciona” ;7 la utilizamos como “ señales” para interpretar lo que allí está. Por ejemplo, cuando vemos un carro sobre la carretera y una montaña detrás, ésta parecerá tan sólo dos veces mayor que el automóvil pero, como sabemos cuán distante está la montaña, podemos estimar su tamaño real. Cuando fotografiamos un paisaje hermoso, con frecuencia salen cables de luz en el camino, pero aprendemos a no ver lo que no es importante. También, cuando retratamos al tío Arturo en la playa, su imagen resulta muy pequeña y es que pensamos que se vería más grande por la lente, ya que él es importante para nosotros. Bruner y sus amigos dieron inicio a la “nueva imagen” en percepción cuando comenzaron a experi mentar con ella y demostraron que las emociones, motivaciones y “ escenarios” nos afectan. En un experimento mostraron a niños unos tarros dulces llenos con arena o con caramelos.8 Los niños vieron los tarros con dulces más grandes, lo que indica que nos afectan nuestras experiencias pasadas y aquello que deseamos. (Dukes y Bevan, 1951 ).9 Para demostrar que un poco de información afecta nuestro juicio acerca de las personas, Asch (1946) dio a las personas unas palabras para describir a la gente. Todas las palabras eran iguales excepto por “ cálido” y “ frío” que eran diferentes. Esto funciona aun en personas reales, ya que Kelly (1950) presentó estudiantes a una persona “ cálida” o “ fría” y prefirieron la cálida una vez más. Vieron a la persona “ cálida” mucho más diferente que la “ fría” . Las diferencias entre sexos son un mito.10 Condry y Condry (1976) mostraron a la gente un filme acerca de un bebé de nueve meses de edad, que reaccionaba ante un payaso que saltaba de una caja. Si se les indicaba que el bebé era varón, la reacción se consideraba como de “ enojo” , pero si creían que era niña, la consideraban de “temor” . Deux (1977) revisó diversos estudios y encontraron que las mujeres atribuyen su ejecución, aun buena, a la suerte, mientras que los varones la atribuyen a su capacidad. Esto se encontró en tareas que les eran poco familiares, lo que indica que tanto varones como mujeres aceptan12 1
?
No se requiere “ Un experimento. . el título puede ser más breve, “ Efecto del sexo del autor en la evaluación de un artículo” .
2
?
Los informes convencionales se escriben en voz pasiva y no personal; por ejemplo, “ Se probó la teoría de que el sexo del autor afecta el juicio de un escrito” . “ Se preguntó a 2 5 participantes . . . ” .
514 • Métodos de investigación y estadística
(Capítulo 28<
Se describe claramente la VI. No se define bien la VD. ¿Cómo se medirá “pensar peor de” ? Los resultados se presentan de manera pobre. ¿Qué prueba se utilizó? ¿En qué datos estuvieron las pruebas? ¿Cuál fue la hipótesis nula? ¿Qué nivel de significación se escogió para el rechazo? Se incluyen algunas observaciones breves de las conclusiones. La cita está entrecomillada y se atribuye al autor, con fecha —ésta debe in cluirse al final del informe. (¡Pobres niños! — ¡cómo puedes pensar que se conduzca a los psicólogos a ese tipo de cosas!) Un comienzo amplio acerca de los factores que afectan el juicio en la percepción. La introducción debe ahora dirigirse hacia la percepción individual y particularizarse hacia los efectos del estereotipo del rol de sexos. !!! Aquí hacen una suposición gigantesca e injustificada; existen algunas diferencias (por ejemplo, tasa en el desarrollo de la lectura); el reclamo requiere precisarse con el uso de “ algunos” , “muchos” o ejemplos. su estereotipo y viven con él." El experimento12de Maccoby y Jacklin en 1974 mostró que los varones se describen a sí mismos con términos independientes (como inteligentes, ambiciosos) pero las mujeres utilizan términos más sociales (como cooperativas, honestas). Un psicólogo llamado13 Goldberg (1968) consiguió estudiantes femeninos para leer artículos (que pensaban) escritos por un varón o una mujer. Valoraron como mejores a los artículos escritos por el varón. Éste es el experimento que conducimos aquí.14
Hipótesis Las personas que creen que el autor es varón pensarán que algunos artículos están mejor escritos que las personas que creen que el autor es una mujer,15
Ho No habrá diferencias entre las condiciones del varón y de la mujer.
MÉTODO16 Diseño El experimento fue con muestras independientes.17 Se hicieron dos grupos. La variable independiente fue el sexo del autor y la variable dependiente, la manera de juzgar el artículo.18
Participantes Utilizamos una muestra aleatoria de 39 participantes del café19 de la universidad. En principio eran 20 en la condición del autor varón y 20 en la condición de la autora
Redacción del informe práctico • 515
femenina, pero los resultados de uno, en la condición del autor varón, se extraviaron. Todos los participantes eran estudiantes, menos uno que era amigo de uno de ellos.
Materiales Utilizamos un artículo de la revista The Guardian Weekend que se refiere a viajar en Tuscany. Se encuentra en el apéndice 1. Constó de 908 palabras y estaba impreso en dos hojas de papel A4. También ocupamos una hoja de registro (en apéndice 2) donde los participantes anotaban sus calificaciones acerca del artículo para calidad e interés en una escala de 10 puntos.20-21 También incluyó algunas preguntas para asegurar que los participantes se percataron del nombre del autor.22
Procedimiento Sentamos a cada participante y lo hicimos sentir cómodo. Les dijimos que no habría engaños y que tampoco se les “ evaluaría” o se les haría sentir tontos de ninguna manera. Dijimos que nada más queríamos conocer su opinión acerca de algo, que se combinaría con la de otras personas y que sus resultados serían anónimos.23 Después, les dimos la instrucción que a continuación se detalla. Todo esto se llevó a cabo de una manera estandarizada.24 Deseamos que lean el artículo que les vamos a entregar. Por favor, léanlo una vez rápido y una segunda vez más despacio. Cuando hayan íerminado, por favor conlesfen las preguntes de la hoja que son referentes al artículo. Traten de contestar lo mejor posible pero, por favor, asegúrense de contestar todas las preguntas en el orden presentado.25 Si el número del participante era impar, recibían el del autor femenino con el nombre de “Jean Kelly” . A los demás se les dieron las hojas con “John Kelly” . En un solo caso, este orden se invirtió por error.26
11
X
De nuevo, otra gran suposición que sigue a un resultado muy específico; requiere calificación.
12
X
No fue un experimento; fue una revisión de estudios ex post facto en su mayoría.
13
?
No se requiere “ Un psicólogo llamado . . . ”
14
X
El salto hacia la hipótesis es demasiado súbito; debemos girar de una buena descripción de antecedentes, directo hacia la hipótesis, sin introducciones acerca de la naturaleza (distinta) del estudio que se presenta.
15
X
Hipótesis demasiado vaga; debe incluir referencias hacia una diferencia significativa esperada entre las medias de los grupos en la VD (la que todavía no se presenta de manera específica); de hecho, hay dos hipótesis por probar — las diferencias entre las medias tanto de la puntuación de “calidad” como del “ interés” ; la hipótesis nula debe hablar de la diferencia no significativa entre las medias.
516 • Métodos de investigación y estadística
(Capítulo 28)
16
/
Es bueno que todas las partes del método se presenten y se titulen de manera correcta.
17
/
Diseño correcto y esto sí es un experimento.
18
X Una vez más, no se específica la VD; no requiere la descripción completa pero sí de una definición operacional de la medida — “ la calidad se midió con puntuaciones dadas en una escala de 10 puntos” . No se expecifican otros controles.
19
X Desde luego no seleccionada de modo aleatorio en el café; no se menciona el sexo de los participantes y esto puede ser importante en este estudio en particular.
20 21
/
Los materiales se describen bien.
X
Observe que hasta aquí se oculta primera y única mención de la escala de 10 puntos; debimos escuchar esto desde antes, aún no sabemos en qué sentido corre la escala —¿10 es la calidad máxima o la menor?
22
X
La técnica de hacer preguntas, incluyendo unas tontas, con el fin de asegurar que los participantes se percaten del sexo del autor, merece mencionarse desde el diseño (como tipo de “control”) y no ocultarla en la sección de materiales junto con la escala de 10 puntos.
23
/
Aquí se realizan bien las consideraciones éticas.
24
? Ambigüedad; ¿se estandrizó la sesión inicial de rapport o sólo se dio la instrucción?
25
y
Se incluyen las instrucciones exactas.
X
Este sistema de colocación de los participantes pudo mencionarse en el diseño; sin embargo, es bueno que este error se informe.
26
/
Después se dejó que los participantes leyeran el artículo sin que los experimentadores contestaran preguntas a menos que no tuvieran que ver con la lectura, como por ejemplo, si deseaban que se encendiera la luz o que se apagara la calefacción. Las preguntas acerca del texto se respondían: “Por favor conteste lo mejor que pueda y al terminar podemos hablar sobre (‘ese problema’). Así, todos los participantes harán exactamente lo mismo. Gracias por su cooperación” . Los experimentadores estuvieron atentos para asegurarse que las instrucciones se cumplieran en el orden adecuado.
RESULTADOS Obtención de datos Los resultados de ambos grupos se recolectaron y organizaron en las tablas de datos crudos mostradas en el apéndice 3. Se calcularon los promedios y las desviaciones estándares, los que se muestran en el cuadro 1.
Redacción del informe práctico • 517
I
C u a d ro 127 Autor Mujer
Varón
Calidad Media DE
6.7 1.5
6.3 2.3
Interés Media DE
4.3 1.1
5.2 1.3
En este cuadro28 puede ver que los varones dieron una calificación menor a la calidad pero una más alta al interés. Esto puede deberse a que la gente piensa que los varones pueden escribir de manera más interesante, en general, pero las mujeres suelen ser más precisas y son mejores en el manejo del lenguaje y reglas gramaticales.29
Figura 1.30
Análisis Decidimos utilizar una prueba t no relacionada en estos datos para probar las diferencias entre las medias. Las pruebas t son paramétricas y debe hacer una distribución nominal de donde proviene la muestra. También, debe haber homogeneidad de la varianza y el nivel de medición es de intervalo.3132 27
X
El cuadro no tiene título; no menciona lo que son los valores 6.7, etcétera; debe referirse como “puntos dados por los participantes a la evaluación indicada en una escala de 10 puntos” o algo similar.
28
?
Debe describir y resumir para el lector, no referirse a él de manera personal.
518 • Métodos de investigación y estadística.. .
29
(Capítulo 23
X Cualquier interpretación o especulación se debe mencionar en la sección de “Discusión” ; aquí, sólo deben informarse los resultados concretos.
30
X
La gráfica no tiene título; “V ” y “M ” no tienen indicación del significado (sL es obvio lo que indican, pero lo importante aquí es la claridad); el eje vertical no tiene valores; la gráfica se trazó de manera correcta como una de barras (no histograma); los exagerados pueden argumentar que, ya que varón y mujer están separados de modo cualitativo, debe haber un espacio entre las barras de V y de M, pero el enfoque que aquí se emplea es común y muy ilustrativo.
31
y
Es bueno que se reconozcan y describan los criterios paramétricos bastante bien.
32
X
Aquí, no se justifica el uso de la prueba t —debe haber una respuesta a los criterios dados, mostrando que estos datos son, entonces, aptos para una prue ba t.
Los cálculos para t se muestran en el apéndice 4. Nuestra t fue de 0.97 para calidad y 1.43 para interés. Ninguna de las dos es significativa y en ambos casos conservamos la hipótesis nula.3334
DISCUSIÓN Como vimos antes, existen diferencias pequeñas entre los grupos con autor varón y mujer, pero las pruebas mostraron que no hay significación. Podría ser que sí hubo diferen cia pero nuestro diseño no lo muestra.35 O bien que en realidad no existe diferencia en la manera en que la gente juzga este artículo en relación con el sexo del autor. Si esto es cierto, entonces hemos contradicho los resultados de Goldberg, sin embargo, éstos se obtuvieron en 1968. Tal vez las cosas han cambiado desde entonces y la gente ya no juzga escritos con base en el sexo. Primero veremos los aspectos que pudieran estar mal en nuestro diseño.3® Pedimos a los participantes que contestaran algunas preguntas “ bobas” para que nosotros estuviéramos seguros que se percataron del sexo del autor antes de calificar el artículo.37 Cuando lo meditamos después, decidimos que tal vez los indujimos a las preguntas (o a algunas de ellas) antes de que leyeran el artículo, para que estuvieran enterados del sexo m ientras lo leían. Esto pudo haber hecho la diferencia y quizás podamos hacer otro estudio como este en otra ocasión.38 No hicimos ningún comentario del sexo de nuestros participantes, pero es claro que esto puede marcar una diferencia.39 Tal vez los varones pudieron calificar más bajo al autor femenino o viceversa. En estudios futuros podríamos hacer grupos de varones y mujeres por separado. Otro problema fue que no todos utilizaron la escala de la misma manera. “Bueno” pudo ser 7 para una persona y 9 para otra. Tal vez debimos estandarizarlo haciendo que calificaran otra cosa primero y después comentar con ellos40 los puntos de la escala. También debimos utilizar más participantes41 y hubieran adivinado de lo que se trataba y haber surgido característi cas de demanda.42 Sentimos que el artículo era sobre un tema neutral. Goldberg utilizó una selección de artículos. Algunos eran tradicionalmente masculinos y otros más asociados con las mujeres. Podríamos repetir el estudio utilizando, tal vez, un artículo acerca del man tenimiento automotriz y otro del cuidado infantil, para ver si esto hace la diferencia.43
Redacción del informe práctico • 519
Si nuestro resultado es genuino, entonces quizá los tiempos han cambiando desde 1968. En nuestros días existen mujeres choferes de autobús, bomberos y aun toreras. Bern considera a los estereotipos de sexos como una “camisa de fiierza”44 (Gross, 1992) y comenta que la sociedad mejoraría con un giro hacia la “ androginia” . Aquí, la gente tiene la fuerza de ambos roles sexuales tradicionales. Paradescrubir la “ androginia” fue necesario percibir a la masculinidad y la feminidad no como mutuamente excluyentes, sino como dos dimensiones independientes e incorporarlas en un nuevo tipo de prueba que produjera puntuaciones lógicamente independientes. Bern desarrolló tal prueba (1974).45 Se ha demostrado que la gente que obtuvo alta calificación en el Inventario de Rol Sexual de Bern informa de niveles emocionales de bienestar con los demás más altos que el resto (Lubinski y colaboradores, 1981) y muestran mayor autoestima (Spence y colaboradores, 1975). Tal vez, de nuestros resultados, hemos demostrado que hoy en día la gente no considera tanto el sexo para juzgar la calidad de un escrito porque la androginia es más aceptable.46 33
/
Hacer cálculos ayuda a comprender la prueba (en algunos casos, tal vez no aquí) el esfuerzo mental, en general, se recompensa; sin embargo, no es estrictamente necesario para el nivel de licenciatura y para otros programas de estudio; verifique si usted necesita mostrar el trabajo.
34
X ¿Dónde están los valores críticos? ¿A qué nivel de probabiidad se refiere (p < ?)? ¿La prueba es de 1 o 2 colas?
35
y
Reconocer que pudo ocurrir un error tipo II y que la alternativa requiere interpretación a la luz de las contradicciones de otros trabajos.
36
y
Primero, tiene que ver con un error tipo II, por ejemplo, considerar críticamente al método.
37
? Otra vez, el papel de las preguntas tontas debió aclararse con anterioridad, pero ya consideramos esta debilidad en nuestra evaluación —no es necesario penalizarla dos veces.
38
y
Sugiere modificaciones basadas en un análisis de los datos y debilidades del presente trabajo.
39
/
¡Bravo! Este punto de nuestro débito anterior ahora se retoma para considerarlo en nuestra evaluación.
40
y
Este punto ya se comentó también, pero es una pena que las implicaciones de una prueba paramétrica no se comenten aquí; ¿entonces, se esperaban datos de in tervalo? En realdiad es un Xparcial.
41
X
Se debe evitar este punto de reflejo involuntario a menos que se tenga una buena razón para incluirlo; fueron un buen número de participantes y sin dar razones, éste es más bien un punto vacío “aventado sin más” .
42
X
Uno difícil es el punto de si ¿la gente pudo adivinar y presentarse “caracterís-
9 ticas de demanda” ? Si así fuese, ¿habría explicación del porqué se sospechan estos efectos y de qué manera? Si se considera el que la gente adivine como característica de demanda, ¿es esto posible? Siempre debe recordarse que, en diseños de muestras independientes como éste, usted conoce lo que es la VI, pero ¿cómo pueden saberlo los participantes? ¿Por qué van a sospechar que el
520 • Métodos de investigación y estadística
(Capítulo 28*
otro autor es de sexo diferente? Éste es un ejemplo de “egocentrismo” haste cierto punto, y ser muy conocédor después del evento. 43
y
Buena extensión de estudios propuestos — ¡pero se siente peligrosamente similar a un diseño de ANOVA; ¿Están preparados para las pruebas involucradas? Recuerde, no podemos realizar diversas pruebas t (o MannWhitneys —véase la introducción de la parte IV, sección 5).
44
y
Se han citado y reconocido aquí los términos específicos de Gross.
45
46
¡¡¡ Este sonoro pedazo de texto tan técnico y académico, en comparación a la mayoría del resto del informe, debe hacer sonar campanas de alerta al profesor. La mayoría de los tutores, después de una corta experiencia, pueden reconocer este tipo de cambios y acecharán a la mayoría de libros de texto similares para buscar plagios. De hecho, proviene directo de Gross (1992) página 696. En verdad, esto sería una vergüenza en cualquier otro informe serio. y
Buen intento de alimentar los resultados con el contexto general. Algunos de estos resultados son de hace 20 años. Sin embargo, en algunas universidades es difícil tener a la mano investigaciones más recientes con las cuales relacio narse pero, si puede, intente incluir trabajos más actuales.
REFERENCIAS47 Asch, S. E. (1946) Forming impressions of personality, Journal o f Abnormal and Social Psychology, 4,258-90. Bern, S. L. (1974) The measurement of psychological androgyny. Journal o f Consulting and Clinical Psychology, 42(2), 155-62. Bruner, J. S. (1957) Going beyond the information give. In Contemporary Approaches to Cognition: a symposium held at the University o f Colorado, Cambridge, MA: Harvard University Press. Condry, J. and Condry, S. (1976) Sex differences: A study in the eye of the beholder. Child Development, 47, 812-19. Deux, L. (1977) The social psychology of sex roles, in L. Wrightsman, Social Psycho logy, Monterey, CA: Brooks/Cole. Dukes, W. F. and Bevan, W. (1951) Accentuation and response variability in the perception of personally relevant objects, Journal o f Personality, 20,457-465. Goldberg, P. (1968) Are women prejudiced against women?, Transaction, April, 1968. Gross, R. D. (1992) Psychology: The Science o f Mind and Behaviour, Sevenoaks: Hodder and Stoughton. Kelley, H. H. (1950) The warm-cold variable in first impressions of people. Journal o f Personality, 18, 431 -9. Lybinski et al.: (1981) as cited in Gross, R. D. (above).48 Maccoby, E. E. and Jacklin, C. N. (1974) The Psychology o f Sex Differences, Stanford, CA: Stanford University Press. Spence, J. T., Helmreich, R. L. and Stapp, J. (1975) Ratings of self and peers on sex-role attributes and their relation to self-esteem and concepts of masculinity and feminity. Journal o f Personality and Social Psychology, 32, 29-39.
Redacción del informe práctico • 521
Atkinson, R. L., Atkinson, R. C., Smith, E. E. and Bern, D. J. (1993) Introduction to Psychology, Fort Worth: Harcourt Brace Jovanovitch.49
47
y
Buenas referencias, escritas en estilo convencional y orden alfabético.
48
/
¡Sí! Ésta no la tengo dentro de las publicaciones actuales de Gross (aunque para cuando lea esto, tal vez ya la tenga). Ésta es la manera de referirse a trabajos de los que no tiene o no puede conseguir la referencia original, pero al que se ha referido a través de otro autor.
49
X ¡Epa, epa! ¿Qué hace ésta aquí? No está en orden alfabético y, lo más importante, no se ha referido a ella en ningún momento dentro del informe. Tal vez se leyó para hacerlo pero no es una referencia. Podría incluirse como “ lectura antecedente” o en ocasiones como “ Bibliografía” . (Pero ¡tenga cuidado. Los sociológos utilizan “bibliografía” y los psicólogos “ referen cias” ! ) »
L a s siguientes preguntas estructuradas le darán al lector práctica para contestar las preguntas tipo examen, mientras observa que las acotaciones disponibles indican dónde se requieren respuestas más amplias.
Un grupo de 20 niños de cinco años residentes estatales asistieron a un proyecto especial de educación temprana desde que tenían tres años de edad. Al momento en que sus padres aceptaron participar en el programa, se obtuvo un grupo control de 20 niños al seleccionar cada décima familia de una lista de 200 en este estado. Ambos grupos eran muy similares en puntuaciones de CI al inicio del proyecto. Los investigadores predijeron que, entre otras cosas, las puntuaciones de CI del grupo proyecto serían mayores que las del grupo control. El CI para ambos grupos a la edad de cinco años se mide utilizando una prueba estandarizada. La media de los 40 niños es 100. Se encontraron los siguientes resultados:
Arriba de la media Abajo de la media
16 4
12 8
524 • Métodos de investigación y estadística
(Apéndice ít
PREGUNTAS Acotaciones 1 2
3 4 5 6
7 8
9 10
11 12
13
¿Cuál es la variable independiente en este estudio? 1 ¿Cuál es el propósito del grupo control? 2 ¿El grupo control se seleccionó aleatoriam ente? Dé una 2 justificación para su respuesta. Describa una manera importante en la que difieren los dos grupos. 2 ¿Por qué es importante esta diferencia? ¿En qué nivel de medición se encuentran los datos del cuadro? 1 ¿Qué prueba estadística sería apropiada para decidir si el CI del 3 grupo experimental es significativamente mayor? Justifique la elección de esta prueba. ¿Cuándo no sería prudente utilizar la prueba estadística que acaba 2 de elegir? Si conociéramos las puntuaciones de CI individuales de cada niño: a) ¿Entonces, qué prueba estadística sería apropiada? 1 b) ¿Por qué es preferible esta prueba? 2 Los investigadores decidieron rechazar su hipótesis nula después 1 de analizar los resultados. ¿Qué significa esta afirmación? ¿Qué se quiere decir al comentar que los investigadores han 1 cometido un “ error tipo I” ? a) ¿Qué significa decir que una prueba es “ confiable” ? 1 b) Describa cómo se habría estandarizado la prueba de CI. 2 El proyecto de educación temprana pudo no ser responsable, por 2 sí solo, de las diferencias en el CI. Con referencia a la información proporcionada en el proyecto, cite dos razones por las cuales el CI del grupo experimental pudo ser mayor al del grupo control a la edad de cinco años. ¿Qué consideraciones éticas podrían hacerse antes de publicar los 2 resultados de esta investigación?
PROBLEMA2 En un estudio longitudinal, se aplicó una prueba de CI a 16 niños a las edades de 3, 9 y 15 años. Los niños se seleccionaron de manera aleatoria de entre todos aquellos que asistían a un grupo local de juego y que era posible que permanecieran en el área mientras durara el estudio. El investigador consideró que el CI era un factor relativamente estable a través del desarrollo. La correlación entre los valores del CI de los niños a las edades de 3 y 9 años fue 0.41. La correlación entre los valores del CI de los niños a las edades de 9 y 15 años fue 0.78.
Preguntas estructuradas • 525
PREGUNTAS Acotaciones
2
1 Cite dos características importantes del diseño en este estudio. 2 Señale una desventaja para cada una de las características que men cionó en el punto anterior. 3 Cite una fuente de sesgo en la muestra seleccionada. 4 ¿Por qué es importante que los niños se mantengan en la misma área, independientemente de la conveniencia del investigador? 5 La investigadora evalúa por sí misma a todos los niños. ¿Por qué se podría presentar un e rro r en los resultados? ¿Cómo se podría evitar esto fácilmente? 6 En el siguiente diagrama, muestre de m anera aproxim ada las for mas que esperaría en un diagram a de dispersión cuando la corre lación fuera: a) 0.78 b) -0.95 CI 15 años
r = 0.78
1 1 r = -0.95
CI a los 9 años 7 Las puntuaciones de la prueba empleada se estandarizaron para que la media de una muestra grande evaluada fuera 100 y la desviación estándar fuera 15. a) ¿Cuál sería la puntuación de CI de un niño si tuviera una puntuaciónzde+1.5? b) ¿Cuántos niños obtendrían puntuaciones inferiores a 85? 8 El investigador eligió calcular el coeficiente de correlación de Pearson. ¿Puede usted justificar la elección? 9 ¿La hipótesis del estudio sería de una o dos colas? 10 A continuación encontrará una selección de la tabla de valores críti cos para el coeficiente de Pearson. Utilícela para responder estas preguntas: a) ¿La correlación de 0.41 es significativa? b) ¿A qué nivel es significativa la correlación de 0.78?
1 1 2 1
1 1
Nivel de significación (p <) (una cola) (= N - 2) 14 15 16 11
0 .0 5
0 .0 2 5
0.01
0 .0 0 5
0.426 0.412 0.400
0.497 0.482 0.468
0.623 0.606 0.590
0.742 0.725 0.708
Si se encontrara una correlación de -0.95, ¿qué indicaría acerca de las dos variables que se están correlacionando?
1
526 • Métodos de investigación y estadística. . .
(Apéndice 1)
Acotaciones 12 a) Establezca la hipótesis nula para la comparación entre 9 y 15 años de edad. b) ¿La hipótesis nula que citó en (a) sería aceptada o rechazada, dados los resultados anteriores? 13 Otro investigador condujo un estudio similar y también obtuvo una correlación de 0.78. Sin embargo, en este caso, los resultados no fue ron significativos en ningún nivel. ¿Cuál seria la diferencia entre este nuevo estudio y el descrito aquí? 14 ¿De qué manera los resultados sustentan la teoría del investigador y de qué manera fallan al respecto? 15 Describa dos debilidades comunes de las pruebas de CI.
1 1 1
2 2
PROBLEMA3 Se conduce un experimento con un solo participante, quien tiene que decidir si una palabra, cuando aparece en una pantalla especial, es una palabra real o carente de significado. La presentación se ordena de tal modo que, en cada ensayo, la palabra aparezca ya sea en el campo visual izquierdo o bien sólo en el derecho. La secuencia de la presentación del lado izquierdo o derecho se organizó de manera aleatoria. Con base en investigaciones pasadas, se predice que las palabras que aparecen del lado derecho se reconocerán con mayor rapidez ya que estimulan de manera directa el hemisferio cerebral izquierdo (“especializado en el lenguaje”). La velocidad de reconocimiento se mide por el tiempo que le toma presionar un in terruptor de tiempo de reacción cuando la palabra se juzga real o no. Si se comete un error, se da un ensayo adicional. Después de muchos ensayos, los resultados forman una distribución sesgada posi tiva. Las diferencias son significativas al 5%, pero los tiempos para las palabras que aparecen del lado izquierdo son más cortos.
PREGUNTAS 1 Proporcione dos ventajas y dos desventajas de utilizar un diseño de un solo caso como éste. 2 ¿Cuáles son las variables independiente y dependiente? 3 ¿Qué debe considerar el investigador cuando elige las palabras reales y sin sentido como estímulo? 4 ¿Puede usted pensar en un motivo para dar un ensayo adicional cada vez que el participante hace un juicio incorrecto? 5 a) ¿Por qué los ensayos del lado izquierdo y derecho se presentaron en un orden aleatorio? b) ¿Cómo se selecciona un orden aleatorio?
Acotaciones 4 2 2 1
2
Preguntas estructuradas • 527
6 ¿A qué nivel de medición (nominal/ordinal/intervalo/razón) se en cuentra el conjunto de tiempos de reacción? 7 a) El investigador desea conducir una prueba param étrica pero al final cambia de opinión. ¿Por qué? b) ¿Qué prueba no param étrica se utilizaría? 8 Haga un bosquejo aproximado de una distribución sesgada positiva mente y marque en ella dónde caerfan la media y la mediana de las puntuaciones. 9 En este participante se encontró que los tiempos para las palabras que aparecieron en la izquierda eran significativamente menores en relación con los de la derecha. a) ¿Qué explicación hay para que los tiempos dé este participante sean contrarios a lo predicho? b) ¿Qué le pasaría a la hipótesis nula? 10 El resultado peculiar ocasiona que el investigador plantee una nueva hipótesis que es contraria a la teoría de investigación establecida en esta área. ¿Qué nivel de significación debería fijarse para probar la nueva hipótesis? 11 Para la nueva hipótesis, el investigador evalúa un grupo con presen taciones del lado derecho y otro con presentaciones del lado izquierdo. a) ¿Qué tipo de diseño es éste? b) Cite una ventaja y una desventaja de este diseño. c) ¿Cómo deben distribuirse los participantes en las dos condiciones y por qué?
Acotaciones 1 1 1 2
2 1 1
1 2 2
PROBLEMA4*• Una psicóloga conduce una investigación en dos departamentos de enseñanza de una universidad. Los departamentos son casi del mismo tamaño, uno encargado de eventos especiales y de entretenimiento y el otro de trabajo social. El primero se maneja bajo líneas de liderazgo tradicional donde el jefe del departamento toma todas las decisiones importantes y consulta con su personal más antiguo, quien informa las decisiones de la dirección a sus catedráticos más nuevos. El departamento de trabajo social está organi zado en pequeños equipos que asumen la responsabilidad de decisiones muy importantes dentro de su área de trabajo. La investigadora está interesada en la satisfacción laboral y en las relaciones entre el personal y sus directivos. Utilizó los siguientes métodos: • Entrevista no estructurada con cada uno de los miembros del personal. • Un cuestionario estructurado acerca de la satisfacción laboral desarrollado por ella misma (puntuación máxima = 50; puntuación mínima = 0). La confiabilidad interna de división por mitades se mide como una correlación de 0.86. • Una semana de observación participante en cada departamento (da algunas clases en cada departamento aunque los miembros del personal conocen su verdadero propósito).
528 • Métodos de investigación y estadística
(Apéndice 1)
La investigadora encuentra que no existe una diferencia significativa entre los depar tamentos en cuanto a la puntuación del cuestionario de satisfacción laboral. Sin embargo, encuentra que, entre los empleados más recientes del departamento de trabajo sociaL existe un resentimiento fuerte hacia la toma de responsabilidades, por lo que concluye que esto se debe a que no sienten que existe la adecuada recompensa ni reconocimiento por su participación.
PREGUNTAS Acotaciones 1 ¿Qué ventajas tiene la entrevista sobre cualquiera de los otros dos métodos empleados en esta investigación? 2 ¿Qué problemas en cuanto a la influencia en las respuestas puede producir el cuestionario? 3 ¿De qué otra manera podría ser única e inalcanzable la información del método de observación participante? 4 ¿Puede usted dar otra razón alternativa para el resentimiento de los catedráticos? 5 ¿A qué se refiere con la “ confiabilidad interna” del cuestionario? 6 Describa cómo se evaluaría al cuestionario en cuanto a su confiabi lidad interna de división por mitades. 7 La investigadora decide convertir las puntuaciones del cuestionario en datos ordinales. ¿Cómo lo haría? 8 0.86 es un coeficiente de correlación. ¿Qué medida de correlación debe utilizarse? 9 ¿Qué le dice el valor 0.86 sobre la confiabilidad de este cuestionario? 10 ¿Qué otra información necesitaría con el fin de decidir si el valor de la correlación de división por mitades es significativo? 11 ¿Cuál es la diferencia entre fuerza y significación de un coeficiente de correlación? 12 ¿Cómo podrían evaluarse con mayor objetividad las conclusiones de la investigadora acerca de los catedráticos más nuevos mediante más investigación? 13 ¿Por qué los cuestionarios tal vez no destacaron el resentimiento? 14 ¿Qué tipo de aspectos éticos tendría que enfrentar la investigadora al publicar los resultados de su investigación?
2 2 2
2 2 2 2
1 1 2 2
2 2
PROBLEMA5 A 15 voluntarios se Ies aplica la prueba de manchas de tinta de Rorschach, que son patrones abstractos que se pide a los participantes que observen. Se les pide que informen
Preguntas estructuradas • 529
lo que les parece ver en las formas de las manchas. Dos calificadores entrenados analizan sus respuestas en cuanto a contenido agresivo, cuya puntuación final se valora en una escala de 1 a 25. Se verifica que un calificador esté calificando al mismo nivel que el otro. Después, se les dan a los participantes tareas imposibles de completar. Esto se hace con la intención de generar frustración e incrementar la agresividad. Luego, se repiten las pruebas de Rorschach y las calificaciones de la agresión, para obtener puntuaciones “postratamiento” . Se espera que la frustración incremente la agresividad. Las diferencias entre pre- y postratamiento son significativas en un nivel del 5 por ciento.
PREGUNTAS 1 ¿De qué manera podría estar sesgada esta muestra? 2 a) ¿Qué son “ características de dem anda” ? b) Haga un pequeño comentario de las maneras en que podrían ocurrir las características de dem anda en este estudio. 3 Las puntuaciones de un calificador se comparan con las del otro para ver si ambos están calificando al mismo nivel. ¿Qué tipo de verifica ción se lleva a cabo aquí y por qué? 4 ¿Qué tipo de prueba estadística se utilizaría para comparar las pun tuaciones de los dos calificadores? 5 Un colega argumenta que las puntuaciones se hubieran incremen tado aun sin la tarea de frustración, debido a que los participantes estaban molestos por el tiempo que perdían. ¿Qué se le puede agre gar al diseño para eliminar esta posibilidad? 6 El efecto de la pregunta anterior sería una variable confusa. ¿Qué significa este término? 7 La escala de calificación no se observa lo suficientemente sensible para considerarse como datos de nivel ordinal. ¿A qué nivel se les manejaría) 8 ¿Qué p ru e b a estad ística se utilizaría para establecer que las pun tuaciones pre- y postratamiento son diferentes de manera significa tiva? 9 a) Formule la hipótesis de este estudio. b) ¿La prueba de esta hipótesis es de una o dos colas? 10 ¿Qué probabilidad hay de que esta investigación cometa un e rro r tipo I? t 11 Describa dos debilidades principales de las pruebas no estructura das y encubiertas como el Rorschach. 12 Describa otro método mediante el cual se pudo haber evaluado la agresividad. 13 a) ¿Qué es una “ definición operacional” ? b) ¿Cuál es la definición operacional de “ agresividad” que da el in vestigador en este estudio?
Acotaciones 1 3 2
\ I
2 1
1
2 1 4 3
3
530 • Métodos de investigación y estadística
(Apéndice I*
PROBLEMA6 Se pide a un grupo de 10 participantes que resuelvan dos conjuntos de seis anagramas. Uno es de palabras comunes y el otro de palabras no comunes. Los conjuntos de palabras para los anagramas se seleccionaron de manera aleatoria de conjuntos más grandes de palabras que ocurren con frecuencia o rara vez. Las condiciones son contrabalanceadas. El tiempo empleado para resolver cada anagrama se midió con cronómetro y se registró. Los resultados se muestran en el cuadro siguiente: Resultados del anagram a Participante
Mediana del tiem po de solución (en segundos) para seis anagramas Palabras comunes
A
B C D E F G H I J
14 23 35 15 27 5 25 32 17 21
abras no comunes
27 85 32 30 130 13 60 125 33 28
El investigador argumenta que cuando la gente resuelve anagramas no sólo reordena de modo pasivo las letras hasta que aparece una palabra. La teoría es que las personas son solucionadoras activas de problemas y que generan posibles palabras que pueden encajar con las letras anteriores mientras las acomodan. La investigación se diseñó para sustentar esta teoría. .
PREGUNTAS 1 ¿Cuáles son las variables independiente y dependiente en este expe rimento? 2 ¿Qué tipo de diseño experimental se está utilizando? 3 a) ¿Por qué se realiza el contrabalanceo? b) ¿Cómo se llevaría a cabo exactamente el contrabalanceo? c) Suponiendo que un grupo tomara ambas condiciones, ¿qué otra técnica se hubiera manejado con el problema con el que se utilizó el contrabalanceo? 4 Si el investigador hubiera utilizado dos grupos diferentes, uno para cada condición, ¿por qué esto hubiera sido insatisfactorio? 5 Sugiera dos variables aleatorias que pudieran haber afectado el de sempeño de los participantes, independientemente de los niveles de ruido e iluminación.
Acotaciones 2 1 1 2 1
Preguntas estructuradas • 531
6 El investigador pidió a los experimentadores que utilizaran un procedim iento estan d a rizad o que incluyó la explicación de la tarea exactamente con las mismas palabras para cada participante. Señale dos razones para este enfoque. 7 Los tiempos para una persona en cada uno de los seis anagramas de palabras no comunes son los siguientes: 85
8 9
10 11 12 13 14
97
119
131
156
Acotaciones 2
287
a) Cuando los valores se ordenan así, ¿por qué se prefiere la me diana a la media? b) ¿A qué participante pertenecen estos tiempos? ¿En qüé nivel de medición se muestran los tiempos de este cuadro (nominal, ordinal, intervalo o razón). a) ¿El nivel de medición permite una prueba param étrica? b) Señale dos condiciones, distintas al nivel de medición, que deben satisfacerse para conducir una prueba param étrica. Dé una ventaja de utilizar una prueba param étrica. ¿Qué prueba paramétrica se utilizaría aquí para probar la diferencia significativa? ¿Qué quiere decir “ nivel de significación” ? ¿Piensa usted que las diferencias entre los dos conjuntos de tiempos en el cuadro serán significativas? Dé razones. El investigador argumenta que la gente hace conjeturas con las pala bras, de entre todas las que conoce, conforme reordena las letras. Es posible que ordenen menos palabras no frecuentes adivinando. ¿Pue de usted pensar en otra explicación teórica para los tiempos más lentos?
1 1 1 1 2 1 1
2 2
PROBLEMA 7
Un investigador predice que madres adolescentes más jóvenes serán más controladoras con sus hijos. Se le invita a tres muestras representativas de madres, a participar en un estudio transversal. Los grupos tienen las edades de 15, 19 y 23 años. Los asistentes del investigador filman una sesión de juego de 30 minutos, una vez al día, exactamente a la misma hora, durante quince días. Las sesiones se filman en la casa de la madre. A diversos “calificadores” , quienes ignoran la hipótesis de investigación, se les da un sistema riguroso de códigos y analizan el contenido de la filmación en unidades de 10 segundos cada una. Las puntuaciones combinadas de los calificadores para control verbal (reactivos como “ ¡Ven acá!”, “ ¡Déjalo!”) de los grupos de 15 y 23 años se muestran en el siguiente cuadro. Las puntuaciones son de un total posible de 100.
532 • Métodos de investigación y estadística.
(Apéndice 1)
Calificaciones de control verbal 15 años de edad
23 años de edad
78 56 65 89
45 34 56 56 78
68 Diagrama de rangos Rango
10
Calificación
89
PREGUNTAS 1 2 3 4 5 6
7 8 9 10 11
12 13
¿Es éste un experimento? Justifique su respuesta. ¿Qué significa estudio “ transversal” ? Enuncie una ventaja y una desventaja de los estudios transversales. ¿Cuál es una ventaja y una desventaja de conducir un estudio de campo más que uno de laboratorio? ¿Qué ventaja tiene el uso de la videograbación sobre el método de codificación al momento que ocurre? a) ¿Por qué es importante obtener una m uestra representativa? b) ¿Qué factores deben considerarse para hacer representativa esta muestra? ¿Por qué es importante que las sesiones de registro se lleven a cabo a la misma hora cada día? ¿Por qué se mantuvo a los calificadores ignorantes de la hipótesis de investigación? ¿Cómo se evaluaría la confiabilidad del juicio de los dos calificadores? Se decide no manejar las puntuaciones combinadas de los calificado res como datos de intervalo. ¿Por qué podría ser? Las 10 puntuaciones en el cuadro necesitan ordenarse como un so lo grupo. Ordene las 10 puntuaciones en rangos, utilizando un cua dro como el que se muestra en el diagrama de rangos anterior. Ya se han anotado las puntuaciones más alta y más baja. ¿Qué prueba se utilizaría para buscar la diferencia en significación entre los dos conjuntos de rangos? El resultado de esta prueba muestra que la probabilidad de que las di ferencias ocurran al azar sólo es de cerca de 0.07. ¿Esto significa que debe abandonarse la idea de la investigación? Justifique su respuesta.
Acotaciones 2 1 2 2 f 1 2 1 1 2 1 2
1 2
Preguntas estructuradas • 533
14 ¿Cómo podría utilizarse la entrevista para fortalecer los datos de la investigación? 15 Dos de las madres hablaron con el investigador al final del estudio. Una deseaba saber con exactitud de qué se trataba todo el proyecto. La otra quería que se eliminaran de los resultados sus grabaciones en vídeo, ya que algunos de los eventos eran realmente embarazosos. En cada caso, ¿qué debería hacer o decir el investigador?
Acotaciones 2 2
PROBLEMA8 Un investigador interesado en el estrés desea probar la hipótesis de que los individuos que por lo general son más ansiosos tienden a tener peores registros de salud. Se decide aplicar dos pruebas estandarizadas a una muestra de individuos de diversas ocupaciones, quienes respondieron a un anuncio en el periódico para ser participantes. Una prueba es una medición del nivel general de ansiedad, y una puntuación alta es indicativa de una alta ansiedad. La otra prueba mide el estado general de salud, incluyendo visitas al médico, días sin enfermedad y demás. Una puntuación alta en esta prueba indica buen estado general de salud. Se evaluó a los participantes por separado en un cubículo pequeño a prueba de ruidos. Dos pares de asistentes califican los cuestionarios. Un par lo hace sólo con los cuestionarios de salud y el otro par, sólo con los cuestionarios de ansiedad. Todos ignoran la naturaleza de la hipótesis que se evalúa. Después de la evaluación, se dio a cada participante una amplia información acerca de la investigación y se les aseguró que sus resultados se mantendrían en el anonimato. Los datos recopilados se consideran en nivel de intervalo y satisfacen otros requisitos paramétricos. El coeficiente de correlación entre las dos medidas es -0.32 y este valor es significativo conp < 0.01.
PREGUNTAS 1 ¿Puede considerarse a este diseño de investigación como un expe rimento? Justifique su respuesta. 2 ¿Los investigadores están estudiando a una muestra aleatoria de participantes? Por favor, justifique su respuesta. 3 Por qué a los asistentes que calificaron los cuestionarios: a) No se les dijo la hipótesis de investigación b) Sólo se les dio un cuestionario para calificar 4 ¿Por qué era importante que se evaluara a cada participante por se parado? 5 ¿Por qué dos personas calificaron cada cuestionario?
Acotaciones 2 2
1 1 1
534 • Métodos de investigación y estadística.
(Apéndice
6 ¿Qué característica de las pruebas, citada en la información propor cionada, permite que los datos recolectados se manejen como datos de nivel de intervalo? 7 Para conducir una prueba paramétrica, los datos deben estar al menos a nivel de intervalo. ¿Cuáles son las otras dos principales hipótesis que deben satisfacerse para conducir una prueba param étrica? 8 ¿Qué prueba de correlación debería utilizarse con estos datos? 9 ¿Qué significa correlación negativa? 10 Explique por qué se esperaba una correlación negativa del uso de las dos pruebas en este estudio. 11 ¿Qué significa la expresión “ significativa con p < 0.01 ” ? 12 ¿Cuándo un investigador puede esperar que se alcance un nivel de significación de p < 0.01? 13 ¿Usted denominaría a la correlación encontrada como “ realmente fuerte” o “ realmente débil” ? 14 ¿Por qué una correlación “ débil” aún puede ser “ significativa” ? 15 ¿Cuál es la finalidad de darles explicaciones a todos los participantes al final? 16 El investigador supone que los niveles altos de ansiedad son una causa de poca salud. ¿Qué explicación alternativa existe para estos resul tados?
’
Acotaciones 1
2 2
PROBLEMA 9
Un investigador desea establecer cuál de dos paquetes de procesadores de palabras ( Wordpal y Wordmaté) fue más fácil de aprender y cuál pareció más “ amigable” . Se obtuvieron 37 secretarias experimentadas que ya utilizaban procesador de palabras, al solicitar voluntarias entre una gran variedad de escenarios laborales. Por razones técnicas sólo se evaluó a 12 con Wordmaté mientras a 25 se hizo con Wordpal. Se pidió a las secretarias que escribieran una carta con el programa que se les dio, utilizando sus conocimientos previos con procesador de palabras, más una información en pantalla. Se hicieron mediciones del tiempo total que les llevó completar perfectamente la carta y de su evaluación acerca del programa, utilizando un cuestionario de manera previa piloteado. Los investigadores calcularon la desviación estándar de los tiempos en que comple taron la carta y, de aquí, calcularon la puntuación estándar de cada secretaria. Las medidas y desviaciones estándar se muestran en el siguiente cuadro. Las puntuaciones parecen provenir de una distribución normal.
Media del tiempo de terminado (min) Desviación estándar
Wordmaté
Wordpal
24.746 37.29
19.834 12.21
Preguntas estructuradas • 535
Una prueba de diferencia no paramétrica mostró que el tiempo que Ies tomó elaborar la carta con Wordpal fue significativamente menor que con Wordmaté (p < 0.05). La prueba de diferencia entre ambos conjuntos de puntuaciones de la evaluación fue no significativa.
PREGUNTAS 1 Enuncie una razón por la que la muestra elegida puede considerarse sesgada. 2 a) ¿Cuál es la variable independiente en este estudio? b) ¿Cuáles son las dos variables dependientes de este estudio? 3 ¿Qué diseño experimental se utilizó y cuál es una de sus ventajas? 4 a) Explique qué significa “ pilotear” un cuestionario. b) ¿Por qué es importante que un cuestionario esté piloteado? 5 Explique qué significa “ desviación estándar” . 6 A 16% de las secretarias Ies tomó más de 30 minutos completar la carta utilizando el programa Wordpal. La puntuación estándar de una secretaria para completar la carta con Wordpal es 1.3. Explique cómo sabemos que a esta persona le tomó más de 30 minutos ha cerlo. 7 Los investigadores utilizaron una prueba de diferencia no param é trica. ¿Cuál prueba pudo ser ésta exactamente? 8 Mencione una hipótesis que debe alcanzarse antes de proceder con una prueba param étrica. 9 ¿Qué información proporcionada indica que sería incorrecto utilizar una prueba param étrica en estas circunstancias? 10 ¿Los investigadores deberían consultar valores de 1 o 2 colas para determinar la significación de los resultados de esta prueba? Justifi que su elección. 11 Después de la prueba de diferencia entre las evaluaciones de los dos programas, los investigadores dijeron que “ sostendrían la hipóte sis nula” . ¿Qué quieren decir con esto? 12 Proporcione alguna explicación de por qué el tiempo en que se termi naron las cartas pudo variar tanto, independientemente de las dife rencias entre los dos programas procesadores de palabras. 13 A una secretaria le fue tan mal con el programa que utilizó, que quiso desertar y destruir sus resultados. ¿Qué le sugeriría usted al investi gador que hiciera ante estas circunstancias?
Acotaciones 1 1 2 2 1 2 2 2
1 1 2
2
2
2 2
PROBLEMA10 Un grupo de 12 personas con problemas de alcoholismo, que acuden a una clínica, fueron voluntarios para tomar parte en un programa terapéutico experimental. Por cada volun-
53 6 • Métodos de investigación y estadística
(Apéndice 1)
tario, se elige un segundo alcohólico que se parece mucho al primero en diversas características importantes. Después de tres meses en el programa, se evalúa a ambos grupos por medio de dos métodos. Uno es un cuestionario estructurado y estandarizado que los participantes mismos contestan. El otro, una entrevista clínica conducida por un terapeuta. El grupo de tratamiento mostró una gran mejoría, como lo midió el cuestionario, pero ésta no es tan marcada en las calificaciones de la entrevista realizada por el terapeuta. La correlación entre las puntuaciones del cuestionario y de la entrevista es de 0.87.
PREGUNTAS 1 a) ¿Qué tipo de diseño experimental se utilizó aquí? b) Mencione una ventaja del diseño experimental utilizado. 2 ¿Cuál es una de las principales debilidades de la entrevista clínica cuando se utiliza para mediciones psicológicas? 3 Describa dos problemas a lo que puede enfrentarse al elaborar cual quier cuestionario. 4 Mencione dos razones por las que el cuestionario pudo dar mayor evidencia de la mejoría que la entrevista. 5 ¿Qué podemos aprender de la correlación entre las calificaciones de la entrevista y las puntuaciones del cuestionario? 6 Piído utilizarse un grupo placebo en esta investigación. a) ¿Por qué podría haber sido útil? b) ¿Qué procedimiento podría utilizarse con el grupo placebo? 7 Las puntuaciones del cuestionario se manejaron como datos de nivel de intervalo. ¿Por qué? 8 ¿Qué prueba estadística se utilizaría para evaluar la diferencia sig nificativa entre las puntuaciones del cuestionario en ambos grupos? 9 Enuncie una desventaja de utilizar pruebas no param étricas. 10 Al aceptar como significativas las diferencias entre los cuestiona rios, el investigador está advertido de que puede ocurrir un e rro r ti po I. ¿Qué significa esto? 11 La correlación entre las puntuaciones del cuestionario y las califica ciones de la entrevista puede considerarse como positiva. ¿A qué nos referimos con ello? 12 La correlación de 0.87 fue significativa con una muestra de 12 elementos. ¿Cuándo 0.87 sería no significativa, si la muestra fuera m ayor o menor? 13 Mencione dos razones por las cuales el grupo de tratamiento pudo mejorar sin considerar al programa en sí. 14 Después de seis meses el programa muestra resultados exitosos pa tentes. Éticamente, ¿qué debería pasar ahora con el grupo control y por qué? ■
Acotaciones 1 1 1
2 2
2 2 2 I
1
2 2 1
2 2
Tablas estadísticas
538 • Métodos de investigación y estadística..
(Apéndice 2)
Tabla 1. Números aleatorios 0347 43 73 86 97 74 24 6762 16 7662 27 66 12 56 85 9926 55 59 56 35 64
36 96 47 36 61 42 81 14 57 20 56 50 26 71 07 96 96 68 27 31 38 54 82 46 22
46 98 63 71 62 42 53 32 37 32 32 90 79 78 53 05 03 72 9315 31 62 43 09 90
33 2616 80 45 27 07 36 07 51 13 55 38 58 59 5712101421 06 18 44 32 53
6011 14 10 95 24 51 79 89 73 88 97 54 1410 88 2649 81 76 23 83 01 30 30
16 22 77 94 39 84 42 17 53 31 63 01 63 78 59 33 21 12 34 29 57 60 86 32 44
49 54 43 54 82 5724 55 06 88 16 95 55 6719 78 64 5607 82 09 47 27 96 54
17 37 93 23 78 77 04 74 4767 9810 50 71 75 5242 0744 38 4 9 1 7460962
87 35 20 96 43 21 76 33 50 25 12 86 73 58 07 15 51 0013 42 90 52 84 77 27
84 26 34 91 64 83 9212 06 76 44 39 52 38 79 996602 7954 08 02 7343 28
1818 07 92 46 26 62 38 97 75 23 42 40 64 74 52 36 28 19 95 37 85 94 35 12
44 17 16 58 09 84 16 07 44 99 82 97 77 77 81 50 92 26 11 97 83 39 50 08 30
79 83 861662 83 11 46 32 24 07 45 3214 08 00 56 76 31 38 42 34 07 96 88
06 76 50 0310 2014 85 88 45 32 98 94 07 72 80 22 02 53 53 54 42 06 87 98
55 23 64 05 05 10 93 72 88 71 93 85 7910 75 86 60 42 04 53 35 85 2948 38
70 29 17 12 13 56 62 18 37 35 99 49 57 22 77 16 08 15 04 72 31 16 93 32 43
40 33 20 38 26 96 83 50 87 75 88 42 95 45 72 33 27 14 34 90 50 27 89 8719
13 89 5103 74 9712 25 9347 1664 361600 45 59 34 68 49 201537 0049
17 76 3713 04 70 3324 03 54 04 4318 66 79 12 72 07 34 45 52 8566 6044
07 74 21 19 30 97 77 46 44 80 94 77 24 21 90 99 27 72 95 14 38 68 88 11 80
68 34 30 13 70 74 57 25 65 76 27 42 37 86 53 00 39 68 2961 29 94 98 94 24
55 74 30 7740 59 29 97 68 60 48 55 9065 72 66 37 32 20 30 68 49 6910 82
44 22 78 84 26 71 91 38 67 54 96 57 69 3610 77 84 57 0329 53 75 91 93 30
04 3346 09 52 13 5818 24 76 9646 92 42 45 10 45 65 04 26 34 25 20 57 27
68 07 97 06 57 15 54 55 95 52 97 60 49 04 91 11 04 96 67 24 40 48 73 51 92
16 90 82 66 59 11 27 94 75 06 35 24 10 16 20 38 2316 86 38 31 96 25 9147
8362 64 11 12 06 0919 74 66 33 32 51 26 38 42 38 97 01 50 96 44 33 49 13
6719 00 71 74 02 94 37 34 02 79 78 45 04 91 87 7566 8141 34 86 82 53 91
60 47 21 29 68 76 70 90 30 86 16 92 53 5616 40 01 74 91 62 00 52 43 48 85
02 02 37 03 31 38 45 94 30 38 02 75 50 95 98 48 51 84 08 32 27 55 26 89 62
66 67 40 6714 14 90 84 4511 68 05 51 18 00 20 46 78 7390 64 19 58 97 79
64 05 71 95 86 75 73 88 05 90 33 96 02 75 19 97 51 40 14 02 15 06 15 93 20
11 05 6509 68 52 27 41 14 86 07 6062 93 55 04 02 3331 08 01 9010 75 06
76 83 20 37 90 22 98 12 22 08 59 33 82 43 90 39 54 1649 36 40 78 78 89 62
57 16 001166 07 52 74 95 80 49 37 38 44 59 47 95 9313 30 02 67 74 17 33
05 26 93 70 60 07 9710 88 23 68 71 86 85 85 26 9961 65 53 14 65 52 68 75
22 35 851513 09 98 42 99 64 54 87 6647 54 58 37 78 80 70 87 59 36 22 41
92 03 51 59 77 61 71 62 9915 73 32 0811 12 42 10 506742 26 78 63 06 55
59 56 78 06 83 06 51 2916 93 44 95 92 6316 3217 55 85 74 13 08 27 01 50
52 91 05 70 74 58 05 77 09 51 29 56 24 29 48 94 44 671694 15 29 39 39 43
Recopilada de R.A Fisher y F. Yates, Statistical Tables fo r Biological, A gricultural and M edical Research, (6th ed.) Longman Group UK Ltd (1974).
Tablas estadísticas • 539
AA O z
O z
0.02 0.03 0.04
0.0000 0.0040 0.0080 0.0120 0.0160
0.5000 0.4960 0.4920 0.4880 0.4840
0.05 0.06 0.07 0.08 0.09
0.0199 0.0239 0.0279 0.0319 0.0359
0.10
AA O z
O z
0.40 0.41 0.42 0.43 0.44
0.1554 0.1591 0.1628 0.1664 0.1700
0.3446 0.3409 0.3372 0.3336 0.3300
0.4801 0.4761 0.4721 0.4681 0.4641
0.45 0.46 0.47 0.48 0.49
0.1736 0.1772 0.1808 0.1844 0.1879
0.12 0.13 0.14
0.0398 0.0438 0.0478 0.0517 0.0557
0.4602 0.4562 0.4522 0 4483 0.4443
0.50 0.51 0.52 0.53 0.54
0.15 0.16 0.17 mo
0.0596 00636 0.0675 n a
0.4404 0.4364 0.4325 r» a oofi
0.55 0.56 0.57 rv so
0.00 0.01
0.11
A A O z
O z
0.80 0.81 0.82 0.83 0.84
0.2881 0.2910 0.2939 0.2967 0.2995
0.2119 0.2090 0.2061 0.2033 0.2005
0.3264 0.3228 0.3192 0.3156 0.3121
0.85 0.86 0.87 0.89
0.3023 0.3051 0.3078 0.3106 0.3133
0.1977 0.1949 0.1922 0.1894 0.1867
0.1915 0.1950 0.1985 0.2019 0.2054
0.3085 0.3050 0.3015 02981 0.2946
0.90 0.91 0.92 0.93 0.94
0.3159 0.3186 0.3212 0.3238 0.3264
0.1841 0.1814 0.1788 0.1762 0.1736
0.2088 0.2123 0.2157 n oían
0.2912 0.2877 0.2843 n om n
0.95 0.96 0.97 ri Qfi
0.3289 0.3315 0.3340
0.1711 0.1685 0.1660 n ir -ír
0.88
(Apéndice 2)
540 • Métodos de investigación y estadística. ..
Tabla 2. Á re a s debajo de la distribución normal (continuación)
AA 0 z
0 z
z
0 z
0 2
z
1.20 1.21 1.22 1.23 1.24
0.3849 0.3869 0.3888 0.3907 0.3925
0.1151 0.1131 0.1112 0.1093 0.1075
1.60 1.61 1.62 1.63 1.64
0.4452 0.4463 0.4474 0.4484 0.4495
0.0548 0.0537 0.0526 0.0516 0.0505
1.25 1.26 1.27 1.28 1.29
0.3944 0.3962 0.3980 0.3997 0.4015
0.1056 0.1038 0.1020 0.1003 0.0985
1.65 1.66 1.67 1.68 1.69
0.4505 0.4515 0.4525 0.4535 0.4545
1.30 1.31 1.32 1.33 1.34
0.4032 0.4049 0.4066 0.4082 0.4099
0.0968 0.0951 0.0934 0.0918 0.0901
1.70 1.71 1.72 1.73 1.74
1.35 1.36 1.37 1.38 1.39
0.4115 0.4131 0.4147 0.4162 0.4177
0.0885 0.0869 0.0853 0.0838 0.0823
1.40 1.41 1.42 1.43 1.44
0.4192 0.4207 0.4222 0.4236 0.4251
1.45 1.46 1.47 1.48 1.49
AA 0 z
0 z
2.00 2.01 2.02 2.03 2.04
0.4772 0.4778 0.4783 0.4788 0.4793
0.0228 0.0222 0.0217
0.0495 0.0485 0.0475 0.0465 0.0455
2.05 2.06 2.07 2.08 2.09
0.4798 0.4803 0.4808 0.4812 0.4817
0.0202
0.4554 0.4564 0.4573 0.4582 0.4591
0.0446 0.0436 0.0427 0.0418 0.0409
2.10 2.11 2.12 2.13 2.14
0.4821 0.4826 0.4830 0.4834 0.4838
0.0179 0.0174 0.0170 0.0166 0.0162
1.75 1.76 1.77 1.78 1.79
0.4599 0.4608 0.4616 0.4625 0.4633
0.0401 0.0392 0.0384 0.0375 0.0367
2.15 2.16 2.17 2.18 2.19
0.4842 0.4846 0.4850 0.4854 0.4857
0.0158 0.0154 0.0150 0.0146 0.0143
0.0808 0.0793 0.0778 0.0764 0.0749
1.80 1.81 1.82 1.83 1.84
0.4641 0.4549 0.4656 0.4664 0.4671
0.0359 0.0351 0.0344 0.0336 0.0329
2.20 2.21 2.22 2.23 2.24
0.4861 0.4864 0.4868 0.4871 0.4875
0.0139 0.0136 0.0132 0.0129 0.0125
0.4265 0.4279 0.4292 0.4306 0.4319
0.0735 0.0721 0.0708 0.0694 0.0681
1.85 1.86 1.87 1.88 1.89
0.4678 0.4686 0.4693 0.4699 0.4706
0.0322 0.0314 0.0307 0.0301 0.0294
2.25 2.26 2.27 2.28 2.29
0.4878 0.4881 0.4884 0.4887 0.4890
0.0122
1.50 1.51 1.52 1.53 1.54
0.4332 0.4345 0.4357 0.4370 0.4382
0.0668 0.0655 0.0643 0.0630 0.0618
1.90 1.91 1.92 1.93 1.94
0.4713 0.4719 0.4726 0.4732 0.4738
0.0287 0.0281 0.0274 0.0268 0.0262
2.30 2.31 2.32 2.33 2.34
0.4893 0.4896 0.4898 0.4901 0.4904
0.0107 0.0104
1.55 1.56 1.57 1.58 1.59
0.4394 0.4406 0.4418 0.4429 0.4441
0.0606 0.0594 0.0582 0.0571 0.0559
1.95 1.96 1.97 1.98 1.99
0.4744 0.4750 0.4756 0.4761 0.4767
0.0256 0.0250 0.0244 0.0239 0.0233
2.35 2.36 2.37 2.38 2.39
0.4906 0.4909 0.4911 0.4913 0.4916
0.0094 0.0091 0.0089 0.0087 0.0084
z
0.0212
0.0207 0.0197 0.0192 0.0188 0.0183
0.0119 0.0116 0.0113 0.0110
0.0102 0.0099 0.0096
Tablas estadísticas • 541
Tabla 2. Á reas debajo de la distribución normal (continuación)
z
0 Z
0 Z
z
0 z
0 z
z
0 z
2.40 2.41 2.42 2.43 24 4
0.4918 0.4920 0.4922 0.4925 0.4927
0.0082 0.0080 0.0078 0.0075 0.0073
2.72 2.73 2.74 2.75 2.76
0.4967 0.4968 0.4969 0.4970 0.4971
0.0033 0.0032 0.0031 0.0030 0.0029
3.04 3.05 3.06 3.07 3.08
0.4988 0.4989 0.4989 0.4989 0.4990
0.0012 0.0011 0.0011 0.0011 0.0010
2.45 2.46 247 2.48 2.49
0.4929 0.4931 0.4932 0.4934 0.4936
0.0017 0.0069 0.0068 0.0066 0.0064
2.77 2.78 2.79 2.80 2.81
0.4972 0.4973 0.4974 0.4974 0.4975
0.0028 0.0027 0.0026 0.0026 0.0025
3.09 3.10 3.11 3.12 3.13
0.4990 0.4990 0.4991 0.4991 0.4991
0.0010 0.0010 0.0009 0.0009 0.0009
2.50 2.51 2.52 2.53 2.54
0.4938 0.4940 0.4941 0.4943 0.4945
0.0062 0.0060 0.0059 0.0057 0.0055
2.82 2.83 2.84 2.85 2.86
0.4976 0.4977 0.4977 0.4978 0.4979
0.0024 0.0023 0.0023 0.0022 0.0021
3.14 3.15 3.16 3.17 3.18
0.4992 0.4992 0.4992 0.4992 0.4993
0.0008 0.0008 0.0008 0.0008 0.0007
2.55 2.56 2.57 2.58 2.59
0.4946 0.4948 0.4949 0.4951 0.4952
0.0054 0.0052 0.0051 0.0049 0.0048
2.87 2.88 2.89 2.90 2.91
0.4979 0.4980 0.4981 0.4981 0.4982
0.0021 0.0020 0.0019 0.0019 0.0018
3.19 3.20 3.21 3.22 3.23
0.4993 0.4993 0.4993 0.4994 0.4994
0.0007 0.0007 0.0007 0.0006 0.0006
2.60 2.61 2.62 2.63 2.64
0.4953 0.4955 0.4956 0.4957 0.4959
0.0047 0.0045 0.0044 0.0043 0.0041
2.92 2.93 2.94 2.95 2.96
0.4982 0.4983 0.4984 0.4984 0.4985
0.0018 0.0017 0.0016 0.0016 0.0015
3.24 3.25 3.30 3.35 3.40
0.4994 0.4994 0.4995 0.4996 0.4997
0.0006 0.0006 0.0005 0.0004 0.0003
2.65 2.66 2.67 2.68 2.69
0.4960 0.4961 0.4962 0.4963 0.4964
0.0040 0.0039 0.0038 0.0037 0.0036
2.97 2.98 2.99 3.00 3.01
0.4985 0.4986 0.4986 0.4987 0.4987
0.0015 0.0014 0.0014 0.0013 0.0013
3.45 3.50 3.60 3.70 3.80
0.4997 0.4998 0.4998 0.4999 0.4999
0.0003 0.0002 0.0002 0.0001 0.0001
2.70 2.71
0.4965 0.4966
0.0035 0.0034
3.02 3.03
0.4987 0.4988
0.0013 0.0012
3.90 4.00
0.49995 0.00005 0.49997 0.00003
0 z
La columna de la Izquierda en cada grupo de tres muestra el valor z particular. La columna del centro muestra el área contenida entre la media y este valor z. La columna de la derecha muestra el área que queda en toda la distribución a la derecha de este valor de z . El área total es una unidad y los valores mostrados son porciones decimales de ella. Éstas son también las probabilidades de encontrar un valor dentro del área en cuestión. Para los porcentajes, multiplique por 100 todos los valores del área. Para las áreas entre - z y +z, duplique los valores mostrados. fuente: R.P. Runyon y A. Haber, Fundamentals o f Behavioral Statistic, 3rd ed. Reading, Mass.: McGraw-Hill Publishing Co. (1976). Utilizado con autorización. Ilustraciones de R. B. McCall, Funda m ental Statistics for Psychology, Second Edition, New York: Harcourt Brace Jovanovlch, Inc. (1975).
542 • Métodos de investigación y estadística
(Apéndice 2)
Tabla 3. Valores críticos en la prueba binomial de s ig n o N ivel d e significación para pruebas de u n a co la
La S calculada debe ser igual o m en o r q u e el valor (critico) de la tabla para la significación al nivel mostrado. fu e n t e : F. Clegg, Simple Statistics, Cambridge University Press, 1982. Con la amable autorización del autor y los editores.
Tablas estadísticas • 543
Tabla 4. Valores críticos de X2 N ivel de sig n ificació n para pruebas d e una cola 0 .0 5
0 .0 2 5
0 .0 1
0 .0 0 5
0 .0 0 0 5
Nivel de significación para pruebas de dos colas
gi
0 .2 0
0 .1 0
0 .0 5
0 .0 2
0 .0 1
0 .0 0 1
1 2 3 4 5
1 .6 4 3 .2 2 4 .6 4 5 .9 9 7 .2 9
2 .7 1 4 .6 0 6 .2 5 7 .7 8 9 .2 4
3 .8 4 5 .9 9 7 .8 2 9 .4 9 1 1 .0 7
5.41 7 .8 2 9 .8 4 1 1 .6 7 1 3 .3 9
6 .6 4 9 .2 1 1 1 .3 4 1 3 .2 8 1 5 .0 9
1 0 .8 3 1 3 .8 2 1 6 .2 7 1 8 .4 6 2 0 .5 2
6 7 8 9 10
8 .5 6 9 .8 0 1 1 .0 3 1 2 .2 4 1 3 .4 4
1 0 .6 4 1 2 .0 2 1 3 .3 6 1 4 .6 8 1 5 .9 9
1 2 .5 9 1 4 .0 7 15.51 1 6 .9 2 18.31
1 5 .0 3 1 6 .6 2 1 8 .1 7 1 9 .6 8 2 1 .1 6
16.81 1 8 .4 8 2 0 .0 9 2 1 .6 7 2 3 .2 1
2 2 .4 6 2 4 .3 2 2 6 .1 2 2 7 .8 8 2 9 .5 9
11 12 13 14 15
1 4 .6 3 15.81 1 6 .9 8 1 8 .1 5 19.31
1 7 .2 8 1 8 .5 5 19.81 2 1 .0 6 2 2 .3 1
1 9 .6 8 2 1 .0 3 2 2 .3 6 2 3 .6 8 2 5 .0 0
2 2 .6 2 2 4 .0 5 2 5 .4 7 2 6 .8 7 2 8 .2 6
2 4 .7 2 2 6 .2 2 2 7 .6 9 2 9 .1 4 3 0 .5 8
3 1 .2 6 3 2 .9 1 3 4 .5 3 3 6 .1 2 3 7 .7 0
16 17 18 19 20
2 0 .4 6 2 1 .6 2 2 2 .7 6 2 3 .9 0 2 5 .0 4
2 3 .5 4 2 4 .7 7 2 5 .9 9 2 7 .2 0 2 8 .4 1
2 6 .3 0 2 7 .5 9 2 8 .8 7 3 0 .1 4 3 1 .4 1
2 9 .6 3 3 1 .0 0 3 2 .3 5 3 3 .6 9 3 5 .0 2
3 2 .0 0 3 3 .4 1 3 4 .8 0 3 6 .1 9 3 7 .5 7
3 9 .2 9 4 0 .7 5 4 2 .3 1 4 3 .8 2 4 5 .3 2
21 22 23 24 25
2 6 .1 7 2 7 .3 0 2 8 .4 3 2 9 .5 5 3 0 .6 8
2 9 .6 2 3 0 .8 1 3 2 .0 1 3 3 .2 0 3 4 .3 8
3 2 .6 7 3 3 .9 2 3 5 .1 7 3 6 .4 2 3 7 .6 5
3 6 .3 4 3 7 .6 6 3 8 .9 7 4 0 .2 7 4 1 .5 7
3 8 .9 3 4 0 .2 9 4 1 .6 4 4 2 .9 8 4 4 .3 1
4 6 .8 0 4 8 .2 7 4 9 .7 3 5 1 .1 8 5 2 .6 2
26 27 28 29 30
3 1 .8 0 3 2 .9 1 3 4 .0 3 3 5 .1 4 3 6 .2 5
3 5 .5 6 3 6 .7 4 3 7 .9 2 3 9 .0 9 4 0 .2 6
3 8 .8 8 4 0 .1 1 4 1 .3 4 4 2 .6 9 4 3 .7 7
4 2 .8 6 4 4 .1 4 4 5 .4 2 4 9 .6 9 4 7 .9 6
4 5 .6 4 4 6 .9 6 4 8 .2 8 4 9 .5 9 5 0 .8 9
5 4 .0 5 5 5 .4 8 5 6 .8 9 5 8 .3 0 5 9 .7 0
32 34 36 38 40
3 8 .4 7 4 0 .6 8 4 2 .8 8 4 5 .0 8 4 7 .2 7
4 2 .5 9 4 4 .9 0 4 7 .2 1 4 9 .5 1 5 1 .8 1
4 6 .1 9 4 8 .6 0 5 1 .0 0 5 3 .3 8 5 5 .7 6
5 0 .4 9 5 3 .0 0 5 5 .4 9 5 7 .9 7 6 0 .4 4
5 3 .4 9 5 6 .0 6 5 8 .6 2 6 1 .1 6 6 3 .6 9
6 2 .4 9 6 5 .2 5 6 7 .9 9 7 0 .7 0 7 3 .4 0
44 48 52 56 60
5 1 .6 4 5 5 .9 9 6 0 .3 3 6 4 .6 6 6 8 .9 7
5 6 .3 7 6 0 .9 1 6 5 .4 2 6 9 .9 2 7 4 .4 0
6 0 .4 8 6 5 .1 7 6 9 .8 3 7 4 .4 7 7 9 .0 8
6 5 .3 4 7 0 .2 0 7 5 .0 2 7 9 .8 2 8 4 .5 8
6 8 .7 1 7 3 .6 8 7 8 .6 2 8 3 .5 1 8 8 .3 8
7 8 .7 5 8 4 .0 4 8 9 .2 7 9 4 .4 6 9 9 .6 1
El valor calculado de X 2 debe ser igual o exceder el valor (crítico) de la tabla para tener significación al nivel mostrado. C o n d e n s a d o d e R. A. F ish e r y F. Y a te s , Statistical Tables for Biological, Agricultural and Medical Research, (6th e d .) L o n g m a n G ro u p UK Ltd (1974).
544 • Métodos de i¡
Tabla 5a. V alores críticos para U para prueba de una cola al 0.005; prueba de d o s co la s al 0.01* (Mann-Whitney)
s
I f
f |.
11 12 13 14 15 16 17 18 19 20
— — —
— — — — — --- . — . — — — ' --— --- , 0 0 —
0 1 1 1 2 2 2 2 3 3
2 3 3 4 5 5 6 6 7 8
5 6 7 • 7 8 9 10 11 12 13
7 9 10 11 12 13 15 16 17 18
10 12 13 15 16 18 19 21 22 24
13 15 17 18 20 22 24 26 28 30
16 18 20 22 24 27 29 31 33 36
Las líneas en el cuerpo de la tabla indician que no se tiene decisión para el nivel de significación referido. Para cualquier m y m el valor observado de Ues significativo para el nivel de significación dado, si es igual o m enor que los valores críticos mostrados. Fuente: R. Runyon and A. Haber (1 9 7 6 ) Fundamentals of Behavioural Statistics (3rd ed.) Reading, Mass.: McGraw-Hill, Inc., con la am able autorización del editor.
Tabla 5b. Valores críticos de U para prueba de una cola al 0.01; prueba de dos colas al 0.02* (Mann-Whitney)
— — — —
0 0 1 1
4 4 4 5
8 9 9 10
13 14 15 16
18 19 20 22
23 24 26 28
28 30 32 34
33 36 38 40
38 41 44 47
44 47 50 53
49 53 56 60
55 59 63 67
60 65 69 73
66 70 75 80
71 76 82 87
77 82 88 93
82 88 94 100
88 94 101 107
93 100 107 114
Las líneas en el cuerpo de la tabla Indican que no se tiene decisión para el nivel de significación referido. Para cualquier n i y 02 el valor observado de U es significativo para el nivel de significación dado, si es Igual o m enor a los valores críticos mostrados. F uente: R. Runyon and A. Haber (1 9 7 6 ) Fundamentals of Behavioural Statistics (Zrú. ed.) Reading, Mass.: M cG raw H ill, Inc., con la am able autorización del editor.
Tablas estadísticas • 545
17 18 19 20
(Apéndice 2)
Las lineas en el cuerpo de la tabla indican que no se tiene decisión para el nivel de significación referido. Para cualquier m y m el valor observado de U es significativo al nivel de significación dado, si es igual o m enor a los valores críticos mostrados. Fuente: R. Runyon and A. Haber (1976) Fundamentals of Behavioural Statistics (3rd. ed.) Reading, Mass.: M cG raw H ill, Inc., con la am able autorización del editor.
546 • Métodos de investigación y estadística. . .
Cuadro 5c. Valores críticos de U para prueba de una cola al 0.025; prueba de dos colas al 0.05' (Mann-Whitney)
Tabla 5d. Valores críticos de U para prueba de una cola al 0.05; prueba de d o s co la s al 0.10* (Mann-Whitney)
ni 1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
115
48 55 61 68 75 82 88 95 102 109 116 123
94 101 109 116 123 130
100 107 115 123 130 138
n2 1
2 3 4 5 6 7 8
0 0
39
47
54
62
69
77
84
92
100
107
* Las líneas en el cuerpo de la tabla indican que no se tiene decisión para el nivel de significación referido. Para cualquier m y m el valor observado de U es significativo al nivel de significación dado, si es Igual o menor a los valores críticos mostrados. Fuente: R. Runyon and A. Haber (1976) F u n d a m e n t a l s o f B e h a v i o u r a l S t a t i s t i c s (3rd. ed.) Reading, Mass.: McGraw Hill, Inc., con la amable autorización del editor.
Tablas estadísticas • 547
9 10 11 12 13 14 15 16 17 18 19 20
Una cola
Dos colas
0.10 0.05 0.025 0.005
Número de puntuaciones en la muestra más pequeña (rp) 2
3
0.20 0.10 0.05 0.01
3
7 6
0.10 0.05 0.025 0.005
0.20 0.10 0.05 0.01
3
7 6
13 11 10
0.10 0.05 0.025 0.005
0.20 0.10 0.05 0.01
4 3
8 7 6
14 12 11
0.10 0.05 0.025 0.005
0.20 0.10 0.05 0.01
4 3
0.10 0.05 0.025 0.005
0.20 0.10 0.05 0.01
4 3
0.10 0.05 0.025 0.005
0.20 0.10 0.05 0.01
5 4 3
1
4
5
6
7
8
9
(4)
(5) 20 19 17 15
(6)
15 13 12 10
22 20 18 16
30 28 26 23
(7)
10 8 7
16 14 13 10
23 21 20 16
32 29 27 24
41 39 36 32
(8)
11 9 8
17 15 14 11
25 23 21 17
34 31 29 25
44 41 38 34
55 51 49 43
9 8 7
(9)
10
11
12
13
14
15
16
(Apéndice 2)
Número de puntuaciones en la muestra más grande (m)
Nivel de significación
548 • Métodos de investigación y estadística. . .
Tabla 6. Valores críticos de T en la prueba de suma de rangos de Wilcoxon
Número de puntuaciones en la muestra más grande (m )
0.10 0.05 0.025 0.005
0.20 0.10 0.05 0.01
1
5 4 3
11 9 8 6
19 16 14 11
27 24 22 18
36 33 31 26
46 43 40 35
58 54 51 45
0.10 0.05 0.025 0.005
0.20 0.10 0.05 0.01
1
6 4 3
12 10 9 6
20 17 15 12
28 26 23 19
38 35 32 27
49 45 42 37
60 56 53 47
0.10 0.05 0.025 0.005
0.20 0.10 0.05 0.01
1
6 4 3
13 11 9 6
21 18 16 12
30 27 24 20
40 37 34 28
51 47 44 38
63 59 55 49
0.10 0.05 0.025 0.005
0.20 0.10 0.05 0.01
1
7 5 4
14 11 10 7
22 19 17 13
32 28 26 21
42 38 35 30
54 49 46 40
66 62 58 51
0.10 0.05 0.025 0.005
0.20 0.10 0.05 0.01
1
7 5 4
15 12 10 7
23 20 18 14
33 30 27 22
44 40 37 31
56 52 48 41
69 64 60 53
0.10 0.05 0.025 0.005
0.20 0.10 0.05 0.01
1
7 5 4
16 13 11 7
25 21 19 14
35 31 28 22
46 42 38 32
59 54 50 43
72 67 62 54
0.10 0.05 0.025 0.005
0.20 0.10 0.05 0.01
1
8
16 13 11 8
26 22 20 15
37 33 29 23
48 44 40 33
61 56 52 44
75 69 65 56
6 4
70 66 62 56 (10) 73 69 65 58
87 82 78 71 (11)
76 72 68 61
91 86 81 73
106 100 96 87
( 12)
80 75 71 63
94 89 84 76
110 104 99 90
127 120 115 105 (13)
83 78 73 65
98 92 88 79
114 108 103 93
131 125 119 109
86 81 76 67
102 118 136 154 174 96 112 129 147 166 91 106 123 141 160 81 96 112 129 147 (15)
149 142 136 125 (14)
179 171 164 151
200 192 184 171
Tablas estadísticas • 549
90 106 123 141 159 84 99 116 133 152 79 94 110 127 145 69 84 99 115 113
La
T
185 176 169 155 190 182 174 159
206 197 190 175 212 203 195 180
229 219 211 196 235 225 217 201
(17) 259 249 240 223 (18)
9 7 5
19 15 13 8
30 26 22 16
42 37 33 26
55 49 45 37
69 63 58 49
84 77 72 62
100 117 135 155 175 196 93 110 127 146 166 187 87 103 121 139 158 179 76 92 108 125 144 163
218 208 200 184
242 231 222 206
266 255 246 228
291 280 270 252 (19)
2 1
10 7 5 3
20 16 13 9
31 43 27 38 23* 34 17 27
57 51 46 38
71 65 60 50
87 80 74 64
103 121 139 159 180 96 113 131 150 171 90 107 124 143 163 78 94 111 129 147
202 192 182 168
224 214 205 189
248 237 228 210
273 262 252 234
299 287 277 258
325 313 303 283 (20)
2 1
10 7 5 3
21 17 14 9
32 28 24 18
59 53 48 39
74 67 62 52
90 83 77 66
107 125 144 164 185 99 117 135 155 175 93 110 128 147 167 81 97 114 132 151
207 197 188 172
230 220 210 193
255 243 234 215
280 268 258 239
306 294 283 263
333 320 309 289
1
18
0.20 0.10 0.05 0.01
19
0.10 0.05 0.025 0.005
0.20 0.10 0.05 0.01
20
0.10 0.05 0.025 0.005
0.20 0.10 0.05 0.01
calculada debe ser
F uente : Tate y Clelland de los autores.
igual o menor
45 40 35 28
109 103 97 86 113 106 100 89
127 120 113 102 131 123 117 105
145 138 131 119 150 142 135 122
165 156 150 136 170 161 154 140
361 348 337 315
que el valor (critico) de la tabla para tener significación al nivel mostrado.
N o n - p a r a m e t r ic a n d s h o r t - c u t s ta tis t ic s ,
Interstate Printers and Publishers Inc., Danville, Illinois (1957), con el amable permiso
(Apéndice 2)
‘3 Z
93 87 82 72 97 90 84 74
0.10 0.05 0.025 0.005
a> E
78 72 67 58 81 75 70 60
9 6 5
o
ow 3 c 3a
64 58 54 46 66 61 56 47
1
s +->
50 46 42 34 52 47 43 36
8 6 4
17
E « c o
38 34 30 24 40 35 32 25
1
e 3
i
27 24 21 15 28 25 21 16
0.20 0.10 0.05 0.01 0.20 0.10 0.05 0.01
16
0> E
17 14 12 8 18 15 12 8
0.10 0.05 0.025 0.005 0.10 0.05 0.025 0.005
■O cO)
550 • Métodos de investigación y estadística. . .
(16) c*
Tablas estadísticas • 551
Tabla 7 . Valores c r ític o s d e T e n la p r u e b a d e ra n g o s c o n s ig n o d e W ilc o n x o n
La T calculada debe al nivel mostrado.
ser igual o menor que
el valor (crítico) de la tabla para alcanzar significación
fuente : Adaptado de R. Meddis, S t a t i s t i c a l H a n d b o o k (1975), con el amable permiso del autor y editores.
f o r N o n - S t a t is t ic ia n s ,
McGraw-Hill. London
552 • Métodos de investigación y estadística
(Apéndice 2)
Tabla 8. Valores críticos de i N ivel d e significación p ara una prueba d e una cola
0.05
0.025
N ivel de significa
La t calculada debe mostrado. fuente :
ser igual o exceder
a prueba de d o s colas
el valor (crítico) de la tabla para tener significación al nivel
Recopilada de R. A. Fisher and F. Yates, S t a t i s t i c a l (6th ed.) Longman Group UK Ltd (1974).
M e d ic a l R e s e a rc h ,
0.01
T a b le s f o r B io lo g ic a l, A g r ic u lt u r a l a n d
Tablas estadísticas • 553
Tabla 9. Valores críticos para la rs de Spearman N ivel d e significación para una prueba d e do s colas
0.10
0.05
0.02
0,01
N ivel de sig n ificació n para una p ru eb a de una cola
=4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
21
22 23 24 25 26 27 28 29 30 Para
n >
'
0.05
0.025
0.01
1.000 0.900 0.829 0.714 0.643 0.600 0.564 0.536 0.503 0.484 0.464 0.443 0.429 0.414 0.401 0.391 0.380 0.370 0.361 0.353 0.344 0.337 0.331 0.324 0.317 0.312 0.306
1.000 0.886 0.786 0.738 0.700 0.648 0.618 0.587 0.560 0.538 0.521 0.503 0.485 0.472 0.460 0.447 0.435 0.425 0.415 0.406 0.398 0.390 0.382 0.375 0.368 0.362
1.000 0.943 0.893 0.833 0.783 0.745 0.709 0.671 0.648 0.622 0.604 0.582 0.566 0.550 0.535 0.520 0.508 0.496 0.486 0.476 0.466 0.457 0.448 0.440 0.433 0.425
0.005
1.000 0.929 0.881 0.833 0.794 0.755 0.727 0.703 0.675 0.654 0.635 0.615 0.600 0.584 0.570 0.556 0.544 0.532 0.521 0.511 : 0.501 0.491 0.483 0.475 0.467
30, se puede evaluar la significación de rs utilizando la fórmula: t = rs
'lid 2 -r,
1
g l = rt — 2
y verificando el valor de t en la tabla 8. La rs calculada debe ser igual o exceder el valor (crítico) de la tabla para tener significación al nivel mostrado. fuente : J. H. Zhar, Significance testing of the Spearman Rank Correlation Coefficient, J o u r n a l o f t h e A m e r i c a n S t a t i s t i c a l A s s o c i a t i o n , 67, 578-80. Con la amable autorización de los editores.
554 • Métodos de investigación y estadística. . .
(Apéndice 2)
Tabla 10. Valores críticos de la rd e Pearson Nivel d e significación para una prueba d e una co la
La /-calculada debe ser igual o exceder el valor (critico) de la tabla para tener significación al nivel mostrado. fuente : F. C. Powell, C a m b r i d g e m a t h e m a t i c a l a n d S t a t i s t i c a l T a b l e s , Cambridge University Press (1976). Con la amable autorización del autor y los editores.
1
1 2 3
4 5
6 7
8
Grados de libertad para el denominador
g
10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26 27 28 29 30 40 60
120 OO
2
3
4
5
6
Grados de libertad para el num erador 7 8 9 10 12 15
20
24
30
40
60
120
X
161.4 199.5 215.7 224.6 230.2 234.0 236.8 238 9 240.5 241.9 243.9 245.9 248.0 249.1 250.1 251.1 252.2 253.3 254.3 18.51 19.00 19.16 19.25 19.30 19.33 19.35 19.37 19.38 19.40 19.41 19.43 19.45 19.45 19.46 19.47 19.48 19.49 19.50 8.94 8.89 9.28 9.12 9.01 8.85 8.81 8.74 10.13 9.55 8.79 8.70 8.66 8.64 8.62 8.59 8.57 8.55 8.53 6.39 6.94 6.59 6.26 6.16 6.09 6.04 6.00 5.96 5.91 5.86 5.80 5.77 5.75 5.72 5.69 5.66 5.63 7.71 5.79 5.41 5.19 5.05 4.95 4.88 4.82 4.77 4.74 4.68 4.56 6.61 4.62 4.53 4.50 4.46 4.43 4.40 4.36 5.14 4.39 4.28 4.15 4.76 4.53 4.21 4.10 4.06 4.00 3.94 3.87 3.84 3.77 3.74 5.99 3.81 3.70 3.67 3.97 3.87 4.74 4.35 4.12 3.79 3.73 3.68 3.64 3.57 3.44 3.41 5.59 3.51 3.38 3.34 3.30 3.27 3.23 4.07 3.84 3.69 3.58 3.50 3.44 4.46 3.39 3.35 3.28 3.22 3.15 3.08 3.04 3.01 5.32 3.12 2.97 2.93 3.86 3.63 3.48 3.37 3.29 3.23 3.18 3.14 3.07 2.94 5.12 4.26 3.01 2.90 2.86 2.83 2.79 2.75 2.71 3.71 3.48 3.33 3.22 3.14 3.07 4.96 4.10 3.02 2.98 2.91 2.85 2.77 2.74 2.66 2.62 2.58 2.54 2.70 3.59 3.36 3.20 3.09 3.01 2.95 2.90 2.85 2.79 4.84 3.98 2.72 2.65 2.61 2.57 2.49 2.45 2.53 2.40 3.49 3.00 2.91 3.89 3.26 3.11 2.85 2.80 2.75 2.69 2.54 2.54 2.47 4.75 2.62 2.43 2.38 2.34 2.30 3.18 3.03 2.92 2.83 2.77 2.71 4.67 3.81 3.41 2.67 2.60 2.53 2.46 2.42 2.38 2.34 2.30 2.25 2.21 2.96 2.85 3.74 3.34 3.11 2.76 2.70 2.65 2.60 2.53 2.46 4.60 2.39 2.35 2.31 2.27 2.22 2.18 2.13 2.90 2.71 2.64 4.54 3.68 3.29 3.06 2.79 2.59 2.54 2.48 2.40 2.33 2.29 2.25 2.20 2.16 2.11 2.07 3.24 3.01 2.74 2.66 2.59 2.54 2.49 2.42 2.35 2.28 2.24 2.19 2.15 2.11 2.06 2.01 4.49 3.63 2.85 2.96 2.81 2.70 2.61 2.55 3.59 3.20 2.49 2.45 2.38 2.31 2.23 2.10 2.06 2.01 1.96 4.45 2.19 2.15 2.66 2.58 2.51 2.46 2.41 2.34 2.27 2.19 2.15 2.11 2.06 2.02 1.97 1.92 3.16 2.93 2.77 4.41 3.55 2.74 2.54 3.13 2.90 2.63 2.48 2.38 4.38 3.52 2.42 2.31 2.23 2.16 2.11 2.07 2.03 1.98 1.93 1.88 2.87 2.51 2.45 3.49 3.10 2.71 2.60 2.39 2.35 2.28 2.20 2.12 2.08 2.04 1.99 1.95 1.90 1.84 4.35 3.07 2.84 2.68 2.57 2.49 2.42 2.37 2.32 2.25 2.18 2.10 2.05 2.01 1.96 1.92 1.87 1.81 3.47 4.32 2.66 2.55 2.46 2.40 2.34 2.30 2.23 2.15 2.07 2.03 1.98 1.94 1.89 1.84 1.78 3.44 3.05 2.82 4.30 2.80 2.64 2.44 2.37 3.03 2.53 2.32 2.27 2.20 2.13 2.05 2.01 1.96 1.91 1.86 1.81 1.76 4.28 3.42 2.78 2.51 2.36 3.40 3.01 2.62 2.42 2.30 2.25 2.18 4.26 2.11 2.03 1.98 1.94 1.89 1.84 1.79 1.73 2.49 4.24 3.39 2.99 2.76 2.60 2.40 2.34 2.28 2.24 2.09 2.16 2.01 1.96 1.92 1.87 1.82 1.77 1.71 3.37 2.98 2.74 2.59 2.47 2.39 2.27 4.23 2.32 222 2.15 2.07 1.99 1.95 1.90 1.85 1.80 1.75 1.69 2.96 2 73 2.46 2.37 3.35 2.57 2.31 2.25 2.20 2.13 2.06 1.97 1.93 1.88 1.84 1.79 1.73 1.67 4.21 3.34 2.95 2.71 2.56 2.45 2.36 2.29 2.24 4.20 2.19 2.12 2.04 1.96 1.91 1.87 1.82 1.77 1.71 1.65 2.93 2.35 2.28 4 18 3.33 2.70 2.55 2.43 222 2.18 2.10 2.03 1.94 1.90 1.85 1.81 1.75 1.70 1.64 2.69 2.42 2.33 2.27 4.17 3.32 2.92 2.53 2.21 2.16 2.09 2.01 1.93 1.89 1.84 1.79 1.74 1.68 1.62 2.84 2.45 2.34 2.25 2.18 4.08 3.23 2.61 2.12 2.08 2.00 1.92 1.84 1.79 1.74 1.69 1.64 1.58 1.51 2.37 3.15 2.76 2.53 2.25 2.17 2.10 2.04 1.99 1.92 1.84 1.75 1.70 1.65 1.59 1.53 1.47 1.39 4.00 2.68 2.45 2.29 2.17 2.09 2.02 1.96 1.91 1.83 1.75 1.66 1.61 1.55 1.50 1.43 1.35 1.25 3.07 3.92 2.37 3.00 2.60 2.21 2.10 2.01 1.94 1.88 1.83 1.75 1.67 1.57 1.52 1.46 1.39 1.32 1.22 1.00 3 84
Los valores de F que igualen o excedan los valores de la tabla son significativos para el nivel del 5% o más. T e x t b o o k o f P s y c h o l o g y (2nd ed.) Routledge (Recopilado de la tabla 18 de T h e E. S. y Hartley, H. O., con el permiso de E. S. Pearson y los dueños de B i o m e t r i k a ) .
F uente: J. Radford & E. Govier
B io m e t r ík a T a b le s f o r S t a t is t ic ia n s ,
Vol. I, editado por Pearson,
6
Grados de libertad para el num erador 7 8 9 10 12 15
20
24
30
40
60
120
G rad o s
de
lib e r ta d p a r a e l
denominador
1 4052 4999.5 5403 5625 5764 5859 5928 5982 6022 6056 6106 6157 6209 6235 6261 6287 6313 6339 6366 2 98.50 99.00 99.17 99.25 99.30 99.33 99.36 99.37 99.39 99.40 99.42 99.43 99.45 99.46 99.47 99.47 99.48 99.49 99.50 3 34.12 30.82 29.46 28 71 28.24 27.91 27.67 27.49 27.35 27.23 27.05 26.87 26.69 26.60 26.50 26.41 28.32 26.22 26.13 4 21.20 18.00 16.69 15.98 15.52 15.21 14.98 14.90 14.66 14.55 14.37 14.20 14.02 13.93 13.84 13.75 13.65 13.56 13.46
556 • Métodos de investigación y estadística. . .
Tabla 12. Valores críticos de F al nivel de significación de 1%
e tr ik a T a b le s f o r S ta tis t ic ia n s ,
Vol. I, editado por Pearson,
(Apéndice 2)
Los valores de F que Igualen o excedan los valores de la tabla son significativos para el nivel del 1 por ciento. T e x t b o o k o f P s y c h o l o g y (2nd ed.) Routledge (Recopilado del cuadro 18 of T h e B i o m E. S. y Hartley, H. O., con el permiso de E. S. Pearson y los dueños de B i o m e t r i k a . )
F uente: J. Radford & E. Govler
Tablas estadísticas • 557
10
—
14
20
20
26
26
34
17
23
26
34
34
48
44
62
24
32
38
50
51
72
67
94
33
45
51
71
71
99
93
130
42
59
66
92
92
129
121
170
53
74
82
115
115
162
151
213
64
90
100
140
140
197
184
260
76
106
118
167
166
234
219
309
88
124
138
195
194
274
256
361
Los valores de P que igualen o excedan los valores de la tabla son significativos para el nivel indicado o más. Para los valores de k y n más allá de los aquí mostrados, donde los tamaños de las muestras difieren, o en ambos, se puede probar la significación de P utilizando la fórmula en el texto, página 391. Tomado de Jonckheere, A. R., ‘A distribution-free k-sample test against ordered alterna tives’. Biometrika, Vol. 41, pp. 133-145. Con autorización de los dueños de Biometrika.
558 • Métodos de investigación y estadística.
(Apéndice 2)
T a b la 1 4 . V a lo r e s c r ític o s d e L e n la p r u e b a d e te n d e n c ia d e P a g e
Los valores de L que igualen o excedan los valores de la tabla son significativos para el nivel indicado o más. Para los valores de k y n más allá de los aquí mostrados, donde los tamaños de las muestras difieren, o en ambos, se puede probar la significación de P utilizando la fórmula en el texto, véase página 393. Tomado de Page, E. B. “Ordered hypotheses for multiple trements; a significance test of linear rank" Journal o f the Am erican Statistical Association, Vol. 58, pp. 216-230. Con autorización de los editores.
Respuestas a los ejercicios y preguntas estructuradas
P a r a las preguntas de final de capitulo, sólo se proporcionan las respuestas específicas y directas. Estas no se incluyen cuando se le pide al lector que realice un ejercicio o dé una descripción abierta.
CAPÍTULO2 1
VI a) Tipo de propaganda. b) Nivel de ruido. c) Hora del día. d) Cantidad de práctica. e) Da o no sonrisa. f) Nivel de frustración. g) Orden de nacimiento. h) Presencia o ausencia de público.
VD Fuerza de la actitud. Eficiencia laboral. Lapso de atención. Nivel de desempeño. Recibe o no sonrisa. Nivel de agresividad. Personalidad y nivel intelectual, Comportamiento de la gente.
2
Ejemplos: Ruido: Utilice una audiograbación específica de ruido mecánico. La VI en términos de niveles de decibeles medidos. Lapso de atención: Medido por el número de “crestas de eco” detectadas en una pantalla tipo radar.
560 • Métodos de investigación y estadística
(Apéndice 3)
Sonrisa: Reconocidá por el calificador, quien desconoce el objetivo de la investi gación y que dura más de un segundo. 3
a) VI: educación preescolar o no. VD: habilidades cognoscitivas y socialización. b) Ejemplo: ¿están más preocupados por la educación los padres de preescolares? c) Equipare a los padres (respecto a su preocupación educativa) en ambos grupos.
CAPÍTULO3 1 2 3 4 5 6
Participantes en la prueba (o en grupo control equivalente) sin los aliados. Ejemplo: área, número de hijos, edad, etcétera. Sólo voluntarios; deben leer el boletín; no abstemios. Sóloc. Grupo placebo; ningún programa especial, pero con un poco de atención y donde los padres esperan que los niños mejoren. Ejemplo: el lado izquierdo contiene una pandilla “ lista” de estudiantes.
CAPÍTULO4 1
b) Por ejemplo, es más probable evitar distorsión a través del conocimiento de evaluaciones. d) Tal vez sea la más confiable; menos cambio entre medidas.
2
a) Cualquier estudio donde el efecto es estadísticamente significativo y genuino, pero donde no es posible la generalización a otras personas o lugares; por ejemplo, el uso de imágenes mentales mejora la memoria de la lista para casi todos, donde sea, pero las imágenes en sí pueden no ser el factor causal; el esfuerzo de crear imágenes puede mejorar el recuerdo. b) Cualquier estudio donde el efecto demostrado se extiende a otras personas en otros lugares, pero donde existe una variable confusa responsable; por ejemplo, el uso de imágenes mentales mejora la memoria de la lista para casi todos, donde sea, pero las imágenes en sí pueden no ser el factor causal; el esfuerzo de crear imágenes puede mejorar el recuerdo. c) Una prueba psicológica puede siempre producir los mismos datos en la misma persona (es consistente), pero puede medir algo muy distinto para lo que fue creada. Una medida confiable de “autoritarismo” puede realmente medir “asertividad” .
4
Como ejemplo: la diferencia entre el amor de uno por su madre y su compañero; los sentimientos de desamparo en un refugio de una guerra civil; la nostalgia que se produce por una canción antigua.
Respuestas a los ejercicios y preguntas. . . • 561
CAPÍTULO5 1
2
a ) Investigación de campo —ex post facto debido a que la VI es el sexo.
b) Investigación de laboratorio; ex post facto. c) Experimento de campo. d) Experimento de laboratorio. e) Cuasiexperimento de laboratorio. f) Investigación de laboratorio; ex post facto. g) Investigación de campo. h) Experimento natural. i) Experimento casi de campo. a) a y c. b) g y h. c) todas. d ) todas (en [a], el observador necesita desconocer que la VI es el sexo).
CAPÍTULO6 1 2
3 4 5
VI: complejidad del patrón. VD: tiempo ocupado observando. Diseño: medidas repetidas (con aleatorización y presentación simultánea de la VI). Agregue la condición con los mismos bebés atraídos hacia el lado superficial, esto proporciona medidas repetidas; o hacer que el grupo control se atraiga hacia el lado superficial —muestras independientes. Medidas repetidas. Aleatorización de los estímulos de la VI. Evita efectos de orden. Medidas repetidas. Contrabalanceo. Evita efectos de orden. Pares igualados.
CAPÍTULO7 4
Los calificadores varían demasiado entre sí. Se utiliza la correlación y da -0.24. La confiabilidad es muy baja, la correlación es negativa.
CAPÍTULO8 1 Véase página 156. 3 a) No aleatorio. Inicio de la muestra de bola de nieve.
562 • Métodos de investigación y estadística. . .
(Apéndice 3)
b) El entrevistado inicial no está dispuesto a admitir el problema; el entrevistado inicial otorga menos contactos adicionales; el entrevistador no percibe algunos incidentes como “ serios” ; el entrevistador se rehúsa a registrar los incidentes por razones políticas personales; el entrevistador no es hábil para interrogar, es agresivo, muestra prejuicios, etcétera. c) El cuestionario estructurado es más confiable; los resultados son más comparables; las muestras más grandes son más representativas. 5
Los seis primeros son voluntarios. Sólo se puede muestrear a las escuelas que aceptaron el estudio. No se puede incluir a aquellos sin teléfono. Es más factible seleccionar a aquellos que utilizan un club de jóvenes.
CAPÍTULO 9
1
2
3 4
5
a) Se considera confiable a partir de que la correlación es alta, entonces es correcto utilizarla. b) ¿Accidente nuclear reciente? a) ¿Comparar los resultados con los datos de la entrevista? b) No se puede evaluar de nuevo a los estudiantes bajo circunstancias similares, asi que la confiabilidad debe verificarse sólo internamente. Confiable, no necesariamente válido. a) La pregunta invita a un acuerdo. b) Supone que los niños deberían ser castigados. c) ¿Es fácil de responder? d) Doble respuesta: “ la gente no es la misma, pero deben tratarse con respeto” , es una posible respuesta. e) Doble negativa. I) Respuesta ambigua. El sexista extremo y feminista podrían estar de acuerdo, g) Término técnico; ¿se entenderá? Utilice una evaluación ciega empleando un investigador ingenuo distinto.
CAPÍTUL012 2 3 4
5
Ordinal. Nominal. a) Ordinal. b) Razón. c) Tipo de intervalo (o “ intervalo plástico), pero manejado como ordinal. d) Nominal. Apartado b.
Respuestas a los ejercicios y preguntas. . . • 563
6 7
“Hasta arriba” es una medida en escala ordinal. Desconocemos qué tan distante estaba de las otras. Nominal —golpeó/no golpeó la guarnición. Ordinal —calificó la suavidad en una escala de 1 a 10; Intervalo/razón —mide la velocidad en la carrera.
8 Nivel nominal Consistente Inconsistente Arriba de la media 4 7 Abajo de la media 5 2
9
a) Nominal. b) Intervalo (debido a la estandarización). c) Ordinal. d) Intervalo plástico —mejor convertirlo a ordinal. e) Razón. 0 Nominal (frecuencias). g) Intervalo plástico —mejor convertirlo a ordinal. h) Intervalo, debido a que la escala está estandarizada. i) Razón si se mide utilizando regla. j) Intervalo plástico —mejor convertirlo a ordinal.
CAPÍTUL0131 2 1 2
Varones: media = 171.6; mediana = 132. Mujeres: media = 367.2; mediana = 345. Los datos son sesgados, entonces utilice la mediana. Mediana = 79 (o 79.25 si se utiliza la fórmula precisa). Tallo y hoja 6.2555 7.0012222334455666677899 8.000122338 9.0235 10.0236 11.027 12.1278 13.5
564 • Métodos de investigación y estadística
3 5 6 7
(Apéndice 3)
Media = 19.403. Debido a que no existe ninguna variación, todas las puntuaciones deben ser iguales; todas las puntuaciones son, por ende, 0.8 y la media es 0.8. a) 75.3 b) 25.14% c) 1.33 Sesgo negativo
8
9
Posición de la mediana: 26 Posición del eje principal: 13 Dispersión del eje: 22 Externo: 135
Mediana = 79 Eje inferior: 73 Eje superior: 95 Barra exterior baja: 40 Barra exterior alta: 128 Valor adyacente: 62 Valor adyacente: 128
CAPÍTUL014 1 2 3 4
a) 1.32 y -0.78 no son significativos. 1.75 y -1.9 sí lo son. b) 1.89 y -1.6 no son significativos. -2.05 y 1.98 sí lo son. a) Uno b) Dos c) Uno d) Dos a) 1% b) Más probable b) Verdadero c) Verdadero d) Verdadero e) Verdadero
f) Falso
CAPÍTULO 151 4 3 2 1 X 2 = 19.25 2 Imprudente ya que todas las frecuencias esperadas son menores que 5 y la muestra es muy pequeña en general. 3 a) “Bondad de ajuste” de Chi cuadrada, una variable, dos categorías. b) Una cola; si se predijo la dirección. c) No.X2 no se puede llevar a cabo en porcentajes. Se requieren frecuencias reales. d) x2 = 67.24, p < 0.001. 4 a) Agí b) Más del 20% de las frecuencias esperadas están por debajo de 5 y los datos son sesgados, pero el resultado es altamente significativo (p < 0.01). Entonces, conclusión de significación muy segura.
Respuestas a los ejercicios y preguntas ... • 565
5
N = 8, S = 1. El resultado es significativo al 5%, sólo una cola. Suponemos que no se predijo una evaluación negativa. Entonces, no es significativa (dos colas).
CAPÍTULO 16 1
2
a) U: 0.025 (una cola), 0.05 (dos colas); 7(WRS): 0.025 (una cola), 0.05 (dos colas). b) U: 0.005 (una cola), 0.01 (dos colas), 7(WRS): No signif. (una o dos colas). c) 7(WSR): 0.025 (una cola), 0.05 (dos colas). d) 0.001 (una cola), 0.002 (dos colas). a)Cuadro 17-1 —utiliza rangos con signo de Wilcoxon: T= 1,N = 12, p < 0.001. b) Cuadro 17-2 —utiliza Mann-Whitney o Suma de rangos de Wilcoxon. Mann-Whitney: U = 49; Wilcoxon: T = 140; ambas no significativas (p > 0.05).
CAPÍTUL017 1
2 3
4
a) No hay homogeneidad de varianza, diseño no relacionado y números de muestra muy diferentes. Por ende, muy imprudente. Mann-Whitney/Suma de rangos de Wilcoxon. b) Falta de homogeneidad de la varianza, pero diseño relacionado. Entonces, es seguro continuar con t (la prueba no paramétrica sería Rangos con signo de Wilcoxon). No. gl = 10. cv (dos colas) al/? < 0.01 = 3.169. a) NS; se mantiene HN. b) 0.01, 1%, se rechaza HN. c) NS, se mantiene HN. d ) 0.005, 0.5%, se rechaza HN. e) NS, se mantiene HN. f) 0.01,1% se rechaza HN. Las distribuciones son sesgadas, contrario a las suposiciones de una distribución normal. Debido a que las muestras son grandes, toda la población puede también ser sesgada.
CAPÍTULO 181 1
a ) El reconocimiento inicial del número se c o r r e la c io n a con la habilidad para leer a la edad de siete años, pero puede n o c a u sa r la lectura compleja. Puede estar
relacionado con algo más que es el responsable de mejorar la capacidad de lectura o los niños pueden diferir de manera natural, en el reconocimiento de letras y la capacidad para leer, en cuyo caso el mayor énfasis podría hacer poca diferencia.
566 • Métodos de investigación y estadística. . .
2 3 4 5
(Apéndice 3)
c) negativo. d) fuerte/muy fuerte. e) p < 0.0005 a) Acepta b) Acepta c) Rechaza d) Acepta e) Rechaza f) Acepta g) Acepta (dirección errónea) No. Para Pearson, los datos deben cumplir los requerimientos paramétricos. Spearman. Los datos deben manejarse como ordinales debido a un juicio humano. Verifique sus cálculos —el mayor posible es 1.
CAPÍTUL019
1 Análisis de varianza unidireccional de Kruskal-Wallis. 2 Prueba de tendencia de Page. 3 Prueba de tendencia de Jonckheere. 4 A2*456de Friedman.
CAPÍTULO 20
2
3
4 5
Componentes de la varianza: Total Entre grupos Error (intragrupos) Grados de libertad: 18 2 16 Resto del cuadro (transpuesto) como para el ejemplo unidireccional en la página 405. Es más seguro Tukey, pero para tres condiciones existen seis pruebas t posibles (1 v 2,1 v 3 ,2 v 3, (1 + 2) v 3,1 v (2 + 3), (1 + 3) v 2) y 6 x 0,01 = 0.06 que es apenas un estimado de la posibilidad de un error tipo I y es un nivel casi aceptable. Prueba t especial. 11-2
CAPÍTULO 21 1 3) Factor: velocidad en nombrar el color (tres niveles); medidas repetidas unidirec cionales. 4) Factor 1: tipo de terapia (tres niveles); Factor 2: sexo del cliente (dos niveles); 3 x 2 no relacionado. 5) Factor 1: edad (dos niveles, no relacionado); Factor 2: método de memorización (tres niveles, medidas repetidas); diseño mixto 2 x 3 . 6) Factor 1: estimulante (tres niveles); Factor 2: nivel de ruido (cuadro niveles); 3 x 4 no relacionado.
Respuestas a los ejercicios y preguntas . . . » 567
2 3
4
7) Factor 1: tipo de personalidad (dos niveles; no relacionado); Factor 2: droga (tres niveles, no relacionado); Factor 3: tipo de tarea (dos niveles, medidas repetidas); diseño mixto 2 x 3 x 2 . 8) Factor 1: nivel de prejuicio (dos niveles); Factor 2: raza de la persona objeto de estudio (dos niveles); Factor 3: tipo de acto social (tres niveles); 2 x 2 x 3 no relacionado. a) f b) g c) d o e d) c e) a f) b Fuente de variación Total Efectos principales Escuela Sexo Interacción: Escuela x sexo Error
Suma de cuadrados 3582.950
Media del cuadrado
g l
19
1022.450 806.450 551.250 1202.800
Significación deF
1 16
1022.450 806.450
13.601 10.728
0.002
551.250 75.175
7.333
0.016
0.005
Sin efectos principales; efecto de interacción significativo. Diagrama a de la figura 21-3.
CAPÍTULO 22
2
SC Total Entre sujetos Entre condiciones (no relacionado) Error entre Intrasujetos Intracondiciones Éntre x intracondiciones Error intra
3
a) Falso b) Falso c) Verdadero d) Falso e)41
gl 95 31 3 28 64 2
MC
Sig. de F
6 56 0 Falso g) Verdadero h) 14
CAPÍTULO 241
1
t no relacionada; alternativa más simple —Mann-Whitney o Suma de rangos de Wilcoxon.
568 • Métodos de investigación y estadística
2 3 4 5 6 7 8 9 10 11 12
(Apéndice 3)
Mann-Whitney o Suma de rangos de Wilcoxon. Chi cuadrada. Chi cuadrada. a) t relacionada, alternativa más simple —Rangos con signo de Wilcoxon. b) Correlación de Pearson. Pearson; prueba de validez — t no relacionada. Correlación de Spearman. Chi cuadrada — “bondad de ajuste” . Chi cuadrada. t relacionada; alternativa más simple —Rangos con signo de Wilcoxon. Rangos con signo de Wilcoxon. Prueba de signo.
PREGUNTA ESTRUCTURADA 1
1 Asistencia al proyecto o no. 2 Proporciona una línea base de comparación para que podamos descartar la posibilidad de que ocurra cualquier cambio o valores de CI obtenidos sin tomar en cuenta el proyecto. 3 No. Éste es un muestreo sistemático —cada niño no tiene la misma oportunidad de ser elegido. 4 El grupo control de padres no era voluntario. Los padres del proyecto pudieron estar interesados de manera particular en la educación de sus niños, y por ello pudieron estimularlos más fuera del proyecto. Los niños saben que se les está tratando de manera especial. 5 Nominal (frecuencias). 6 Chi cuadrada. Los datos son nominales, en forma de frecuencia. La prueba es de diferencia (o asociación). El diseño es no relacionado. 7 Con una N baja (cerca de 20) y celdillas de frecuencias esperadas menores que 5. Dicho de otra manera, si menos del 20% de las celdillas esperadas es menor que 5. Tam bién, si las frecuencias en cualquier celdilla están vinculadas a las frecuencias en otra. Además, si los valores de la celdilla son proporciones. 8 Mann-Whitney o Suma de rangos de Wilcoxon, si se argumenta que las pruebas de CI no proporcionan datos de intervalo reales. Prueba t no relacionada, si se dice que las pruebas de CI están estandarizadas y por ello, son muy cercanas al intervalo. Cualquier respuesta es correcta. Todas estas pruebas tienen mayor poder de eficacia que la X12345678910porque utilizan más información de los datos disponibles. 9 Las puntuaciones de los grupos son diferentes de manera significativa. Rechace la idea de que varían sólo por azar. 10 Rechazaron la hipótesis nula cuando era verdadera. 1 1 a ) Produce resultados similares en situaciones similares, es decir, es consistente, b) Probada en muestras grandes de población objetivo. Se rechazan los reactivos no confiables o no discriminativos. Se establecen las normas para la población.
Respuestas a los ejercicios y preguntas ... • 5 6 9
12 Las razones dadas en respuesta a la pregunta 4. Los niños pudieron percatarse de la naturaleza “especial” del estudio y esforzarse (o los padres los presionaron). A los niños les agrada que se les preste atención especial. 13 Si el proyecto funciona bien, ¿todos los demás niños están en desventaja por no participar? Familias que mostraron información mediante la cual se les podía identi ficar; se les solicitó autorización para la publicación; se les pidió que comentaran el informe.
PREGUNTA ESTRUCTURADA 2
Longitudinal; correlacional; ex post facto. Longitudinal —los participantes desertan; correlacional y ex post facto —no hay control sobre las variables extrañas. No se seleccionaría a niños que no asistieron al grupo de juego. Sólo se eligieron a aquellos que se quedarían por largo tiempo. Para que los niños experimentaran alguna similitud en el ambiente durante el periodo de estudio y que no sufrieran interrupciones en la escuela; por ejemplo, que pudieran disminuir temporalmente las puntuaciones de CI. Predisposición de la investigadora. Conoce su último resultado y puede esperar ciertos desempeños. Podría utilizar un evaluador “ciego” a las puntuaciones previas de los niños. CI a los 15 años
r = 0.78
r = —0.95
7 a) 122.5 b) 16% (o 15.87%). 8 Debe manejar las puntuaciones de CI como de intervalo. Algunos argumentarán que en realidad son ordinales. Sin embargo, si la estandarización es buena, puede suponer el nivel de intervalo. 9 Una cola (se espera correlación positiva). 10 a) No b)/>< 0.005. 11 Al aumentar una, la otra disminuye. (“Correlación negativa” no sería una respuesta adecuada.) 12 a) La correlación entre las puntuaciones de CI a las edades de 9 y 15 años es cero, b) Rechazada. 13 El nuevo investigador tiene una muestra más pequeña. 14 El resultado no significativo no lo sustenta; el significativo sí lo hace. 15 Predisposición cultural. Sólo es útil con poblaciones donde la prueba se estandarizó. Evalúa rangos reducidos de habilidades intelectuales —solución no creativa de problemas, por ejemplo.
570 • Métodos de investigación y estadística
(Apéndice 3)
PREGUNTA ESTRUCTURADA 3
1
Ventajas: no hay variables entre participantes; el participante es su propio control; más rápido; más barato. Desventajas: es riesgoso generalizar a grupos más grandes; el participante se vuelve especializado —no es un comportamiento representativo. VI: presentación del lado izquierdo o derecho. VD: tiempo de reacción. Las palabras son comparativamente similares (en tamaño, extensión, frecuencia, etcétera). El participante puede intentar hacerlo más rápido al adivinar. a) Para que el participante no pueda predecir la naturaleza o posición del siguiente reactivo. b) Tablas, computadoras, selección de reactivos numéricos mezclados. 6 Razón/intervalo. 7 a) Los datos no provienen de una distribución normal. También son no relacionados, por lo que tal vez las varianzas resultaron muy diferentes, b) Mann-Whitney o Suma de rangos de Wilcoxon. 8 Véase la figura 13-21, página 270. 9 a) Tal vez, contrario a la instrucción, el participante siempre mira al lado izquierdo de la pantalla. Quizás el participante no tiene el centro del lenguaje localizado principalmente en el hemisferio izquierdo (tal vez sea zurdo), b) Debe conservarse; a pesar de que la diferencia era significativa, el investigador hizo una predicción de una cola en la dirección opuesta de la que resultó. 10 p menor que 0.01. l i a ) Muestras independientes. b) Ventaja: no hay efecto de orden. Desventaja: variables del participante/“ sujeto” ; requiere muestras mayores que medidas repetidas. c) Asignación aleatoria a las condiciones para reducir el efecto de variables partici pantes.
PREGUNTA ESTRUCTURADA 4
1
2 3
4 5
Información no estructurada, por tanto más rica, tal vez más genuina. Más rápida que la observación participante y menos probable de causar predisposición a través del involueramiento personal más profundo del investigador. Conjunto de respuesta; deseabilidad social. Los participantes quizás no puedan ofrecer información bajo interrogatorio de nin guna forma. El investigador tiene más tiempo para ganarse la confianza y asegurar la confidencialidad. Los catedráticos podrían tener mucho más trabajo en su departamento; puede ser más duro trabajar a la cabeza. La prueba es consistente en sí misma. Los participantes no califican alto en algunos reactivos, aunque lo hacen bajo en otros con sentido y dirección similares.
Respuestas a los ejercicios y preguntas. . . » 571
6 Los reactivos se dividen de manera aleatoria en dos conjuntos iguales (o en reactivos pares y nones) y se correlacionan los resultados de los participantes en ambos conjuntos. 7 Otorgar menor rango a puntuaciones menores; dar promedio a rangos compartidos para igualar las puntuaciones. 8 Correlación de Spearman. 9 Es alta. 10 Número en la muestra; el conjunto del nivel de significación. 11 La fuerza se relaciona con el valor real de correlación. La significación se relaciona con la improbabilidad de obtener ese valor dado el número de participantes. 12 Un cuestionario más específico. Buscar efectos similares en departamentos similares en otro lado. 13 Los cuestionarios son más impersonales; los participantes tal vez no confiaron en las garantías de confidencialidad. 14 Revelación, tal vez indirecta, de los puntos de vista de los participantes y consecuen cias para ellos. Efectos en la moral de los departamentos. Verificar el informe primero con los participantes.
PREGUNTAESTRUCTURADA5 1 Son voluntarios. 2 a) Sugerencias al participante acerca de los objetivos de la investigación. b) La imposibilidad de las tareas, si es extrema, puede alertar a los participantes hacia el objetivo del experimentador. 3 Confiabilidad intercalificadores. Asegura mediciones consistentes. 4 Correlación. 5 Al grupo control no se le dan tareas frustrantes. 6 Véase el glosario, capítulo 2. 7 Ordinal. 8 Rangos con signo de Wilcoxon. 9 a) Las puntuaciones postratamiento serían significativamente mayores que las pre tratamiento, b) Una cola. 10 Menor que 0.05. 11 Evaluación/interpretación subjetiva de la escala de calificación; por lo general con fiabilidad baja. 12 Cuestionario abierto; reacciones a filmes violentos; medidas fisiológicas. 13 a) Pasos tomados para medir un fenómeno. b) Respuestas calificadas en la escala de puntuación de Rorschach.
PREGUNTAESTRUCTURADA6 1
VI: palabras comunes o no comunes; VD: mediana del tiempo de solución
572 • Métodos de investigación y estadística. . .
10
11 12 13 14
(Apéndice 3)
Medidas repetidas. a) Para evitar efectos de orden. b) La mitad de los participantes primero hacen las palabras comunes. La otra mitad hace primero las palabras no comunes. c) Aleatorizar los anagramas en una lista (o dejar pasar un periodo largo entre la evaluación de cada condición). Presencia de variables de participante/“ sujeto” . La falta de familiaridad de los participantes con ciertas palabras; errores en la cuantificación del tiempo si no es sistemático. No se puede decir que las variaciones en las palabras y el enfoque sean los res ponsables de cualquier cambio observado. Apegándose a este procedimiento, los experimentadores no pueden intentar ayudar o dar claves al diseño. a) La media se distorsionaría por el último valor tan alto. b) H (porque la mediana es 125). Razón/intervalo. a) Sí. b) Los valores deben provenir de una población distribuida normalmente. Las varianzas no deben ser muy disímiles. Más sensible, eficiencia de poder, generalizable. Prueba t relacionada. El nivel de probabilidad en el cual se rechaza la hipótesis nula. Resultados muy poco probables de fluctuación por azar. Sí. Nueve de diez tiempos para las no comunes son mayores que las comunes. Las diferencias son, en su mayoría, bastante grandes. Las palabras no comunes formadas por combinaciones de letras poco usuales (por ejemplo, “ exhortado” ).
PREGUNTAESTRUCTURADA7 No. La variable independiente no está controlada. Los participantes se obtuvieron al mismo tiempo de diversos grupos objetos de estudio en este caso, grupos de edad de las madres. Ventajas: no pierde participantes, como sucede con los estudios longitudinales; resultados inmediatos. Desventajas: Variables participantes; un grupo puede experi mentar cambios sociales que el otro grupo no. Ventaja: comportamiento más natural. Desventaja: menos control. Puede codificar con detalle todo el comportamiento después de recolectar los datos a una velocidad apropiada. a) Para que puedan generalizarse los resultados, y los efectos observados no se vinculen a características particulares de esta muestra. b) Clase, área, escolaridad, etcétera. Variables (como la llegada del cartero) pueden afectar la consistencia de la conducta observada. Para que no inclinen sus calificaciones hacia ella o lejos de la misma. Utilice la correlación entre sus dos conjuntos de resultados.
Respuestas a los ejercicios y preguntas ... • 573
10 No se puede decir que juicios humanos como éstos tengan intervalos iguales entre las unidades numéricas completas. 11 34(1) 45(2) 56(4) 56(4) 56(4) 65(6) 68(7) 78(8.5) 78(8.5) 89(10). 12 Mann-Whitney o Suma de rangos de Wilcoxon. 13 No. A pesar de que no podemos rechazar la hipótesis nula, un resultado con una probabilidad menor que 0.07 está tan cercano a la significación, que igual estamos cometiendo un error tipo II. Vale la pena replicar el estudio. 14 Pregúntele a las madres acerca de la disciplina y por qué es necesaria. Busque categorías de respuesta, incluyendo aquellas que acentúan la necesidad de control. 15 A todos los participantes se Ies debe dar un informe completo. El investigador de todas maneras debe sentarse y explicar el proyecto en un lenguaje común. La madre tiene el derecho de retirar su material, aunque el investigador debe tratar de mitigar sus dudas acerca de la confidencialidad y la seguridad de los datos en bruto del vídeo.
PREGUNTAESTRUCTURADA8 1 No. No se manipuló la variable independiente. 2 No. Los participantes son voluntarios. 3 a) No puede influir a las calificaciones en favor del resultado esperado, b) No pueden adivinar el objetivo de la investigación. 4 Responder al cuestionario en presencia de otras personas podría generar un efecto no deseado en una variable como la ansiedad. 5 Para reducir los errores aleatorios; para ser capaz de verificar la confiabilidad de los calificadores. 6 Ambas pruebas están estandarizadas. 7 Véase problema 6, (9 b). 8 Pearson. 9 Relación inversa; mientras una variable incrementa, la otra disminuye. 10 Se espera que puntuaciones mayores de ansiedad se apareen con puntuaciones menores de salud y viceversa. 11 Una correlación tan extrema sólo puede ocurrir por azar (por ejemplo, si la hipótesis nula es verdadera) menos de una vez en 100. 12 Cuando los resultados pueden ser controversiales; si sólo se tiene una única oportuni dad de evaluar. 13 Muy débil. 14 Depende del tamaño de la muestra; con tamaños grandes de muestras una correlación baja es significativa. 15 Para regresar a los participantes al estado normal, remover impresiones negativas, sentimientos acerca del desempeño, autoestima disminuida, etcétera; para informar el objetivo exacto de la investigación. 16 La gente con salud deficiente puede estar más ansiosa (de manera comprensible).
574 • Métodos de investigación y estadística..
(Apéndice 3)
PREGUNTAESTRUCTURADA9 1 Voluntarios; con experiencia. 2 VI: dos paquetes procesadores de palabras; VD: tiempo que les toma y evaluación. 3 Muestras independientes; no hay efectos de orden; los participantes no pueden adivinar el objetivo de la investigación. 4 a) Poner a prueba un bosquejo de la versión en una muestra inicial. b) Para identificar fallas y ambigüedades y así mejorar la versión final; también, para verificar la confiabilidad y analizar los reactivos para crear la versión final. 5 Una medida de dispersión (dispersión de las puntuaciones alrededor de la media) en una muestra de puntuaciones. 6 Una desviación estándar corta sobre 16% de la distribución. La puntuación estándar de 1 es una desviación estándar arriba de la media. Esta secretaria está 1.3 desviacio nes estándar sobre la media y, por ello, arriba del 16 por ciento. 7 Mann-Whitney o Suma de rangos de Wilcoxon. 8 Cualquiera de: 1) Datos de nivel de intervalo; 2) y 3) véase respuesta al problema 6,9 b). 9 Las desviaciones estándar (y por ello, las varianzas) son muy diferentes y hay muy distintos números de muestras. (El diseño es no relacionado.) 10 Dos colas. El investigador no predijo cuál programa sería superior. 11 Las diferencias eran más probables de ocurrir por azar que 5 en 100 (p > 0.05) y, en este nivel, es común no rechazar el punto de vista de que las diferencias pudieran ser meras fluctuaciones azarosas. 12 Debido a que una muestra es mucho menor, hay más oportunidad de que varíe de manera notoria en relación con la otra; pudiera ser sólo por las diferencias en las muestras; también, tal vez un programa tuviera mala reputación (pero en realidad, no es distinto al otro). 13 El participante tiene el derecho de que se retiren sus resultados. El investigador puede tratar de persuadir a la secretaria argumentando que la confidencialidad es absoluta, pero debe aceptarlo si fracasa en este intento.
PREGUNTAESTRUCTURADA10 1
2 3 4 5
a) Diseño de pares igualados. b) Reduce la posibilidad de que las variables participantes sean las responsables de las diferencias observadas. Los factores interpersonales pueden influenciar las respuestas de los participantes; no estructurada y, por ello, menos confiable. Varias flaquezas en las preguntas, véanse páginas 170 a 172. Hacer confiable el cuestionario. Los participantes pueden intentar “verse bien” en el cuestionario. El terapeuta quizás pueda acercarse a la verdad. Buen acuerdo entre los métodos ya que la correlación es alta.
Respuestas a los ejercicios y preguntas. . . » 575
6 a) Debido a que los participantes en el programa experimental pudieron mejorar sólo porque sabían qué se esperaba de ellos o porque recibieron atención especial, b) Se les daría un tratamiento arbitrario, como una simple discusión de aspectos irrelevantes. De otro modo sus experiencias serían idénticas. 7 Cuestionario estandarizado. 8 Prueba t relacionada. 9 Menos poderosa/eficiencia de poder; menos sensible. 10 La diferencia, a pesar de grande, puede aún ser el resultado de variaciones al azar entre los dos grupos, por ejemplo, variables aleatorias/participantes. 11 Las puntuaciones en una variable tienden a ser apareadas con puntuaciones de tamaño y dirección similares en la otra. 12 Si el tamaño de la muestra fuera menor. 13 El grupo de tratamiento fue voluntario —pudieron estar más motivados para mejorar; los participantes pudieron mejorar debido a que sus expectativas de mejorar les produjeron motivación. 14 También deberían unirse al programa si así lo desean. Estarían en desventaja si el tratamiento se detuviera ya que se considera efectivo. ■
Referencias
Ainsworth, M. D. S. (1967): Infancy in Uganda. Baltimore: John Hopkins University Press. Ainsworth, M. D. S., Bell, S. M. & Stayton, D. J. (1971) Individual differences in strange situation behaviour o f one-year-olds. In Schaffer, H. R. (ed.) (1971) The Origins o f Human Social Relations. London: Academic Press. Alexander, L. & Guenther, R. K. (1986): The effect o f mood and demand on memory, British Journal o f Psychology, 77(3), 342-51. Allport, G. W. (1947): The Use o f Personal Documents in Psychological Science. London: Holt, Rinehart and Winston. ' American Psychological Association (1987): Casebook on Ethical Principles o f Psy chologists. Washington: American Psychological Association. Aronson, E. & Carlsm ith, J. M. (1968): Experimentation in social psychology. In Lindzey, G. & Aronson, E. (eds.) (1968) Handbook o f Social Psychology, 2: Reading, Mass.: Addison-Wesley. Asch, S. E. (1956): Studies of independence and submission to group pressure. 1. A minority of one against a unanimous majority. In Psychological Monographs, 70 (9) (Whole No. 416). Atkinson, R. L., Atkinson, R. C., Smith, E. E. & Bern, D. J. (1993): Introduction to Psychology, Fort Worth: Harcourt Brace Jovanovitch. Baars, B. J. (1980): Eliciting predictable speech errors in the laboratory. In V. Fromkin (ed.) Errors in Linguistic Performance: Slips o f the Tongue, Ear, Pen and Hand. New York: Academic Press, 1980. Baddeley, A. (1992): Is memory all talk? The Psychologist, 5, 10 (October). B andura, A. (1965): Influence of models’ reinforcement contingencies on the acquisi tion of imitative responses. Journal ofPersonality and Social Psychology, 1,589-95. Bandura, A. (1977): Social Learning Theory. Englewood Cliffs, NJ: Prentice-Hall. B arber, T. X. (1976): Pitfalls in Human Research. Oxford: Pergamon.
578 • Métodos de investigación y estadística. ..
(Referencias)
Becker, H. S. (1958): Inference and proof in participant observation. American Socio logical Review, 23, 652-60. Beltram ini, R. F. (1992): Explaining the effectiveness of business gifts: a controlled field experiment. Journal o f the Academy o f Marketing Science, 20(1), 87-91. Benedict, R. (1934): Patterns o f Culture. Boston: Houghton Mifflin. Berry, J. W., Poortinga, Y. H., Segall, M. H. & Dasen, P. R. (1992): Cross-cultural Psychology: Research and Applications. Cambridge: CUP. Block, N. J. & Dworkin, G. (1974): IQ —heritability and inequality. Philosophy and Public Affairs, 3, 331-407. Bogardus, E. S. (1925): Measuring social distance. Journal o f AppliedSociology, 9,299-308. Born, M. P. (1987): Cross-cultural comparison of sex-related differences on intelligence tests: a meta-analysis. Journal o f Cross Cultural Psychology, 18(3), 283-314. Bowlby, J. (1951): Maternal Care and Mental Health. Geneva: World Health Organisation. Bowlby, J. (1953): Child Care and the Growth o f Love. Harmondsworth: Penguin. Bracht, G. H. & Glass, G. V. (1968): The external validity of experiments. American Educational Research Journal, 5,437-74. Bramel, D. A. (1962): A dissonance theory approach to defensive projection. Journal o f Abnormal and Social Psychology, 64, 121-9. Brislin, R. (1990): Applied Cross-cultural Psychology. Newbury Park, CA: Sage. British Psychological Society (1985): A code of conduct for psychologists. Bulletin o f the British Psychology Society, 38,41-3. British Psychological Society (1993): Code o f Conduct, Ethical Principles and Guide lines, Leicester: British Psychological Society. Broadbent, D. E., Fitzgerald, P. & Broadbent, M. H. P. (1986): Implicit and explicit knowledge in the control of complex systems. British Journal o f Psychology, 77,33-50. Bromley, D. B. (1986): The Case Study Method in Psychology and Related Disciplines. Chichester: Wiley. Brown, R. (1965): Social Psychology. New York: Free Press. Brown, R., Fraser, C. & Bellugi, U. (1964): The Acquisition o f Language. Monographs of the Society for Research in Child Development 29, 92. B runer, E. M. & Kelso, J. P. (1980): Gender differences in graffiti; a semiotic perspective. In Women’s Studies International Quarterly, 3, 239-52. Brunswik, E. (1947): Systematic and Unrepresentative Design o f Psychological Experi ments with Results in Physical and Social Perception. Berkeley: University of California Press. Bryant, B. Harris, M. & Newton, D. (1980): Children and Minders. London: Grant McIntyre. Burgess, R. G. (1984): In the Field: an Introduction to Field Research. Allen & Unwin: Hemel Hempstead. Caldwell, B. M. & Bradley, R. H. (1978): Manual for the home observation of the environment, Unpublished manuscript. Little Rock, Ark.: University of Arkansas. Campbell, D. T. & Stanley, J. C. (1966): Experimental and Quasi-experimental Designs fo r Research. Chicago: Rand McNally. Campbell, D. T. (1970): Natural selection as an epistemological model. In R. Naroll & R. Cohen (eds.) A Handbook o f Method in Cultural Anthropology (51-85). New York: Natural History Press. Carlsm ith, J., Ellsworth, P. & Aronson, E. (1976): Methods o f Research in Social Psychology. Reading, Mass.: Addison-Wesley. Charlesw orth, R. & H artup, W. W. (1967): Positive social reinforcement in the nursefy school peer group. Child Development, 38, 993-1002.
Referencias • 579
Cochran, W. G. (1954): Some methods for strengthening the common A* tests. Biometrics, 10,417-51. Cohen, L. & Holliday, M. (1982): Statisticsfo r Social Scientists. London: Harper & Row. C orcoran, S. A. (1986): Task complexity and nursing expertise as factors in decision making. Nursing Research, 35(2), 107-12. C raik, F. & Tulving, E. (1975): Depth of processing and the retention o f words in episodic memory. Journal o f Experimental Psychology, General, Vol. 104. C rano, W. D. & Brewer, M. B. (1973): Principles o f Research in Social Psychology. New York: McGraw-Hill. C ronbach, L. J. (1960): Essentials o f Psychological Testing. New York: Harper & Row. C um berbatch, G. (1990): Television Advertising and Sex Role Stereotyping: A Content Analysis (working paper IV for the Broadcasting Standards Council), Communica tions Research Group, Aston University. Darwin, C. (1877): A biographical sketch of an infant. Mind, 2,285-94. David, S. S. J., Chapm an, A. J., Foot, H. C. & Sheehy, N. P. (1986): Peripheral vision and child pedestrian accidents. British Journal o f Psychology, Vol 77,4. Davie, R., Butler, N. & Goldstein, H. (1972): From Birth to Seven. London: Longman. Davis, J. H., K err, H. L., Atkin, R. H. & Meek, D. (1975): The decision processes of 6 and 12 person mock juries assigned unanimous and two thirds majority rules. Journal o f Personality and Social Psychology, 32, 1-14. De Waele, J, -P. and H arré, R. (1979): Autobiography as a psychological method. In Ginsburg, G. P. (1979) (ed.) Emerging Strategies in Social Psychological Research. Chichester: Wiley. Diesing, P. (1972): Patterns o f Discovery in the Social Sciences. London: Routledge and Kegan Paul. Dilthey, W. (1984): Descriptive Psychology and Historical Understanding. The Hague: Martinus Nijhoff. (English tanslation, 1977). Doob, A. N. & Gross, A. E. (1968): Status of frustration as an inhibitor o f horn-honking responses. Journal o f Social Psychology, 76,213-8. Douglas, J. D. (1972): Research on Deviance. New York: Random House. Duncan, S. L. (1976): Differential social perception and attribution o f intergroup violence: Testing the lower limits o f stereotyping o f blacks. Journal o f Personality and Social Psychology, 34, 590-8. Edwards, D. & Potter, J. (1992): Discursive Psychology. London: Sage. Elton, B. (1989): Stark. London: Sphere Books. Enriquez, V. (ed.) (1990): Indigenous Psychologies. Quezon City: Psychology Research and Training House. Ericcson, K. A. & Simon, H. A. (1980): Verbal reports as data. Psychological Review, 87,215-51. Ericcson, K. A. & Simon, H. A. (1984): Protocol Analysis: Verbal Reports as Data. Cambridge, Mass.: MIT Press. Eron, L. D., Huesmann, L. R., Lefkowitz, M. M. & W alder, L. D. (1972): Does television violence cause aggression? American Psychologist, 27,253-63. Eysenck, H. J. (1970): The Structure o f Human Personality. London: Methuen. Eysenck, H. J. & Eysenck, S. B. G. (1975): Manual o f the Eysenck Personality Questionnaire. London: Hodder and Stoughton. Festinger, L., Riecken, H. W. & Schaehter, S. (1956): When Prophecy Fails. Minnea polis: University of Minnesota Press.
580 • Métodos de investigación y estadística.
(Referencias)
Finch, J. (1984): “ It’s great to have someone to talk to” : the ethics and politics of interviewing women. In Bell, C. & Roberts, H. (eds.) (1984) Social Researching: Policies, Problems and Practice. London: Routledge and Kegan Paul. Frankenburg, R. (1957): Village on the Border. London: Cohen and West. Friedman, N. (1967): The Social Nature o f Psychological Research. New York: Basic Books. Friedrich, L. K. & Stein, A. H. (1973): Aggressive and prosocial television programs and the natural behaviour o f pre-school children. Monographs o f the Society fo r Research in Child Development. 38(4, serial No. 51). G anster, D. C., Mayes, B. T., Sime, W. E. & Tharp, G. D. (1982): Nfenaging organisa tional stress: a field experiment. Journal o f Applied Psychology, 67(5), 533-42. Ginsberg, G. P. (1979) (Ed.): Emerging Strategies in Social Psychological Research. Chichester: Wiley. Glaser, B. G. & Strauss, A. L. (1967): The Discovery o f Grounded Theory: Strategies fo r Qualitative Research. Chicago: Aldine. Godden, D. & Baddeley, A. D. (1975): Context-dependent memory in two natural environments: on land and under water. British Journal o f Psychology, 66, 325-31. Gregory, R L .& W allace, J. G. (1963): Recoveryfrom Early Blindness. Cambridge: Heffer. Gross, R. D. (1992): Psychology: the Science ofM ind and Behaviour. (2nd ed.): London: Hodder and Stoughton. Gross, R. D. (1994): Key Studies in Psychology (2nd ed.). London: Hodder and Stoughton. Gulian, E. & Thomas, J. R. (1986): The effects of noise, cognitive set and gender on mental arithmetic and performance. British Journal o f Psychology, Vol 77, 4. G uttm an, L. (1950): The third component of scalable attitudes. International Journal o f Opinion and Attitude Research, 4,285-7. Hall, B. L. (1975): Participatory research: an approach for change. Convergence, an International Journal o f Adult Education, 8(2), 24-32. Halliday, S. & Leslie, J. C. (1986): A longitudinal semi-cross-sectional study o f the development of mother-child interaction. British Journal ofDevelopmental Psychology, 4(3), 221-32. Hammond, K. R. (1948): Measuring attitudes by error-choice: an indirect method. Journal o f Abnormal Social Psychology, 43, 38-48. H am pden-Turner, C. (1971): Radical Man. London: Duckworth. H arré, R. (1981) The positivist-empiricist approach and its alternative. In Reason, R. & Rowan, J. (1981) Human Inquiry: A Sourcebook o f New Paradigm Research. Chichester: Wiley. Hatfield, E. & Walster, G. W. (1981): A NewLookatLove. Reading, Mass.: Addison-Wesley. Hays, W. L. (1973): Statistics fo r the Social Sciences. London: Holt Rinehart Winston. H eather, N. (1976): Radical Perspectives in Psychology. London: Methuen. Henwood, K. I. & Pidgeon, N. F. (1992): Qualitative research and psychological theorizing. British Journal o f Psychology, 83, 97-111. Hinckley, E. D. (1932): The influence of individual opinion on construction of an attitude scale. Journal o f Social Psychology, 3,283-96. Hitch, G. J. (1992): Why isn’t discourse analysis more popular in the study of memory? The Psychologist, 5,10 (October). Horowitz, I. A. & Rothschild, B. H. (1970): Conformity as a function of deception and role-playing. Journal o f Personality and Social Psychology, 14,224-6. Howell, D. C. (1992): Statistical Methods fo r Psychology. Boston: PWS-Kent. Hum phreys, L. (1970): Tearoom Trade. Chicago: Aldine.
Referencias • 581
Hyman, L E. J r (1992): Multiple approaches to remembering. The Psychologist, 5,10 (October). Jack, S. (1992): Certified to perform. Retail Week 6. 11. 1992. Jahoda-Lazarsfeld, M. & Zeisl, H. (1932): DieArbeitslosen vonMarienthal. Leipzig: Hirzel. Jefferson, G. (1985): An exercise in the transcription and analysis of laughter. In T. van Dijk (ed.) Handbook o f Discourse Analysis, Vol 3. London: Academic Press. Joe, R. C. (1991): Effecten van taaltonaliteit op het cognitiedfunctioneren: Een crosscultureel onderzoek [Effects of tonality in language on cognitive functioning], PhD thesis, Tilburg: Tilburg University. Jones, E. E. & Sigall, H. (1971): The bogus pipeline: a new paradigm for measuring affect and attitude. Psychological Bulletin, 76, 349-64. Jones, F. & Fletcher, C. B. (1992): Transmission o f occupational Stress: a study o f daily fluctuations in work stressors and strains and their impact on marital partners. Vlth European Health Psychology Society Conference (presented as poster) University o f Leipzig (August). Jowell, R. & Topf, R. (1988): British Social Attitudes. London: Gower. Joynson, R. B. (1989): The Burt Affair. London: Routledge. Jung, C. G. (1930): Your Negroid and Indian behaviour. Forum, 83,4, 193-99. Kagan, J., Kearsley, R. B. & Zelazo, P. R. (1980): Infancy — Its Place in Human Development. Cambridge, Mass.: Harvard University Press. Kamin, L. J. (1977): The Science and Politics o f IQ. Harmondsworth: Penguin. Kerlinger, F. N, (1973): Foundations o f Behavioural Research. London: Holt, Rinehart and Winston. Kidder, L. H. (1981): Selltiz Wrightsman and Cook’s Research Methods in Social Relations, 4th ed. New York: Holt, Rinehart and Winston. Kinsey, A. C., Pomeroy, W. B., M artin, C. E. & Gebhard, P. H. (1953): Sexual Behavior in the Human Female. Philadelphia: Saunders. Kinsey, A. C., Pomeroy, W. B. & M artin, C. E. (1948): Sexual Behavior in the Human Male. Philadelphia: Saunders. Kohlberg, L. (1981): Essays on Moral Development. New York: Harper and Row. Kohler, W. (1925): The Mentality o f Apes. New York: Harcourt Brace Jovanovich. Kounin, J. & Gump, P. (1961): The comparative influence of punitive and non-punitive teachers upon children’s concepts of school misconduct. Journal o f Educational Psychology, 52,44-9. Kuhn,T. (1962): The Structure o f Scientific Revolutions. Chicago, 111: University of Chicago. Latané, B. & Darley, J. M. (1976): Help in a Crisis: Bystander Response to an Emergency. Morristown, NJ: General Learning Press. L atour, B. (1987): Science in Action. Milton Keynes: Open University Press. L atour, B. (1988): The politics of explanation: An alternative. In S. Woolgar (ed.) Knowledge and Reflexivity: New Frontiers in the Sociology o f Knowledge, London: Sage. Levin, R. B. (1978): An empirical test o f the female castration complex. In Fisher, S. & Greenberg, R. P. (1978) The Scientific Evaluation o f Freud’s Theories and Therapy. New York: Basic Books. Lewis, G., et al.: (1990): Are British psychiatrists racist? British Journal o f Psychiatry, 157,410-15. Leyens, J., Camino, L., Parke, R. D. & Berkowitz, L. (1975): Effects of movie violence on aggression in a field setting as, a function o f group dominance and cohesion. Journal o f Personality and Social Psychology, 32, 346-60.
582 • Métodos de investigación y estadística. . .
(Referencias)
Likert, R. A. (1932): A technique for the measurement of attitudes, Archives o f Psychology, 140,55. L uria, A. R. (1969): The Mind o f a Mnemonist. London: Jonathan Cape. Littlewood, R. (1989): Aliens and Alienists. London: Hyman. Ma, H. K. (1988): The Chinese perspective on moral judgement development. Interna tional Journal o f Psychology, 23,201-27. Madge, J. (1953): The Tools o f Social Science. London: Longman. Malim, T., Birch, A. & Wadeley, A. (1992): Perspectives in Psychology. Basingstoke: Macmillan. M anstead, A. S. R. & McCulloch, C. (1981): Sex-role stereotyping in British television advertisements. British Journal o f Social Psychology, 20, 171-80. M arsh, P. (1978): The Rules o f Disorder. London: Routledge. M artin, S. L. & Klimoski, R. J (1990): Use of verbal protocols to trace cognitions associated with self-and supervisor evaluations of performance. Organizational Behaviour and Human Decision Processes, 46(1), 135-54. Masling, J. (1966): Role-related behaviour of the subject and psychologist and its effect upon psychological data. In Levine, D. (ed.) (1966) Nebraska Symposium on Motivation. Lincoln, Neb.: University of Nebraska Press. Mead, M. (1928): Coming o f Age in Samoa. Harmondsworth Middlesex: Penguin. Mead, M. (1930): Growing up in New Guinea. Harmondsworth Middlesex: Penguin. M edawar, P. B. (1963): Is the scientific paper a fraud? The Listener, 10, 377-8. Menges, R. J. (1973): Openness and honesty versus coercion and deception in psycho logical research. American Psychologist, 28,1030-34. M iddleton, D. & Edwards, D. (1990): Collective Remembering. London: Sage. M iddleton, D., Buchanan, K. & Suurm ond, J. (1993): Communities of memory: issues of “remembering” and belonging in reminiscence work with the elderly. Mimeo, Loughborough University. M ilgram, S. (1961): Nationality and conformity. Scientific American, 205,45-51. M ilgram, S. (1963): Behavioural study of obedience. Journal o f Abnormal and Social Psychology, 67, 371-8. M ilgram, S. (1974): Obedience to Authority. New York: Harper and Row. Miller, J. G., Bersoff, D. M. & Harwood, R. L. (1990): Perceptions o f social respon sibilities in India and the United States: Moral imperatives or personal decisions? Journal o f Personality and Social Psychology, 58, 33-47. Mitroff, 1.1. (1974): Studying the lunar rock scientist. Saturday Review World, 2 Nov. 64-5. Mixon, D. (1974): If you won’t deceive what can you do? In Armistead, N. (ed.) (1974) Reconstructing Social Psychology. London: Penguin Education^. Mixon, D. (1979): Understanding shocking and puzzling conduct, in Ginsburg, G. P. (ed.) (1979) Emerging Strategies inSocial Psychological Research. Chichester: Wiley. Nisbet, R. (1971): Ethnocentrism and the comparative method. In A. Desai (ed.) Essays on modernisation o f underdeveloped societies (Vol 1, 95-114), Bombay: Thacker. Ogilvie, D. M., Stone, D. J. & Shniedman, E. S. (1966): Some characteristics of genuine versus simulated suicide notes. In Stone, P. J., Dunphy, C., Smith, M. S. & Ogilvie, D. M. (eds.) (1966) The General Enquirer: A Computer Approach to Content Analysis in the Behavioral Sciences. Cambridge: MIT Press. O ra, J. P. (1965): Characteristics of the volunteer for psychological investigations. Office of Naval Research Contract 2149(03), Technical Report 27.
Referencias • 583
Orne, M. T. (1962): On the social psychology of the psychological experiment: with particular reference to demand characteristics and their implications. American Psychologist, 17,776-83. Osgood, C. E., L uria, Z., Jeans, R. F. & Smith, S. W. (1976): The three faces of Evelyn: a case report. Journal o f Abnormal Psychology, 85,247-86. Osgood, C. E., Suci, G. J. & Tannenbaum , P. H. (1957): The Measurement o f Meaning. Urbana: University of Illinois. Patton, M. Q. (1980): Qualitative Evaluation Methods. London: Sage. Penny, G. N. & Robinson, J. O. (1986): Psychological resources and cigarette smoking in adolescents. British Journal o f Psychology, 77(3), 351-8. Peronne, V., Patton, M. Q. & French, B. (1976): Does Accountability Count without Teacher Support? Minneapolis: Centre for Social Research, University of Minnesota. Petty, R. E. & Cacioppo, J. T. (1984): The effects of involvement on responses to argument quantity and quality: central and peripheral routes to persuasion. Journal o f Personality and Social Psychology, Vol 46. Piliavin, I. M., Rodin, J. & Piliavin, J. A. (1969): Good samaritanism: an underground phenomenon? Journal o f Personality and Social Psychology, 13,289-99. Popper, K. R. (1959) The Logic o f Scientific Discovery. London: Hutchinson. Potter, J. & W etherell, M. (1987): Discourse and Social Psychology: Beyond Attitudes and Behaviour. London: Sage. Potter, J. & Wetherell, M. (1993): Analyzing discourse. In A. Bryman & R. G. Burgess (eds.) (1993) Analysing qualitative data. London: Routledge. Presby, S. (1978): Overly broad categories obscure important differences between therapies. American Psychologist, 33, 514-15. Raffetto, A. M. (1967): Experimenter effect on subjects’ reported hallucinatory experiences under visual and auditory deprivation. Master’s thesis, San Francisco State College. Reason, P. & Rowan, J. (1981) (eds.): Human Enquiry: A Sourcebook in New Paradigm Research. Chichester: Wiley. Reicher, S. & Emmler, N. (1986): Managing reputations in adolescence: the pursuit of delinquent and nondelinquent identities. In H. Beloff (ed.) Getting into life. London: Methuen. Reinharz, S. (1983): Experiential analysis: a contribution to feminist research: In G. Bowles & R. Duelli Klein (eds.) Theories o f Women's Studies. London: Routledge and Kegan Paul. Rice, A. K. (1958): Productivity and Social Organisations: The Ahmedabad Experiment. London: Tavistock Publications. Ring, K., Wallston, K. & Corey, M. (1970): Mode of debriefing as a factor affecting subjective reaction to a Milgram-type obedience experiment: an ethical inquiry. Representative Research in Social Psychology, 1,67-88. Roethlisberger, F. J. & Dickson, W. J. (1939): Management and the Worker. Cam bridge, Mass.: Harvard University Press. Rogers, C. R. (1961): On Becoming a Person: a Therapist’s View o f Psychotherapy. London: Constable. Rokeach, M. (1960): The Open and Closed Mind. New York: Basic Books. Rosenhan, D. L. (1973): On being sane in insane places. Science, 179, 250-8. Rosenthal, R (1966): Experimenter Effects in Behavioral Research. New York: Appleton-Century-Crofts. R utter, M. (1971): Parent-child separation: psychological effects on the children Journal o f Child Psychology and Psychiatry, 12,233-60.
584 • Métodos de investigación y estadística. . .
(Referencias)
Samuel, J. & Bryant, P. (1984): Asking only one question in the conservation experi ment. Journal o f Child Psychology and Psychiatry, Vol 25,2. Sears, R. R., Maccoby, E. & Levin, H. (1957): Patterns o f Child Rearing. Evanston, 111.: Row, Petersen & Co. Seligman, M. (1972): Biological Boundaries o f Learning. New York: Appleton-Centuiy-Crofts. Shaffer, D. R. (1985): Developmental Psychology: Theory, Research and Applications. Pacific Grove, Ca.: Brooks/Cole. Shneidman, E. S. (1963): Plan 11. The logic of politics. In Arons, L. & May, M. A. (eds.) (1963) Television and Human Behavior. New York: Appleton-Century-Crofts. Shotland, R. L. & Yankowski, L. D. (1982): The random response method: a valid and ethical indicator of the “truth” in reactive situations. Personality and Social Psy chology Bulletin, 8(1), 174-9. Sinha, D. (1986): Psychology in a Third World Country: The Indian Experience. New Delhi: Sage. Sims, D. (1981): From ethogeny to endogeny: how participants in research projects can end up doing action research on their own awareness. In Reason, P. and Rowan, J. (1981) (eds.) Human Enquiry: A Sourcebook in New Paradigm Research. Chichester: Wiley. Smith, M. L. & Glass, G. V. (1977): Meta-analysis o f psychotherapeutic outcome studies. American Psychologist, 32, 752-60. Storms, M. D. (1973): Videotape and the attribution process: reversing actors’ and observers’ points of view. Journal o f Personality and Social Psychology, 27,165-75. Tandon, R. (1981): Dialogue as inquiry and intervention. In Reason, P. & Rowan, J. (1981) Human Inquiry: A Sourcebook in New Paradigm Research. Chichester: Wiley. Thurstone, L. L. (1931): The measurement o f social attitudes. Journal o f Abnormal and Social Psychology, 26,249-69. T orbert, W. R. (1981): Why educational research has been so uneducational: the case for a new model of social science based on collaborative enquiry. In Reason, P. & Rowan, J. (1981) Human Inquiry. Chichester: Wiley. T rist, E. L. & Bam forth, K. W. (1951): Some social and psychological consequences of the longwall method of coal-cutting. Human Relations, 4(1), 3-38. Tukey, J. W. (1977): Exploratory Data Analysis. Reading, Mass.: Addison-Wesley. Valentine, E. R. (1982): Conceptual Issues in Psychology. London: Routledge. Valentine, E. R. (1992): Conceptual Issues in Psychology (2nd ed.). London: Routledge. Vidich, A, J. & Bensman, J. (1958): Small Town in Mass Society. Princeton, NJ: Princeton University Press. W atson, J. B. & Rayner, R. (1920): Conditioned emotional reactions. Journal o f Experimental Psychology, 3, 1-14. W eber, S. J. & Cook, T. D. (1972): Subject effects in laboratory research: an examina tion of subject roles, demand characteristics and valid inference. Psychological Bulletin, 77, 273-95. W horf, B. L. (1957): Language, Thought and Reality. Cambridge, Mass,: MIT Press. W hyte, W. F. (1943): Street Corner Society: the Social Structure o f an Italian Slum. Chicago: The University o f Chicago Press. Wilkinson, S. (1986): Feminist Social Psychology. Milton Keynes: Open University Press. Williams, J. E., Bennett, S. M. & Best, D. L. (1975): Awareness and expression o f sex stereotypes in young children. Developmental Psychology, 11,635-42.
Referencias • 585
Williams, J. E. & Berry, J. W. (1991): Primary prevention of acculturative stress among refugees: the application o f psychological theory and practice. American Psycholo gist, 46,632-41. , Williams, J. E. & Best, D. L. (1982): Measuring sex stereotypes: A Thirty Nation Study. London. Sage. W ord, C. H., Zanna, M. P. & Cooper, X (1974): The non-verbal mediation of self-fulfilling prophecies in interracial interaction. Journal o f Experimental Social Psychology, 10, 109-20. W right, R. L. D. (1976): Understanding Statistics. New York: Harcourt Brace Jovanovich. Zim bardo, P. G. (1972): Pathology o f imprisonment. Society, April 1972. ■
Indice
N ota: L o s n ú m eros d e p ágin a en n e g r ita s s e refieren al g lo sa r io q u e se encuentra al fin al d e cad a capítulo.
A A B B A , 99 A c c ió n d iscu rsiv a (M A D ), m o d e lo d e, 2 13 A c o ta c io n e s y sím b o lo s estad ísticos, 2 7 5 A ctitu d es, esca la s de, 162, 165 a 173 A ctiv id a d , factor d e, 170 “ A cu ltu ra ció n ” , 197 A cu m u la tiv a , esca la , 168, 169 frecu en cia , 2 5 5 ,2 6 1 , 271 A leatoria, variab le, 33 A lea to riza ció n , e stím u lo s, d e la p o sic ió n d e lo s, 3 4 orden d e c o n d icio n es, d el, 100 rea ctiv o s estím u lo , de, 100 A lfa d e C ronbach, c o e fic ie n te , 1 8 0 ,1 8 7 A m b ig ü ed a d , esca la s d e actitu d es y , 171 A m e r ic a n P s y c h o lo g ic a l A s s o c ia t io n (A P A ), ética s y, 4 7 7 , 4 7 8
A n álisis, exp loratorio de d atos, 2 3 9 ,2 5 9 ,2 7 2 in d u ctivo, 2 0 8 , 2 1 9 in icial, 4 6 9 ,4 7 3 in v estig a ció n , p lan eación d e la, 2 2 ANOVA, b id ireccion al, m ed id as repetidas, d e, 4 3 5 a 4 3 7 n o relacion ad o, 4 2 0 a 4 2 5 m ed id as repetidas, d e, 4 1 5 ,4 1 7 , 4 2 9 a 4 4 2 m ultifactorial, 4 1 5 a 4 2 8 trid ireccion al, 4 2 5 ,4 2 6 u n id ireccion al, 3 9 5 a 4 1 4 “ A n tro p o m o rfism o ” , 114 A p én d ices, red acción d el in form e y , 5 1 0 A rch iv o , d atos de, 1 2 5 ,1 2 7 ,1 3 1 A so c ia c ió n , prueba de, 3 1 5 , 3 7 7 A s p e c to s ético s, 4 7 7 a 493 o b servación participante n o revelad a, en la, 123 p rácticas, p lan eación d e, 4 9 9 , 5 0 0 A u d io , registro de, 153 A utorreporte, m étod o de, 1 3 6 ,1 5 8
Barras, g rá fica d e, 2 3 9 ,2 5 7 , 2 5 8 ,2 7 1 B im o d a les, datos, 2 4 6 d istrib u cio n es, 2 4 0 ,2 7 0 ,2 7 1 B ogardu s, e s c a la d e , 167, 1 6 8 ,1 8 5 “ B on d ad d e a ju ste” , prueba de, 3 1 6 , 3 1 7 ,3 2 0 B on ferron i, pruebas t de, 4 0 7 ,4 1 1 ,4 1 2 B r it i s h P s ic h o lo g ic a l S o c ie ty (B P S ), ética, 4 7 7 , 4 7 8 “ su jeto s” o “ p articipan tes” , 2 2
c
C a lifica d o res, co n fia b ilid ad entre, 1 1 4 ,1 3 3 C am p o, ex p erim en to s d e, 15, 16, 8 3 , 8 4 , 89, 9 0 ,9 2 C a so (s), estu d io d e, 135, 141, 146 a 1 4 9 ,1 5 7 historia d e, 1 4 6 ,1 5 7 n eg a tiv o (s), a n á lisis d e, 4 7 0 ,4 7 3 C ategorías, 2 2 5 C a teg o riza ció n , 4 6 6 a 4 6 8 C eld illa s d e frecu en cias bajas, 3 0 7 , 3 1 8 ,3 1 9 C en so , 1 5 6 ,1 5 7 C hi cuadrada, prueba, 3 1 0 a 3 2 0 “ bondad d e a ju ste” , d e, 3 1 6 ,3 1 7 ,3 2 0 e le c c ió n de una, 4 5 6 fórm u la rápida, 3 1 3 lim ita cio n es e n e l u so d e la, 3 1 8 , 3 1 9 una variable, s ó lo d o s categorías, 3 1 7 , 3 1 8 v a lo res crítico s, tabla d e, 543
C om p lejid ad , esca la s d e actitu d es y , 171 C om putadora, m uestras aleatorias por, 4 4 C o m u n ica ció n n o verbal, en trevistad or y , 151 C o n clu sió n d el inform e, 5 0 9 , 5 1 0 C o n d icio n es, aleatorización del ord en d e, 100 artificiales/artificialidad , 8 2 ,2 0 5 m ás de d os, 38 3 a 3 9 4 variación entre, 4 3 2 ,4 3 3 ,4 4 1 C on d u cta calificad a, 1 1 2 ,1 3 3 C on d u ctos fa lso s, en cu b rim ien to d e, 138 C on fiab ilid ad , a n á lisis cu alitativo, 4 7 0 ,4 7 1 correlación , 3 7 9 cu estion arios, 164, 1 6 5 ,1 7 3 d escrip ción , 5 7 , 5 8 ,7 4 estu d io d e c a so , 148, 149 extern a, 1 8 0 ,1 8 7 interna, 1 8 0 ,1 8 7 pruebas, 161, 179 a 182 técn ica s ob ser v a cio n a le s, de las, 1 1 4 ,1 1 5 te s t-r e te s t, d e, 181, 182 C on fid en cialid ad , 150, 4 7 7 , 4 8 0 C on form id ad , resp uesta d e, 161, 1 7 2 ,1 8 7 ten d en cia d e, 172 C o n fu sió n o variab les co n fu sa s, A N C O V A , 44 3 d efin ició n d e, 2 5 , 3 4 , 3 5 , 3 7 e fe c to s d e orden, 9 7 ejem p lo d e, 8 p roced im ien to in d efin id o, 6 7 ,6 8 C on glo m erad os, m uestras d e, 3 9 , 4 6 , 5 2 C on n otativo, sig n ifica d o , 169
C ie g o s, 9 0 , 91
C o n o cim ien to , “ e x p líc ito ” , 131 im p lícito , 131 p rod u cción d el, 130 a 132
C ien cia , d efin ició n , 4
C on sen tim ien to, 4 8 6
C itas textu ales, 4 6 8
C o n siste n c ia interna, 180
C la se, in tervalos d e, 2 4 5 ,2 5 5 , 271 C la sifica ció n , 2 2 7
C on stru cto(s), h ip o tético s, 2 5 , 2 7 ,3 7 , 178 o rgan ización , 2 8 ,2 9 p sic o ló g ic o s , 2 7 , 28 v a lid e z de, 6 5 , 6 6 , 8 2 , 177, 1 8 4 ,1 8 8 C on su lta a lo s participantes, 4 7 0 , 471
C o d ific a ció n , 1 1 2 ,1 3 1 u n idad es d e, 129, 130 C o e fic ie n te P h i, 3 7 8 ,3 8 1 C ohorte, 1 9 2 ,2 0 0 e fecto , 1 9 3 ,2 0 0 C olab orativa, in v estig a ció n , 2 0 3 , 2 1 0 , 2 1 1 , 219 C o m p a ra ció n (es), a p r io r i, 395, 405 a 408, 412 plan ead as, 4 0 6 , 4 1 1 ,4 1 3 p o s t h o c , 39 5 , 405, 406, 409, 413
C on ten id o, a n á lisis d e, 127 a 131 v a lid e z d e, 1 8 3 ,1 8 8 C on trab alan ceo, 9 7 a 9 9 ,1 0 7 C ontraste, c o e fic ie n te s d e , 4 0 8 C on trol, in v estig a ció n d e laboratorio y , 8 1 , 8 2 C o n v en ien cia , m uestra por, 4 8
Conversión/Diseñofs) • 589
C o n v ersió n d ecim al, 2 8 6 , 2 8 7 C o rrecció n , factor d e, y A N O V A , 4 0 3 , 4 1 2 C o rrela ció n (es), 3 5 3 a 3 8 2 ca u sa y , 3 7 4 c o e fic ie n te d e, 3 5 7 ,3 8 0 fu erza d e la, 3 7 2 m e d ic ió n de, 3 5 7 , 3 5 8 n eg a tiv a s, 3 5 6 ,3 8 0 p o sitiv a s, 3 5 6 ,3 8 0 sig n ific a c ió n , y , 3 6 9 a 373 u so s co m u n e s de la, 3 7 9 ,3 8 0 variab le n o m in a l d ico tóm ica, con , 3 7 7 ,3 7 8 C o variad o, 4 4 3 , 4 4 5 ,4 5 0 C o v a ria n za (A N C O V A ), an álisis de, 4 4 3 a 446, 449 Criterio, v a lid e z de, 1 8 3 ,1 8 8 variab le d e, 4 4 3 , 4 4 7 ,4 5 0 C rítico (s), c a so s, 3 9 , 4 7 , 5 1 v a lo r(es), 2 9 5 , 2 9 6 , 3 0 1 ,3 0 2 ,3 7 2 C u a lid a d es p erso n a les, en trevistas y , 139 C u a n tifica ció n , d efin ició n de, 7 0 C uartiles, 2 5 4 , 2 5 5 ,2 7 3 C u a siex p erim en to s, 7 7 , 7 9 , 8 5 ,9 2 C u estio n a rio s, 1 6 2 a 165, 170 a 173 C urva “ G a u ssia n a ” , 2 6 4 C u rv ilín ea s, rela cio n es, 3 6 1 , 3 6 2 , 3 8 0
relacion ad os, n iv e l n om in al, pruebas d e, 3 0 8 a 3 1 0 n iv e l ordinal, pruebas d e, 3 23 a 3 2 7 prueba t para, 3 3 9 a 3 4 4 D e c ile s , 2 5 4 , 2 5 5 , 2 7 1 D ed u cció n , 9 ,2 3 D e fin ic io n e s op eracion ales, 2 5 , 2 9 a 3 1 ,3 7 D em an d a, características de la, 7 7 ,8 8 ,9 1 ,1 3 8 , 172 D ep en d ien tes, variab les, 2 5 , 3 1 , 3 2 , 3 7 D escrip tivas, en cu estas, 1 5 4 ,1 5 5 D esea b ilid a d so cia l, cu estion arios, 173 en trevistas, 139 participantes, 88, 9 3 D esh u m a n iza ció n , 2 1 , 2 2 , 7 7 , 91 D e s v ia c ió n , 2 4 2 estándar, distribución n orm al, curva de, 2 6 6 ,2 6 7 estad ística d escrip tiva, 2 5 1 ,2 5 2 ,2 7 3 sin se sg o , 251 valor de, 2 4 9 ,2 7 1 D eterm in ación , c o e fic ie n te d e, 3 7 3 ,3 8 0 D ia g n ó stic o , reactivo d e, 1 6 7 ,1 8 6 D iagram a(s) de disp ersión , 3 5 5 ,3 5 8 a 3 6 2 ,3 8 1 D iario, m étod o d el, 1 20, 1 2 1 ,1 3 2 D iferen cia l sem án tico, 169, 1 7 0 ,1 8 6 D iferen cia s, cu alitativas, 2 2 4 , 2 2 5 , 2 3 5 cuantitativas, 2 2 4 , 2 2 5 ,2 3 5 D im en sio n es, 4 6 7 D isc u r so (A D ), a n álisis d e, 2 0 3 , 2 1 2 a 2 1 4 , 2 1 9 , 4 7 1 ,4 7 2
D a to s, 5 a 7 , 2 3 a c c e s o a lo s, 4 7 9 , 4 8 0 brutos, 2 4 0 , 2 7 3 cla sifica r, c ó m o , 2 2 7 , 2 2 8 cu alita tiv o s, an á lisis de, 4 6 3 a 4 7 3 d escrip ció n , 1 4 ,2 4 , 74 cu a n tita tiv o s, 14, 24 em p le o de, para probar p red iccio n es, 2 7 7 a 473 esta d ística d escrip tiva, 2 3 9 a 2 7 5 m ed ició n , 2 2 3 a 2 3 8 n o rela cio n a d o s, n iv el n om in al, pruebas d e, 3 1 0 a 321 n iv el ordinal, pruebas d e, 3 2 7 a 3 2 9 p ruebas t, 3 3 5 , 3 4 4 a 3 4 9 ,3 5 0 r e c o lec ció n d e, siste m a s d e, 112 a 114 registro de, 153, 154
D isc u sió n del inform e, 5 0 8 D ise fio (s), en cu estas, de, 155 exp erim en tales, 9 5 a 106 in trasujetos/intragrupos, 9 7 ,1 0 7 , 4 15 in v estig a ció n , de, 2 0 , 2 1 ,2 3 m ix to , A N O V A y , 4 1 5 ,4 1 7 ,4 2 7 ,4 3 8 a 4 4 0 n o relacion ad os, A N O V A , 417 m uestras in d ep en d ien tes, 101 n o p aram étricos, 3 8 7 a 391 un so lo participante, de, 105 o b servación de, 110 prácticas de, 4 9 6 , 4 9 7 , 5 0 8 , 5 0 9 p re te s t/tr a to m ie n to /p o s te s t, 85 relacion ad o(s), A N O V A , 4 1 7 ,4 3 5 a 4 3 7 d efin ició n , 1 0 7 m ed icio n e s repetidas, 9 6 , 9 7 , 3 3 8
590 • Dispersión/Estandarización
pruebas n o param étricas, 391 a 393 un so lo participante, de, 105 un so lo participante, d e, 9 5 , 104 a 107 D isp ersió n , 2 3 9 , 2 4 1 , 271 m ed id a s d e, 2 4 7 a 2 5 3 D ista n cia so c ia l, e s c a la d e , 1 6 7 ,1 6 8 D istrib u ció n (e s), 2 3 9 ,2 5 3 a 2 7 0 aleatoria, participantes y , 4 4 ,7 9 , 103 b im o d a les, 2 4 0 , 2 7 0 ,2 7 1 co la s d e, 2 9 7 ,2 9 8 n orm al(es), área(s) d eb ajo la curva d e, 2 6 6 , 5 3 9 a 541 “ bondad d e a ju ste” y , 3 1 7 características de una, 2 6 5 d escrip ció n , 2 3 9 , 2 6 4 ,2 6 5 , 2 7 2 estan d arización para una, 185 pruebas param étricas, 3 3 7 ,3 3 8 sig n ific a c ió n y , prueba d e, 2 9 9 ,3 0 0 representativas, 103 se sg a d a (s), 2 4 0 ,2 6 9 , 2 7 0 n eg a tiv a , 2 6 9 , 2 7 0 , 2 7 2 p o sitiv a , 2 6 9 , 2 7 0 ,2 7 2 D iv isió n , m éto d o s d e, p or m itad es, 1 8 0 ,1 8 7 su m a s d e cuadrados, d e, 4 2 1 , 4 2 2 D o b le, c ie g o , p roced im ien to d e, 9 0, 91 e fecto , e sc a la s d e actitu d es y reactivos de, 171 D o s co la s, pruebas de, ch i cuadrada, co n , 3 1 2 h ip ó tesis, 17, 18, 2 3 ,3 0 3 probabilidad, 2 8 1 , 2 9 7 D o s m uestras, pruebas para, 45 3
E c o ló g ica , va lid ez, 6 4 , 6 5 , 74, 82 E fecto (s), “ ahora te fa stid ia s” , de, 88 orden asim étrico s, d e, 9 9, 107 “ p is o ” , d e, 2 7 0 p rin cip al(es), 4 1 5 , 4 1 6 ,4 1 9 ,4 2 7 sim p les, 4 1 5 , 4 1 9 , 4 2 0 ,4 2 7 E ncubrim iento, a ctitu d es y , esca la s d e, 165 in v estig a ció n y , 135, 137, 1 3 8 ,1 5 8 E n cu esta (s), 1 54 a 157. V é a s e t a m b ié n C u es tionarios
(índice)
an alíticas, 155 d escrip ción , 1 3 5 ,1 5 8 d iseñ o , 155 m uestra, 156, 157 p ostal, 157 te lé fo n o , por, 157 E n foq u e(s), form ativo, 132 /m éto d o s cu alitativos, 7 4 d im en sió n cu alitativa-cu antitativa, 5 7 , 5 8, 7 0 a 73 n u ev o s paradigm as, 2 0 3 , 2 0 8 , 2 0 9 o b servación no participante, 118 E n gañ o, 123, 4 7 7 , 4 8 1 ,4 8 2 , 4 9 2 E ntrenam iento, en trevista y , 1 5 1 ,1 5 2 E n trevísta(s), 140 a 145 d atos, registro d e, 153, 154 estructuradas, 143 a 145 factores de in flu en cia, 138 a 140 in form ales, 1 4 2 ,1 4 3 n o directiva, 141 preguntas, tip o s de, 152 secu en cia/p rogreso de las pregu n tas, 152, 153 técn ica s de, 149 a 154 Error(es), aleatorio (o variab le aleatoria), 2 5 , 3 3 , 3 7 A N O V A , y, m ultifactorial, 4 1 5 ,4 2 2 ,4 2 9 , 4 3 3 u n id ireccion al, 3 9 9 ,4 0 1 conjetura, d e, 381 co n sta n te(s), 2 5 , 3 4 ,3 7 estándar, 3 4 3 ,3 5 0 m uestreo, de, 2 5 2 ,2 7 3 tasa de, com p aración , por, 4 0 7 ,4 1 2 fam ilia, por, 3 9 5 ,4 1 2 tipo I y tip o II, 2 8 1 , 301 a 3 0 3 E scala(s), con tinu as, 2 2 3 ,2 3 4 ,2 3 5 m ed ició n , d e, 2 3 1 ,2 3 4 ,2 3 5 separada(s), 2 2 3 , 2 3 4 a 2 3 6 “ E sco lta ” , 2 4 3 E scuchar, h ab ilid ad es d e, en trevista y , 151 “ E sq u em a” , 7 E stabilidad, 180 E stadística, d escrip tiva, 14, 2 3 , 2 3 9 a 2 7 5 in feren cial, 15, 24 E standarización, actitudes, esca la s de, 162 cu estion arios, 165 d escrip ción , 1 6 2 ,1 8 7
Estrechez/Igualación(es) • 591
d istrib u ción n orm al, para una, 185 m ed ició n , 2 2 3 p u n tu a cio n es z, 2 6 8 ,2 6 9 E strech ez, e je m p lo s de, 2 0 5 E strés, participantes y , 4 8 4 a 4 8 6 m en tal, 4 8 4 ,4 8 5 E stu d io(s), com p a ra tiv o s, 191 a 201 co rrela cio n a l, 91 intraculturales, 195, 198 lo n g itu d in a les, 191 a 1 9 5 ,2 0 1 naturales, 6 5 , 7 2 n o r e a c tiv o s , 9 2 o b ser v a cio n a le s, 9 2 rea ctiv o , 8 8 , 9 3 E tnicidad, en trevistas, 139 e stu d io s intraculturales y, 198, 199 E tn ocen trism o, 196, 2 01 E v a lu a ció n , recelo h acia la, 8 8 ,9 1 E valu ativas, señ a les, 140 E v a lu a tiv o s, factores, 170 E v en to s, m u estreo d e, 1 1 4 ,1 3 2 E xp ectativa, 7 7 E xperim entador, co m p la cer al, 8 8 , 9 3 , 1 0 0 , 175 co n fia b ilid a d , 8 7 ,9 2 e fe c to s, 8 7 ex p ecta tiv a d el, 8 7 , 8 8 ,9 2 p reju icio del, 6 7 , 68 E x p erim en ta l(es), d iseñ o s, 9 5 a 106 gru p os, 5 0 , 51 h ip ó tesis, 15, 2 3 m éto d o , 7 7 a 108 rea lism o , 6 5 , 7 3 , 88 E x p erim en to (s), 7 8 a 91 ca m p o , d e, 15, 16, 83, 8 4 , 8 9 , 9 0 ,9 2 crítica s al, 8 6 a 91 d e fin ic ió n , 9 2 in v estig a ció n cien tífica , 13 laboratorio, en , 7 7 , 81 a 8 4, 8 9, 9 0 ,9 2 naturales, 8 5 , 8 6 , 9 2 verdadero, 7 7 E x p lica cio n es, a n á lisis d el d iscu rso y , 4 7 2
F a cto r(es), A N O V A m ultifactorial y , 4 1 5 ,4 1 7 , 426 F actorial(es), a n álisis, 16 1 , 177 a 1 7 9 ,1 8 6 , 3 7 9 d ise ñ o (s), 4 1 7 a 4 1 9 ,4 2 6
Fisher, prueba ex a cta d e, 3 1 9 “ F órm u la” , d efin ició n d e, 2 4 2 F recu en cia(s), d atos d e frecu en cia, o, 2 2 6 ,2 3 5 distribución d e, 2 3 9 , 2 5 4 , 271 esperadas, 3 1 1 , 3 1 2 , 3 2 0 bajas, 3 1 8 , 3 1 9 ob servadas, 3 1 1 , 3 2 0 p o líg o n o de, 2 5 8 a 2 6 0 ,2 7 2 F riedm an, prueba d e, 3 9 1 , 3 9 2 ,3 9 3
G em elo s, estu d io s d e, 104, 3 8 0 G én ero, en trevistas y , 138 G ráfica(s), caja y lín ea, de, 2 6 2 a 2 6 4 ,2 7 1 dirigida, 1 7 5 ,1 8 6 Gran m ed ia, 3 9 9 a 4 0 1 , 4 1 3 G rupos, c o n o c id o s, criterio d e, 1 8 3 ,1 8 8 control, 3 9 , 5 0, 51 d ise ñ o s entre, 1 0 2 ,1 0 7 fo c a le s, 156 a 158 in v estig a ció n y , d ise ñ o s d e, 5 0, 51 G uttm an, esca la d e, 168, 1 6 9 ,1 8 5
H ip ótesis, características, 16 d escrip ción, 8 ,2 3 d ireccion al, 17, 1 8 ,2 9 7 ,3 0 2 d o s c o la s, 17, 1 8 ,2 3 ,3 0 3 exp erim en tal, 1 5 ,2 3 in form e, d el, 5 0 4 , 505 in v estig a ció n , d e, 15 no d ireccion al, 17, 18, 2 9 7 ,3 0 2 nula, 16 a 1 8 ,2 3 , 3 0 7 , 50 5 prueba d e, 15, 16 u n a cola, 17, 1 8 ,2 3 , 3 0 2 H istogram a, 2 3 9 , 2 5 6 , 2 5 7 , 2 7 2 H o lístico s, estu d io s, 117
Igu alación (es) (en v alores o ran gos), 3 3 2 m ed iana, cálcu lo d e la, 2 4 4 Spearm an, rho d e, 3 6 8
592 • Ilustración/Mediana
Ilustración, 8 8 In com od id ad , participantes e, 4 8 4 a 4 8 6 física , 4 8 5 ,4 8 6
(Indice)
Investigad or. V éa se E xperim entador e fe c to s d el, 87
In d ep en d ien te(s), v ariab le(s), 2 5 , 3 1 , 3 2 , 3 7 , 416 a 426 In d u cción , 7 , 2 4 In flu en cia s, elim in a ció n de, 9 0 , 91 Inform e, d a to s cu a lita tiv o s, 4 6 9 , 4 7 0 red a cció n d el, 501 a 521 Interacción, e fe c to d e, 4 1 5 , 4 1 6 , 4 1 9 , 4 2 5 , 4 2 6 v ariación d e, 4 1 5 Interés del en trevistad or, 151 Interpersonales, variab les, 135, 1 38 a 140 In te r r o g a to r io c a ra -a -ca ra , 1 3 6 , 1 5 7 , 158. V é a s e ta m b ié n E ntrevistas In tervalo(s), aparentem ente ig u ales, 165, 166 n iv el de, co rrelación , 3 6 2 m ed ició n , 2 2 3 ,2 2 9 a 2 3 1 ,2 3 6 ,2 4 6 ,2 4 7 pruebas a, 3 3 5 a 351 p lá stico , esc a la s de, 2 3 0 , 2 3 6 In terven ción , 4 8 8 ,4 9 3 Intim idad, actitu d es e, esca la s de, 172 ética, 4 7 7 , 4 8 0 ,4 9 3 In trod u cción del in form e, 5 0 3 , 5 0 4 In v estig a c ió n (es), 3 a 2 4 ,7 7 , 7 9 , 8 0 ,9 2 a cció n , de, 2 0 3 , 2 1 0 ,2 1 9 an im a les, co n , 4 8 8 a 491 a sp ecto s é tic o s en la, 4 7 7 a 493 c ic lo de, d escrip ció n del, 12 rep etición d el, 4 7 0 cu an titativa, 5 7 , 5 8 , 7 0 a 74 en d ó g en a , 2 0 3 , 2 1 0 , 2 1 9 e x p o s t fa c to , 86, 92, 379 h ip ó tesis d e, 15 in vestigad or, actitud d el, 21 m ito s e, 5 a 13 n o exp erim en tal, 7 7 , 7 9 a 81 co n fu sió n en la, 3 6 h ip ó tesis, elim in a ció n de, 8 0 ,8 1 o b je tiv o d e, 21 participad v a , 2 0 9 , 2 1 0 ,2 2 0 p la n ea ció n d e la, 19 a 2 2 , 4 95 a 5 0 0 prueba apropiada de, ele c c ió n d e una, 4 5 3 a 461 rep etición , 21 su jeto d e estu d io d e la, 14
Jon ck h eere, prueba d e ten dencia, 3 8 9 a 391 394 Ju ego d e roles, 118 a 1 2 0 ,1 3 3 ,4 8 4 a ctiv o , 118 n o activo, 119
K a lam azoo, estu d io, 136, 137 K ru sk al-W allis, varianza u n id ireccion al, aná lisis de, 3 8 8 ,3 8 9 ,3 9 4 K u d er-R ich ard son , m étod o, 1 8 0 ,1 8 7
Laboratorio, in v estig a ció n de, exp erim en tos, 7 7 ,8 1 a 8 3 , 8 9 , 9 0 , 9 2 h ip ó tesis, ev a lu a ció n d e, 15 L engu aje, em o tiv o , esca la s d e actitu d es y , 172 en trevistas y , 180 “ L ey es” , 7 Libertad, grados d e, 3 1 3 ,3 1 9 ,4 0 2 Likert, m étod o d e, 166, 1 6 7 ,1 8 6 L in eal(es), co eficien tes,' 4 1 3 con trastes, 3 9 5 ,4 0 7 , 4 0 8 , 4 1 1 , 4 1 3 gráfica, 2 5 9 L ó g ica , d ed u ctiva, 9 , 10 probabilidad, 2 8 1 ,2 8 5 a 2 8 7 ,3 0 3
M an ch as d e tinta, prueba d e, 174 M an n -W h itn ey, prueba (U ) de, 3 2 7 a 3 2 9 ,3 3 1 v alores críticos, tabla d e, 5 4 4 a 5 4 7 M atriz sociom étrica, 1 7 5 ,1 8 7 M ed ia, 241 a 2 4 3 ,2 7 2 d esv ia c ió n d e la, 2 4 9 ,2 5 0 ,2 7 2 su m a d e cuadrados, 4 0 3 ,4 1 3 M ediana, 2 4 3 a 2 4 5 ,2 7 2 p o sic ió n o loca liza ció n d e la, 2 4 4 ,2 7 2
Medición(es)/Organización • 593
M e d ic ió n (e s), 2 2 3 a 2 3 8 n iv e le s de, 2 2 3 a 2 3 8 ,2 3 9 , 2 4 6 ,2 4 7 rep etid as, d escrip ció n , 10 7 e fe c to s d e orden, 9 7 fo rta leza s y d eb ilid ad es, 95 a 101, 106 M eta a n á lisis, 5 7 , 6 9 , 7 3 “ M eta rreflex iv id a d ” , 2 1 6 M éto d o (s), c ie n tífic o , 10, 1 1 ,2 4 clín ico /en trev ista , 1 2 0 ,1 3 5 ,1 4 5 ,1 5 7 em p írico , 7 , 2 3 h ip o tético -d ed u ctiv o , 8 , 2 4 , 2 0 4 in form e, d el, 5 0 5 a 5 0 7 o b serv a cio n a les, 109 a 134 M ilgram , obediencia de, dem ostraciones de, 481 M IN 1 T A B mr, 4 5 9 M od a, 2 4 6 , 2 7 2 M u estra(s), a leatoria(s), 4 2 a 4 5 , 5 3 a u to selectiv a , 3 9 , 4 7 , 5 3 b o la d e n ie v e , 3 9 , 4 7 , 5 3 cantidad, por, 3 9 ,5 2 co n g lo m era d o s, por, 3 9 ,4 6 , 52 en cu esta s, 1 5 6 ,1 5 7 esta d ística s, 2 3 9 ,2 7 3 estratificada, 3 9 , 5 3 in d ep en d ien tes, d ise ñ o d e (gru p os/su jetos in d ep en d ien tes), 7 9 , 9 5 , 101 a 104, 1 0 6 ,1 0 7 in v estig a ció n , 2 1 , 2 2 , 2 4 , 3 9 a 4 1 ,5 2 m ás d e d o s, 4 5 6 ,4 5 7 n ú m eros d e sig u a les en las, A N O V A u n id i reccio n a l, 411 oportunidad, por, 3 9 , 4 8 , 52 prácticas, p la n ea ció n de, 4 9 7 representativas, 3 9 , 4 2 , 4 5 , 4 6 , 5 3 tam añ o d e la, 3 9 , 4 8 a 50 varian za d e la, 2 5 2 , 2 5 3 M u estreo, 4 2 a 50 b o la d e n ie v e , d e, 3 9 , 4 7 , 5 3 cantidad, por, 3 9 , 4 6 , 5 2 co n ten id o , a n á lisis de, 129 cu a sia lea to rio , 4 3 , 5 2 d istrib u ción d e, 3 4 2 , 3 4 7 , 3 4 8 ,3 5 0 “ error” d e, 2 5 2 ,2 5 3 , 2 7 3 estratifica d o , 3 9 , 4 6 , 5 3 e v e n to s, d e, 1 1 4 ,1 3 2 pu n to, d e, 1 1 4 ,1 3 3 s e s g o en el, 4 0 , 4 2 , 5 3 siste m á tico , 4 3 , 5 2 tiem p o , de, 114
M u ltico n d icio n a les, d iseñ o s, 9 9 M u ltin iv el, pruebas de, 3 8 4 , 385 “ M u n d o carp in tead o” , h ip ó tesis del, 196
N e g a c io n e s , esca la s d e actitu d es y , 171 N eutralidad, en trevistas y , 150 N ew m a n -K eu ls, prueba, 4 0 9 , 4 1 1 , 4 1 3 N iv e l(e s), A N O V A m ultifactorial, 4 1 5 ,4 1 7 ,4 1 8 ,4 2 7 n om in al, m ed ició n , 2 2 3 ,2 2 5 a 2 2 7 ,2 3 6 ,2 4 7 pruebas d e, 3 0 7 a 321 ordinal, correlación , 3 6 2 m ed ició n , d e, 2 2 3 ,2 2 7 a 2 2 9 ,2 3 6 , 2 4 7 pruebas d e, 3 2 3 a 3 3 2 variab les in d ep en d ien tes, 31 N o participación, 4 8 6 N o ta s, tom ar, 153 N ú m eros, aleatorios, 52 tablas d e, 4 4 , 5 3 8 “ card in ales” , 2 2 6
O O b jetivos d el in form e, 4 9 6 , 5 0 4 O b servación (es), controlada, 1 1 5 ,1 3 2 estructurada(s), 111 a 1 1 5 ,1 3 2 o b je c io n e s a la, 116 a 118 indirecta, 125, 1 2 7 ,1 3 2 naturales, 115 a 1 1 7 ,1 3 2 n o participante, 1 09, 1 1 1 ,1 1 8 ,1 3 2 participante, n o revelada, 1 22, 123 revelad a, 123, 124 sistem áticas, 111 a 115 O b servador(es), con fiab ilid ad d e lo s, 1 14, 1 1 5 ,1 3 3 in flu en cia d el, 1 1 4 ,1 3 3 O g iv a , 2 5 9 , 2 7 2 O portunidad, m uestras de, 3 9 ,4 8 , 52 O rden, e fe c to s de, 9 7 a 1 0 0 ,1 0 7 O rd en am iento aleatorio, 4 4 O rgan ización retórica, a n á lisis d el d iscu rso y , 472
(Indice)
P P age, prueba d e ten d en cia d e, 3 9 2 a 3 9 4 P a n el, 1 5 6 ,1 5 8 P arad igm a(s), “ ca m b io d e ” , 2 0 7 d e fin ició n d e, 2 0 4 ,2 2 0 esta b lecid o , 2 0 5 ,2 0 6 in v estig a ció n tradicional, d e, 2 0 6 n u e v o s, 2 0 3 a 2 1 8 Parám etros, 2 3 9 ,2 5 2 , 3 3 6 , 3 3 7 Pares, com p aración por, 4 0 6 ,4 1 3 igu a la d o s, d iseñ o d e, 9 5 , 104, 1 0 6 ,1 0 7 P articip ación involuntaria, 4 8 7 ,4 8 8 ,4 9 3 P articipante(s), citas tex tu a les, 4 6 8 co n fid en cia lid a d , 4 8 0 co n su lta a lo s, 4 7 0 ,4 7 1 d istrib u ción aleatoria d e, 7 9 ,1 0 3 en gañ o, 4 8 1 , 4 8 2 estrés e in co m o d id ad , 4 8 4 a 4 8 6 o b ser v a ció n , 11 1 , 121 a 1 2 5 ,1 3 2 rea ccio n es, 88 rendir cu en ta s, 4 8 2 ,4 8 3 term in o lo g ía , d eb ate d e, 2 1 ,2 2 v a riab les d el, 3 3 , 4 1 ,5 2 , 1 0 2 ,1 0 3 variación en lo s, 6 7 P ascal, trián gulo d e, 2 9 0 “ P atrones d e a cció n fija ” , 4 9 0 P earson , c o e fic ie n te d e correlación productom o m en to de, 3 5 5 , 3 6 2 a 3 6 6 ,3 8 1 v a lo res crítico s d e, tabla de, 5 5 4 “ P en sa m ien to en v o z alta” , in stru cción d e, . 130, 131 P ercen tiles, 2 5 4 , 2 5 5 ,2 7 3 P ersp ectiv a “ e tó g e n a ” , 2 0 8 P ilo te o /e n sa y o s p ilo to , 11, 12, 2 4 P laceb o , e fe c to , 3 5 , 5 2 gru p o, 3 9 , 5 1 , 5 2 P la g io , 5 0 2 P la n ea ció n , in v estig a ció n , de la, 19 a 2 2 p rácticas, d e, 4 9 5 a 5 0 0 P o b la c ió n (e s), 4 0 , 5 2 d e sv ia c ió n estándar de la, 251 o b jetiv o , 4 0 , 5 3 parám etros de, 2 3 9 ,2 5 2 ,2 5 3 ,2 7 2 ,3 3 6 ,3 3 7 v a lid e z d e, 6 4 varian za d e la, 2 5 3
Poder, d efin ició n , 3 5 0 d iscrim in ative, 1 6 5 ,1 8 6 e fic ie n c ia d e, 3 3 6 , 3 4 9 ,3 5 0 m ed id as repetidas, d e , 433 pruebas param étricas, 3 3 6 , 3 3 7 P o sitiv ism o , 7 0, 7 4 , 2 0 3 a 2 0 5 ,2 2 0 , 4 6 4 ,4 6 5 P o ten cia , factor d e, 170 P rácticas, p lan eación d e, 4 9 5 a 5 0 0 P red icció n (es), e m p leo d e datos para probar, 2 7 7 a 4 7 3 “ error d e ” , 4 4 7 m ú ltip les, 4 4 7 a 4 4 9 P red ictiva, v a lid ez, 1 8 3 ,1 8 8 P reguntas, abiertas, 1 5 2 ,1 5 8 ,1 6 1 , 1 6 3 ,1 6 4 estructuradas, 1 3 5 ,1 3 6 fijas, 161, 163, 164 m o d o d e preguntar, 157 n o estructuradas, 136 p lan team ien to d e, 135 a 1 5 9 ,1 6 1 a 189 se c u e n c ia y p rogreso de ja s, 152, 153 su g estiv a s, esca la s d e actitu d es y , 172 tip os d e, 152 P reju icio, c ie n tífic o s, de, 13 experim entador, d el, 6 7 , 68 m u estreo, en el, 4 0 , 5 3 ob servador, d el, 1 1 4 ,1 3 3 “ P rep aración ” , 4 9 0 P r e te s t, 103 P robabilidad, 281 a 291 d istrib u cion es d e la, 2 8 1 ,2 8 7 , 2 8 8 , 3 0 3 em p írica, 2 8 1 , 2 8 7 ,3 0 3 ló g ica , 2 8 1 ,2 8 5 a 2 8 7 ,3 0 3 su b jetiva, 2 8 3 , 3 0 3 P roced im ien to, estandarizado, 6 0 ,6 7 a 7 0 ,7 4 in d efin id o, 6 7 ,6 8 , 7 3 , 7 7 p rácticas, p lan eación d e, 4 9 8 , 4 9 9 “ so lo c ie g o ” , de un, 9 0 , 9 3 P rogram as d e cóm p u to, 4 5 7 ,4 5 9 P rom ed ios, 2 4 0 ,2 4 1 ,2 7 1 . V é a s e ta m b ié n M e d ia P ro to co lo s verb ales, 130, 1 3 1 ,2 1 4 Prueba(s), “ a o jo ” , 2 9 2 , 2 9 3 ,3 0 2 ap ercep ción tem ática (T A T ), d e, 174 correlacion ad as, 3 3 8 e le c c ió n de una, 4 5 3 a 461 estad ística, de, 3 2 0 m ultivariadas, 3 8 5 ,4 4 3 a 4 5 0
Psicologia/Signo • 595
n o param étricas, com p aración entre pruebas param étri cas y, 338 m ás d e d o s co n d icio n es, 3 8 7 a 3 9 4 param étricas, com p aración entre, y n o param étricas, 338 esta d ística d escrip tiva, 2 3 9 , 2 4 2 , 2 5 2 n iv el intervalo/razón, 2 3 3 , 333 a 351 su p o sic io n e s, 3 3 7 , 4 5 4 p ro y ectiv a s, 174 p sico m étrica s, 161, 176 a 1 7 9 ,1 8 6 R * C X 2, 3 1 5 ,3 1 6 robustas, 3 3 8 t n o relacion ad a, resu m en , 3 4 8 , 3 4 9 t relacion ad a, resum en y , 3 3 5 , 3 4 8 ,3 5 0 X 2, 3 1 0 a 321 “ bondad d e ajuste” , de, 3 1 6 , 3 1 7 ,3 2 0 fórm u la rápida, 3 1 3 lim ita cio n es en el u so de la, 3 1 8 , 3 1 9 prueba, ele c c ió n d e una, 4 5 6 una variable, só lo d os categorías, 3 1 7 , 318 v a lo res crítico s de, tabla d e, 543 P sico lo g ía , fem in ista , 2 0 3 , 2 1 2 , 2 1 9 in d ig en ista , 1 9 8 ,2 0 1 P sico m etría , 177 P sico m etrista (s), 2 3 0 ,2 3 5 P u b lica ció n , 4 7 9 ,4 8 0 Punto, b iserial, correlación de, 3 7 7 , 3 7 8 ,3 8 1 m uestreo de, 1 1 4 ,1 3 3 vista, de, “ co n stru ccio n ista ” , 2 1 5 “ rela tiv ista ” , 2 1 5 , 2 2 0 P un tu ación estándar. V éa se z , p u n tu acion es
R ea ctiv o (s), an álisis d e, 1 8 1 ,1 8 7 estím u lo, aleatorización de, 100 m étod o d e d iscrim in ación d e, 180 R ea lism o m undano, 6 5 , 73 R ecu rsos, 7 1 R ed a cció n del inform e, 501 a 5 2 0 R eferen cias, red acción del in form e y , 5 0 9 , 5 10 R eflex iv id a d , 2 0 3 , 2 1 5 , 2 1 6 , 2 2 0 R egresión , 3 7 3 ,4 4 3 , 4 4 7 , 4 5 0 c o e fic ie n te de, 4 4 8 , 4 5 0 m ú ltip le, 3 7 3 , 3 8 1 , 4 4 3 , 4 4 6 a 4 4 9 ,4 5 0 c o e fic ie n te de, 4 4 9 ,4 5 0 R eifica ció n , 2 7 , 3 7 ,2 3 0 R elatividad cultural, 1 9 6 ,2 0 1 R endir cuentas, 4 7 7 , 4 8 2 a 4 8 4 ,4 9 2 R ép lica, 57, 6 7 , 68, 7 4 R ep resen tación gráfica, 2 5 6 a 2 5 9 R esid u al, 4 3 2 , 4 4 1 , 4 4 7 R esid u o (s), 4 4 3 ,4 5 0 R esp on d ien te, 1 3 6 ,1 5 8 interpretación d el, 172, 173 R esp u estas aleatorizad as, 140 R esu ltad o d el inform e, 5 0 7 , 5 0 8 R esu m en del inform e, 503 R etroalim entación , en trevistas y , 153 R evelad a, 132 R e v isió n (e s), b ib liográficas, 6 9 form ativa, 118 R evocab ilid ad , 10 R e v o ca c ió n , esca la de B ogard u s, 168 R ob u stez, pruebas d e, 3 5 0 R o les, 139 form ales, en trevistas y , 139 R orschach, prueba de m an ch as d e tinta de, 174, 175
s
R a cism o , 198, 199 R an g o , 2 4 7 a 2 4 9 , 2 7 3 sem iintercuartilar, 2 4 8 , 2 4 9 , 2 7 3 R azón , d a to s de, 2 2 8 F, 3 9 8 , 3 9 9 prueba, 3 3 7 , 4 0 5 ,4 1 2 v a lo res críticos, tablas de, 5 5 5 , 5 5 6 n iv el de, correlación , 3 6 2 m ed ició n , 2 2 3 ,2 3 1 a 2 3 4 ,2 3 6 pruebas a, 3 3 5 a 351
S ch effé, prueba, 4 1 3 S ecu en cia aleatoria, 45 S en tim ien tos, en trevistas y , 152 S e sg o “ m o n o m éto d o ” , 66 S ig n ifica ció n , correlación , 3 6 9 a 3 7 2 ,3 8 0 h ip ó tesis, 16 n iv e le s de, 2 8 1 , 2 9 3 , 2 9 4 ,3 0 3 pruebas d e, 18, 2 8 1 , 291 a 3 0 4 , 3 0 5 , 3 0 6 S ign o, b in om ial, prueba d e, 3 0 8 a 3 1 0 , 3 2 0 , 321 prueba de, 3 0 6 , 3 0 8 a 3 1 0 , 3 2 0
S im u la ció n , 118 a 120, 4 8 8 “ S istem a s so c io té c n ic o s ” , 2 1 0 S o cio g ra m a s, 16 1 , 175, 1 7 6 ,1 8 7 S o cio m etría , 174 a 176 Spearm an, rho d e, 3 5 5 , 3 6 6 a 3 6 9 ,3 8 1 v a lo res crítico s, tabla de, 5 5 3 S P S S 1**, 4 5 9 STATPAK , 459 S u jetos. V é a s e ta m b ié n P articipantes term in o lo g ía , deb ate d e, 2 1 ,2 2 variación entre, 4 2 9 ,4 3 1 a 4 3 3 , 441 S u m a(s), cuadrados, d e, 4 0 2 ,4 0 3 , 4 1 2 ,4 1 3 d iv isió n d e, 4 2 1 , 4 2 2 entre gru p os, 4 0 2 ,4 1 2 error d e, 4 0 2 , 4 1 2 total, 4 0 2 rangos, d e, 166, 167
T t d e Student, 3 4 3 t, prueba, c á lcu lo a u tom ático d e la d esv ia c ió n están dar, 341 con trastes d el A N O V A , en , 4 0 8 d atos, para, no rela cio n a d o s, 3 4 4 a 3 4 9 rela cio n a d o s, 3 3 9 a 3 4 4 ,3 4 8 v a lo res crítico s, tabla d e, 5 5 2 T ab las esta d ística s, 5 3 7 a 5 5 8 T a llo y hoja, rep resen tación d e, 2 6 0 a 2 6 2 “ T ech o , e fe c to s d e ” , 2 7 0 T e n d en cia (s), 3 8 5 , 3 8 6 ,3 9 4 central, 2 3 9 , 241 a 2 4 7 , 2 7 0 ,2 7 1 T eo ría (s), 6 , 8 a 10, 1 6 ,2 4 fundam entada, 4 6 9 , 4 7 3 T érm in o s té c n ic o s, esca la s de actitudes, 171 T hurstone, m éto d o , 165, 1 6 6 ,1 8 6 T iem p o , intervalo d e, estu d io d e, 1 9 3 ,2 0 1 m uestreo d e, 114 T ip o lo g ía s, 4 6 8 T ítu lo del in form e, 503 T ranscrip ción , 4 6 6 , 4 6 7 ,4 7 3 T ransculturales, estu d io s, 1 9 1 ,1 9 5 a 2 0 1 T ran sgen eracion ales, problem as, 193, 2 0 0 T ran sversales, estu d io s, 191 a 195, 2 0 0 ,2 0 1 T rian gu lación , 4 7 0 , 4 7 3 T u k ey a (d iferen cia real sig n ifica tiv a ), prueba, 4 0 9 a 4 1 1 ,4 1 3
U U n a co la , pruebas de, ch i cuadrada, con , 3 1 2 h ip ó tesis, 17, 1 8 ,2 3 ,3 0 2 p robabilidad, 2 8 1 , 2 9 7 prueba t, 341
V V a lid ez, 58 a 6 6 am en azas a la, 5 7 , 6 0 a 6 3 , 7 5 , 7 7 an álisis cu alitativos, 4 7 0 ,4 7 1 “ a sp e c to ” , de, 164, 165, 1 8 3 ,1 8 8 concurrente, 1 7 0 ,1 8 3 ,1 8 8 con stru cto, d e, 6 5 , 6 6 , 8 2 ,1 7 7 , 1 8 4 , 1 8 8 con ten id o, d e, 1 8 3 ,1 8 8 criterio, d e, 1 8 3 ,1 8 8 cu estion arios, 165 d escrip ción , 5 7 , 7 4 e c o ló g ic a , 6 4 , 6 5 , 7 4 , 82 estu d io d e ca so , 148, 149 externa, 5 7 a 6 0 , 6 2 a 6 6 , 6 8 , 7 4 interna, 5 7 a 6 2 , 7 5 pred ictiva, 1 8 3 ,1 8 8 pruebas, 161, 162, 182 a 184 V alor(es), ab solu to, 2 5 0 ,2 7 1 correlacion ad o, 3 3 8 críticos d e L , tabla d e , 5 5 8 críticos d e P , tabla d e, 5 5 7 esca la , d e, 165, 1 6 6 ,1 8 6 m od al. V é a s e M od a V ariab le(s), 2 4 ,2 5 a.38 aleatoria, 33 categórica(s), 2 3 4 ,2 3 5 d efin ició n , 2 6 , 27 d ep en d ien te, 2 5 , 3 1, 3 2 ,3 7 extrañas, 3 2 a 3 5 ,3 7 in d ep en dientes, 2 5 ,3 1 , 3 2 , 3 7 , 4 1 6 a 4 2 6 in terp erson ales, 135, 138 a 140 in v estig a ció n , y p lan eación d e la, 2 0 m ed ició n , 2 6 m ed id as, 2 3 4 ,2 3 5 participantes, d e lo s, 3 3 ,4 1 , 5 2 ,1 0 2 , 103 pred ictora(s), 4 4 3 ,4 4 7 , 4 5 0 p revia, 37 5 supresora, 4 4 8 , 4 5 0
Vídeo/z, puntuaciones • 597
V a riación , A N O V A , d el, 3 9 6 d iscu rso , an á lisis d el, 4 7 2 intrasujetos, 4 1 5 , 4 2 9 ,4 3 3 p ro ced im ien to s estan d arizad os, 5 7 ,6 7 V arian za, 7 5 , 2 5 1 , 2 5 2 , 2 7 3 a n á lisis d e (A N O V A ), 3 9 5 a 4 1 4 d ise ñ o m ix to d el, 4 3 8 a 4 4 0 m ed id a s repetidas, d e, 4 2 9 a 4 4 2 m uestras d esig u a les, 411 m ultifactorial, 4 1 5 a 4 2 8 A N O V A u n idireccion al, en e l, 3 9 9 a 401 estim ad a, 3 7 3 , 3 8 1 ,4 0 3 h o m o g e n e id a d de la, 3 3 7 ,3 5 0 , 3 9 8 m ultivariad o (M A N O V A ), a n á lisis d e, 4 4 3 , 4 4 4 ,4 5 0 pruebas param étricas, 3 3 5 V íd e o , registro en , 154 “ V iñ e ta s” , estu d io s d e, 1 0 1 ,1 0 7 “ V o z alta” , instrucción en , 1 3 0 ,1 3 1
w W ilco x o n , prueba d e, ran gos co n sig n o d e, 3 2 3 a 3 2 7 , 3 3 0 a 3 3 2 va lo res críticos, tabla d e, 551 su m a d e rangos d e, 3 2 3 , 3 3 0 ,3 3 1 ,3 8 8 va lo res críticos, tabla d e , 5 4 8 a 5 5 0
Y “ Y ates, corrección d e ” , 31 3
z
z , p u n tu acion es, 2 4 0 ,2 6 7 a 2 6 9 , 2 7 3 , 2 9 8 , 2 9 9
Esta obra ha sido publicada por Editorial El M anual Moderno, S.A. de C.V., y se han terminado los trabajos de esta segunda Edición el 30 de mayo de 1997 en los talleres de Programas Educativos, S.A. de C.V., Calz. Chabacano No. 65, Local A, Col. Asturias, 06850 Empresa certificada por el Instituto Mexicano de Normalización y Certificación A.C., bajo la norma FSO-9002:1994/NMX-CC-004:1995 con el número de registro RSC-048 México, D.F. 2a. Edición, 1997 - 2000
1-