Testy psychologiczne Teoria i praktyka
Książkę tę dedykuję wszystkim tym osobom, dla których mierzenie nie oznacza jedynie faktu przyłożenia linijki do narysowanej linii
Seria WYKŁADY Z PSYCHOLOGII Redaktor naukowy: Jerzy Brzeziński
tom 6 Seria Wykłady z Psychologii obejmuje autorskie uję cie podstawowych dziedzin psychologii, wchodzących w obręb programu pięcioletnich studiów magisters kich na tym kierunku. Poszczególne książki z tej serii, napisane przez badaczy o długoletnim doświadczeniu dydaktycznym i znaczących osiągnięciach nauko wych, są adresowane przede wszystkim do studentów psychologii, ale mogą też być z pożytkiem wykorzy stane przez studentów pokrewnych kierunków. W serii Wykłady z Psychologii ukazują się książki, które odnoszą się do przedmiotów ujętych w Mini malnych wymaganiach programowych opracowanych przez Radę Główną Szkolnictwa Wyższego oraz w Standardach akredytacji kierunku studiów psy chologia Uniwersyteckiej Komisji Akredytacyjnej — zarówno z grupy przedmiotów podstawowych, jak i grupy przedmiotów ujętych w programach różnych specjalności (psychologii klinicznej, psychologii edu kacji, psychologii organizacji i zarządzania itd.).
tlżbieta Hornowska
Testy psychologiczne Teoria i praktyka
Wydawnictwo Naukowe SCHOLAR
R edaktor: Filip Modrzejewski Korekta: Zespół Projekt okładki: Katarzyna Juras
Copyright © 2001, 2003, 2005, 2007, 2009,2010 by Wydawnictwo Naukowe „Scholar”, Warszawa
ISBN: 978-83-7383-238-1
Wydawnictwo Naukowe „Scholar” Spółka z o.o. ul. Krakowskie Przedmieście 62, 00-322 Warszawa tel./fax 022 828 93 91, 022 826 59 21, 022 828 95 63 dział handlow y: jak wyżej w. 105, 108 e-mail:
[email protected];
[email protected] www.scholar.com.pl
Wydanie czwarte, dodruk Skład i łamanie: WN „Scholar” (Stanisław Beczek) Druk i oprawa: Wojskowa Drukarnia w Łodzi
T
Spis treści W s tę p ................................................................................................................. ... 11 Cz ę ś ć I PO D STAW O W E PR O BLEM Y PSY C H O M ETR U
Rozdział 1. W nioskow anie p s y c h o m e try c z n e .......................................... 17 1.1. Czym zajmuje się psychom etria?............................................................ 17 1.2. Definicja testu i rodzaje te s tó w ........................................................... ...21 Definicja te s t u .......................................................................................... ...21 Rodzaje te s tó w ...........................................................................................22 1.3. Kryteria dobroci testów psychologicznych..........................................25 Obiektywność, czyli niezależność wyników te sto w an ia............... ...25 Standaryzacja, czyli jednolitość warunków b a d a n ia ....................... ...26 Rzetelność, czyli dokładność p o m ia ru .............................................. ...28 Trafność, czyli obszar zastosowania te s t u ......................................... ...28 Normy, czyli nadawanie znaczenia wynikom te sto w y m ............... ...29 Właściwa adaptacja, czyli dopasowanie testu do polskich warunków 29 1.4. Proces wnioskowania psychom etrycznego......................................... ...32 1.5. Dwa słowa o historii te sto w an ia............................................................35 Podstawowe p o ję c ia ...........................................................................................38 Literatura z a le c a n a .......................................................................................... ...40 Rozdział 2. K lasyczna teoria testów ja k o podstaw a w nioskow ania o rzetelności t e s t u .......................................................................................... ...41 2.1. Źródła błędu w pomiarze testo w y m .......................................................41 Konstrukcja te s t u ..................................................................................... ...42 Sytuacja te sto w a n ia ................................................................................ ...42 Sposób oceny w y n ik ó w ........................................................................ ...43 2.2. Model wyniku prawdziwego i jego założenia - klasyczna teoria te s tó w .........................................................................43
5
2.3. Definicja rzeteln o ści.................... ............................................................. 45 Interpretacja współczynnika rz e te ln o śc i..............................................48 2.4. Metody badania rzeteln o ści.................................................................. .. 49 Badanie rzetelności metodą powtarzania testu (tzw. technika test-retest) ..................................................................... .. 49 Rzetelność szacowana metodą wersji równoległych (alternatywnych) 51 Rzetelność szacowania na podstawie wyników jednokrotnego badania danym te s te m .............................................................................52 Rzetelność jako zgodność o c e n ........................................................... .. 55 Porównanie poszczególnych współczynników rzeteln o ści............... 55 Rzetelność testów szy b k o ści................................................................ .. 57 Rzetelność testów zorientowanych na kryterium (standard wykonania) 59 Czynniki wpływające na wielkość współczynnika rzetelności . . . 60 2.5. Ocena rzetelności indywidualnego w y n ik u ...................................... .. 63 Standardowy błąd p o m ia ru ..................................................................... 63 Standardowy błąd różnicy między dwoma w y n ik am i.................... .. 67 2.6. Teoria uniwersalizacji jako odmiana klasycznej teorii testów . . . 69 Wariancja wyników te sto w y c h ........................................................... .. 70 Źródła wariancji .................................................................................... .. 71 Wariancja prawdziwa oraz wariancja b łę d u ...................................... ...72 Schematy b a d aw cze............................................................................... .. 72 Podstawowe p o ję c ia ....................................................................................... .. 79 Literatura z a le c a n a ............................................................................................ 79 Rozdział 3. Trafność, czyli określanie obszaru zastosow ania testu . 80 3.1'. Pojęcie tra f n o ś c i..................................................................................... 80 3.2. Rodzaje tra fn o śc i.................................................................................... 82 3.3. Sposoby badania trafn o ści.......... .......................................................... 85 Trafność treścio w a....................... ........................................................... 85 Trafność k ry terialn a ............................................................................... 90 Trafność te o re ty c z n a ............................................................................ 94 3.4. Stronniczość te s tó w ............................................................................... 100 Definicja stronniczości.......................................................................... 102 Potencjalne źródła stronniczości te s tu .................................................104 Stronniczość testu a trafność treściow a..............................................107 Stronniczość testu a trafność kryterialna........................................... 109 Stronniczość testu a trafność teoretyczna.........................................110 Techniki szacowania stronniczości te s t u ........................................... 111 3.5. Wykorzystanie testów dla celów selekcyjnych................................. 114 Indywidualizm nieograniczony ........................................................... 119 Indywidualizm ograniczony ................................................................ 121 Dobór k w o to w y ....................................................................................... 123 Podstawowe p o ję c ia ....................................................................................... 127 Literatura z a le c a n a ..........................................................................................127
Rozdział 4. Norm y, czyli nadaw anie znaczenia w ynikom testowym 128 4.1. Pojęcie normy w p sy ch o m etrii........................................................... 128 Znaczenie grupy odniesienia.................................................................129 Normy ogólnokrajow e...........................................................................131 Normy lo k a ln e ........................................................................................133 4.2. Rodzaje norm ze względu na sposób ich konstrukcji.....................134 Normy standardow e................................................................................134 Normy ran g o w e........................................................................................146 Normy typu rów noważnikow ego.........................................................150 4.3. Interpretacja wyników testów zorientowanych na kryterium . . . . 154 Podstawowe p o ję c ia ........................................................................................156 Literatura z a le c a n a ..........................................................................................157 Rozdział 5. K onstruow anie testu - podstawowe p ro c e d u r y .............158 5.1. Od czego zaczy n am y ?...........................................................................160 Określanie celu p o m ia ru ........................................................................ 160 Określanie obszaru zachowań identyfikowanych z mierzonym konstruktem (procedura operacjonalizacji).......................................160 5.2. Zasady budowania pozycji testow ych................................................. 162 5.3. Analiza z a d a ń .......................................................................................... 167 Analiza językow o-treściow a................................................................ 167 Badanie p ilo ta ż o w e ...................................................... ......................... 169 Wskaźnik tru d n o ś c i................................................................................ 170 Współczynniki mocy dyskrym inacyjnej............................................175 Rzetelność i trafność pozycji testowej ............................................... 182 Analiza zadań w testach szybkości...................................................... 184 Analiza zadań w testach zorientowanych na k ry teriu m .................. 184 5.4. Stronniczości pozycji testowych - zjawisko zróżnicowanego funkcjonowania p o z y c ji....................... .................................................186 5.5. Ostateczna rewizja te s t u ....................... .................................................191 Walidacja k rzy żo w a................................................................................191 5.6. Teoria odpowiadania na pozycje t e s t u .............................................. 193 Ograniczenia modelu klasycznego...................................................... 193 Założenia I R T .......................................................................................... 195 Krzywa charakterystyczna pozycji te sto w ej.......................................195 Parametry pozycji testowej i skala cechy łaten tn ej..........................197 Modele formułowane w ramach I R T ................................................. 199 Gdzie wykorzystuje się modele I R T ? ................................................. 202 Podstawowe p o ję c ia ........................................................................................204 Literatura z a le c a n a .......................................................................................... 204 Rozdział 6. Społeczny kontekst stosowania testów psychologicznych 205 6.1. Testowanie psychologiczne - społeczne niebezpieczeństw a.......... 205 6.2. Prawa osób b ad an y ch ..............................................................................213
Prawo do wyrażenia świadomej zgody na badanie testem ............ 213 Prawo do informacji o wynikach testow ania.................................. 214 Prawo do minimalizowania skutków etykietowania...................... 215 Prawo do zachowania tajemnicy o wynikach testowania...............215 Prawo do pryw atności.......................................................................217 6.3. Testy przed sąd em .............................................................................. 217 6.4. Testy jako produkty rynkow e.......................................................... 220 Podstawowe p o ję c ia ...................................................................................224 Literatura zale c an a ..................................................................................... 225 Część II K r ó t k i p TEST
r z e w o d n ik
,
c z y l i
j a k
s a m u m u
z b u d o w a ć
Poradnik dla stu d en tó w ........................................................................... 227 L ite r a tu r a .................................................................................................... 241 Indeks n a z w is k .......................................................................................... 255
Spis rysunków Rys. Rys. Rys. Rys.
1.1. 1.2. 1.3. 1.4.
Definicje semantyczne i syntaktyczne ............................................................ Podział testów ze względu na rodzaj możliwej odpowiedzi ...................... Podział testów ze względu na rodzaj interpretacji wyniku testowego . . . Proces wnioskowania psychometrycznego ....................................................
19 24 25 35
Rys. Rys. Rys. Rys. Rys.
2.1. 2.2. 2.3. 2.4. 2.5.
Źródła błędu losowego w badaniu testowym ............................................... Metody badania rzetelności ............................................................................. Rzetelność testu jako funkcja jego długości .................................................. Schemat badawczy dla układu krzyżowego oraz układu gniazdowego . . Kolejne etapy postępowania w ramach teorii uniwersalizacji ....................
42 56 61 76 78
Rys. 3.1. Definicja i rodzaje trafności ........................................................................... Rys. 3.2. Kiedy test jest trafny treściowo? ................................................................... Rys. 3.3. Diagramy korelacyjne przedstawiające rodzaje relacji między wynikami testowymi (X) i zmienną kryterialną (Y) w grupie większości i mniejszości Rys. 3.4. Podział populacji starających się o pracę przy uwzględnieniu kwalifikacyjnego wyniku testu psychologicznego (oś X) oraz kryterium pracy zawodowej (oś Y) .................................................................................. Rys. 3.5. Różne kombinacje stosunku wyboru i stosunku powodzenia przy różnych stopniach trafności prognostycznej testu .......................................................
86 88
Rys. 4.1. Normy typu standardowego ............................................................................. Rys. 4.2. Rozkład normalny a skala staninowa ............................................................ Rys. 4.3. Wykorzystanie skali standardowej o szerokim zakresie wyników (Skala T) i skali standardowej o wąskim zakresie wyników (skala staninowa) do przedstawienia wyników dwóch osób (X) i (Y) .......................................... Rys. 4.4. Efekt niezgodności między długością skali wyników surowych a długością skali wyników przeliczonych ........................................................................... Rys. 4.5. Graficzna reprezentacja istoty procesu normalizacji ................................... Rys. 4.6. Etapy procedury normalizacji ........................................................................ Rys. 4.7. Skala centy Iowa ................................................................................................. Rys. 4.8. Związek między centylami a rozkładem normalnym ................................ Rys. 4.9. Siatka centylowa obrazująca możliwość porównywania dwóch wyników wyrażonych w centylach ..................................................................................
113
116 117 135 137
139 141 143 145 148 149 150
Rys. 5.1. Etapy tworzenia testu ....................................................................................... 159 Rys. 5.2. Rodzaje związków między wynikiem danej pozycji testowej a ogólnym wynikiem w teście ............................................................................................ 176 Rys. 5.3. Ilustracja problemu nakładania się zakresów ............................................... 181 Rys. 5.4. Związek między wynikiem otrzymanym w teście a poziomem mierzonej cechy w klasycznej teorii testów oraz w IRT ............................................... 194 Rys. 5.5. Przykład hipotetycznej krzywej charakterystycznej pozycji testowej (item characteristic cuiye, ICC) ................................................................................ 196 Rys. 5.6. Dwie krzywe ICC różniące się współczynnikami mocy dyskryminacyjnej pozycji testowej ................................................................................................. 197 Rys. 5.7. Dwie krzywe ICC różniące się współczynnikami trudności pozycji testowej 198 Rys. 5.8. Dwie krzywe ICC różniące się współczynnikami zgadywania .................. 200 Rys. 5.9. Trzy hipotetyczne sytuacje, w których stronniczość pozycji testowych wynika z (a) różnej mocy dyskryminacyjnej pozycji testowej w obu grupach, (b) różnej trudności i (c) różnego współczynnika zgadywania ................. 203
9
Spis tabel Tab. 1.1. Elementy sytuacji badania testem objęte procedurą standaryzacji ............ Tab. 1.2. Kryteria pozwalające odróżnić dobry test od testu złego ........................... Tab. 1.3. Najważniejsze daty w historii pomiaru psychologicznego .........................
27 31 39
Tab. 2.1. Podstawowe źródła błędu w różnych metodach szacowania rzetelności .
57
Tab. 3.1. Minimalne wartości współczynnika trafności treściowej (CVR), pozwalające uznać otrzymaną wielkość CVR za istotną statystycznie (dla a = 0,05) . .
89
Tab. Tab. Tab. Tab.
4.1. 4.2. 4.3. 4.4.
Kwotowy układ polskiej próby normalizacyjnej dla testu WAIS-R(PL) . Przykład normalizacji rozkładu oraz obliczania norm typu standardowego Przykład obliczania norm typu centylowego ............................................... Wady i zalety norm typu równoważnikowego .............................................
132 144 147 153
Tab. 5.1. Konstruowanie pozycji testowej wiielokategorialnej z jedną opcją do wyboru Tab. 5.2. Wartości wskaźnika trudności dla poszczególnych pozycji oraz średnia trudność testu Słownik z baterii WAIS-R (PL) .......................................... Tab. 5.3. Rozkład wartości poprawionego wskaźnika trudności (T„) dla pozycji posiadających różną liczbę kategorii odpowiedzi ........................................ Tab. 5.4. Przykładowe wyniki dla trzech wybranych pozycji testowych .................
167 172 174 177
W stęp
W tym roku mija 113 lat od ukazania się pierwszej pracy poświęconej statystycznej teorii wyników testowych (Edgeworth, 1888, 1892)1. W ciągu ponad stulecia psychometria - dział psychologii zajmujący się budowaniem teorii wyników otrzymywanych za pomocą testów psychologicznych - osiąg nęła status samodzielnej dyscypliny naukowej, a praktyczne konstruowanie i stosowanie testów stało się przemysłem rynkowym. W okresie tym ukazały się tak znaczące prace, jak An Introduction to the Theory o f Mental and Social Measurement E.L. Thorndike’a (1919), Theories o f Mental Tests H. Gulliksena (1950), A Theory o f Test Scores F.M. Lorda (1952), Probabilis tic Models fo r Some Intelligence and Attainment Tests G. Rascha (1960), Statistical Theories o f Mental Test Scores F.M. Lorda i M.R. Novicka (1968) czy The Dependability o f Behavioral Measurement L.J. Cronbacha, G.C. Gleser, H. Nandy, N. Rajaratnama (1972) - by wymienić tylko najważniejsze. Prace te wyznaczyły sposób myślenia badaczy oraz kierunek podstawowych rozwiązań, jakie wypracowano w tej dziedzinie. Robert Sternberg (1992, s. 134) - wybitny teoretyk inteligencji - opisując drogę, jaką przebyła psychometria, posłużył się interesującą metaforą. Na przełomie wieków obraz świata uległ ogromnej zmianie dzięki nowemu rewolu cyjnemu wynalazkowi - samochodowi. Na początku przyjmowany nieufnie, samochód szybko przekonał ogromne rzesze ludzi o swojej użyteczności. Dzisiejsze marki, chociaż różniące się wyglądem i parametrami technicznymi, w gruncie rzeczy niewiele odbiegają od swojego pierwowzoru: mają cztery koła, silnik i kierownicę, a ich zadaniem jest dowieźć nas tam, gdzie sobie życzymy. Podobnie przedstawia się sytuacja z testami. Dzisiejsze metody testowe - mimo innych opakowań, nieco lepszej trafności i rzetelności - niewiele się różnią od pierwszego testu opracowanego przez Bineta i Simona (1905a, b, c). Składają się z pozycji testowych i mają służyć oszacowaniu wartości określonych cech psychologicznych. Tu jednak kończą się podobieństwa. Szacowanie wartości cech psychologicznych nie jest samo w sobie celem - na podstawie ich wyników podejmowane są decyzje o dużej doniosłości społecznej (to, gdzie ludzie jeżdżą samochodami, nie budzi wszak większego zainteresowania społecznego). Rzeczywisty cel stosowania testów psychologicznych jest jednak znacznie poważniejszy: „Psychologowie (...) mierzą za pomocą testów, by osiągnąć 1 Prawdopodobnie pierwszą polską pracą z dziedziny psychometru jest praca Bolesława Błażka pt Studya psychometryczne. Pomiary na uczniach, wydana w roku 1900, we Lwowie, nakładem Towarzystwa Wydawniczego. Paru Prof. Jerzemu Brzezińskiemu serdecznie dziękuję za udostępnienie egzemplarza tej książki.
W
stęp
jeden z dwóch celów (lub oba te cele jednocześnie): albo opisać badaną osobę ze względu na interesujące psychologa parametry lub aby przewidywać zachowanie tej osoby w określonej sytuacji” (Paluchowski, 1991, s. 58). Co więcej, ów opis lub przewidywanie są wykorzystywane dalej w procesie „aktywnego poszukiwania danych potrzebnych do podjęcia decyzji o działa niach zmierzających do zmiany aktualnego stanu (położenia) psychospołecz nego ludzi” (ibidem, s. 32). Testy będą z całą pewnością w coraz szerszym użyciu - od szkoły począw szy na rynku pracy skończywszy. Pytania dotyczące ich uczciwego stosowania będą zyskiwały coraz większe społeczne uznanie. Wraz z rosnącymi wymogami posiadania bardziej pogłębionego wykształcenia ogólnego oraz z coraz częściej obserwowaną tendencją do zmniejszania się znaczenia formalnych ocen szkol nych czy formalnych dyplomów osoby odpowiedzialne za dobór kadr będą poszukiwać bardziej precyzyjnych i bardziej obiektywnych metod oceny kwalifikacji kandydatów, bardziej trafnych metod selekcji np. osób starających się o pracę. Standaryzowane testy w sposób niekwestionowany udowodniły swoją przydatność dla tych celów. Psychologowie, jako grupa zawodowa, muszą jednak umieć odpowiedzieć na pytania: na czym polega idea wniosko wania psychometiycznego; jakie kryteria powinien spełniać dobry test; czy testy zastosowane w konkretnej sytuacji nie są stronnicze (w sensie psychometrycznym); czy procedura selekcji oparta na wynikach testowych jest uczciwa w stosunku do wszystkich zainteresowanych osób i jakie są społeczne konsek wencje testowania. Książka ta poświęcona jest tym właśnie zagadnieniom.
Struktura książki
12
Praca ta składa się z dwóch części. W części pierwszej omówione zostały podstawowe zagadnienia psychometryczne, takie jak definicja testu i rodzaje testów, klasyczna teoria testów i jej współczesne odmiany, teoria rzetelności, zagadnienia trafności oraz koncepcja norm. Osobny rozdział poświęcony został problematyce konstrukcji testów. Wszystkie te problemy zostały przed stawione w sposób maksymalnie nietechniczny, aby zwrócić uwagę Czytel nika na istotę zagadnień psychometrycznych, która często - w gąszczu wzorów i reguł - schodzi na dalszy plan. Czytelników zainteresowanych bardziej matematycznym wykładem prezentowanych treści odsyłam przede wszystkim do prac Lorda i Novicka (1968), Nowakowskiej (1975), Magnussona (1981) czy Machowskiego (1993). Ostatni rozdział tej części poświęcony został omówieniu społecznych konsekwencji testowania. Takie problemy jak prawa osób rozwiązujących testy czy testy jako produkty rynkowe wymagają bowiem - jak sądzę - oddzielnego i szczegółowego omówienia. W części drugiej omówione zostały zasady obowiązujące przy konstruo wania metod testowych; ma ona formę poradnika przeznaczonego dla studen tów. I chociaż w większości wypadków korzystamy dziś z gotowych metod testowych, zdarza się i tak (szczególnie często dotyczy to studentów), że
W
stęp
trzeba opracować metodę niezbędną do realizacji konkretnych celów diag nostycznych. Ten przewodnik ma pomóc studentom w rozstrzyganiu wątp liwości, jakie towarzyszą takiemu zadaniu. Na zakończenie chciałabym złożyć serdeczne podziękowania Recenzentom podręcznika - Panu Profesorowi Jerzemu Brzezińskiemu oraz Panu Profeso rowi Tadeuszowi Markowi. Ich uwagi pozwoliły mi na lepsze wyartykuło wanie omawianych problemów. Poznań, sierpień 2001 roku
Elżbieta Homowska
13
Część I P
o d sta w o w e
pr o b l e m y psy c h o m etr u
Wszystko, co istnieje, istnieje w jakiejś mierze. Aby dobrze poznać dany obiekt, należy go określić zarówno p o d kątem jakościowym, ja k i ilościowym.
E.L. Thomdike (1904) R o z d z ia ł
1
W n io s k o w a n ie
p s y c h o m e t r y c z n e
1.1. CZYM ZAJMUJE SIĘ PSYCHOMETRIA? Jak mówi Słownik języka polskiego (Szymczak, 1979, tom 2, s. 1071): „psychometria (...) to dział psychologii zajmujący się teorią i opracowywa niem testów psychologicznych”, zaś według Słownika psychologicznego (Szewczuk, 1979, s. 239) to „dział metodologii psychologicznej zajmujący się pomiarem zachowań ludzkich w aspekcie psychologicznym”. Z kolei według Słownika psychologii (Reber, 2000, s. 597) psychometria to „dzie dzina obejmująca badania psychometryczne (...) na ogół odnoszące się do różnych aspektów procesów psychicznych, w tym badania osobowości, inteligencji, określania zdolności (...) [odnosząca się też - przyp. E.H.] (...) do kwestii zastosowania zasad matematycznych i statystycznych w psycho logii”. Aby dokładnie zrozumieć, co kryje się pod tymi dość ogólnikowymi definicjami, przeanalizujmy trzy następujące sytuacje: a) psycholog zatrudniony w firmie doradztwa personalnego tworzy test zdolności korektorskich, na podstawie którego chce zaproponować kan dydatów na stanowisko w firmie komputerowej; b) psycholog szkolny opracowuje skalę pozwalającą mu określić zakres słów, jakie opanowało dziecko; c) psycholog - stosując test inteligencji - pomaga klientowi poznać jego własne, mocne strony. Wszystkie te sytuacje, choć opisujące różne cele, są do siebie podobne. Wszystkie one dotyczą pomiaru wartości cech psychologicznych1. Cechy te (konstrukty teoretyczne) nie są bezpośrednio obserwowalne (mierzalne). Takie pojęcia bowiem, jak „sukces w pracy na określonym stanowisku”, „zakres posiadanego słownictwa” czy „mocne strony”, zanim będą mogły zostać wyrażone ilościowo, wymagają najpierw operacyjnego zdefiniowania (są bezpośrednio nieobserwowalne). Ta właśnie charakterystyka pomiaru J Nie będziemy tu wnikać w kontrowersje wynikające z różnych sposobów definiowania pojęcia cechy. Wystarczy, że przyjmiemy, iż „wartość cechy u danego człowieka jest po prostu (...) parametrem rozkładu charakteryzującego częstości występowania określonych zachowań się tego człowieka w danych sytuacjach” (por. Nowakowska, 1975, s. 20).
R
o z d z ia ł
1
psychologicznego (czyli poznawanie nieobserwowalnych bezpośrednio właś ciwości) sprawia, że niezbędne staje się opracowanie teorii wiążącej efekty badania za pomocą narzędzia pomiarowego (np. testu psychologicznego) z cechą psychologiczną, którą owe efekty (np. wartości liczbowe) odzwier ciedlają. Dokładna analiza przedstawionych wyżej i innych sytuacji pozwala na sformułowanie pięciu zasad (reguł), które charakteryzują pomiar cech psycho logicznych (por. Crocker, Algina, 1986, s. 6-7). Są to następujące reguły: 1. C e c h y p s y c h o l o g i c z n e p o w i n n y b y ć d e f i n i o w a n e nie tylko w te rm in a c h o p e r a c y jn y c h , ale także w t e r minach związków z innymi konstruktami teoretyczny m i c z y o b s e r w o w a l n y m i z j a w i s k a m i . Wyniki pomiaru psycho logicznego nie będą użyteczne, jeżeli nie będzie ich można odnieść do mierzonego konstruktu. Z tego też powodu Lord i Novick (1968, s. 15) podkreślali, że konstrukty psychologiczne powinny być zawsze definiowane na dwóch poziomach. Po pierwsze, mierzony konstrukt powinien zostać zdefinio wany w terminach zjawisk obserwowalnych. Ten rodzaj definicji (zwanych przez autorów d e f i n i c j a m i s e m a n t y c z n y m i ) określa przedmiot pomiaru (tj. zakres obserwowalnych zachowań, które będą rejestrowane). Definicje te stanowią bowiem reguły korespondencji między teoretycznymi konstruktami i obserwowalnymi zachowaniami. Po drugie, mierzony konstrukt powinien zostać powiązany z innymi konstruktami w ramach określonego systemu teoretycznego. Ten drugi rodzaj definicji (nazywanych przez Lorda i Novicka d e f i n i c j a m i s y n t a k t y c z n y m i ) dostarcza ramy interpreto wania otrzymanych wyników. Definicje te są wyrażane w postaci formalnych związków logicznych (matematycznych). Bez definicji syntaktycznych pomiar psychologiczny nie będzie miał żadnej użytecznej wartości (por. rys. l . l ) 2. 2. Ż a d n a r e a l i z a c j a p o m i a r u p s y c h o l o g i c z n e g o n i e m a c h a r a k t e r u u n i w e r s a l n e g o . Ponieważ pomiar cech psycho logicznych jest zawsze pomiarem pośrednim, opartym na obserwowalnych bezpośrednio zachowaniach, ten sam konstrukt psychologiczny może zostać powiązany z różnym zbiorem zachowań. Różne definicje operacyjne prowa dzą zaś do różnych procedur pomiarowych; te z kolei mogą prowadzić do różnych wniosków końcowych. Dobrym przykładem ilustrującym ten stan rzeczy jest pomiar inteligencji. I tak np. inteligencja rozumiana jako „(...) zagregowana (ogólna) zdolność jednostki do podejmowania działań celowych, racjonalnego myślenia i do efektywnego radzenia sobie we włas nym środowisku” (Wechsler, 1998, s, 16) znalazła swój wyraz w - opraco wanej przez D. Wechslera (1939) - baterii składającej się z 11 testów, mierzących różne aspekty przystosowania do środowiska. Z kolei inteligencja pojmowana jako zdolność edukacji (tj. zdolność uzyskiwania nowego wglądu, 18
2 W sprawie pojęcia i zasad operacjonalizacji por. też Homowska, 1989, 2000a.
W n io s k o w
a n ie p s y c h o m e t k y c z n e
Rys. 1.1. Definicje semantyczne i syntaktyczne (opracowano na podstawie Lord i Novlck, 1968, s. 17)
spostrzegania i określania relacji) może być mierzona za pomocą T e s t u M a t r y c opracowanego przez J.C. Ravena (Raven, Court, Raven, 1994). Mówiąc o pomiarze psychologicznym, nie wystarczy zatem wskazywać na mierzony konstrukt. Aby wyniki pomiaru zostały właściwie zinterpreto wane, niezbędna jest znajomość teorii, w ramach której mierzony konstrukt został zdefiniowany. Ten sam wynik uzyskany za pomocą różnych narzędzi ma bowiem zupełnie inne znaczenie psychologiczne. 3. P o m i a r p s y c h o l o g i c z n y j e s t n a j c z ę ś c i e j o p a r t y na o g r a n i c z o n e j p r ó b c e z a c h o w a ń . Formułując definicje semanty czne, trudno jest uwzględnić cały możliwy repertuar zachowań, które mogą zostać powiązane z mierzoną cechą psychologiczną. Dlatego też dokonując pomiaru psychologicznego, zawężamy zarazem interesujący nas obszar za chowań do tych zachowań, które uważamy za najbardziej adekwatne. Okreś lenie kryteriów wyboru takiej próbki zachowań staje się wtedy koniecznością. 4. W y n i k i p o m i a r u p s y c h o l o g i c z n e g o s ą z a w s z e o b a r cz o n e o k r e ś l o n y m b ł ę d e m . Ponieważ pomiar psychologiczny jest ograniczony do wybranej próbki zachowań i najczęściej dokonuje się go tylko w jednym punkcie czasowym, nie odzwierciedla on w sposób jedno-
19
R
o z d z ia ł
1
znacznie dokładny rzeczywistej wartości mierzonej cechy czy funkcji psycho logicznej. Gdyby przeprowadzić ten sam pomiar powtórnie, to najpewniej jego wyniki będą nieco inne. Przyczyną tego stanu rzeczy mogą być takie czynniki, jak np. zapominanie, chwilowe fluktuacje uwagi, zgadywanie czy wreszcie uczenie się. Każdy z nich (a także inne) wpływa na wyniki dokona nego pomiaru. Istotnym elementem pomiaru psychologicznego jest zatem ustalenie sposobu określania wielkości błędu popełnionego przy zastosowaniu danej procedury pomiarowej. 5. W yniki p om ia ru p s y c h o lo g i c z n e g o nie zawsze p r z e k ł a d a j ą się na s k a l e o d o b r z e z d e f i n i o w a n y c h j e d n o s t k a c h . W jakim stopniu wyniki otrzymane w pomiarze psychologicz nym odzwierciedlają rzeczywiste różnice między badanymi osobami? Czy „zerowy” wynik w teście oznacza zerowy poziom cechy psychologicznej? Na te i inne pytania dotyczące interpretacji otrzymanych wyników także trzeba odpowiedzieć, zanim zastosuje się określone narzędzie pomiarowe. Problemami opisanymi powyżej zajmuje się rozwinięta dziś gałąź psycho logii - t j . p s y c h o m e t r i a , inaczej t e o r i a t e s t ó w . W ramach psychometrii podejmuje się wiele zagadnień szczegółowych, takich jak sposoby budowania pozycji testowych (ang. test itetns), opracowywanie kryteriów wyboru pozycji testowych o najlepszych parametrach, zasady przekształcania odpowiedzi testowych na wyniki liczbowe, zasady oceny jakości tych wyni ków, zasady ich interpretacji czy wreszcie zasady określania stopnia stron niczości wyników testowych względem określonej grupy społecznej. Psychometria (czyli teoria testów) dostarcza m o d e l o w y c h r o z w i ą z a ń , i w tym sensie różni się od - mającego bardziej aplikacyjne znaczenie - pomiaru psychologicznego. To ostatnie pojęcie wiąże się raczej ze szczegółowymi zasadami posługiwania się konkretnymi metodami. Wypracowane w ramach teorii testów rozwiązania mogą być natomiast uogólniane na sytuacje pomiaru różnych cech psychologicznych. Rozwiązania te, najczęściej w postaci modeli matematycznych czy statystycznych, są największym dorobkiem psychometrii3. >- Psychometria jestti>g g ą f psycłwtog# zajmu»ącasięofcfeśłanienn wanmków, jakie powinny speMa6 naizędz>ftv^eHrzy^ywane
{)4niiaru cech psychologicz nych, oraz budowaniem modę# wiążących wynikł takich pomiarów z rzeczywistymi
wartościami mierzonych cech.
20
3 W psychologii często wprowadza się rozróżnienie między tzw. diagnozą psychometry a diagnozą kliniczną (por. np. Geller, Kość, 1976; Paluchowski, 1991). Osiowymi pojęciami diagnozy psychometrycznej mają być jej obiektywność, standaryzacja, trafność, rzetelność i odniesienie do norm. Diagnozą kliniczną zaś opisuje się niekiedy jako impresjonistyczną, podkreślając w ten sposób fakt korzystania z różnych przesłanek wychodzących poza dane pomiarowe, a będących podstawą wnioskowania i przewidywania przez nią (też Cronbach, 1990, s. 34). W tej pracy koncentrować się b ęd ziem y na specyficznej klasie narzędzi diagnozy psychologicznej, jaką są metody testowe. Te zaś - bez względu na cel ich zastosowania - muszą spełniać określone kryteria, opisywane w skrócie jako kryteria psychometryczne.
W
n io s k o w a n ie p s y c h o m e t k y c z n e
Współcześnie można mówić o dwóch podstawowych teoriach psychometrycznych: teorii losowego doboru próby {random sampling theory) i teorii odpowiadania na pozycje testu (item response theory - Lord, 1952a). Każda z tych teorii w odmienny sposób wiąże ,wynik pomiaru testowego (wynik obserwowany) z tzw. wynikiem prawdziwym danej osoby. W ramach teorii losowego doboru próby rozpatrywane są dwa podstawowe modele: klasyczny (Gulliksen, 1950) wraz z modyfikacjami (Lord, Novick, 1968) oraz model znany jako teoria uniwersalizacji (Cronbach, Gleser, Nanda, Rajaratnam, 1972). Związek między wynikiem obserwowanym i prawdziwą wartością mierzonej cechy w teorii losowego doboru próby ujmuje się jako problem generalizacji danych z próby na większe populacje (uniwersa). Z kolei w ramach teorii odpowiadania na pozycje testu przyjmuje się, że określenie sposobu, w jaki osoba badana odpowiada na kolejne pozycje testu, pozwala na bezpośrednie określenie rzeczywistego wyniku tej osoby. O obu tych po dejściach będzie mowa w niniejszej pracy. 1.2. DEFINICJA TESTU I RODZAJE TESTÓW Definicja testu Omawiając podstawowe zadania teorii testów, posługiwaliśmy się - na razie w sposób nieformalny - pojęciem testu. Pora zatem na bliższe przyjrzenie się temu, czym jest test psychologiczny i jakie są jego podstawowe cechy charakterystyczne. Test jest narzędziem pomiarowym i jak każde narzędzie tego typu może dostarczać użytecznych wyników. I podobnie jak w wypadku każdego na rzędzia pomiarowego, posługiwanie się złym testem musi prowadzić do błędnych, a także szkodliwych społeęzniedecyzji. Czym są zatem testy psychologiczne, jakie powinny być ich właściwości oraz jakich korzyści powinny oczekiwać osoby badane - to pytania, na które przede wszystkim należy odpowiedzieć Zgodnie z definicją sformułowaną przez Amerykańskie Towarzystwo Psychologiczne w Standardach dla testów stoso wanych w psychologii i pedagogice (APA, 1985a, s. 8 ) „fest psychologiczny jest specyficzną procedurą diagnozowania. Może on być zbiorem zadań lub pytań, które - w standardowych warunkach - mają wywoływać określone rodzaje zachowań i dostarczać wyników o pożądanych właściwościach psyćhometrycznych, tj. posiadających wysokąrzetelność i wysoką trafność”. Podobnie definiują test Anastasi i Urbina (1999, s. 21), dla którychjest to „obiektywna i wystandaryzowana miara próbki zachowania”. Cronbach (1990, s. 32) z kolei podkreśla, że „test to systematyczna procedura obserwowania zachowania i opisywania tego zachowania za pomocą skał numerycznych łub ustalonych kategorii”. Wreszcie - według Choynowskfego (1971, s. 66 ) - „testy to zbiory pytań lub sytuacje, służące do badania własności jednostek lub grup ludzkich przez wywoływanie U nich określonych obserwowalnych reakcji werbalnych lub niewerbalnych, będących w miarę możności reprezentatywnymi próbkami ich zachowania się”.
21
R
o z d z ia ł
1
Jeszcze inaczej określa test Paluchowski (1991, s. 41). Jego zdaniem „bada nie testowe to taka sytuacja, w której osoba badana uczestniczy dobrowolnie, świadoma celu, jakim jest jej ocena. Jest to sytuacja tworzona specjalnie dla celów diagnostycznych, w której wywołuje się zachowania typowe pod wzglę dem tej charakterystyki, jaka ma być przedmiotem celowej obserwacji. Jest to sytuacja, która od diagnosty nie wymaga osobistego zaangażowania i w której jasno jest określony zakres i rodzaj dopuszczalnych zachowań”. W definicji tej autor zwraca uwagę na warunek kooperacyjnej postawy osób badanych, który stanowi milczące założenie każdego twórcy testu. Psycholog stosujący metody testowe powinien umieć taką postawę uaktywniać. W rozważaniach dotyczą cych testów psychologicznych warunek ten, niestety, często jest pomijany. Podsumowując ten krótki przegląd definicji testu, można stwierdzić, że test psychologiczny jest narzędziem, które: a) pozwala na uzyskanie takiej próbki zachowań, o których można przyjąć (np. na podstawie założeń teoretycznych), że są wskaźnikami interesującej nas cechy psychologicznej. Zachowania te nie muszą ściśle przypominać zachowań, które chcemy oszacować na podstawie testu. Wystarczy wy kazać, że istnieje między nimi określony związek; b) dostarcza reguł obliczania wartości mierzonej cechy; c) spełnia określone kryteria formalne, takie jak obiektywność, standaryzacja, rzetelność, trafność i normalizacja; d) jasno określa zakres i rodzaj dopuszczalnych zachowań ze strony diagnosty; e) zakłada kooperacyjną postawę osoby badanej. »• T e s t p s y c h o l o g i c z n y jest to naizędzię.pozyyaj&jącę na uzyskanie takiej reprezentatywnej próbki zachowań, o których możnaprzyjąć (npv. na podstawie założeń teoretycznych lub związków sfńpirytaaiyćh), źe s ą one wskaźnikami intere sującej nas cechy psychologicznej: Jest to narzędzie obiektywne, wystandaryzowane, trafne, rzetelne i znormalizowane, wyposażone w' reguły obliczania wartości mierzonej cechy psychologicznej orarjasno określając»zakres i rodzaj dopuszczal nych zachowań ze strony diagnosty. Nadto, badanie testowe to taka sytuacja, w której osoba badana uczestniczy dobrowolnie, świadoma celu, jakim jest jej ocena.
Rodząje testów
22
W literaturze można spotkać wiele różnych klasyfikacji metod testowych (por. Cronbach, 1990; Anastasi, Urbina, 1999). Jedna z takich klasyfikacji dzieli testy na techniki s t a n d a r y z o w a n e i n i e s t a n d ą r y z o w a n e . Testy standaryzowane to takie testy, które posiadają dokładnie sprecyzowane zasady ich stosowania oraz zostały wyposażone w normy, otrzymane w wy niku przebadania reprezentatywnej próby pochodzącej z populacji, dla której test ma być stosowany. Normy te stanowią podstawę interpretacji wyników otrzymanych przez osoby badane. Z kolei do testów niestandaryzowanych można zaliczyć np. testy wiadomości budowane przez nauczycieli na ich
W
n io s k o w a n ie p s y c h o m e t r y c z n e
własny użytek, w których dopuszcza się możliwość interakcyjnego modyfi kowania sytuacji badania. Testy takie często są stosowane tylko jeden raz. W innej klasyfikacji wyróżnia się testy i n d y w i d u a l n e i g r u p o w e . Testami indywidualnymi można badać osoby jedynie pojedynczo, podczas gdy testy grupowe pozwalają na jednoczesne testowanie dużych grup osób. Podział na testy indywidualne i grupowe ma u swoich podstaw kryterium wydajności, a kolejny podział na testy s z y b k o ś c i i m o c y odwołuje się do kryterium czasowego. Testy szybkości to takie testy, których czas rozwią zania jest ograniczony i - z założenia - żadna osoba badana nie powinna go ukończyć w wyznaczonym czasie. W teście szybkości różnice indywidualne są głównie determinowane szybkością wykonania. Składa się on z zadań generalnie niezbyt trudnych, tj. talach, które mogą zostać rozwiązane przez osoby, dla których przeznaczony jest test. Z kolei testy mocy to testy stwarzające każdej osobie badanej szansę na podjęcie próby rozwiązania wszystkich pozycji testu. Trudność zadań w takim teście stopniowo rośnie. Znajdują się w nim również takie zadania, które są na tyle trudne, że mało kto potrafi je rozwiązać. Tym samym jedynie niewielka liczba osób ma szansę otrzymać w takim teście maksymalny wynik. W tym wypadku otrzymany wynik jest determinowany przede wszystkim poziomem mierzonej cechy. Czwarty rodzaj klasyfikacji wyróżnia testy o b i e k t y w n e i n i e o b i e k t y wne . Tu z kolei kryterium klasyfikacji jest sposób obliczania wyników w teście (osoba oceniająca ma swój udział w „tworzeniu” wyniku). Testy obiektywne posiadają tak starannie opracowane, stałe metody obliczania wyników, że sam wynik może zostać obliczony nawet przez osobę bez przygotowania psychologicz nego (najczęściej procedura obliczania wyników polega na przyłożeniu szablonu do arkusza odpowiedzi). Inaczej w testach nieobiektywnych - ocena odpowiedzi osoby badanej wymaga zazwyczaj dużej znajomości przedmiotu pomiaru i otrzymany wynik często odzwierciedla subiektywne umiejętności psychologa. Testy mogą zostać także poklasyfikowane ze względu na rodzaj zadań, z jakich są zbudowane. Ten podział pozwala wyróżnić testy s ł o w n e i b e z s ł o w n e . Niektóre testy zawierają zadania zbudowane wyłącznie z materiału werbalnego (jak np. testy wiadomości), inne mogą polegać na wykonywaniu określonych czynności, np. wskazywaniu brakujących elementów czy też rysowaniu drogi w labiryncie. W zadaniach słownych jednym z kryteriów branych pod uwagę przy ocenie stopnia wykonania takiego zadania jest sprawność językowa osoby badanej, w zadaniach bezsłownych słabe opanowa nie języka nie jest czynnikiem wpływającym istotnie na otrzymywane wyniki. I wreszcie przedostatni rodzaj klasyfikacji - najważniejszy z psychometrycznego punktu widzenia, bo wskazujący na dwie odmienne klasy problemów natury psychometrycznej, które muszą zostać rozwiązane - to podział metod na testy w ł a ś c i w o ś c i p o z n a w c z y c h i w ł a ś c i w o ś c i a f e k t y w n y c h . Te pierwsze, czyli testy właściwości poznaw czych, to testy mierzące wytwory procesów poznawczych (np. testy zdolności,
23
R
o z d z ia ł
1
uwagi, pojemności pamięci), te drugie z kolei to testy mierzące postawy, wartości, zainteresowania czy inne, pozapoznawcze, aspekty osobowości. W pierwszym wypadku każde zadanie testowe ma ściśle określoną odpowiedź prawidłową, a dodatkowym problemem, który należy tu wziąć pod uwagę, jest problem zgadywania. W drugim wypadku w ogóle nie istnieje kategoria odpowiedzi prawidłowej4, a problemem, z jakim trzeba się uporać, jest prob lem trafności samoopisu dokonywanego przez osobę badaną (por. rys. 1.2 ). Rys. 1.2. Podział testów ze względu na rodzaj możliwe] odpowiedzi Testy
uczucia postawy osobowość emocje wierzenia
▼ ZGADYWANIE
TRAFNOŚĆ SAMOOPISU
Na koniec warto wspomnieć o jeszcze jednym podziale testów, podziale na testy z o r i e n t o w a n e n a n o r m y or az z o r i e n t o w a n e n a k r y t e r i u m 5. Tutaj kryterium podziału stanowi sposób interpretacji wyników. W testach zorientowanych na normy punktem odniesienia dla interpretacji wyników jest konkretna populacja osób, a w testach zorientowanych na kryterium tym punktem jest konkretny zakres wiedzy. Ta ostatnia kategoria testów pozwala na dokonanie opisu badanej jednostki w kategoriach specy ficznych umiejętności, jakie udało się jej opanować (por. rys. 1.3). Z kolei w testach zorientowanych na normy punktem odniesienia jest przeciętny
24
4 Trudno np. twierdzić, źe istnieje prawidłowa odpowiedź na pytanie „Czy zdarza ci się lubić ludzi, którzy wyznają inne wartości niż ty?”. W takim wypadku możemy mówić jedynie o odpowiedzi diagnostycznej (zgodnej z kluczem) lub o odpowiedzi niediagnostycznej (nie zgodnej z kluczem). 5 Termin test .¿orientowany na kryterium” został zaproponowany przez Glasera (1963), jednak stosowany był dość dowolnie. Dlatego też dzisiaj proponuje się w jego miejsce termin „test zorientowany na standard wykonania” (por. dyskusję w tej sprawie Anastasi i Urbina, 1999, s. 111). Co więcej, termin k r y t e r i u m bywa również stosowany na określenie trafności kryterialnej i ma - w tym kontekście - inne znaczenie. Tutaj termin „kryterium” czy „standard wykonania” oznacza pewien wz ó r , i w takim sensie będzie używany dalej.
W n io s k o w
a n ie p s y c h o m e t r y c z n e
Rys. 1.3. Podział testów ze względu na rodzaj interpretacji wyniku testowego
poziom wykonania testu w określonej grupie odniesienia. Tym sam jon normatywna interpretacja wyniku testowego jest interpretacją relatywną i zależy od tego, kto wchodził w skład badanej grupy osób. 1.3. KRYTERIA DOBROCI TESTÓW PSYCHOLOGICZNYCH Testem psychologicznym nie jest każdy zbiór pytań lub zadań, a tylko taki zbiór, który spełnia wszystkie - wymienione w definicji - warunki. Co więcej, test psychologiczny powinien również spełniać określone kryteria formalne, które za Brzezińskim (1984, s. 9) najczęściej określane są jako tzw. kryteria dobroci testów; tj. test powinien być obiektywny, wystandaryzowany, rzetel ny, trafny i znormalizowany. Omówimy je pokrótce, dodając jeszcze jedno kryterium - właściwą adaptację, które ma szczególne znaczenie wtedy, gdy na rynku polskim stosuje się testy opracowane za granicą.
Obiektywność, czyli niezależność wyników testowania Test jest obiektywny, jeżeli dwie różne oscrby opracowujące jego wyniki dochodzą do tegó samego rezultatu. Aby było to możliwe, test musi posiadać jasno określony klucz oceniania Odpowiedzi, zmniejszający do minimum wpływ subiektywnych interpretacji. Najbardziej klasyczną metodą badania stopnia obiektywności testu jest technika tzw. ślepej diagnozy. Technika ta polega na rozesłaniu tego samego, wypełnionego arkusza testowego do różnych osób oceniających. Jeżeli otrzymane wyniki i ich interpretacje będą do siebie podobne, można uznać dany test za obiektywny. Jest to diagnoza ślepa, bo jest dokonywana bez kontaktu z osobą badaną. W sytuacji rzeczywistej diagnozy kontakt z osobą badaną jest bardzo ważnym źródłem informacji. W tej
25
R
o z d z ia ł
1
konkretnej sytuacji chodzi jednak o to, aby indywidualne umiejętności korzystania z takich źródeł informacji nie wpływały na sposób oceniania wyników testowych. Warunek obiektywności zatem oznacza, że niezależnie od tego kto, gdzie i kiedy dokonuje oceny wyników tego samego testu, wykonanego przez tę samą osobę, powinien otrzymać takie same rezultaty.
Standaryzacja, czyli jednolitość warunków badania
26
Aby wyniki danego testu można było ze sobą porównywać, dany test powinien być zawsze przeprowadzany w identycznych warunkach. Tylko wtedy bowiem różnice w wynikach testowych badanych osób można przypi sać czynnikom indywidualnym, a nie np. zewnętrznym warunkom badania. Jeżeli w trakcie interpretacji wyników testowych będziemy chcieli skorzystać z norm testowych, to jednolitość warunków badania testem (standaryzacja) jest warunkiem absolutnie koniecznym. Warunek standaryzacji obejmuje następujące elementy sytuacji testowania (por. tab. 1. 1): instrukcję, pomoce oraz zasady oceniania i interpretowania wyników. Szczególną rolę w badaniu testowym odgrywa instrukcja stosowa nia testu. Jej przestrzeganie jest podstawowym elementem gwarantującym powtarzalność warunków' badania. W podręczniku testowym znajdziemy wszystkie ważne informacje dotyczące zasad badania testem, a więc: czy jest to badanie grupowe czy indywidualne, jaki jest czas badania, jaka jest kolejność zadań lub testów, czy istnieje możliwość powrotu do poprzednich zadań i wreszcie: jaki jest zakres pomocy udzielanej badanemu (por. też Anastasi, Urbina, 1999; Jaworowska, 1996). Przestrzeganie instrukcji podawanej osobie badanej jest tak ważnym czynni kiem decydującym o wyrównaniu warunków badania, że w Standardach dla testów stosowanych w psychologii i pedagogice (1985a, s. 25) zaleca się, aby w trudnych sytuacjach, tj. takich, w których modulacja głosu, pauzy czy wyraz twarzy osoby badającej mogą mieć znaczenie, nagrać instrukcję na taśmę magnetofonową. I choć na pierwszy rzut oka takie zalecenie wydaje się sensowne, to jednak z uwagi na obowiązek motywowania osób badanych i nawiązywania z nimi sprzyjającego kontaktu trudno pogodzić się z wprowadzaniem „bezdusz nej” maszyny w miejsce rzeczywistych relacji. Sądzę, że dobre szkolenia osób badających, obejmujące techniki nawiązywania kontaktów, są lepszym gwaran tem rozumienia konieczności przestrzegania procedury standaryzacji przewidzia nej dla danego testu niż mechaniczne odtwarzanie instrukcji z magnetofonu. Rozumiejąc istotę procedury standaryzacji, trudno zakceptować wcale nierzadkie fakty stosowania np. testu przeznaczonego do badań indywidual nych w sposób grupowy, tworzenia własnych, samodzielnie wykonanych pomocy testowych (bo te oryginalne są drogie i należy je kupić za granicą), podawania instrukcji w różny sposób (np. podawania więcej informacji tym, którzy z jakichś względów są nam bliżsi) czy też zadawania tylko części pytań zawartych w danym teście (bo reszta wydaje się niepotrzebna).
W
n io s k o w a n ie
psy ch om etryczne
Tab. 1.1. Elementy sytuacji badania testem objęte procedurą standaryzacji (opracowano na podstawie Standardów dla testów stosowanych w psychologii /pedagogice, 1985a, b; 1999) Czego dotyczy (troeedura standaryzacji? Procedura badania testem
Zasady ogólne
Wskazówki dotyczące badania testem powinny być przed stawione na tyle jasno i wyraźnie, aby testujący mógł i chciał powtórzyć sposób badania zastosowany przy usta laniu norm. Stosując metody testowe, należy dokładnie przestrzegać procedur/ badania testem opisanej w podręczniku.
Instrukcja
W instrukcji należy omówić takie zagadnienia, jak fakt badania indywidualnego czy grupowego, liczebność ba danej grupy, limity czasowe, sposoby zaznaczania od powiedzi na arkuszach, możliwość powrotu do poprzed nich zadań lub pytań, problem zgadywania, kolejność stosowania testów lub zadań oraz zakres pomocy udzie lanej badanemu. Jeżelł dopuszcza się możliwość rozszerzania lub uszcze gółowiania instrukcji przedstawionej w podręczniku testo wym, to należy przedstawić warunki, w jakich postępowa nie to jest dopuszczalne.
Procedura obliczania wyników
Pomoce
Aby utrzymać standaryzację metody testowej, należy okresowo sprawdzać materiał testu, wyposażenie oraz stosowaną procedurę.
Klucz do oceny odpowiedzi
Osoby stosujące testy są odpowiedzialne za dokładne obliczanie, sprawdzanie, kodowanie i rejestrowanie wyni ków testowych. Należy okresowo kontrolować stosowany system oblicza nia wyników.
Procedura interpreto wania wyników
Obliczanie wyników
Procedura obliczania wyników testowych powinna zostać przedstawiona w podręczniku testowym na tyle szcze gółowo! dokładnie, aby prawdopodobieństwo popełnienia błędu było jak najmniejsze.
Normy
Normy przedstawione w podręczniku testowym powinny zostać opracowane dla wyraźnie zdefiniowanych i opisa nych Ropulacji. Populację tę muszą.odpowiadać tym gru pom osób, z którymi badający testem będzie zazwyczaj porównywał osoby badane. Należy brać pod uwagę normy właściwe dla osoby badanej.
Podkreślmy wyraźnie: każde odstępstwo od standardowych, przewidzianych w podręczniku testowym, warunków badania sprawia, że badanie to nie jest już badaniem testowym! Wyniki takiego badania mogą być ewentualnie interpre towane jakościowo, absolutnie nie można je d n a k -w takim wypadku - korzy stać z norm testowych (por. Anastasi, Urinna, 1999; Jaworowska, 1996).
27
R
o z d z ia ł
I
Rzetelność, czyli dokładność pomiaru Rzetelność to inaczej dokładność pomiaru. Innymi słowy, jest to wielkość błędu, jaki popełnia psycholog, interpretując wyniki danego testu. Nie ma idealnego testu - tak jak nie ma idealnej linijki czy innego narzędzia pomia rowego. Dlatego też trzeba wiedzieć:, jak duży popełniamy błąd, stosując określony test, i określić granice interpretacji otrzymanego wyniku testowego. Zgodnie ze „rzetelność określana jest jako stopień, w jakim wyniki testowe można przypisać oddziaływaniu systematycznych źródeł wariancji” (Stan dardy..., 1985a, s. 58). Oznacza to, że rzetelność mówi nam o tym, w jakim stopniu wynik danego testu odzwierciedla poziom mierzonej cechy u danej osoby, a nie wpływ czynników losowy ch. Nie ma jednej uniwersalnej metody badania rzetelności, bowiem w każdej konkretnej metodzie bierze się pod uwagę różne źródła błędu. Dlatego też interpretując przedstawione w pod ręczniku testowym dane o rzetelności danego testu, należy zawsze oceniać je w kontekście metody, za pomocą której je otrzymano. Technicznie korzystanie z danych o rzetelności testu oznacza umiejętność zbudowania przedziału ufności dla tzw. wyniku prawdziwego badanej osoby. W podręczniku każdego profesjonalnego testu psychologicznego można znaleźć odpowiednie dane o wielkości standardowego błędu pomiaru, po zwalające na określenie granic przedziału, w którym - z odpowiednim prawdopodobieństwem - mieści się wynik prawdziwy badanej osoby. Do obowiązków psychologa należy uwzględnienie wielkości tego błędu przy interpretowaniu wyników (por. też Anastasi, Urbina 1999; Jaworowska, 1996). I dlatego aby testy były użyteczne, powinny posiadać odpowiednie tabele, pozwalające łatwo określić wielkość standardowego błędu pomiaru.
Trafność, czyli obszar zastosowania testu
28
Testy psychologiczne są zawsze stosowane w określonym celu. Najczęściej służą przewidywaniu zachowania osoby badanej w określonych sytuacjach. Np. możemy być zainteresowani przewidywaniem - na podstawie wyników testów inteligencji - predyspozycji menedżerskich badanych kandydatów, a na podstawie testu stylów kierowania określeniem tego, czy dana osoba może być dobrym kierownikiem. O tym, czy dany test możemy wykorzys tywać w taki, a nie inny sposób, decydują dane o trafności. Trafność testu to - empirycznie potwierdzony - obszar zastosowania testu. W Standardach dla testów stosowanych w psychologii i pedagogice (1985a, s. 33) t r a f n o ś ć określa się następująco: „Pytanie o trafność to pytanie o to, co można poprawnie wywnioskować na podstawie wyniku testowego. Pojęcie trafności dotyczy poprawności wniosków wyprowadzonych na pod stawie wyników testowych lub innych form badania. Wszelkie potencjalne pytania o trafność dadzą się sprowadzić do dwóch: (a) jakie wnioski można wyciągnąć na temat tego, co jest mierzone przez test; oraz (b) jakie wnioski można sformułować o innych (pozatestowych) zachowaniach?”. Mówiąc jeszcze inaczej, trafność to informacja o tym, jak test pełni swoją funkcję.
W
n io s k o w a n ie p s y c h o m e t r y c z n e
W podręczniku testowym można znaleźć informacje na ten temat. Pamiętać należy jednak o tym, że trafność zawsze dotyczy konkretnego zastosowania. Nie ma testów, które można by stosować wszędzie i w każdym celu. Dlatego też dane dotyczące trafności powinny być analizowane szczególnie starannie, a wybór konkretnego testu powinien zostać poprzedzony dokładną analizą celu badania.
Normy, czyli nadawanie znaczenia wynikom testowym Wynik otrzymany w teście psychologicznym nie ma żadnego znaczenia tak długo, jak długo nie można odnieść go do precyzyjnego i jednolitego układu odniesienia. Istota testów psychologicznych polega bowiem na tym, że podstawą interpretacji wyników testowych jest zawsze jakiś układ odniesienia. Najczęściej układ ten ma charakter statystyczny. Oznacza to;, że wynik surowy (otrzymany w wyniku badania testem) danej osoby odnosi się do rozkładu wyników otrzymanego w próbie standaryzacyjnej; pozwała to stwierdzić, w którym miejscu rozkładu mieści się osoba badana. Podstawą formułowania wniosków o właściwościach psychologicznych osób badanych jest zawsze ocena tego, jak badana osoba wypada na tle innych osób (grupy odniesienia). Wybór grupy odniesienia ma zatem kluczowe znaczenie dla tego, jakie wnioski końcowe zostaną wyprowadzone (por. Anastasi, Urbina, 1999; Jaworowska, 1996). Czym jest zatem procedura normalizacji? Według Brzezińskiego (2000, s. 412) „normalizacja testu to procedura tworzenia zbiorów, w specjalny sposób przetworzonych, wyników testu dla osób o określonych właściwoś ciach zdefiniowanych za pomocą kryterium zewnętrznego; osoby te stanowią reprezentatywną, w sensie statystycznym, próbę”. Efektem normalizacji testu jest zbudowanie zestawu norm, które stanowią podstawę interpretacji wyni ków testowych uzyskanych przez konkretne osoby badane. Normy testowe mają zatem charakter relatywny - zależą bowiem od tego, kto tworzy grupę odniesienia. Inaczej mówiąc, wynik tej samej osoby może zostać raz zinterpretowany jako niski, raz jako przeciętny, a raz jako wysoki - wszystko zależy od tego, z jaką grupą odniesienia wynik ten został porów nany. Brak właściwych (np. opracowanych dla populacji polskiej) norm dyskwalifikuje zatem metodę jako test psychologiczny. Cóż bowiem może wynikać z porównania Polaka badanego w roku 2000 z normami opracowa nymi dla populacji amerykańskiej w latach 50? Nic, oczywiście, poza fał szywym przekonaniem, że dziś - być może - jesteśmy lepsi (por. też dyskusję na temat znaczenia norm w kwestionariuszu MMPI - Paluchowski, 1987).
Właściwa adaptacja, czyli dopasowanie testu do polskich warunków Spora część testów stosowanych w Polsce to testy obcojęzyczne. Aby takie testy mogły być stosowane u nas, powinny zostać nie tylko prze tłumaczone (co jest raczej oczywiste), ale także zaadaptowane do warunków polskiej kultury. Adaptacja to proces przystosowania wersji pierwotnej do specyfiki kultury lokalnej i nie sprowadza się ona jedynie do właściwego przetłumaczenia tekstu oryginału.
29
R
o z d z ia ł
I
Przystępując do kulturowej adaptacji każdej techniki diagnostycznej, przyj mować można dwie różne strategie tworzenia takiego narzędzia: a) s t r a t e g i ę p s y c h o m e t r y c z n ą , dla której kryterium tożsamości jest em pirycznie potwierdzone podobieństwo rozkładów odpowiedzi na pozycje testowe i/lub rozkładów wyników globalnych, oraz b) s t r a t e g i ę p r a g m a t y c z n ą , dla której takim kryterium jest podobieństwo funkcji, jaką ma pełnić dana technika i decyzje oparte na uzyskanych za jej pomocą wynikach. Adaptacja kulturowa według strategii psychometiycznej w istocie niczym nie różni się od tworzenia równoległej do oryginalnej kultury wersji narzę dzia. Adaptacja według strategii określonej jako pragmatyczna odwołuje się natomiast do kulturowego i społecznego kontekstu badania diagnostycznego za pomocą danego narzędzia oraz teoretycznego zaplecza, do którego od wołuje się psycholog, interpretując wyniki tego narzędzia6. Często uważa się, że podstawą dobrej adaptacji jest wierne przetłumaczenie oryginału. Tymczasem bezrefleksyjne tłumaczenie słowa po słowie może przynieść opłakane skutki (por. Ciechanowicz, 1996; Drwal 1990). Przytocz my jeden taki przykład (za: Ciechanowicz, 1996, s. 39)7. Oto w tłumaczeniu testu inteligencji można znaleźć co następuje: Która z następujących liczb wyraża najlepiej podobieństwo między przedstawionymi niżej słowami: 7, 5, 3, 9, 11, czy 19? czerwony, pies, łóżko, kot, dziesięć, chłopiec? Zadanie to, choćby nie wiem ile czasu mu poświęcić, nie daje się w ogóle rozwiązać. Czy to znaczy, że jest ono bardzo trudne, a my po prostu nie potrafimy tego zrobić? Otóż nie: bezmyślny tłumacz przełożył bowiem oryginalny zestaw słów red, dog, bed, cat, ten, boy w sposób dosłowny, zupełnie natomiast zapomniał, po co to robi! Problem adaptacji nie sprowadza się jedynie do mądrego przekładu oryginal nej metody. Przeanalizujmy taki przykład. Oto w jednej z najbardziej znanych metod przeznaczonych do badania inteligencji ludzi dorosłych znajduje się w oryginale taka pozycja testowa: „How many pints make a quart?”. Pytanie to jest traktowane jako łatwe dla populacji amerykańskiej i znajduje się na piątym z kolei miejscu w teście. Tymczasem w polskiej adaptacji testu pytanie to zastąpiono pytaniem: „Ile tuzinów liczy kopa?”. Rzecz w tym, że Amerykanie do dziś przeliczają objętość na pinty oraz kwarty i te miary objętości są im dobrze znane, dla Polaka zaś pytanie o kopy i tuziny jest pytaniem o miary archaiczne, i dlatego jest trudniejsze od amerykańskiego odpowiednika. Sprawą decydującą o jakości adaptacji jest zachowanie koncepcyjnych podstaw metody przyswajanej w obrębie danej kultury. Znajomość ich pozwala bowiem na odtworzenie reguł oryginalnej metody, a co za tym
30
6 Szerzej w sprawie kryteriów adaptacji por. Brzeziński, Homowska (2000). 7 Więcej przykładów kłopotliwej adaptacji można znaleźć w pracy pod redakcją Ciechanowicz Kulturowa adaptacja testów (1990).
W n io s k o w
a n ie p s y c h o m e t r y c z n e
idzie - logicznie z nimi spójnych reguł adaptacji. Tylko dzięki temu propono wane kulturowe odpowiedniki wywodzić się będą z oryginalnej bazy teorety cznej, a koncentracja na zapewnieniu trafności pozwoli na interpretowanie wyników danej adaptacji metody zgodnie z oryginalną teorią metody. Nie ma i nie może być jednego optymalnego sposobu adaptacji testu. Zawsze zależy to od celu, dla jakiego przeznaczony jest test. Zgodzić się należy zatem z tym, że ,jeżeli chcemy posiaidać narzędzie jak najlepiej mierzące pewne cechy w Polsce i przydatne dla praktyki w naszym kraju, trzeba je opracować na nowo, uwzględniając w jak największym stopniu specyfikę lokalną (...)” (Drwal, 1990, s. 133). P o d s u m o w u j ą c , należy w tym miejscu wyraźnie podkreślić, że dobry test to test, który spełnia wszystkie wymienione wyżej warunki. Jest metodą obiektywną, wystandaryzowaną, trafną, rzetelną, znormalizowaną i dodatkowo - w wypadku testów obcojęzycznych - właściwie przystosowaną do kultury polskiej. Pomijanie (czy niedocenianie) któregokolwiek z tych warunków należy traktować jako brak profesjonalnej dbałości o własne instrumentarium pomiarowe. Trudno bowiem w wypadku quasi-testu (a więc takiej metody, która tylko z pozoru przypomina test psychologiczny) mieć pewność, że mierzy ona to, co chcemy, żeby mierzyła, że czyni to odpowiednio dokładnie, a otrzymane w wyniku jej zastosowania wyniki mają jakieś znaczenie psychologiczne (por. też tab. 1.2 ). Tab. 1.2. Kryteria pozwalające odróżnić dobry test od złego testu (opracowano na podstawie Standardów dla testów stosowanych w psychologii I pedagogice, 1985; Ciechanowicz, 1996; Anastasi, Urbina, 1999) Warunki, jakie powinien spełnla<: dobry test Kryterium decyzyjno tte.ed iMrisży zwrócłć tfwagę w ramach danego kryterium Autor testu Test powinien mieć autora. Test zagraniczny powinien również mieć autora polskiej adaptacji.
Podręcznik testowy Opis teorii lub sposobu doboru grup empirycznych. Opis grupy, na której przeprowadzono badania standaryzacyjne. Opis procedury badania i interpretowania wyniku. Opis badań dotyczących rzetelności i błędu standardowego pomiaru. Opis badań dotyczących trafności zalecanej interpretacji. Opis procedury normalizacji i normy dla wyraźnie zdefiniowa nych populacji.
Pomoce
Opis materiałów testowych, pomocy, arkusza pytań, arkusza odpowiedzi; test powinien także posiadać oryginalny komplet pomocy testowych.
Zabezpieczanie testu Powinny być podejmowane wszelkie możliwe kroki, aby mate riał testowy został właściwie zabezpieczony.
Ochrona prawna
Test powinien podlegać wyłącznie legalnej dystrybucji.
R
o z d z ia ł
1
>• K aŻ % Ś ^psy$«fD j$^yi 5i ^ ^ wlrtłen ftyć otJteW^wriy? w wyjattetesiów blw ^ęzyezny^M W taśi^^
dobroci : ł 2iłóm«fflzowany, oraz zaadaptowany'.
• o b i e k t y w nośó~t o nieaałeżnośić wyników testowych od tego kto, gdzie i kiedy dokonują ich oceny . • s t a n d a r y z a c j a - t o j&dnołitość reguł badania dąnym testem
• t r a f n o ś ć - t o dokładność, z*jaką test realizuje zatbżone cele pomiarowe • r z e t e l n o ś ć - t o precyzja realizowanego pomiaru: • n o r m a l i z a c j a - t o procedura wyposażania testu w statystyczne kryteria interpretacji wyniku testowegaśnotTny) • a d a p t a c j a k u l t u r o w a - przystosowanie oryginalnego testu do nowych warunków kulturowych.
1.4. PROCES WNIOSKOWANIA PSYCHOMETRYCZNEGO Wiedząc już, czym jest test oraz jakie kryteria dobroci powinien test psychologiczny spełniać, zastanówmy się nad tym, jak na podstawie wyniku testowego wyprowadza się wnioski o wartościach cech psychologicznych badanych osób. Proces ten nazywać będziemy dalej p r o c e s e m w n i o s kowania psycho metrycznego. »- P r o c e s w n i o s k o w a n i a " p s y c h ó r n e t r y ć ż n e g o jest to proces wypro wadzania wniosków o wąrtościach cech psychologicznych badanych osób na pod stawie wyników, jakie otrzymały’one w testach psychologicznych.
32
Istotą stosowania testów psychometrycznych jest stworzenie możliwości wnioskowania o nieobserwowalnych właściwościach psychologicznych na podstawie obserwowalnego zachowania w kontrolowanych warunkach (la boratoryjnych) oraz wyrażającego go wyniku testowego. Punktem wyjścia psychometrycznej definicji pojęcia cechy psychologicznej jest przyjęcie założenia, że cesze odpowiada hipotetyczne kontinuum, na którym można rozmieścić wszystkie badane osoby zgodnie z wartością (natężeniem) tej cechy. Pozycja jednostki na tym kontinuum jest relatywnie stała i wyjaśnia stałość zachowania w podobnych sytuacjach (por. Lord, Novick, 1968). Dokonując oceny wartości natężenia cechy, psycholog przyjmuje, że im częściej (a dokładniej: w im większej liczbie sytuacji, w których przejawia się owa cecha) dana osoba przejawia określone zachowania, tym wyższy jesi poziom cechy, której te zachowania są manifestacją. Test psychometrycznj (ergo - definicja operacyjna) zarówno pozwala na uzyskanie próbek za chowań, jak i dostarcza reguł obliczania wartości estymatora mierzonej cech} dla danej osoby (por. definicja testu). Podstawą wnioskowania psychometrycznego jest zatem wynik otrzymany w teście, nazywany dalej w y n i k i e m o b s e r w o w a n y m . Wynik obser wowany odzwierciedla jedynie poziom wykonania zadań (pozycji) tworzącycl konkretną próbkę, jaką jest zastosowany test, w konkretnym czasie i w konkret
W n io s k o w
a n ie p s y c h o m e t r y c z n e
nym miejscu. Dlatego też wynik ten może (ale nie musi) odzwierciedlać rzeczywisty poziom mierzonej cechy u osoby badanej. Technicznie wynik obserwowany jest uzyskiwany najczęściej poprzez przypisywanie wartości liczbowych odpowiedziom lub reakcjom na pozycje testu (zadania czy pytania). Pozycje testowe są oceniane w kategoriach odpowiedzi prawdziwej (diag nostycznej) lub nieprawdziwej (niediagnostycznej), a wynik ogólny w teście jest sumą udzielonych odpowiedzi. Określając liczbę zachowań uznanych za diagnostyczne, psycholog dokonuje oceny ogólnej wartości natężenia cechy, rozumianej jako inwariant sytuacji i czasu, Im więcej diagnostycznych za chowań stwierdzi u danej osoby, tym wyższą wartość cechy jest skłonny jej przypisać8. W y n i k o b s e r w o w a n y jest to wynik, jaki badana osoba otrzymuje w teście psychologicznym. >- W y n i k p r a w d z i w y jest to wynik odzwierciedlający rzeczywistą wartość mierzonej cechy u danej osoby.
Gdybyśmy mogli przebadać tę samą osobę wszystkimi możliwymi pozyc jami testowymi (a więc dysponować jej odpowiedziami dla całego uniwersum możliwych pozycji; a nie tylko dla próby pochodzącej z owego uniwersum), w różnych możliwych warunkach i w różnym czasie, to moglibyśmy oszaco wać wartość w y n i k u p r a w d z i w e g o 9 dla tej osoby. Oczywiście, byłoby rzeczą idealną, gdyby decyzje dotyczące badanych osób mogły opierać się nie na wynikach obserwowanych, a na wynikach prawdziwych. W rzeczywis tości jednak decyzje te zawsze są oparte na wynikach obserwowanych, wyniki prawdziwe bowiem są jedynie pewną idealizacją. R z e t e l n o ś ć , tj. wiel kość współczynnika korelacji między wynikiem obserwowanym a wynikiem prawdziwym, mówi nam, w jakim stopniu nie obserwowane wyniki praw dziwe wyjaśniają wariancję wyników obserwowanych. Im wyższa rzetelność testu, tym dokładniej możemy oszacować wynik prawdziwy badanej osoby. Rzetelność jest rozsądnym kryterium jakości testu, o ile można przyjąć, że pozycje testowe są t r a f n y m i wskaźnikami mierzonej cechy. Może być bowiem tak, że oszacowany na podstawie wyniku obserwowanego wynik 8 Takie częstościowe (statystyczne) rozumienie wyniku testu psychologicznego umożliwiło zastosowanie do jego opisu aparatu statystyki i opracowanie teorii wyników testowych. 9 Wynik prawdziwy rozumiany bywa najczęściej na dwa sposoby. Zgodnie z tzw. m o d e l e m p l a t o ń s k i m , wynik prawdziwy jest utożsamiany z rzeczywistą wartością mierzo nej cechy. Podobnie jak każdy obiekt fizyczny posiada; określone wartości swoich cech fizycznych, niezależnie od aktu dokonywania pomiaru i wyboru narzędzia pomiarowego, tak i każdy człowiek (w danym momencie czasu) posiada prawdziwe (choć nie znane) wartości swoich cech psychologicznych. Wynik prawdziwy zatem istnieje niezależnie od aktu dokony wania pomiaru (por. Gulliksen, 1950). Z kolei zgodnie z tzw. m o d e l e m s t a t y s t y c z ny m, wynik prawdziwy jest średnią rozkładu skłonności danej osoby w określonym teście. Rozkład skłonności zaś tworzony jest przez wszystkie możliwe wyniki owego testu u tej osoby (por. Lord, Novick, 1968).
33
R
o z d z ia ł
1
prawdziwy nie odzwierciedla wcale tej cechy psychologicznej, o którą psychologowi chodzi. To, że autor testu konstruował swoją metodę z intencją realizacji konkretnego celu, nie jest jeszcze gwarancją sukcesu! I tak np. jeżeli test uzdolnień matematycznych składa się wyłącznie z zadań teks towych wymagających wcześniejszego przeczytania, to wysoki wynik otrzy many w takim teście wcale nie musi odzwierciedlać wysokich zdolności matematycznych, a np. też lub tylko wysokie kompetencje językowe. Wynik prawdziwy zatem musi być traktowany jako pewien wskaźnik; ściślej, jako wskaźnik tego, jaką cechę (konstrukt psychologiczny) mierzy dany test. Sam wynik prawdziwy jako taki odzwierciedla „coś”, a o tym, co to jest, mówią nam dane dotyczące trafności testu. Mówiąc jeszcze inaczej - trafność jest związkiem zachodzącym między wynikiem prawdziwym a p r z e d m i o t e m p o m i a r u (por. rys. 1.4). Im więcej posiadamy danych na temat trafności testu, tym większy jest zakres interpretacji wyniku otrzymanego w teście10. W rzeczywistej sytuacji testowania rozpoczynamy zazwyczaj od etapu, który na rys. 1.4 znajduje się na samym dole, tj. od pomiaru. Na tym etapie przekształcamy odpowiedzi udzielone przez osobę badaną na wartości licz bowe. Następnie szacujemy, w jakim stopniu wynik otrzymany odzwierciedla wynik prawdziwy badanej osoby. Wreszcie oceniamy trafność naszych wnios kowań, a więc to, co możemy powiedzieć na podstawie oszacowanego wyniku prawdziwego badanej osoby. Celem przedstawionego schematu (por. rys. 1.4) jest wskazanie na istotne elementy procedury wnioskowania o wartościach cech psychologicznych. Mechaniczne utożsamianie wyniku otrzymanego w teście z poziomem mie rzonej cechy (co wcale nierzadko ma miejsce!) jest zarówno świadectwem braku profesjonalizmu, jak i braku odpowiedzialności za podejmowane decyzje. I choć może truizmem jest stwierdzenie, że testy stosujemy nie po to, aby uzyskać jakiś wynik, ale po to, by zwiększyć wiedzę o osobach badanych, i po to, aby to one - na podstawie uzyskanych wyników - miały szansę np. na zmianę, warto ten prosty fakt tu podkreślić. Od wyniku otrzymanego w teście do diagnozy psychologicznej wiedzie długa droga, a jej początkowy odcinek wymaga znajomości znaków topograficznych, którymi dla nas są pojęcia, takie jak wynik otrzymany, wynik prawdziwy, rzetelność i trafność.
34
10 Warto w tym miejscu wspomnieć o pewnym paradoksie. Wynik testowy będący odpowiedzi diagnostycznych jest otrzymywany przy założeniu, że odpowiedź na każdą pozycję testową posiada to samo znaczenie, jakie nadaje się wynikowi globalnemu. Stąd też pod stawowym założeniem klasycznej teorii testów jest założenie homogeniczności pozycji testo wych - każda pozycja, jak również wszystkie razem, posiada to samo znaczenie. Homogeniczność pozycji testowych gwarantuje otrzymanie wysokiej rzetelności pomiaru, obniża natomiast trafność testu (por. Crocker, Algina, 1986) - a ta cecha testu jest przecież najważniejsza z punktu widzenia stosującego go psychologa! Do zagadnienia tego wrócimy później.
W n io s k o w
a n ie p s y c h o m e t k y c z n e
Rys. 1.4. Proces wnioskowania psychometrycznego (opracowano na podstawie Suen, 1990. s. 6)
1.5. DWA SŁOWA O HISTORII TESTOWANIA O tym, że ludzie różnią się zdolnościami, osobowością czy zachowaniem że te różnice można w jakiś sposób określić, wiedziano już od dawna. Źródeł badań testowych można bowiem szukać już w starożytnych Chinach. Jak podaje DuBois (1970) około roku 2200 p.n.e. w Cesarstwie Chińskim opracowano system egzaminów pozwalający wybierać pracowników do służb publicznych. Każdy z urzędników przechodził przez sito egzaminacyjne co trzy lata11. Za czasów panowania dynastii Shang (lub też - jak chcą inne źródła - dynastii Zhou), tj. około roku 1115 p.n.e., system ten został zmody fikowany i w tej formie przetrwał aż do roku 1905, kiedy to został zaniechany. “ Co ciekawe, wzorowany na tym systemie sposób rekrutacji urzędników w XIX-wiecznej Francji i Anglii okazał się bardzo skuteczny.
35
R
o z d z ia ł
36
1
I może nie warto by wspominać o tym fakcie, gdyby nie to, że jak się okazuje, już cztery tysiące lat temu przedmiotem dociekań były te same zagadnienia, jakie są podejmowane przez współczesnych psychometrów. To tedy bowiem narodziła się idea, że ludzie piastujący ważne stanowiska powinni posiadać określone umiejętności, co - biorąc pod uwagę, że były to czasy wszechwładnego nepotyzmu - jest niewątpliwie godne podziwu. Co więcej, już wtedy formułowano kryteria, jakie każdy kandydat spełniać powinien (np. były to wysokie umiejętności jeździeckie, ¡arytmetyczne, wysoka sprawność pisania - por. DuBois, 1970). Można więc powiedzieć - używając dzisiejszej terminologii - że budując testy, już wówczas brano pod uwagę ich trafność kryterialną! W średniowiecznej Eiuropie problem określania różnic indywidualnych między ludźmi, przynajmniej z naukowego punktu widzenia, nieomal nie istniał. W tym okresie bowiem fakt urodzenia się w danej klasie społecznej był czynnikiem decydującym o tym, jakie działania mogli ludzie podej mować, a ich własna aktywność i umiejętności schodziły zdecydowanie na dalszy plan. Wiek XVI i początki kapitalizmu przyniosły odrodzenie idei indywidualizmu, jednakże zasadnicze zmiany w dziedzinie badania różnic indywidualnych nastąpiły dopiero w wieku XIX. Na początku XIX wieku naukowcy nie byli szczególnie zainteresowani pomiarem różnic indywidualnych. Różnice te dostrzegano głównie w obszarze zdolności sensomotorycznych oraz umysłowych i były one raczej traktowane jako przeszkoda w formułowaniu ogólnych praw nauki niż jako przedmiot badań naukowych. Zanim wynaleziono precyzyjne narzędzia do pomiaru wielkości fizycznych, dokładność pomiaru czasu czy odległości zależała przede wszystkim od zdolności percepcyjnych obserwatorów. Obserwatorami były zazwyczaj osoby szkolone i wyćwiczone w tym, co mają robić, a mimo to pomiary dokonywane przez różne osoby, jak też przez te same osoby w różnych sytuacjach, nigdy nie były takie same. Ponieważ trudno budować ogólne prawa nauki, gdy pomiar istotnych wielkości nie może być uznany za pomiar rzetelny, naukowcy początkowo kierowali swoją uwagę na budowanie instrumentów pomiarowych, które dawałyby bardziej stałe i precyzyjne wyniki niż bezpośred nia ludzka obserwacja. Zainteresowanie badaniami różnic indywidualnych systematycznie rosło w drugiej połowie X3X wieku, głównie za sprawą pojawie nia się psychologii jako nauki oraz pracy Karola Darwina zatytułowanej On the Origins ofSpecies by Means o f Natural Selecńon (O powstawaniu gatunków drogądoboru naturalnego). Sam Darwin był Anglikiem, jednak psychologia naukowa narodziła się pod koniec XIX wieku nie w Anglii, a w Niemczech. To wtedy właśnie badacze, tacy jak Gustaw Fechner, Wilhelm Wundt czy Hermann Ebbinghaus, udowadniali, że zjawiska psychologiczne można wyrażać w termi nach ilościowych. Wtedy również swój wkład do mierzenia różnic indywidual nych wnieśli badacze z Francji i ze Stanów Zjednoczonych. I tak, badania psychiatrów i psychologów francuskich zajmujących się upośledzeniami umysłowymi wpłynęły na rozwój klinicznych i testowych technik diagnozy, a rosnące
W n io s k o w
a n ie p s y c h o m e t r y c z n e
zainteresowanie egzaminami pisemnymi, jakie przeprowadzano w amerykań skich szkołach, wpłynęło na rozwój standaryzowanych testów osiągnięć (por. też Stachowski, 2000). Wiele postaci odegrało pod koniec XIX wieku istotną rolę w tworzeniu podstaw współczesnej psychometiii. Na szczególne podkreślenie zasługują prace Franciszka Galtona, Jamesa McKeena Cattella i Alfreda Bineta. Galton (notabene kuzyn Darwina) zajmował się dziedzicznymi podstawami inteligen cji i technikami mierzenia zdolności. Szczególnie interesował się dziedzi czeniem wśród „geniuszy” i formułował tezy dotyczące istoty zdolności umysłowych. Jego zdaniem o byciu „geniuszem” decydowały dwie cechy: energia działania i wrażliwość zmysłowa. Galton stworzył również - i to jest jego najważniejsza zasługa dla rozwoju psychometrii - wiele prostych testów sensomotorycznych i opracował kilkanaście metod analizy wielkości różnic indywidualnych. Posługując się swoimi testami, zebrał dane pochodzące z badań ponad 9000 osób w wieku od 5 do 80 lat! Był to pierwszy duży, systematyczny zbiór danych dotyczących różnic indywidualnych. Warto też w tym miejscu powiedzieć, że jednym z ważniejszych metodologicznych osiągnięć Galtona było wprowadzenie pojęcia i techniki „ko-relacji”, po wszechnie stosowanej dziś metody analizowania danych (DuBois, 1970). James McKeen Cattell był Amerykaninem, który po zrobieniu - pod kierunkiem Wundta - doktoratu w Niemczech osiadł w Anglii i pracował jako asystent Galtona. Tam poznał jego testy i metody, co zainspirowało go na tyle, że po powrocie do Ameryki zajął się propagowaniem idei badań testo wych. W trakcie swojej pracy na Uniwersytecie Pensylwańskim Cattell starał się powiązać wyniki tych prostych t e s t ó w u m y s ł o w y c h 12 badających czas reakcji i różnicowanie sensoryczne ze stopniami szkolnymi. Otrzymane korelacje były jednak bardzo niskie. W ten sposób powstała potrzeba skon struowania testów, które byłyby dobrymi predyktorami osiągnięć szkolnych. Człowiekiem, który podjął się takiego zadania, był Francuz, Alfred Binet. Alfred Binet i współpracujący z nim lekarz Teodor Simon otrzymali w roku 1904, z francuskiego Ministerstwa Edukacji Publicznej, zadanie stworzenia metody identyfikującej dzieci mające trudności w uczeniu się (upośledzone umysłowo). W tym celu stworzyli test przeznaczony do badań indywidual nych, składający się z 30 zadań ułożonych według rosnącej trudności. Przed miotem pomiaru tego pierwszego t e s t u i n t e l i g e n c j i , opublikowanego w 1905 roku, były zdolności oceniania, rozumowania i wnioskowania. W 1908 roku ukazała się pierwsza rewizja testu, zawierająca większą liczbę 12 To Cattell właśnie, w jednej ze swoich publikacji z roku 1890, wprowadził pojęcie „testów umysłowych”. On także był inspiratorem założenia Psychological Corporation, in stytucji, której celem miało być „wspieranie psychologii i promocja użytecznych zastosowań psychologii”. Jego osoba jest też często utożsamiana z tzw. „Skalą Inteligencji dla Dzieci Cattell” (Cattell Infant Intelligence Scalę), której autorką była w rzeczywistości jego córka Psyhe (por. Cohen, Swerdlik, 1999).
37
R
o z d z ia ł
1
zadań, odpowiednio pogrupowanych dla poziomów wiekowych od 3 do 13 lat. Wtedy też Binet wprowadził pojęcie w i e k u u m y s ł o w e g o jako sposób wyrażania wyniku otrzymanego w teście. Kolejna rewizja Skali Inteligencji Bineta-Simona, opublikowana w 1911 roku, tuż po niespodzie wanej śmierci Bineta, pozwalała również na badanie ludzi dorosłych. Do pionierów testowania należy również zaliczyć Chaiiesa Spearmana, który wniósł wkład do teorii testów, Edwarda L. Th0 mdike’a (testy osiągnięć), Lewisa Termana (testy inteligencji), Roberta Woodwortha i Hermana Rorschacha (testy osobowości) oraz Edwarda K. Stronga (testy zainteresowań) - by wymienić tylko niektórych. Prace Artura Otisa nad testami inteligencji typu papier i ołówek bezpośrednio przyczyniły się do powstania „Testu Alfa dla Wojska” (Army Alpha) oraz „Testu Beta dla Wojska” (Army Betha), stworzonych przez psychologów wojskowych w trakcie I wojny światowej. Oba testy, „Alfa” dla osób piśmiennych i „Beta” dla osób niepiśmiennych, były testami grupowymi pozwalającymi na jednoczesne badanie dużej liczby osób (por. też Aiken, 1982). Począwszy od I wojny światowej możemy obserwować bardzo dynamiczny rozwój zarówno teorii testowania, jak i samych metod testowych. Nazwiska osób, które odegrały istotną rolę w kształtowaniu dzisiejszych testów, ciągle widnieją w nazwach stworzonych przez nich metod. Trudno w tak skrótowym przeglądzie wspomnieć wszystkich badaczy. Warto jednak wracać do korzeni, bowiem - jak pisze Anastasi - „kierunek, w jakim zmierzają współczesne badania testowe, można jaśniej dostrzec w świetle rzucanym przez prace ich prekursorów. Specyficzne zalety i ograniczenia testów stają się bardziej zrozumiałe w kontekś cie danych pokazujących ich genezę” (Anastasi, Urbina, 1999, s. 56).
Podstawowe pojęcia: • Kryteria dobroci testów obiektywność standaryzacja rzetelność trafność normalizacja adaptacja • Test • Testy obiektywne i testy nieobiektywne • Testy słowne i testy bezsłowne • Testy standaryzowane i testy niestandaryzowane • Testy właściwości poznawczych i testy właściwości afektywnych • Testy zorientowane na normy i testy zorientowane na kryterium • Wnioskowanie psychometryczne • Wynik obserwowany • Wynik prawdziwy 38
W n io s k o w
a n ie p s y c h o m e t r y c z n e
Tab. 1.3. Najważniejsze daty w historii pomiaru psychologicznego (opracowano na podstawie DuBois, 1970; Cronbach, 1990; Goidberg, 1994; Anastasi, Urbina, 1999; Cohen, Swerdllk, 1999) Data
Wydarzenie
2200 p.n.e.
Uruchomienie w Chinach programu testowania kandydatów na stanowiska urzędników państwowych
1219 n.e.
Pierwsze formalne, ustne egzaminy z prawa na Uniwersytecie w Bolonii
1575
J. Huarte publikuje rozprawę Examen de Ingenios, poświęconą różnicom indywidualnym
1636
Uniwersytet w Oksfordzie wprowadza ustne egzaminy przy nadawaniu stopnia naukowego
1860
Początek stosowania egzaminów ustnych na szeroką skalę zarówno w Europie, jak i w Stanach Zjednoczonych
1869
Publikacja Galtona Classificsition o f Men According to Their Natural Gifts rozpoczyna badania naukowe nad różnicami indywidualnymi
1879
W Lipsku powstaje pierwsze laboratorium psychologiczne, założone przez W. Wundta
1888
J.M. Cattell otwiera laboratorium na Uniwersytecie Pensylwań skim
1893
Na wystawie w Chicago J. Jastrow demonstruje testy sensomotoryczne
1904
C. Spearman występuje z dwuczynnikową teorią inteligencji
1905
Ukazuje się „Skala Inteligencji Bineta-Simona”. C. Jung wpro wadza pojęcie testu skojarzeń słownych
1908
Rewizja „Skali Inteligencji Bineta-Simona” oraz opublikowanie „Testu Arytmetycznego” C. Stone’a
1908-1914
E.L. Thomdike publikuje standaryzowane testy arytmetyczne, językowe, sprawności pisania
1916
L. Terman publikuje amerykańską wersję „Skali Inteligencji Bineta-Simona”
1917
Zastosowanie pierwszych testów do badań grupowych, tj. Army Alpha i Army Betha; wykorzystanie „Arkusza Danych Osobistych" opracowanego pirzez R. Woodwortha
1919
L. Thurstone opracowuje test wykorzystywany przy egzami nach wstępnych do college’u
1920
Ukazuje się test „Plamy Atramentowe” H. Rorschacha
1921
Cattell, Thomdike oraz Woodworth zakładają Psychological Corporation, pierwszą instytucję zajmującą się wydawaniem testów
1925-1950
Masowe stosowanie testów w Stanach Zjednoczonych, niemal we wszystkich obszarach życia
R
o z d z ia ł
1
cd. tab. 1.3 1938
Ukazuje się pierwsza publikacja O.K. Burosa „Mental Measure ments Yearbook”
1939
D. Wechsler publikuje test do badania inteligencji osób do rosłych „Wechsler Adult-lntelligence Scale”
1942
Ukazuje się test MMPI („Minnesota Multiphasic Personality Inventory”)
1949
D. Wechsler publikuje drugi z serii swoich testów, tym razem przeznaczony do badania dzieci i młodzieży („Wechsler Intel ligence Scale for Children")
1967
Ukazuje się trzeci test D. Wećhslera, przeznaczony do badania małych dzieci („Wechsler Preschool and Primary Scale of Intelligence”)
1970
Liczne publikacje nowych metod testowych, w tym także ich wersji komputerowych
1971
Pierwsza sprawa sądowa dotycząca testów. W Stanach Zjedno czonych sąd nakazuje, aby testy wykorzystywane dla celów selekcji były merytorycznie powiązane z rodzajem wykonywa nej pracy (sprawa Griggs vs. Duke Power)
Literatura zalecana Anastasi A., Urbina S. (1999). Testy psychologiczne. Warszawa: Pracownia Testów Psychologicznych Polskiego Towarzystwa Psychologicznego. Brzeziński J. (1996). Metodologia badań psychologicznych. Warszawa: Wy dawnictwo Naukowe PWN. Brzeziński J. (2000). Teoria testów psychologicznych: ABC psychometrii, w: J. Strelau (red.), Psychologia. Podrącznik akademicki. Tom 1: Podstawy psychologii (s. 400-415). Gdańsk:: Gdańskie Wydawnictwo Psychologiczne. Guilford J.P. (1988a). Teoria testów psychologicznych. Biblioteka Psychologa Praktyka. Tom II: Problemy teorii, rzetelności, konstrukcji i analizy wyników testów psychologicznych (s. 9-50). Warszawa: Polskie Towarzys two Psychologiczne, Laboratorium Technik Diagnostycznych.
40
R o z d z ia ł . 2
K L A S Y C Z N A T E O R IA T E S T Ó W JA K O P O D S T A W A W N IO S K O W A N IA O R Z E T E L N O Ś C I T E S T U
W języku potocznym termin r z e t e l n o ś ć oznacza niezawodność (do kładność). Z kolei w psychometrii termin ten odnosi się do powtarzalności otrzymanych wyników. Stosując określony test, jesteśmy bowiem zaintere sowani tym, czy ponowne badanie tej samej osoby w podobnych warunkach przyniosłoby takie same efekty. Mówiąc jeszcze inaczej, rzetelność oznacza zgodność wyników otrzymanych przez te same osoby, które zostały prze badane kilka razy tym samym testem. W pewnym sensie wszystkie pomiary psychologiczne są w jakimś stopniu nierzetelne. Gdybyśmy dwukrotnie w odstępie jednego miesiąca przebadali tę samą grupę osób, powiedzmy, testem wiadomości z historii, to jest rzeczą mało prawdopodobną, że za drugim razem osiągnęłyby one takie same wyniki jak za pierwszym. Co w takim razie sprawia, że wyniki testowe są nierzetelne? Przypomnij my, że osoba badana, udzielając odpowiedzi na pozycje testu, odpowiada jedynie na pewną próbkę pozycji ze zbioru wszystkich możliwych pozycji dla tego testu. Tym samym otrzymany przez nią wynik n i g d y nie jest idealnym odzwierciedleniem rzeczywistej wartości mierzonej cechy, nato miast z a w s z e jest obciążony pewnym błędem. Zastanówmy się zatem, co może być przyczyną powstawania błędu w badaniach testowych. 2.1. ŹRÓDŁA BŁĘDU W POMIARZE TESTOWYM Błąd pomiaru może mieć charakter systematyczny bądź losowy. B ł ą d s y s t e m a t y c z n y to błąd, który nie ma nic wspólnego z mierzoną cechą psychologiczną i jest spowodowany stałymi cechami badanej osoby lub narzędzia pomiarowego. Taki właśnie błąd ujawni się w sytuacji, w której osoba badana, odpowiadając np. na kolejne pozycje skali postaw, zawsze zakreśla odpowiedź „nie zgadzam się”, kiedy nie rozumie treści pytania. Ponieważ w kolejnym badaniu będ2ie ona reagowała tak samo, błąd, z którym będziemy mieli do czynienia, będzie błędem systematycznym i w taki sam sposób będzie wpływać na wyniki testowania w obu sytuacjach (tj. za pierwszym i drugim razem).
R
o z d z ia ł
2
Błędy drugiego rodzaju, tj. b ł ę d y l o s o w e , powstają w wyniku działania przyczyn przypadkowych. Błędy te mogą zarówno zwiększać, jak i zmniejszać wynik testowy. Do czynników, które w sposób losowy wpływają na wynik testowy, należą: sposób konstrukcji testu, sytuacja testowania oraz sposób oceny wyników (por. rys. 2.1). Omówimy je pokrótce (por. też Anastasi, Urbina, 1999; Cohen, Swerdlik, 1999; Guilford, 1988a; Magnusson, 1981). Rys. 2.1. Źródła błędu losowego w badaniu testowym
dobór treści
czynniki sytuacyjne osoba badana osoba badająca
błędy mechaniczne subiektywizm w ocenie wyników
Konstrukcja testu Jednym ze źródeł błędu,, z jakim mamy do czynienia w pomiarze testowym, jest sposób konstrukcji testu. Dokładnie rzecz biorąc, źródłem tego błędu jest specyficzny d o b ó r t r e ś c i , z jakiej zbudowane są pozycje testu. Jak już wspominaliśmy w poprzednim rozdziale, konkretny test powinien być zawsze traktowany jako p r ó b k a t r e ś c i pochodząca z określonego uniwersum. Wyobraźmy sobie zatem taką sytuację. Czeka nas rozwiązanie testu mierzącego naszą wiedzę z historii. Czujemy się znakomicie przygotowani z historii XIX i XX wieku, gorzej zaś jeżeli chodzi o pozostałe okresy historyczne. Nic dziwnego zatem, że naszym marzeniem jest otrzymanie takiego zbioru pytań, które w przeważającej części dotyczyć będą tego, a nie innego okresu historycznego. Jeżeli mamy szczęście, to może się tak właśnie stać. W każdej sytuacji testowania niektóre osoby badane otrzymują wyższe wyniki testowe tylko dlatego, że specyficzna treść pozycji testowych szcze gólnie im odpowiada lub szczególnie ich dotyczy. Stopień, w jakim wyniki testowe odzwierciedlają specyficzną treść testu - bardziej lub mniej dostępną konkretnym osobom badanym - jest zatem jednym ze źródeł błędu.
Sytuacja testowania
42
W trakcie rozwiązywania testu przez osobę badaną może zdarzyć się wiele sytuacji, które np. o b n i ż ą m o t y w a c j ę osoby badanej (chociażby gdy usłyszy ona przed wejściem do pokoju, że testy, które ma rozwiązać, niczemu nie służą) lub wpłyną na jej s t o p i e ń k o n c e n t r a c j i u w a g i (gdy w trakcie rozwiązywania testu ktoś za ścianą włączy młot pneumatyczny).
K la syczna
t e o r ia t e s t ó w ja k o
p o d s t a w a w n io s k o w a n ia o r z e t e l n o ś c i t e s t u
Ogólnie rzecz biorąc, źródła błędu związane z sytuacją badania obejmują: czynniki sytuacyjne (temperaturę w pomieszczeniu, oświetlenie, hałas itp.), czynniki związane z osobą badaną (ilość snu w przeddzień testowania, lęk przed testowaniem, zażywanie leków, chwilowe fluktuacje uwagi, itp.), czynniki związane z osobą badającą (obecność lub nieobecność w trakcie badania, sposób zwracania się do osoby badanej, umiejętność nawiązywania kontaktu, itp.).
Sposób oceny wyników W wypadku wszystkich niemal testów, także tych, w których ocena wyników polega na mechanicznym przyłożeniu klucza do arkusza odpowiedzi i ręcznym policzeniu odpowiedzi zgodnych z kluczem, trzeba się liczyć z możliwością popełnienia błędu (wolne od tego rodzaju błędu są jedynie te testy, w których obliczanie wyników zostało zautomatyzowane czy skom puteryzowane). Popełniane Wędy mogą być dwojakiego rodzaju. Po pierwsze, mogą to być błędy mechaniczne (źle przyłożony arkusz; błędnie obliczona suma wyników). Po drugie, mogą to być błędy wynikające ze zbyt ogólnych kryteriów oceniania odpowiedzi (z takim przypadkiem mamy np. do czynienia w wielu testach inteligencji lub osobowości, w których klucz oceny wyników zawiera tylko ogólne kryteria punktacji odpowiedzi). W tym drugim wypadku wynik otrzymany w teście odzwierciedla również indywidualne doświad czenie osoby oceniającej odpowiedzi. Wszystkie czynniki, które nie mają związku z celem badania testowego, stanowią źródło błędu. Błędy systematyczne nie są przyczyną braku powtarza lności wyników pomiaru, jednak mogą wpływać na wyniki testowe i tym samym zmniejszać ich użyteczność. Z kolei Wędy losowe powodują, że wyniki testowe nie są ani powtarzalne, ani użyteczne. Trudno zakładać, że pomiar testowy będzie użyteczny, jeżeli nie będzie powtarzalny. Dlatego też jednym z zadań konstruktora testu jest wykazanie, że wyniki otrzymywane za pomocą jego metody są powtarzalne, a więc rzetelne. Mówiąc bardziej fachowo, powinien on wykazać, jaką część ogólnej wariancji wyników testowych stanowi wariancja wynilków prawdziwych. Potwierdzenie faktu odpowiedniej rzetelności testu wymaga przyjęcia teoretycznego modelu opisującego związek między błędem pomiaru a wynikami otrzymywanymi w teście oraz przeprowadzenia badań empirycznych według schematu zgod nego z tym modelem. W tym rozdziale zajmiemy się zatem zarówno prezenta cją takich modeli teoretycznych, jak i analizą ich praktycznych konsekwencji. 2.2. MODEL WYNIKU PRAWDZIWEGO I JEGO ZAŁOŻENIA - KLASYCZNA TEORIA TESTÓW Źródeł koncepcji klasycznego modelu wyniku prawdziwego można już upatrywać w pracach Spearmana (1904, 1907). W pracach tych argumentował on, że otrzymane wyniki testowe są niedokładnymi miarami cech psycho logicznych. Ta myśl Spermana była rozwijana przez Guilforda (1936), Gullik-
43
R
o z d z ia ł
2
sena (1950) oraz Lorda i Novicka (1968) i dzisiaj znana jest jako k l a s y c z n y m o d e l w y n i k u p r a w d z i w e g o (por. też Guilford, 1988a; Ma chowski, 1993). Istotą myśli Spearmana (ibidem) było założenie, że każdy wynik obser wowany w teście jest składową dwóch, nieobserwowalnych bezpośrednio wielkości - wyniku prawdziwego (T - ang. true score) oraz błędu pomiaru (E - ang. error). Zależność ta wyrażana jest w następującej postaci i znana jako równanie klasycznej teorii testów: X=T+E gdzie: X - oznacza wynik; otrzymany w teście, T - wynik prawdziwy, a E - błąd pomiaru. Przyjmując to równanie jako podstawę naszego wnioskowania, widzimy wyraźnie, że wynik otrzymany w teście (czyli wynik obserwowany - X) nie ma w zasadzie żadnego praktycznego znaczenia. Na jego podstawie bowiem trudno cokolwiek orzekać o prawdziwej wartości mierzonej cechy, gdyż wynik prawdziwy i błąd pomiaru są ze sobą nierozerwalnie związane. Np. wynik testowy X może wynosić 10 i będzie tak wtedy, gdy T = $ i E = 2 , oraz wtedy, gdy T =120 i E =-110. To wynik prawdziwy (7) jest tym, co nas interesuje, i wartość tego wyniku będziemy chcieli oszacować. Żeby to jednak było możliwe, musimy przyjąć dodatkowe założenia. Przede wszystkim musimy mieć jakieś oczekiwania co do wielkości błędu pomiaru, a więc musimy określić, jak niedokładne mogą być wyniki otrzy mane w teście. W klasycznej teorii testów przyjmujemy, że wszystkie błędy, jakie otrzymalibyśmy, badając tym samym testem tę samą osobę nieskoń czenie wiele razy, mają rozkład normalny, a ich średnia wynosi zero1. Założenie to jest formalnie wyrażane następująco: Me = 0 gdzie symbol ME oznacza średnią arytmetyczną błędu (ang. mean - „średnia arytmetyczna”). Założenie to, znane też pod nazwą założenia o nieobciążoności narzędzia pomiarowego, mówi tyle, że błąd, z jakim mamy do czynienia w pomiarze testowym, jest wyłącznie błędem losowym. Aby można było stworzyć statystyczne metody szacowania wielkości błędu, konieczne jest jeszcze przyjęcie dwóch kolejnych założeń. Pierwsze z nich dotyczy związku między wynikiem prawdziwym a błędem pomiaru.
44
1 Założenie to, de facto, jest założeniem kontrfaktycznym, ponieważ w sytuacjach prak tycznych nie jest możliwe otrzymanie nieskończenie wielu, niezależnych od siebie wyników pochodzących z badania testem tej samej osoby. Każde badanie testowe jest bowiem badaniem „inwazyjnym” („niszczącym”) w tym sensie, że osoba badana, rozwiązując ten sam test po raz drugi, dysponuje już jakąś wiedzą o tym teście - jest więc w pewnym sensie „inną” osobą badaną. Tu jednak przyjmujemy idealizacyjnie, że gdyby można było dokonać nieskończenie wielu niezależnych od siebie pomiarów tej samej cechy u tej samej osoby i za pomocą tego samego testu, to rozkład wartości błędu w tym teście dla tej osoby byłby rozkładem normalnym, ze średnią równą zeru.
K la syczna
t e o r ia t e s t ó w ja k o
p o d s t a w a w n io s k o w a n ia o r z e t e l n o ś c i t e s t u
Jeżeli przyjmujemy założenie pierwsze, a więc zakładamy, że błąd pomiaru ma charakter losowy, to jego konselrwencją jest przyjęcie, iż nie ma związku między wynikiem prawdziwym a błędem pomiaru. To założenie znane jest jako założenie o niezależności: Innymi słowy, przyjmujemy, że współczynnik korelacji między wynikiem prawdziwym a błędem pomiaru (rTE) wynosi zero. I wreszcie założenie trzecie. Jeżeli błąd pomiaru ma charakter losowy, to również nie możemy oczekiwać istnienia żadnego związku między błędami otrzymanymi w dwóch kolejnych badaniach tym samym testem, a więc: Te trzy założenia stanowią podstawę klasycznej teorii testów. >- Zgodnie z k l a s y c z n ą t e o r i a t e s t ó w orzyjmuje się, że: gdzie: X - oznacza wynik otrzymany w teście, T - wynik prawdziwy, a £ - błąd pomiaru. >- JeHn'vv7Q4nie w teorii tej przyjmuje się trzy następujące założenia: • tzw. założenie o nieobciążoności narzędzia pomiarowego) • zw. założenie o niezależności)
2.3. DEFINICJA RZETELNOŚCI Wiedząc już, że wyniki obserwowane jako takie są praktyczne bezużyteczne (bez dodatkowych informacji nie wiemy bowiem, na ile dobrze odzwierciedlają one wyniki prawdziwe), podstawowym pytaniem, jakie musimy sobie zadać - zanim zastosujemy określony test - jest pytanie o wielkość związku, jaki zachodzi między wynikami obserwowanymi a wynikami prawdziwymi. Współ czynnik korelacji między wynikami obserwowanymi a wynikami prawdziwymi nazywany jest w s k a ź n i k i e m r z e t e l n o ś c i (ang. reliability index). Współczynnik rzetelności możemy zatem zapisać jako2:
gdzie: Pxt oznacza współczynnik korelacji między wynikami otrzymanymi a wynikami prawdziwymi, Oxt oznacza kowariancję wyników otrzymanych 2 Wzór ten otrzymaliśmy, podstawiając odpowiednie wielkości (tj. T i X) do klasycznego wzoru na współczynnik korelacji: C ovX Y
rXY~
(SDx)(SDy)
45
R
o z d z ia ł
2
i wyników prawdziwych, a ox oraz
Ponieważ na mocy założeń klasycznej teorii testów wiemy, że rTE= 0 (nie ma korelacji między wynikami prawdziwymi a błędem pomiaru), to w na szym wypadku również wyrażenie <7ra= 0 (kowariancja między wynikami prawdziwymi a błędem pomiaru) będzie równać się zeru. Po uwzględnieniu tego założenia korelacja między wynikami obserwowanymi a wynikami prawdziwymi będzie zatem wynosić:
Upraszczając to ostatnie wyrażenie, otrzymamy:
Ponieważ ze statystyki wiemy, że miarą siły związku między dwiema zmien nymi jest tzw. współczynnik determinacji, który jest kwadratem współczyn nika korelacji (por. Ferguson i Takane, 1997, s. 142), podnieśmy zatem obie strony naszego równania do kwadratu:
46
To ostatnie wyrażenie traktowane jest jako definicja rzetelności testu. R z e t e l n o ś ć t e s t u to zatem kwadrat korelacji między wynikami otrzyma nymi a wynikami prawdziwymi, czyli jest to stosunek wariancji wyników prawdziwych do wariancji wyników otrzymanych. Mówiąc jeszcze inaczej, rzetelność testu mówi nam o tym, w jakim stopniu wariancja wyników prawdziwych określa wariancję wyników otrzymanych. Wariancja wyników prawdziwych jest wielkością nie obserwowaną, a co za tym idzie - nie dającą się bezpośrednio zmierzyć, i dlatego definicja ta nie ma praktycznego znaczenia w tym sensie, że nie można na jej podstawie dokonać oszacowania rzetelności testu. Spróbujmy się w takim razie za stanowić, w jaki sposób można by rozwiązać ten problem. Jak już wspominaliśmy na początku tego rozdziału, pojęcie r z e t e l n y w sensie psychometrycznym - oznacza „powtarzalny”. Można by zatem zaproponować takie rozwiązanie: przebadajmy dwukrotnie tym samym testem
Klasyczna
t e o r ia t e s t ó w j a k o p o d s t a w a w n io s k o w a n ia o r z e t e l n o ś c i t e s t u
te same osoby i obliczmy wielkość współczynnika korelacji między wynikami otrzymanymi za pierwszym i za drugim razem. Im wyższą wartość współ czynnika korelacji otrzymamy, tym wyższą rzetelność testu możemy za kładać. Problem polega jednak na tym (o tym również wspominaliśmy już w niniejszym rozdziale), że w praktyce nie możemy otrzymać dwóch nieza leżnych pomiarów tym samym testem dla tej samej osoby. Badanie testowe jest bowiem badaniem uwrażliwiającym i rozwiązywanie tego samego testu po raz drugi tworzy inną sytuację niż wtedy, gdy test rozwiązywany był po raz pierwszy. Co zatem możemy zrobić? W psychometrii rozwiązaniem jest wprowadzenie pojęcia tzw. t e s t ó w r ó w n o l e g ł y c h . Testy równoległe to testy, które mierzą dokładnie to samo i dokładnie tak samo, jednak pozycje testowe składające się na te testy zbudowane są z różnych treści. Formalnie rzecz biorąc, testy równoległe to testy spełniające następujące warunki (por. Gulliksen, 1950; Guilford, 1954; Yaiemko i in., 1982):
Dwa testy są zatem testami równoległymi wtedy, kiedy: średni wynik otrzymany w teście A jest równy średniemu wynikowi otrzymanemu w teście B, odchylenie standardowe wyników otrzymanych w teście A jest równe odchyleniu standardo wemu wyników otrzymanych w teście B, interkorelacje pozycji w teście A są takie same jak interkorelacje pozycji w teście B i wreszcie współczynnik korelacji wyników otrzymanych w teście A z pewną zmienną Z, jest taki sam, jak współczynnik korelacji wyników otrzymanych w teście B z tą samą zmienną. >- Dwa testy są t e s t a m i r ó w n o l e g ł y m i wtedy, kiedy spełnione sąnastępujące warunki:
Teraz możemy obliczyć współczynnik korelacji między dwoma testami równoległymi: '■'AA '■'AB
Korzystając z równania klasycznej teorii testów, podstawmy - zamiast wielkości X —wyrażenie T + F Otr7.vmflmv wtwły;
Mnożąc oba nawiasy występujące w liczniku tego wyrażenia, otrzymamy z kolei:
47
rtO Ł D Ł lA L
s
Ponieważ na mocy założeń przyjętych w ramach klasycznej teorii testów wiemy, że o Te a = 0 i o 1Eb= 0 oraz o E aE b= 0 , a z definicji testów równoległych wynika, że oA=
W ten sposób udowodniliśmy, że współczynnik korelacji między wynikami dwóch testów równoległych, czyli rAB, jest równy stosunkowi wariancji wyników prawdziwych do wariancji wyników otrzymanych, czyli jest równy rzetelności testu. Współczynnik korelacji między wynikami dwóch testów równoległych może być zatem traktowany jako w s p ó ł c z y n n i k r z e t e l n o ś c i t e s t u 3. W dalszym ciągu współczynnik rzetelności będziemy oznaczać jako r„ podkreślając w ten sposób, że jest to współczynnik między dwoma zbiorami wyników testowych. >• W s k a ź n i k r z e t e l n o ś c i jest to współczynnik korelacji między wynikami otrzymanymi w teście a wynikami prawdziwymi osób badanych. »• R z e t e l n o ś ć t e s t u Jest tostosunek wariancji wyników prawdziwych do warian cji wyników otrzymanych. >- W s p ó ł c z y n n i k r z e t e l n o ś c i jest to współczynnik korelacji między wynikami otrzymanymi w dwóch testach równoległych.
Interpretacja współczynnika rzetelności Każdy współczynnik rzetelności można bezpośrednio interpretować jako odsetek wariancji wyników otrzymanych, jaką można p r z y p i s a ć w y n i k o m p r a w d z i w y m . Jest to możliwe, ponieważ rzetelność została zdefiniowana jako współczynnik determinacji, czyli kwad rat współczynnika korelacji między wynikami otrzymanymi w teście a wy nikami prawdziwymi. I tak np. przyjmijmy, że otrzymana przez nas wartość współczynnika korelacji między dwoma testami równoległymi wynosi 0,81. Oznacza to zatem, że 81% wariancji wyników otrzymanych stanowi, w tym wypadku, wariancja wyników prawdziwych. To oczywiście znakomicie, jeżeli chodzi o użyteczność wyników tego testu, bowiem błąd popełniany przy szacowaniu wyniku prawdziwego wynosi 19% (co można uznać za zupełnie
48
3 Przedstawione tu rozumowanie zostało pokazane w sposób maksymalnie nietechnicz i jest raczej zarysowaniem określonego sposobu myślenia niż szczegółową prezentacją podstaw klasycznej teorii testów. Czytelnika zainteresowanego bardziej formalnym wyprowadzeniem przedstawionych tu koncpecji odsyłam do prac Lorda i Novicka (1968), Magnussona (1981), Machowskiego (1993) oraz Nowakowskiej (1974).
Klasyczna
t e o r ia t e s t ó w ja k o
p o d s t a w a w n io s k o w a n ia o r z e t e l n o ś c i t e s t u
przyzwoity rezultat). Ponieważ rzetelność testu jest kwadratem współczynnika korelacji między wynikami otrzymanymi a wynikami prawdziwymi, dlatego też nigdy nie jest ujemna. Na podstawie tego wyniku możemy nadto po wiedzieć, że współczynnik korelacji mi<*H™ wynikami otrzymanymi w tym teście a wynikami prawdziwymi wynosi, a więc 0,90 (por. też Anastasi, Urbina, 1999, s. 142-143). 2.4. METODY BADANIA RZETELNOŚCI Pojęcie współczynnika rzetelności raczej opisuje pewną ideę związaną z dokładnością pomiaru, niż dostarcza informacji o tym, jak faktycznie można oszacować rzetelność różnych testów. Spróbujmy się zatem zastanowić, co w praktyce oznacza pojęcie testów równoległych i w jaki sposób można oszacować wielkość współczynnika rzetelności. Jak się dalej okaże, istnieje wiele metod szacowania rzetelności testu, tak jak istnieje wiele źródeł błędu pomiaru testowego. Bez względu jednak na to, jaka to będzie metoda, będziemy zawsze zainteresowani określeniem wielkości współczynnika ko relacji między dwoma zbiorami pomiarów. Zbiory te będziemy traktować jako realizacje pomiarów równoległych4.
Badanie rzetelności metodą powtarzania testu (tzw. technika test-retest) Najbardziej oczywistym sposobem otrzymania dwóch zbiorów pomiarów - choć najmniej przestrzegającym założenia o inwazyjności pomiaru testo wego - jest dwukrotne zastosowanie tego samego testu. Wielkość współ czynnika korelacji między wynikami testowymi otrzymanymi za pierwszym i za drugim razem jest traktowana jako współczynnik rzetelności testu. Im wyższy współczynnik korelacji, tymi oczywiście wyższa wartość współczyn nika rzetelności. Współczynnik rzetelności szacowany tą metodą, nazywany też w s p ó ł c z y n n i k i e m s t a b i l n o ś c i b e z w z g l ę d n e j (por. Choynowski, 1971; Brzeziński, 1996; 2000), mówi nam o tym, w jakim stopniu wyniki testowe są wrażliwe na przypadkowe zmiany, dotyczące zarówno osoby badanej, jak i warunków badania. Wraz z upływem czasu ludzie się zmieniają. Mogą np. nauczyć się czegoś nowego lub zapomnieć to, o czym wiedzieli. Długość przerwy między pierwszym a drugim testowaniem staje się - w przypadku tej metody - istot nym czynnikiem wpływającym na wielkość otrzymanego współczynnika rzetelności. Im dłuższa przerwa między pierwszym a drugim badaniem za pomocą tego samego testu, tym częściej otrzymamy niższy współczynnik rzetelności. Dlatego też interpretując wartość tego współczynnika, musimy znać długość przerwy, jaka upłynęła między kolejnymi testowaniami. 4 Dobry wykład metod szacowania rzetelności można znaleźć w pracy Anastasi i Urbiny (1999, s. 131-150).
49
R
o z d z ia ł
50
2
Określając długość przerwy między kolejnymi badaniami tym samym testem, musimy wziąć pod uwagę dwa sprzeczne ze sobą warunki. Po pierwsze, przerwa ta powinna być na tyle długa, aby osoby badane zapom niały swoje poprzednie odpowiedzi w teście. I po drugie, przerwa ta powinna być na tyle krótka, aby w trakcie jej trwania nie doszło do zmian w wyniku procesów rozwojowych, np. nauczenia się czegoś nowego (ogólnie: zmiany właściwości podmiotowej, którą test ma mierzyć). Oba rodzaje czynników w różny sposób wpływają na wielkość współczynnika rzetelności. Zapamię tywanie poprzednich odpowiedzi będzie sztucznie zwiększać wielkość współ czynnika rzetelności, zaś uczenie się nowych rzeczy będzie ten współczynnik sztucznie obniżać. To, na jak długą przerwę się zdecydujemy, zależy od celu testowania i od tego, dla kogo nasz test jest przeznaczony. I tak np. w przypadku testów osobowości (a więc względnie stabilnych cech) przerwy mogą być dłuższe, zaś w przypadku testów przeznaczonych do badania dzieci (dynamiczny rozwój) przerwy powinny być krótsze. Generalnie rzecz biorąc, długość przerwy, jaką stosuje się w badaniach rzetelności metodą test-retest, waha się od kilku tygodni do kilku miesięcy. Wszelkie zmiany bowiem, które pojawiają się w okresie dłuższym niż kilka miesięcy, raczej mają charakter zmian progresywnych niż zmian losowych (por. Anastasi, Urbina, 1999, s. 132). Specyficzną odmianą tej techniki jest dwukrotne badanie tej samej grupy osób tym samym testem bez żadnej przerwy czasowej. Z punktu widzenia osoby badanej jest to jedno badanie, w którym dwukrotnie powtarzają się te same pozycje. Współczynnik korelacji ¡między wynikami pierwszego i dru giego testu jest opisywany jako w s p ó ł c z y n n i k w i a r y g o d n o ś c i t e s t u (por. np. Choynowski, 1971; Brzeziński, 1996). W technice tej maksymalizowany jest czynnik zapamiętywania, zaś minimalizowany jest czynnik uczenia się. Jakie źródła błędu możemy oszacować, stosując te technikę? W tym wypadku na błąd składają się takie czynniki, jak chwilowe fluktuacje uwagi czy zmęczenie osoby badanej. Ogólnie rzecz biorąc, jest to metoda po zwalająca uchwycić wpływ wszystkich tych przypadkowych czynników, które są związane z osobą badaną i których zmienność jest krótsza niż czas trwania badania. Technika szacowania rzetelności metodą dwukrotnego testowania tej samej grupy osób, mimo jej intuicyjnej prostoty, budzi jednak wiele wątpliwości. W Standardach dla testów stosowanych w psychologii i pedagogice (1985a, s. 58) wyraźnie podkreśla się, że „(...) nie jest to pożądana technika badania rzetelności”, bowiem - jak pisze Nowakowska (1975, s. 38) - „(...) możliwy wpływ różnych czynników ubocznych, takich jak zapamiętywanie, uczenie się, ewentualne różnice w warunkach badania itp., stawia pod znakiem zapytania adekwatność założenia równoległości”. A przecież to założenie
Klasyczna
t e o r ia t e s t ó w ja k o
p o d s t a w a w n io s k o w a n ia o r z e t e l n o ś c i t e s t u
było podstawą wyprowadzenia koncepcji współczynnika rzetelności. Tech nika ta daje się zaakceptować w wypadku testów motorycznych czy róż nicowania sensorycznego (tj. takich testów, w których zakłada się, że po wtarzanie badania nie wpływa w sposób istotny na wyniki testowania), jednak dla większości teśtów psychologicznych poszukać musimy innej techniki szacowania rzetelności.
Rzetelność szacowania metodą wersji równoległych (alternatywnych) Jednym ze sposobów badania rzetelności testu, który jest wolny od kłopo tów właściwych dla techniki test-retest, jest wykorzystanie tzw. a l t e r n a t y w n y c h w e r s j i t e s t u . Wersje alternatywne to dwie wersje tego samego testu, świadomie konstruowane w taki sposób, aby spełnione było założenie o ich równoległości5. Metoda wersji równoległych polega na tymi, że ta sama grupa osób roz wiązuje najpierw pierwszą, a następnie drugą wersję tego samego testu. Wielkość współczynnika korelacji otrzymanego między wynikami pierwszego i drugiego testowania jest miarą rzetelności testu. Podobnie jak poprzednio, technika ta ma dwie odmiany. Możemy bowiem zastosować dwa testy równoległe bez przerwy czasowej, i w efekcie otrzymamy tzw. w s p ó ł c z y n n i k r ó w n o w a ż n o ś c i m i ę d z y t e s t o w e j . Ten współczynnik mówi nam przede wszystkim o tym, w jakim stopniu wariancja błędu zależy od różnic między obiema wersjami testu (tj. jaki jest wpływ specyficznej treści pozycji testowych na otrzymany wynik w każdej z wersji). Możemy tak przyjąć, bowiem takie czynniki, jak osoba badającego, czynniki sytuacyjne czy czynniki związane z kondycją osób badanych, są tu kontrolowa ne. Należy jednak pamiętać, że w im mniejszym stopniu obie wersje są faktycznie równoległe (np. nie powstają poprzez losowanie pozycji, testowych z uniwersum pozycji, a przez dopasowywanie pozycji do pozycji lub też druga pozycja powstaje przez zmianę frazeologii pierwszej), tym bardziej zawyżamy sztuczne podobieństwo między wersjami. Współczynnik rzetelności takich form będzie oczywiście również zawyżony (por. Standardy..., 1985a, s. 63). Druga odmiana tej techniki polega na zastosowaniu obu wersji alternatyw nych z uwzględnieniem przerwy czasowej między kolejnymi badaniami. Otrzymany w tej sytuacji współczynnik rzetelności to tzw. w s p ó ł c z y n n i k s t a b i l n o ś c i w z g l ę d n e j . Łączy on w sobie dwa rodzaje infor macji o rzetelności testu: jest miarą stabilności wyników testowych oraz wpływu treści na wyniki testowe. W wypadku tego współczynnika należy 5 Dokładnie rzecz biorąc, w psychometru odróżnia się pojęcie „testów alternatywnych” (ang. altem ate tests ) i „testów równoległych” (ang. parallel tests ). Testy alternatywne to dwie wersje tego samego testu konstruowane tak, by spełnione zostało założenie o ich równoległości. Technicznie najczęściej próbuje się o to osiągnąć, biorąc pod uwagę poziom trudności poszczególnych zadań testowych oraz ich treść. Testy równoległe z kolei to testy, w których obie ich wersje są czysto losowymi próbkami pytań i które idealnie spełniają wszystkie cztery - wspomniane wyżej - warunki równoległości.
51
R
o z d z ia ł
2
wziąć pod uwagę wszystko to, co mówiliśmy zarówno o wpływie przerwy czasowej na uzyskiwane wyniki* jak i o spełnieniu warunku równoległości (por. też Anastasi, Urbina, 1999, s. 133-135).
Rzetelność szacowania na podstawie wyników jednokrotnego badania danym testem Technika wersji alternatywnych, choć eliminująca większość problemów związanych z dwukrotnym badaniem tym samym testem, ma jednak swoje słabe strony. Stosowana z przerwą czasową między badaniami obliguje nas do uwzględnienia takich czynników jak wpływ czasu na otrzymane wyniki, a bez przerwy czasowej - do uwzględnienia takich czynników jak wpływ ćwiczenia. Ponadto, w wielu przypadkach konstruowanie dwóch alternatyw nych wersji testu tylko w celu badania rzetelności jest - z ekonomicznego punktu widzenia - mało opłacalne6. W tej sytuacji zainteresowanie psycho metrów zostało skierowane na opracowanie technik szacowania rzetelności, które wymagałyby tylko jednokrotnego badania określonym testem. Metoda połówkowa (ang. split-half method). Pierwsze wypracowane roz wiązanie polega na znalezieniu form równoległych danego testu w obrębie jednego testu. Rolę form równoległych mogą spełniać poszczególne części tego testu, a przede wszystkim jego połowy. Podział testu na dwie części (połowy) powinien zostać tak przeprowadzony, aby obie były równoległe względem siebie. Można wskazać wiele możliwych sposobów podziału, jednak większość z nich nie jest zalecana wtedy, kiedy chcemy badać rzetelność testu. Przyjęcie za punkt podziału np. środkowej pozycji w teście nie jest dobrym rozwiązaniem, bowiem takie czynniki jak różnice w charakterze poszczególnych pozycji, ich trudność czy wreszcie wpływ innych czynników, takich jak zmęczenie czy utrata motywacji osób badanych w trakcie wykonywania testu, działają w różny sposób na początku i pod koniec testu. Generalnie zaleca się trzy sposoby dzielenia testu na połowy. Pierwszy z nich polega na losowym przyporządkowaniu pozycji testowych do jednej bądź drugiej połowy testu» drugi - na podziale testu na pozycje nieparzyste i parzyste, trzeci wreszcie - na podziale z uwzględnieniem treści pozycji testowych i ich trudności (por. Cohen, SwerdMk, 1999, s. 153), Metodą stosowaną stosunkowo najczęściej i dającą dobre efekty (w sensie spełnienia warunku równoległości) jest podział testu na pozycje nieparzyste (ang. odd) i parzyste (ang. even). Aby określić współczynnik rzetelności, musimy obliczyć wielkość współ czynnika korelacji między wynikami otrzymanymi w pierwszej i w drugiej połowie testu. Choynowski (1971, s. 98) nazywa ten rodzaj współczynnika rzetelności w s p ó ł c z y n n i k i e m r ó w n o w a ż n o ś c i m i ę d z y -
52
6 Są oczywiście takie sytuacje, w których posiadanie dwóch wersji alternatywnych ma duże znaczenie praktyczne (np. w badaniach podłużnych), jednak zdecydowanie częściej - dla celów praktycznych - wystarcza jedna wersja testu.
K la syczna
t e o r ia t e s t ó w j a k o p o d s t a w a w n io s k o w a n ia o r z e t e l n o ś c i t e s t u
p o ł ó w k o w e j . Źródłem błędu w wypadku tej metody są przede wszystkim różnice między połówkami, wynikające głównie - ze specyficznego dla każdej połowy - doboru treści. Współczynnik ten może być jednak traktowany jedynie jako oszacowanie rzetelności połowy testu, otrzymany bowiem został dla dwóch wersji testu o połowę krótszych od testu oryginalnego. Dlatego aby obliczyć rzetelność całego testu na podstawie znajomości rzetelności jego połowy trzeba dokonać odpowiedniego oszacowania. Możemy to zrobić za pomocą, licznych wzorów (por. zwłaszcza Guilford, 1954), jednak najczęściej stosuje się tzw. wzór Spearmana-Browna:
gdzie: r„ oznacza współczynnik rzetelności całego testu, a rpp współczynnik rzetelności jego połowy (por. ibidem). Koniecznym warunkiem zastosowania tej metody jest udzielenie odpo wiedzi na wszystkie pozycje testu przez wszystkie osoby badane. Tym samym jest to metoda nadająca się wyłącznie do testów mocy. Badanie zgodności wewnętrznej. Inną odmiamą metody szacowania rzetel ności, w której korzystamy tylko z jednokrotnego badania danym testem, jest metoda badania zgodności wewnętrznej. W wypadku tej metody wy chodzimy z następującego założenia: ponieważ istnieje wiele różnych spo sobów podziału testu na połowy, to dla tego samego testu możemy otrzymać wiele różnych współczynników rzetelności. Stąd byłoby rzeczą interesującą dowiedzieć się, jaki jest średni współczynnik rzetelności testu, uwzględniając wszystkie możliwe jego przepołowienia. Rozwiązanie tego problemu na stąpiło w latach 30. za sprawą dwóch psychometrów: G.F. Kudera i M.W. Richardsona. Przyjęli oni, że maksymalna liczba części, na jakie można podzielić dany test, jest równa liczbie jego po2:ycji testowych. Analizując właściwości statystyczne poszczególnych pozycji testowych i poszukując współczynnika ich zgodności, możemy uzyskać informacje o rzetelności całego testu (por. Kuder i Richardson, 1937). Współczynnik ten nazywany jest też w s p ó ł c z y n n i k i e m z g o d n o ś c i w e w n ę t r z n e j . Im wyższa jest wartość tego współczynnika, tym bardziej jednorodne są pozycje testowe. Z opracowanych przez Kudera-Richardsona wzorów7 najczęściej stoso wane są dwa: tzw. wzór KR2o oraz KR2i- Pierwszy z nich dotyczy sytuacji, w której bierzemy pod uwagę średnią wariancję wszystkich pozycji testo wych, drugi zaś sytuacji, w której bierzemy pod uwagę średnią trudność pozycji testowych. Pierwszy wzór (KR20) ma następującą postać: 7 Wszystkie opracowane przez nich wzory są oznaczane literami KR (od ich nazwisk) i określane kolejnym numerem, np. KR20. Łącznie obaj aiutorzy opracowali 21 wzorów.
53
gdzie: k oznacza liczbę pozycji testowych, p t - proporcję odpowiedzi dia gnostycznych (poprawnych) na daną pozycję testową, <7, - proporcję od powiedzi niediagnostycznych (niepoprawnych), zaś Ox jest wariancją ogólk nych wyników w teście. Wyrażenie X PiOn oznacza sumę wariancji od1=1
powiedzi na poszczególne pozycje testowe. Drugi wzór (KR2i) jest najczęściej przedstawiany w postaci (por. Guilford, 1988b):
n
gdzie: k oznacza liczbę pozycji testowych, p = 'Z Pi/n oznacza średnią <=1
trudność danej pozycji testowej, a <Ą - podobnie jak poprzednio - jest wariancją ogólnych wyników w teście. Generalnie rzecz biorąc, zaleca się stosowanie wzoru KR20. Wzór KR2i wymaga bowiem założenia, że pozycje testowe mają jednakową trudność. Ponieważ zazwyczaj tak nie jest, stąd ten sposób szacowania zgodności wewnętrznej testu, w większości sytuacji, nie jest poprawny. Cronbach (1951) udowodnił, że współczynnik rzetelności Kudera-Richardsona jest rzeczywiście średnią ze wszystkich współczynników równoważności międzypołówkowej, obliczonych dla różnych podziałów testów. Ponieważ współczynnik rzetelności połówkowej jest obliczany dla połówek - z założenia - równoważnych, dlatego też im mniej jednorodne będą pozycje testu, tym wyższa też będzie wartość współczynnika rzetelności połówkowej w porównaniu z wartością współczynników Kudera-Richardsona (por. też Anastasi, Urbina, 1999, s. 139). Dlatego też różnicę między wartościami tych dwóch współczynni ków można wykorzystać jako wskaźnik stopnia heterogeniczności metody. Współczynniki rzetelności Kudera-Richardsona nadają się do obliczania rzetelności testów złożonych jedynie z tzw. pozycji dwukategorialnych, tj. takich, dla których istnieją tylko dwa rodzaje odpowiedzi: odpowiedzi dia gnostyczne (poprawne) i odpowiedzi niediagnostyczne (niepoprawne). Aby przezwyciężyć to ograniczenie, Cronbach (1951) zaproponował rozszerzenie wzoru KR2o na pozycje wielokategorialne. Wzór ten, uznawany dziś za najlepszy sposób szacow1»"’* mtAinni« ;est jako alfa Cronbacha:
K la syczna
t e o r ia t e s t ó w ja k o
p o d s t a w a w n io s k o w a n ia o r z e t e l n o ś c i t e s t u
We wzorze tym, jak poprzednio, k oznacza liczbę pozycji testowych, a wy rażeni«
oznacza sumę wariancji dla poszczególnych pozycji testowych.
Pamiętać jednak należy, że i tai metoda - podobnie jak każda z metod szacowania rzetelności - nie jest metodą uniwersalną i wolną od ograniczeń. Daje ona dobre oszacowania rzetelności testu w sytuacji, gdy ma on strukturę jednoczynnikową (jest metodą homogeniczną), a posżczególne pozycje tes towe są względem siebie równoległe (por. Guilford, 1988b, s. 64—67).
Rzetelność jako zgodność ocen Na zakończenie przeglądu różnych metod i technik szacowania rzetelności warto jeszcze wspomnieć o rzetelności rozumianej jako zgodność ocen sędziów. W tym wypadku źródłem błędu, które nas interesuje, jest osoba badająca testem, a dokładnie rzecz biorąc - jej sposób Oceny odpowiedzi. W wypadku niektórych testów ten rodzaj rzetelności ma duże znaczenie. Sama metoda jest prosta. Wystarczy te same arkusze testowe przedstawić dwóm osobom oceniającym i następnie obliczyć wielkość współczynnika korelacji między ocenami dokonanymi przez pierwszą i druga osobę (sę dziego). Im wyższy współczynnik korelacji, tym oczywiście wyższa zgodność między sędziami. We wszystkich tych wypadkach, w których ocena nie odbywa się przez przyłożenie klucza do arkusza odpowiedzi, warto zadać sobie trud oszaco wania rzetelności rozumianej jako zgodność ocen. Jeżeli rzetelność ta oka załaby się niska, to poszukanie przyczyn takiego stanu rzeczy zdecydowanie przyczyni się do lepszego oszacowania wyniku prawdziwego osoby badanej. Być może wystarczy bardziej precyzyjnie sformułować kryteria oceny czy wprowadzić szkolenia, podczas których przyszli użytkownicy testów ćwi czyliby swoje umiejętności w ocenianiu odpowiedzi. Porównanie poszczególnych współczynników rzetelności Każdy współczynnik rzetelności (por. rys. 2.2) jest miarą innego źródła wariancji błędu. Współczynnik stabilności bezwzględnej i względnej mówi nam przede wszystkim o stabilności cechy w czasie; współczynnik równoważności międzytestowej i międzypołówkowej o niezależności wyników testowych od specyficznej treści, z jakiej zbudowane są pozycje testowe, a współczynniki zgodności wewnętrznej - o stopniu homogeniczności metody (por. tab. 2 . 1). Każdy z tych współczynników daje też różne oszacowania rzetelności testu. I tak, współczynnik stabilności względnej jest najbardziej rygorystyczną metodą ze wszystkich i - jak twierdzi Choynowski, 1971, s. 97) - „prowadzi do estymacji dolnej granicy rzetelności, dając niższe współczynniki niż inne metody”, a współczynnik równoważności międzypołówkowej „daje prze cenianie rzetelności, a nawet jej górną granicę, gdyż nie bierze pod uwagę źródeł błędu, zależnych od zmienności w czasie” (ibidem, s. 99).
55
Rys. 2.2. Metody badania rzetelności
R o z d z ia ł
2
K lasyczna
t e o r ia t e s t ó w j a k o p o d s t a w a w n io s k o w a n ia o r z e t e l n o ś c i t e s t u
Tab. 2.1. Podstawowe źródła błędu w różnych metodach szacowania rzetelności (opracowano na podstawie: Anastasi, Urbina, 1999, s. 142-143; Brzeziński, 1996, s. 466-476; Gullford, 1988, s. 51-72) , ,
Metoda
Powtarzanie testu badanie jedno po drugim
Źiódło błędów Czynniki losowe, związane z osobą badaną, ujawniające się w krótkim czasie
Powtarzanie testu Zmienność w czasie przerwa czasowa między pier wszym a drugim badaniem Wersje alternatywne badanie jedno po drugim
Dobór treści
Wersje alternatywne przerwa czasowa między pier wszym a drugim badaniem
Dobór treści oraz zmienność w czasie
Metoda połówkowa
Dobór treści
Współczynniki Kudera-Richard- Dobór treści (heterogeniczność pozycji testowych) sona i a Cronbacha Zgodność ocen sędziów
Różnic» między sędziami
Jak piszą Autorzy Standardów... (1985a, s. 59), „współczynnik rzetelności jest pojęciem ogólnym. Do jego obliczenia można wykorzystywać różnorodne zbiory danych, co z kolei prowadzi do różnych interpretacji. Należy zatem pamiętać o dokładnym przedstawianiu każdej metody zastosowanej przy szacowaniu rzetelności”. Nie ma zatem takiego pojęcia jak „rzetelność testu w ogóle”. Wybór odpowiedniej metody szacowania rzetelności, a co za tym idzie, wybór konkretne go współczynnika rzetelności powinien być podyktowany rodzajem testu (metoda homogeniczna czy heterogeniczna) i sposobem myślenia o rzetelności pomiaru (stabilność w czasie czy wiarygodność testu). Nie wystarczy zatem powiedzieć, że dany test ma rzetelność o określonej wielkości - musimy dokładnie wiedzieć, o jaki rodzaj rzetelności chodzi (por. też Magnusson, 1981, s. 176).
Rzetelność testów szybkości Specjalne zagadnienia szacowania rzetelności testów wiążą się ze szczególnym rodzajem metod, jakimi są testy szybkości. Przypomnijmy (por. rozdz. 1), że cechą charakterystyczną testów szybkości jest - przez skracanie czasu odpowiada nia - ograniczanie możliwości rozwiązania całego testu przez osoby badane. W takim teście każda z badanych osób rozwiązuje różną liczbę pozycji testowych. W wypadku testów szybkości tym czynnikiem, który przede wszystkim wpływa na wynik testowy, jest szybkość wykonywania zadań. Dlatego też techniki szacowania rzetelności powinny być oparte na badaniu z g o d n o ś c i s z y b k o ś c i p r a c y (por. Anastasi, Urbina, 1999, s. 145). Ta charak terystyka testów szybkości określa jednocześnie, jakie techniki badania rzetelności będą w iej sytuacji dopuszczalne. Ma pewno właściwe będzie
57
R
o z d z ia ł
58
2
posłużenie się zarówno metodą powtórnego testowania, jak i metodą wersji alternatywnych (powinniśmy bowiem zrealizować dwa badania, aby móc porównać szybkość wykonania testu i za pierwszym, i za drugim razem). Natomiast techniki, w których wykorzystuje się jednokrotne zastosowanie testu, nie nadają się do interesującego nas celu. Przeanalizujmy, z jakim efektem mielibyśmy do czynienia, gdyby mimo wszystko obliczyć - w omawianej przez nas sytuacji - współczynnik Kudera-Richardsona lub współczynnik zgodności między dwiema połówkami testu. Okazuje się, że otrzymalibyśmy współczynnik zawyżony. Dlaczego tak się dzieje? Przypuśćmy, że nasz hipotetyczny test szybkości składa się ze 100 zadań i że jest to doskonały test szybkości w tym sensie, iż poziom jego wykonania zależy wyłącznie od szybkości pracy, a nie od liczby popełnionych błędów. Przypuśćmy też, że chcemy zastosować metodę połówkowania jako metodę badania rzetelności naszego testu. Co możemy zauważyć? Jeżeli ktoś w naszym teście zdążył rozwiązać tylko dwa zadania (to jedno z nich było parzyste, a drugie nieparzyste), jeżeli natomiast ktoś inny rozwiązał 50 zadań (to 25 z nich było zadaniami parzystymi, a 25 - zadaniami nieparzy stymi). Możemy zatem przyjąć, że w teście szybkości każda osoba rozwiąże tyle samo zadań parzystych i nieparzystych, bez względu na to, z iloma zadaniami w ogóle uda jej się zmierzyć. Co z tego wynika? Gdybyśmy dla naszego testu policzyli współczynnik równoważności międzypołówkowej (korelację między wynikami w części parzystej i nieparzystej), to - jak widać z powyższego przykładu - korelacja ta wynosiłaby + 1,0 0 ! (dla każdej osoby liczba rozwiązanych pozycji parzystych byłaby taka sama jak liczba rozwiązanych pozycji nieparzystych - por. ibidem). Z podobnym efektem spotkamy się również wtedy, kiedy zastosujemy współczynnik KR20. Przypomnijmy, że współczynnik ten składa się z dwóch wielkości: p (proporcji odpowiedzi poprawnych) i q (proporcji odpowiedzi niepoprawnych). Na początku testu, kiedy większość osób badanych od powiada na kolejne pozycje testowe, proporcja p będzie wynosić 1 (wszyscy odpowiedzieli poprawnie), a proporcja q będzie równa 0 (nikt nie popełnił błędu). Natomiast wraz z upływem czasu coraz więcej osób nie będzie w ogóle odpowiadać na kolejne zadania (bowiem skończył się przeznaczony na to limit czasu). W efekcie pod koniec badania nastąpi odwrócenie propor cji: nikt nie będzie odpowiadał poprawnie (ściślej: będziemy mieli do czy nienia z brakiem odpowiedzi, tak więc p = 0, a q = 1). W większości wypad ków zatem (jeżeli nie we wszystkich) wyrażenie pą występujące we wzorze KR20 będzie wynosić zero. W takim wypadku, oczywiście, także suma (£pq) występująca w liczniku tego wzoru będzie wynosić 0. Tym samym wartość współczynnika KR20 będzie równa 1, a to jest oczywisty artefakt! Jakie zatem techniki można w omawianej sytuacji zastosować? Powtórzmy raz jeszcze - możemy stosować zarówno technikę powtórnego testowania, jak i wersji alternatywnych. Możemy także zastosować technikę połówkowania, ale
K lasyczna
t e o r ia t e s t ó w ja k o
p o d s t a w a w n io s k o w a n ia o r z e t e l n o ś c i t e s t u
dokonując pewnej jej modyfikacji. Dokładnie rzecz biorąc, modyfikacja ta polega na wcześniejszym podziale testu na połowy i potraktowaniu każdej połowy jako oddzielnego testu. Osoby badane powinny rozwiązać każdą z połówek w czasie również o połowę krótszym. W tym wypadku zatem podział dotyczy zarówno testu, jak i czasu rozwiązywania8. Podobnie jak w wypadku oryginalnej metody, współczynnik korelacji między wynikami otrzymanymi w pierwszej i drugiej czięści testu jest współczynnikiem rzetelności połowy testu. Aby oszacować rzetelność całego testu, należy zatem zastosować formułę Spearmana-Browna.
Rzetelność testów zorientowanych na kryterium (standard wykonania) Tradycyjne pojęcie rzetelności odnosi się do testów zorientowanych na normy (por. rozróżnienie tych dwóch rodzajów testów w rozdz. 1). Istota tych testów polega na możliwości dokonywania różnicowania badanych osób ze względu na poziom mierzonej cechy. Miarą tego poziomu jest wynik ogólny otrzymany w teście. W wypadku testów zorientowanych na kryterium celem badania jest podział badanych osób na dwie grupy: osoby, które osiągnęły wymagane kryterium, oraz osoby, które tego kryterium nie spełniają. Dlatego też trady cyjne metody szacowania rzetelności są w tym wypadku nieadekwatne. Aby zrozumieć, dlaczego tak się dzieje, przypomnijmy, że rzetelność jest defi niowania jako stosunek wariancji wyników prawdziwych do wariancji wyni ków otrzymanych. Tym samym rzetelność testu zależy od wariancji wyników testowych, a więc od ich zróżnicowania (o tej zależności będziemy mówić szerzej w dalszej części tego rozdziału). Z im mniejszym zróżnicowaniem wyników testowych będziemy mieli do czynienia, tym mniejsza będzie również rzetelność naszego testu. W wypadku testów zorientowanych na kryterium różnice między badanymi osobami mają marginalne znaczenie - ważne jest tylko to, czy osoby te spełniają założone kryterium. W literaturze przedmiotu można znaleźć wiele różnych technik szacowania rzetelności właściwych dla testów zorientowanych na kryterium (por. np. Berk, 1984). Jedną z ciekawszych (i łatwych) metod jest - zaproponowana przez Lindemana i Merendę (1979, s. 129-134), a opracowana w przedstawionej postaci przez Aikena (1982, s. 79) - technika oparta na współczynniku kappa:
gdzie: b (z ang. both) oznacza liczbę osób, które osiągnęły wyznaczone kryterium w obu badaniach danym testem; / (z ang. first) oznacza liczbę osób, które spełniły kryterium tylko w pierwszym badaniu tym testem; s (z ang. second) oznacza liczbę osób które spełniły kryterium tylko w drugim 8 Metoda ta jest równoznaczna z badaniem dwoma wersjami alternatywnymi, bez przerwy pomiędzy badaniami. 59
R
o z d z ia ł
K o /
2
1o n < i i
H f-m
ła o ła m *
wt
( t
o n rt
m /> t r t r z r ło /^ r y * »
li/^ ^ K a
a o A K
l^ t A r a
117
r \r r A la
l l 1
1
/). Podstawiając te wartości do wzoru, otrzymamy:
Otrzymany w tym przypadku współczynnik rzetelności jest bardzo niski i nasz test nie powinien być dalej wykorzystywany.
Czynniki wpływające na wielkość współczynnika rzetelności Na wielkość współczynnika wpływa w sposób istotny wiele czynników. Dwa spośród nich mają szczególne znaczenie. Omówimy je po kolei. Długość testu. Rzetelność testu jest funkcją liczby zadań, z jakich składa się test. Każdy test o określonej długości prowadzi również do określonej wielkości błędu pomiaru. Zwiększanie długości testu (przez dołączanie do niego nowych, równoważnych pozycji) prowadzi w bezpośredni sposób do zmniejszenia wielkości błędu pomiaru, a zwiększenia wariancji wyników prawdziwych (por. rys. 2.3). W jakim stopniu zatem zwiększanie długości testu wpływa na zwiększenie jego rzetelności? Rozwiązanie tego problemu jest znane jako tzw. proroczy wzór Spearmana-Browna, który pozwala na obliczenie tzw. współczynnika krotności testu, tj. liczby mówiącej nam, i l e r a z y powinniśmy wydłużyć nasz test, aby osiągnąć rzetelność o pożądanej wielkości (por. Magnusson, 1981, s. 105-113). Wzór ten ma nastemiiaca Dostać9:
gdzie: r„„ oznacza pożądaną rzetelność (rzetelność nowego testu po wy dłużeniu), a r„ - rzetelność testu wyjściowego. Np. jeżeli skonstruowany 9 Proroczy wzór Spearmana-Browna jest przekształceniem wzoru już w tej pracy wprowa dzonego. Mianowicie, wzór Spearmana-Browna, pozwalający obliczyć rzetelność całego testu na podstawie znajomości jego połowy, jest konkretnym przypadkiem ogólniejszego wzoru, mówiącego o rzetelności testu składającego się z n części:
60
gdzie: r oznacza rzetelność pojedynczej ,ralu, a « jest liczbą części testu. Przekształcając ten wzór w taki sposób, aby wielkość n znalazła się przed znakiem równości, otrzymamy proroczy wzór Spearmana-Browna.
K la syczna
t e o r ia t e s t ó w j a k o p o d s t a w a w n io s k o w a n ia o r z e t e l n o ś c i t e s t u
Rys. 2.3. Rzetelność testu jako funkcja jego długości (na podstawie Magnusson, 1981, s. 105)
liczba pozycji testowych
przez nas dziesięciozadaniowy test osiąga rzetelność jedynie 0,60, a zadowala nas rzetelność równa przynajmniej 0,85, to powinniśmy wydłużyć nasz test prawie czterokrotnie (do czterdziestu pozycji):
Jak widać, wydłużanie testu jest metodą skuteczną, wymaga jednak speł nienia jednego podstawowego warunku. Pozycje testowe, które dołączamy do testu wyjściowego, powinny spełniać warunek równoległości w takim sensie, w jakim mówiliśmy o tym w wypadku testów. Co więcej, gdy test wyjściowy jest stosunkowo długi, dalsze jego wydłużanie zwiększy jego rzetelność tylko w nieznacznym stopniu. Technika wydłużania jest skutecz nym sposobem zwiększenia rzetelności w wypadku testów krótkich (co wydaje się także intuicyjnie zrozumiałe - im więcej bowiem posiadamy informacji o osobie badanej, tym bardziej precyzyjne będą nasze wnioski). Przed podjęciem decyzji o mechanicznym wydłużeniu testu warto się jednak zastanowić, czy nasz wysiłek da oczekiwane rezultaty. Zabieg ten ma sens wtedy, kiedy nowe pozycje są tak „dobre” jak pozycje w teście wyj ściowym. Może zatem lepiej jest popracować nad krótszą wersją testu
61
R
o z d z ia ł
2
i poprawić składające się na nią pozycje niż za wszelką cenę wymyślać nowe zadania. Krótki test składający się z „dobrych” pozycji testowych jest na pewno lepszy niż długi test zawierający pozycje o słabych właściwoś ciach10. W literaturze przedmiotu można znaleźć opisy takich krótkich testów posiadających zadowalające narametrv nsvchometryczne, np. Marketing Norms Scale (6 pozycji, r , i l l a p a l l i i Singhapakdi, 1993), Opinion Leadershipr. Davis i Rubin, 1983) czy Motivation To Work (8 Hart, Moncrief, Parasuraman, 1989). Zawężenie zakresu mierzonej cechy. Drugim ważnym czynnikiem wpły wającym na wielkość współczynnika rzetelności jest zakres (zmienność) mierzonej cechy w badanej próbie osób. Wielkość współczynnika rzetelności zależy bowiem od wielkości wariancji wyników prawdziwych w badanej próbie. Im większa wariancja wyników prawdziwych, tym większa oczywiś cie rzetelność naszego testu (por. definicja rzetelności). Fakt ten można łatwo zrozumieć, odwołując się do właściwości współczynnika korelacji, który przecież jest miarą rzetelności. Wyobraźmy sobie, że chcemy obliczyć korelację między dwiema cechami: powiedzmy, zdolnościami matematycz nymi a zdolnościami muzycznymi. Tak się złożyło, że w badanej przez nas grupie osób znalazły się wyłącznie osoby o bardzo wysokich, jednakowych zdolnościach matematycznych (mamy więc do czynienia z małą wariancją tej cechy). W takiej sytuacji obliczony przez nas współczynnik korelacji między tymi cechami będzie miał wartość zerową! Im bardziej homogeniczna - pod względem mierzonej cechy - jest badana przez nas grupa, tym mniejszy będzie otrzymany współczynnik rzetelności testu. Magnusson (1981, s. 116) podaje wzór pozwalający obliczyć, jak zmieni się rzetelność testu, gdy zmieni się wariancja (zmienność) wyników testowych w badanej próbie osób:
gdzie: Sx oznacza wariancję ogólnych wyników testowych w próbie oryginal nej; Sp oznacza wariancję ogólnych wyników testowych w nowej próbie; r„ jest rzetelnością oryginalnego testu, a rpp - rzetelnością testu dla nowej próby. I tak np. jeżeli rzetelność naszego testu wynosi 0,85, wariancja ogólnych wyników testowania w oryginalnej próbie wynosi 70, a w nowej próbie, dla której chcemy zastosować nasz test, spada aż do 30, to rzetelność testu dla nowej próby również spadnie, i to aż do poziomu 0,65:
62
10 Pojęcie „dobrych” i złych” pozycji testowych omawiamy w rozdz. 5, poświęconym zasadom konstrukcji testu.
K la syczna
t e o r ia t e s t ó w j a k o p o d s t a w a w n io s k o w a n ia o r z e t e l n o ś c i t e s t u
Z przytoczonego wyżej przykładu jasno wynika, że wartość współczynnika rzetelności jest pochodną zakresu mierzonej cechy w badanej grupie osób. Dlatego też w każdym podręczniku testowym powinny się znaleźć informacje o tym, kto był badany przy obliczaniu parametrów testu i jaki był zakres (wariancja) mierzonej cechy w badanej grupie osób. Warunek ten powinien mieć zarówno dla autora testu, jak i dla wszystkich osób korzystających z testu charakter imperatywny! Bezmyślne - tj. bez sprawdzenia rzetelności metody w nowych warunkach - stosowanie tego samego testu dla innych grup bada nych niż grupa wyjściowa (np. przez agencje doradztwa personalnego dla grupy osób starających się o określone stanowisko, a więc - niejako na mocy definicji - bardziej do siebie podobnych) może przynieść opłakane skutki społeczne11. 2.5. OCENA RZETELNOŚCI INDYWIDUALNEGO WYNIKU Współczynnik rzetelności testu jest parametrem opisującym stopień precyzji wyników otrzymywanych za pomocą określonego testu. Znajomość wartości tego współczynnika pomaga nam wybrać przydatną do naszych celów metodę. W sytuacji wykorzystywania testu dla celów indywidualnej diagnozy znacznie bardziej interesuje nas jednak możliwość oceny wyniku prawdziwego konkretnej osoby badanej. Czy współczynnik rzetelności testu może się tu okazać użyteczny?
Standardowy błąd pomiaru Przypomnijmy, rzetelność zdefiniowaliśmy jako stosunek wariancji wyni ków prawdziwych do wariancji wyników otrzymanych. Przekształćmy zatem to wyrażenie w taki sposób, aby można było na jego podstawie obliczyć błąd pomiaru (skorzystamy tu z równania klasycznej teorii testów, a miano wicie: X=T- E, czyli T=X-E):
Przekształcając dalej to wyrażenie w taki sposób, aby błąd pomiaru, czyli wyrażenie S|, znalazło się przed znakiem równości, otrzymamy:
>- S t a n d a r d o w y b ł ą d p o m i a r u jest to odchylenie standardowe różnic X-T. Jest to błąd, który popełniamy wtedy, Kiedy przyjmujemy, że wynikiem prawdziwym danej osoby jest średni wynik, jaki uzyskałaby ona w nieskończenie wielu pomiarach tym samym testem. Błąd ten wynosi: S£/M=SxV i-/v. »■ S t a n d a r d o w y * b ł ą d e s t y m a c j i jest to odchylenie standardowe rozkładu różnic między T* i T, a więc między estymowanąwartością wyrHku prawdziwego i jego wartością rzeczywistą. Błąd ten wynosi: SEE=^lr’n SEM. »■ S t a n d a r d o w y bł ą d r ó ż n i c y jest to odchylenie standardowe wszystkich możliwych różnic między dwoma wynikami. Błąd ten wynosi: SEMX- y^ S E M ź +SEM§. “ Rozdz. 6 tej pracy został w całości poświęcony społecznym skutkom testowania.
63
R
o z d z ia ł
2
gdzie: SEM oznacza standardowy błąd pomiaru (ang. standard error of measurement), Sx to odchylenie standardowe ogólnych wyników w teście, a r„ to rzetelność testu. Standardowy błąd pomiaru ma rozkład normalny i jest definiowany jako odchylenie standardowe różnic X-T. Mówiąc jeszcze inaczej, jest on defi niowany jako odchylenie standardowe rozkładu błędów, które popełniamy wtedy, kiedy przyjmujemy, że wynikiem prawdziwym danej osoby jest średni wynik, jaki uzyskałaby ona w nieskończenie wielu pomiarach tym samym testem (por. Magnusson, 1981, s. 120). Tak definiowany błąd pomiaru jest wykorzystywany do oceny precyzji naszych wniosków o wyniku prawdziwym osoby badanej. Technicznie rzecz biorąc, wnioskowanie to polega na budowaniu - dla wyniku otrzymanego w teście - tzw. przedziału ufności. Przedział ufności dla wyniku otrzymanego pozwoli nam na określenie granic, w których - z określonym prawdopodo bieństwem - znajduje się wynik prawdziwy osoby badanej. Im większy będzie zbudowany przez nas przedział (np. 95% lub 99%), tym będziemy mieć większą pewność, że wynik prawdziwy badanej osoby mieści się właśnie w tym przedziale. Przedział ufności dla wyniku otrzymanego. Jak zatem obliczamy przedział ufności dla wyniku otrzymanego? Podstawowa metoda budowania przedziału ufności polega na odjęciu pewnej stałej wartości od wyniku otrzymanego (otrzymamy wtedy dolną ¡granicę przedziału) oraz dodaniu jej do wyniku otrzymanego ( o t r z y m i v t e d y górną granicę przedziału). Ta stała wartość jest równa wyrażeniu (SEM). Jak zatem widzimy, jest to iloczyn warto ści wyniku standaryzc.. —>;go z (odczytanego dla poziomu istotności ot/2 12) oraz standardowego błędu pomiaru. Przedział ufności ma zatem następującą postać: Wynik standardowy z relatywizuje przedział ufności do rozkładu normalnego i określa, z jaką pewnością będziemy budować nasz przedział. Aby zilustrować sposób określania przedziału ufności, przeanalizujmy następujący przykład. Przebadaliśmy testem WAIS-R(PL) osobę w wieku 23 lat. Otrzymała ona wynik równy 93 pkit. IQ w Skali Pełnej. Rzetelność testu dla tego poziomu wieku wynosi 0,902 (dane z podręcznika testowego - por. Brzeziński i in., 1996, s. 39-40), a wartość Za/z dla a = 0,10 wynosi 1,64. Wiedząc, że w tym teście S*-= 15 (ibidem), obliczamy wartość standardowego błędu pomiaru: SEM = := 4,680. Dysponując wszystkimi danymi, możemy teraz zbudować yu-w piz,cdział ufności dla wyniku otrzymanego tej osoby: 64
12 Wartość z odczytujemy dla poziomu istotności ot/2 dlatego, że przedział ufności je przedziałem dwustronnym, a więc cały poziom istotności a rozkłada się na dwie części.
K
l a s y c z n a t e o r ia t e s t ó w ja k o
p o d s t a w a w n io s k o w a n ia o r z e t e l n o ś c i t e s t u
R
o z d z ia ł
66
2
Którą z tych metod należy zatem wybrać? Niektórzy psychometrzy twier dzą (por. Nunnally, 1978), że budowanie przedziału ufhości dla estymowanego wyniku prawdziwego (a więc przy wykorzystaniu wartości SEE) jest bardziej poprawną metodą postępowania, bowiem estymowane wyniki praw dziwe są lepszym przybliżeniem prawdziwej wartości mierzonej cechy niż wyniki otrzymane w teście. Powszechnie jednakże utrwaliła się praktyka obliczania przedziału ufności budowanego dla wyniku otrzymanego. Jak widać z powyższych przykładów, różnice w wartościach granic otrzymanych przedziałów ufności nie są duże, a różnice w prostocie obliczeń - zdecydo wanie tak. Można zatem - mimo zastrzeżeń co do pierwszej z metod - bez wahania ją polecić. Czym się kierować, podejmując decyzję o szerokości przedziału ufności? To kolejne pytanie, na które musimy odpowiedzieć, zanim przystąpimy do odpowiednich obliczeń. W naszym przykładzie obliczyliśmy 90% przedział ufności, co oznacza, że gdyby ta sama osoba była niezależnie badana 100 razy tym samym testem, to otrzymany przez nią wynik tylko w 10 przypad kach znalazłby się poza wyznaczonym przedziałem ufhości. Wydaje się zatem, że im dokładniejszy przedział ufności wybierzemy (np. 95% lub 99%), tym mniejszym błędem będą obarczone nasze decyzje. Oczywiście, jest to prawda, jednak - jak to zwykle bywa - „nie ma róży bez kolców”. W naszym wypadku niski błąd oznacza posługiwanie się szerokim (czyli o odległych od siebie granicach) przedziałem ufności. W takiej sytuacji interpretacja otrzymanego wyniku może okazać się kłopotliwa. Dlaczego? Wyobraźmy sobie taką sytuację: wynik, jaki otrzymała osoba badana, wynosi 100. Aby przekonać się, na ile ten wynik jest precyzyjny, zbudowali śmy dwa przedziały ufności: 90% i 99%. W pierwszym wypadku przedział ten wyznaczony jest granicami (95; 105), a w drugim (90; 110). Jednocześnie z podręcznika testowego wiemy, że wyniki mieszczące się w przedziale od 95 do 105 pkt. można traktować jako wyniki przeciętne, wyniki poniżej 95 pkt. to wyniki niskie, a wyniki powyżej 105 pkt. to wyniki wysokie. W pierw szym wypadku obliczony przez nas przedział ufności dokładnie pokrywa zakres wyników przeciętnych i nie mamy żadnych kłopotów z interpretacją wyniku, jaki uzyskała nasza osoba badana. Wiemy, uwzględniając błąd pomiaru, że jest to wynik przeciętny. Natomiast w drugim wypadku mamy prawdziwy kłopot. Obliczone przez nas granice przedziału ufności pokrywają cały zakres interpretacji wyniku testowego: dolna granica przedziału wskazuje na wynik niski, zaś górna na wynik wysoki. Z takim problemem spotkamy się w wypadku prawie każdej i n t e r p r e t a c j i p r z e d z i a ł o w e j . Dla tego też podejmując decyzje o szerokości przedziału ufności, musimy pogo dzić ze sobą dwa warunki: ( 1) przedział powinien być na tyle precyzyjny, abyśmy mieli wystarczające zaufanie co do wartości otrzymanego wyniku w teście; (2 ) przedział ufności powinien być na tyle wąski, aby nie sprawiał nam kłopotów interpretacyjnych. Rozwiązaniem tego dylematu może być
K lasyczna
t e o r ia t e s t ó w ja k o
p o d s t a w a w n io s k o w a n ia o r z e t e l n o ś c i t e s t u
następujące zalecenie (formułowane w większości współczesnych podręczni ków testowych): dla potrzeb diagnozy indywidualnej wystarczająco pre cyzyjny jest 90% przedział ufności, zaś w badaniach naukowych precyzja przedziału ufności może zostać zwiększona do 95%. Inne stanowiska (np. Choynowski, 1971, s. 111), zalecające stosowanie jeszcze węższych przedzia łów ufności (nawet 68 %), wydają się w tym wypadku nadmiernie liberalne. P o d s u m o w a n i e . Jak pisze Anna Anastasi (Anastasi, Urbina, 1999, s. 153), „SEM (lub inny wskaźnik dokładności pomiaru) stanowi pewne zabezpieczenie przed przywiązywaniem nadmiernej wagi do pojedynczego wyniku liczbowego. Jest to tak ważne zastosowanie SEM, że w publikowa nych testach coraz częściej zaleca się podawanie wyniku n i e w p o s t a c i p o j e d y n c z e j l i c z b y [podkreślenie moje - E.H.], lecz jako p a s m a w y n i k ó w [E.H.], w którym, jak można oczekiwać, będzie się mieścił prawdziwy wynik osoby badanej”. Tę radę, jednej z najwybitniejszych osób zajmujących się psychometrią, każdy użytkownik testów powinien potrakto wać jako nakaz. Wydaje się, że w świetle tego, co mówiliśmy o błędzie, jaki popełniamy, stosując określony test, nie trzeba Czytelnika specjalnie przeko nywać o roli i wadze tego zalecenia. Interpretowanie wyniku testowego tylko na podstawie jednej wartości, jaką osoba badana uzyskała w teście, jest wyrazem braku profesjonalnej dbałości o jakość wyprowadzanych wniosków. W każdym współcześnie publikowanym podręczniku zamieszczone są gotowe tabele wartości, jakie należy odjąć i dodać do wyniku otrzymanego w teście, aby otrzymać określony przedział ufności. Budowanie takiego przedziału jest zatem bardzo proste i nie wymaga żadnych dodatkowych działań! Zakończmy przytoczeniem słów autorów Standardów... (1985a, s. 60): „Współczynniki rzetelności mają ograniczone znaczenie praktyczne dla osób badających testami. Bardziej użyteczny jest dla nich standardowy błąd pomiaru. Z powodu względnej niezależności od zmienności grupy, dla której go obliczono, jest on dla danej populacji wysoce stabilny. Umożliwia również określanie granic przedziału, w którym - z takim, a nie innym prawdopodo bieństwem - mieści się wynik prawdziwy danej osoby. Badający mogą też posługiwać się współczynnikami rzetelności, porównując testy między sobą, ale przy interpretowaniu wyników testowych powinni wykorzystywać stan dardowy błąd pomiaru”.
Standardowy błąd różnicy między dwoma wynikami Kolejnym ważnym elementem postępowania diagnostycznego, w którym również będziemy wykorzystywać informacje o rzetelności testu i jego standardowym błędzie pomiaru, jest dokonywanie porównań między- oraz wewnątrzosobniczych. W sytuacji, gdy interesują nas porównania między badanymi osobami, musimy stwierdzić, czy różnica w ich wynikach testo wych jest na tyle rzetelna, że na jej podstawie możemy odpowiedzialnie podjąć decyzję dotyczącą np. wyboru jednego z dwóch kandydatów na
67
R
o z d z ia ł
2
określone stanowisko. Natomiast w drugim wypadku chcielibyśmy wiedzieć, czy różnica między wynikami, jakie uzyskała ta sama osoba w różnych testach jest na tyle rzetelna, że można jej nadać znaczenie diagnostyczne. Dokonywanie oceny wielkości różnicy między dwoma wynikami wymaga wyprowadzenia wzoru na obliczanie błędu standardowego różnicy między dwoma pomiarami. Błąd ten (por. Magnusson, 1981, s. 136-137) wynosi: SR M x- y - '¡SEM^ + SEAfy
gdzie: SEMX to standardowy błąd pomiaru dla jednego testu, a SEMY to standardowy błąd pomiaru dla drugiego testu. Innymi słowy, standardowy błąd różnicy między dwoma wynikami to suma kwadratów błędów standar dowych pierwszego i drugiego testu, z której wyciągnięto pierwiastek. W zależności od tego, z jaką konkretnie sytuacją mamy do czynienia, wzór ten będzie miał różną postać. I tak: ( 1) gdy obliczamy różnicę między wynikami dwóch testów wyrażonych na różnych skalach: S E M ^ y = ]jS x ( 1 - f* r) + $ y ( l ~ fyy)
gdzie: Sx to odchylenie standardowe wyników w pierwszym teście, r** to rzetelnóść pierwszego testu, S y to odchylenie standardowe wyników w drugim teście, a to rzetelność drugiego testu; (2 ) gdy obliczamy różnicę między wynikami dwóch testów wyrażonych na tej samej skali standardowej13: SEMx~y = Sx^ 2 -rxx- r yy
gdzie: Sx to odchylenie standardowe wyników w teście X (a ponieważ wyniki testowe są wyrażone na tej samej skali to Sx = Sy), r„ to rzetelność pierwszego testu, a r-yy to rzetelność drugiego testu; (3) gdy obliczamy różnicę między wynikami tego samego testu: SEMx„y = S ^ 2 (l-r„ )
gdzie: Sx to odchylenie standardowe wyników w teście, a r„ to rzetelność testu. W jaki sposób zatem wykorzystujemy standardowy błąd pomiaru między dwoma wynikami do oceny rzetelności zaobserwowanej różnicy? Przed stawmy sposób rozumowania na konkretnym przykładzie. Będzie to przykład porównywania dwóch wyników otrzymanych w dwóch różnych testach, wyrażonych na dwóch różnych skalach. Załóżmy zatem, że nasza hipo tetyczna osoba badana otrzymała wynik w pierwszym teście X=15 i w drugim teście F=22. Różnica między tymi wynikami wynosi 7 pkt. i chcielibyśmy wiedzieć, czy możemy jej nadać znaczenie diagnostyczne i np. stwierdzić, 68
13 Pojęcie skali standardowej i jej odmiany omówimy dokładnie w rozdz. 4, poświęconym normom testowym.
K lasyczna
t e o r ia t e s t ó w ja k o
p o d s t a w a w n io s k o w a n ia o r z e t e l n o ś c i t e s t u
że zdolności językowe tej osoby są gorsze od jej zdolności matematycznych. Wiemy także, że r*, = 0,781, = 0,752, Sx=2,716, a SY= 2,964. Obliczmy zatem standardowy błąd różnicy między wynikami, korzystając z pierwszego z przedstawionych wyżej wzorów: SEMX- y = V2,7162(l -0,781) + 2,9642(1 -0,752) = y/3^43 = 1,84 * 1,8
Różnica obliczona między wynikami tych dwóch testów wynosi 7 pkt. Minimalna zaś różnica, pozwalająca nam uznać różnicę otrzymaną za róż nicę rzetelną, którą obliczamy według wzoru ZaiiSEM, wynosi (dla a=0,05):(196)(l,8) = 3,52. Ponieważ zgodnie z kryteriami decyzyjnymi: j e ż e l i r ó ż n i c a o b l i c z o n a j e s t r ó w n a b ą d ź w i ę k s z a od r ó ż n i c y m i n i m a l n e j , to j e s t ona i s t o t n a s t a t y s t y c z n i e ( m a z n a c z e n i e d i a g n o s t y c z n e ) , naszą różnicę równą 7 pkt. może my uznać za wystarczająco rzetelną, aby ją dalej interpretować w takim kierunku, jak to wyżej założyliśmy. Podobnie jak obliczanie przedziału ufności dla wyniku otrzymanego, również ocena rzetelności różnic między dwoma wynikami powinna wejść na stałe do rutynowego postępowania osób stosujących testy psychologiczne. Nie ma niczego bardziej nagannego niż interpretowanie różnic między dwoma wynikami (np. wybieranie kandydata A zamiast kandydata B) bez sprawdzenia ich rzetelności. Różnica, która na pierwszy rzut oka wydaje się duża (bo liczy nawet kilkanaście pkt.), może okazać się różnicą nieistotną statystycznie, a więc taką, która powstała wyłącznie w wyniku działania czynników przypadkowych. Podejmowanie decyzji diagnostycznych, np. selekcyjnych (szczególnie w wyniku analizy konfiguracyjnej profilu) na jej podstawie, nigdy zatem nie powinno mieć miejsca. 2.6. TEORIA UNIWERSALIZACJI JAKO ODMIANA KLASYCZNEJ TEORII TESTÓW Choć przedstawione wyżej techniki są powszechnie stosowanymi metoda mi szacowania rzetelności testu, w wielu wypadkach mogą okazać się nie właściwe. Przypuśćmy, że mamy do czynienia z taką sytuacją: interesuje nas sprawdzenie wiedzy, jaką w ciągu semestru przyswoili sobie studenci. Przy gotowaliśmy odpowiedni test, polegający na opracowaniu dłuższej pisemnej odpowiedzi na kilka pytań. Odpowiedzi te będą oceniane - na skali od 1 do 10 pkt. - przez trzech niezależnych wykładowców. Zanim jednak przystąpimy do badań, chcielibyśmy poznać rzetelność naszego testu. ► T e o r i a u n i w e r s a l i z a c j i stawia pytania dotyczące wielkości wariancji wy nikającej z konkretnych źródeł błędu. Pytania te mają postać: „Co w tej konkretnej procedurze jest błędem pomiaru?" ora:: Jak duża jest warianqa wynikająca z każdego z tych źródeł?". Istotnym elementem teorii uniwersalizacji jest określanie schematów badawczych pozwalających uzyskać dane na ten temat.
69
R
o z d z ia ł
2
Opisane wyżej metody szacowania rzetelności wymagają; aby osoba ba dana rozwiązała ten sam test dwa razy. Współczynnik rzetelności został bowiem operacyjnie zdefiniowany jako współczynnik korelacji między dwo ma wynikami testowymi - otrzymanymi za pierwszym i za drugim razem. Jednakże w wielu sytuacjach psychologicznych - podobnie jak w powyższym rzykładzie - nie jest możliwe otrzymanie dwóch pomiarów (czy za pomocą powtórnego testowania, czy za pomocą dzielenia testu na części). Jednym z ciekawszych rozwiązań, które pozwala na oszacowanie współ czynnika rzetelności i wariancji błędu w takiej właśnie sytuacji, jest teoria uniwersalizacji (Cronbach i in., 1972). Elementy tej teorii znane już były wcześniej (por. np. Lindquist, 1953), jednak dopiero Cronbach ze współ pracownikami nadał jej formalny kształt. Wydaje się, że warto poświęcić jej nieco miejsca, bo choć - w porównaniu z modelem klasycznym - jest zdecydowanie rzadziej wykorzystywana w praktyce, formułowane w jej ramach idee dotyczące pomiaru i pojęcia rzetelności są nader inspirujące. Najbardziej istotną różnicę między klasyczną teorią testów a teorią uniwer salizacji można określić jako różnicę perspektywy (por. Suen, 1990; Gruijter, Van der Kamp, 1991). Ściśle rzecz biorąc, w ramach klasycznej teorii testów błąd pomiaru opisywany jest za pomocą ogólnego pojęcia błędu losowego. Pojęcie to nie relatywizuje błędu do konkretnej sytuacji, w jakiej ma miejsce badanie testem. Tymczasem w teorii uniwersalizacji rzetelność testu zależy od kontekstu testowania. Z technicznego punktu widzenia teoria uniwersalizacji różni się od klasycz nej teorii testów w dwóch ważnych aspektach. Po pierwsze, w miejsce silnego założenia o równoległości testów, przyjmuje się w niej założenie słabsze, tj. założenie o tzw. l o s o w e j r ó w n o l e g ł o ś c i . Dwa testy są losowo równoległe (ang. randomly parallel), jeżeli można przyjąć, że pozycje tych testów są losowymi próbkami pobranymi z tego samego uniwersum pozycji. Po drugie, teoria uniwersalizacji daje możliwość określania wielu różnych źródeł błędu. Tym samym, zamiast jednego współczynnika rzetelności, jak to ma miejsce w klasycznej teorii testów, możemy obliczyć tyle współczyn ników rzetelności, ile pytań dotyczących źródeł błędu potrafimy sformułować (por. Gruijter, Van der Kamp, 1991, s. 45).
70
Wariancja wyników testowych Przypomnijmy, że terminem wariancja oznaczamy wielkość zróżnicowania otrzymanych wyników wokół ich wartości średniej. Mówiąc inaczej, wariancja opisuje nam wielkość błędu, jaki popełniamy wtedy, kiedy średni wynik trak tujemy jako dobre odzwierciedlenie wszystkich wyników indywidualnych. Pod kreślmy wyraźnie, wariancję możemy zatem traktować jako miarę popełnianego błędu. Mała wariancja (czyli niewielkie zróżnicowanie wyników wokół wartości średniej) wskazuje, że średni wynik dobrze (rzetelnie) odzwierciedla wyniki indywidualne. Duża wariancja zaś wskazuje, że wartości średniej nie można traktować jako rzetelnej miary wyników indywidualnych (por. Suen, 1990, s. 40).
Klasyczna
t e o r ia t e s t ó w j a k o p o d s t a w a w n io s k o w a n ia o r z e t e l n o ś c i t e s t u
Ta cecha wariancji sprawia, że jest to bardzo ważna statystyka w psychometrii. Znając bowiem wielkość wariancji, możemy wyciągać ważne wnioski dotyczące wielkości błędu, czyli wnioski dotyczące r z e t e l n o ś c i testu. ✓
Źródła wariancji W każdym konkretnym zbiorze danych (także danych testowych) możemy wyróżnić różne źródła wariancji (zmienności) wyników. W psychometru różne źródła wynikają z różnych cech sytuacji testowania. Wróćmy do naszego przykładu studenta zdającego egzamin pisemny. Jeżeli jedna z osób oceniających dała mu 8 pkt. w dniu, w którym pisał egzamin, to nie wiemy, czy ocenę te możemy traktować jako ocenę rzetelną (powtarzalną). Gdyby ta sama osoba oceniająca (ten sam wykładowca), oceniając tę sama pracę ponownie, np. na drugi dzień, również dała 8 pkt. to możemy powiedzieć, że jest to osoba doskonale rzetelna. W tym wypadku mamy do czynienia z wysoką rzetelnością w e w n ą t r z o s o b y o c e n i a j ą c e j (ang. intrajudge). Gdyby jednak ten sam wykładowca różnie oceniał tę samą pracę w kolej nych dniach, możemy powiedzieć, że mamy do czynienia z brakiem rzetel ności ocen pochodzących od tej samej osoby oceniającej. Dobrą miarą rzetelności ocen jest tu wielkość wariancji ocen, jakie ta sama osoba ocenia jąca dała tej samej pracy. Im n i ż s z a wariancja ocen, tym - oczywiście - większa ich rzetelność (por. Suen, 1990, s. 43-45). Zamiast prosić jedną osobę o ocenę tej samej pracy, możemy poprosić kilku wykładowców (doskonale rzetelnych) o jednorazową ocenę tej samej pracy. W efekcie otrzymamy zbiór ocen, W zbiorze tym każda ocena pochodzić będzie od innego wykładowcy. Tym razem wariancja ocen nie będzie wskazy wać na rzetelność ocen pochodzących od jednej osoby oceniającej (wszystkie osoby oceniające są bowiem doskonale rzetelne i każda z nich zawsze tak samo ocenia tę samą pracę), a na rzetelność ocen pochodzących od różnych wykłado wców. Możemy zatem powiedzieć, że w tym drugim wypadku wariancja ocen jest wskaźnikiem rzetelność ocen pochodzących od różnych wykładowców (czyli m i ę d z y o s o b a m i o c e n i a j ą c y m i - ang. interjudge). Może się również zdarzyć i tak, że jeden wykładowca (doskonale rzetelny) zostanie poproszony o ocenę kilku różnych prac tego samego studenta. I chociaż kolejne oceny tej samej pracy są zawsze takie same (bo pochodzą od doskonale rzetelnej osoby oceniającej), to oceny różnych prac mogą być różne. W tym wypadku źródłem zmienności są same prace studenta (czyli różne pozycje testowe, mówiąc językiem psychometru). Innymi słowy, źródłem błędu, jaki pojawia się w tej sytuacji, jest brak z g o d n o ś c i w e w n ę t r z n e j między pracami (pozycjami testowymi - ang. intemal consistency). I wreszcie w czwartej sytuacji: doskonale rzetelny (zgodny wewnętrznie) test, składający się z kilku pytań wymagających pisemnej odpowiedzi, rozwiązało kilku studentów. Kilku doskonale rzetelnych wykładowców dos konale rzetelnie oceniło te prace. Wyniki różnych studentów okazały się 71
R
o z d z ia ł
2
jednak różne. Tym razem źródłem błędu były różnice między osobami badanymi (studentami). Wariancja otrzymanych ocen wynika tu z wariancji między osobami badanymi (ang. variance across subjects). Zarysowane powyżej cztery hipotetyczne sytuacje opisują cztery różne źródła wariancji, jakie mogą się pojawić w badaniach testowych. Znajomość wielkości tych źródeł (wariancji) pozwala na obliczenie wielu współczyn ników rzetelności, w zależności od tego, jakie źródło błędu uznamy za najważniejsze. Jak pisze sam Cronbach (1990, s. 196): „Teoria uniwersalizacji wykracza pozaklasyczną analizę rzetelności w tym sensie, że wprost stawia pytania o to, «co, w t ej k o n k r e t n e j procedurze, jest błędem pomiaru?» oraz «jak duża jest wariancja wynikająca z k a ż d e g o z t y c h ź r ódeł ?». Wiedza o poszczególnych źródłach wariancji w ogromnym stopniu przy czynia się do lepszej interpretacji mierzonego konstruktu”.
Wariancja prawdziwa oraz wariancja błędu Przeanalizujmy raz jeszcze nasz przykład. Możemy przyjąć, że z punktu widzenia jakości pomiaru psychologicznego nie jest rzeczą pożądaną, aby występowały takie źródła błędu jak zarówno zróżnicowanie ocen wewnątrz jednej osoby czy też między osobami oceniającymi, jak i brak zgodności wewnętrznej między zadaniami (pozycjami testowymi). Będą one zawsze wskaźnikami braku rzetelności pomiaru. Ogólnie rzecz biorąc, wszystkie źródła wariancji niepożąda nej z punktu widzenia jakości pomiaru stanowić będą w a r i a n c j ę b ł ę d u . Natomiast wariancja między osobami badanymi jest właśnie tym, co chcemy osiągnąć, wprowadzając badanie testowe. Wyniki testowe mają bowiem służyć jako podstawa określenia poziomu różnic indywidualnych między osobami badanymi. Dlatego też wariancja między osobami badanymi nie może być traktowana jako błąd pomiaru, ale jako wskaźnik stopnia rozproszenia wyników, czyli inaczej stopnia zróżnicowania między osobami badanymi. Innymi słowy możemy powiedzieć, że jest to w a r i a n c j a p r a w d z i w a . Wariancja wewnątrz i między osobami oceniającymi czy wariancja między pozycjami testowymi to tylko niektóre przykłady wariancji błędu. W rzeczy wistej sytuacji testowania źródłem błędu może być nieskończenie wiele czynników. Takimi źródłami mogą być np. różnice w sytuacji testowania, różnice między formami równoległymi testu, itd. Istotą teorii uniwersalizacji jest możliwość definiowania tych źródeł błędu i określania ich wielkości
Schematy badawcze Istotnym elementem teorii uniwersalizacji jest określanie schematów ba dawczych pozwalających uzyskać dane na temat wielkości wariancji, która wynika z konkretnych źródeł błędu. Jak być może Czytelnik już się zorien tował (choćby przy analizie pojęcia zróżnicowania wewnątrz i między oso72
bami oceniającymi), dokonując estymacji różnych współczynników rzetel-
K
l a s y c z n a t e o r ia t e s t ó w ja k o
p o d s t a w a w n io s k o w a n ia o r z e t e l n o ś c i t e s t u
ności, będziemy posługiwać się dobrze znaną i powszechnie stosowaną techni ką analizy wariancji (ANOVA). Bogactwo schematów badawczych, jakie wypracowano w ramach ANOVA, pozwala na analizę nawet bardzo złożonych sytuacji pomiarowych. Wprawdzie w ogólnym przeglądzie trudno omówić - choćby wybrane - ich przykłady14, warto jednak zwrócić uwagę na czynniki, które powinny zastać wzięte pod uwagę przy wyborze określonego schematu. Przedmiot pomiaru. Najważniejszym zadaniem jest właściwe określenie przedmiotu pomiaru. Przedmiot pomiaru zazwyczaj określamy, wskazując, co chcemy mierzyć. W klasycznej teorii testów przedmiot pomiaru jest stosunkowo oczywisty: zakładając, że warunki badania są we wszystkich ważnych aspektach ujed nolicone (wystandaryzowane), chcemy mierzyć zróżnicowanie między oso bami badanymi. Interesują nas zatem dwie wariancje: wariancja wyników prawdziwych i wariancja błędu. W teorii uniwersalizacji - jak pamiętamy - możemy określić wiele źródeł wariancji. W tym wypadku to, co stanowi obiekt pomiaru, nie jest już tak oczywiste, jak w przypadku klasycznej teorii testów. Przedmiotem pomiaru mogą być bowiem nie tylko osoby badane, ale np. osoby oceniające wyniki testu. To, kto (lub co) będzie przedmiotem pomiaru, prowadzi do wyboru innego schematu zbierania danych oraz innych analiz psychometrycznych. Umiejętność wyraźnego wskazania przedmiotu pomiaru staje się w tym wypadku elementem niezbędnym, gdyż w ten sposób określamy źródło wariancji prawdziwej. Wybierając zaś określony schemat badawczy, będzie my się kierować zasadą maksymalizacji wariancji prawdziwej oraz mini malizacji wariancji błędu (por. Suen, 1990, s. 45). Wróćmy ponownie do naszego przykładu, w którym kilku wykładowców oceniało prace pisemne studentów, a ich oceny różniły się między sobą. Jeżeli przedmiotem pomiaru będzie zróżnicowanie zdolności studentów, to pojawił się tu duży błąd pomiaru, gdyż ta sama praca została inaczej oceniona przez każdego wykładowcę. Gdyby jednak; tym, co nas interesuje, była indywidualna ocena pracy każdego wykładowcy, duże zróżnicowanie wyników między wykładowcami będzie dla nas pożądane. W tym drugim wypadku chcemy bowiem dokonać różnicowania między ocenami sędziów i zróżnicowanie ocen będzie stanowić wariancję prawdziwą. W zależności od przedmiotu pomiaru, różne wariancje są różnie interpretowane i mogą mieć różne znaczenie. Czynniki pomiaru. W każdym pomiarze mamy do czynienia z różnymi źródłami wariancji wyników. Jednym z tych źródeł jest przedmiot pomiaru. Wariancja, której źródło stanowi przedmiot pomiaru, jest zawsze wariancją prawdziwą. Wszystkie inne źródła są źródłami wariancji błędu. Źródła wariancji błędu - w teorii uniwersalizacji - nazywa się czynnikami pomiaru (ang.facets). 14 Osobom zainteresowanym techniczną prezentacją schematów ANOVA, które można wykorzystać w badaniach rzetelności testu, polecam następujące prace: Crocker i Algin (1986); Shavelson i Webb (1991); Brzeziński (1984). 73
R
o z d z ia ł
74
2
W analizowanym przez nas przykładzie możemy wyróżnić trzy wariancje: wariancję między studentami, wariancję między wykładowcami i wariancję między pytaniami, na które odpowiadali studenci. Jeżeli przyjmiemy, że przedmiotem pomiaru jest poziom wiedzy studentów z określonej dziedziny, to wykładowcy i pytania będą źródłami wariancji błędu, czyli czynnikami pomiaru. Schemat badawczy, jaki powinniśmy zatem zastosować w tej sytuacji, będzie schematem dwuczynnikowym. Z kolei zróżnicowanie w ramach danego czynnika jest traktowane jako poziom tego czynnika (por. Suen, 1990, s. 45). I tak, w naszym przykładzie, gdyby studenci odpowiadali na pięć pytań i oceniam byli przez trzech sędziów, to mielibyśmy 5 poziomów w obrębie jednego czynnika i 4 poziomy w obrębie drugiego czynnika. Czynniki losowe i czynniki stałe. Czynniki, z jakimi mamy do czynienia w sytuacji pomiaru, mogą mieć charakter czynników losowych (ang. random facets ) bądź charakter czynników stałych (ang. fixed facets ). W wypadku c z y n n i k ó w l o s o w y c h przyjmujemy, że poziomy tych czynników są losową próbką wszystkich możliwych poziomów tego czynnika. Prowadzi to do tego, że w każdym kolejnym badaniu wykorzystywane poziomy czynnika mogą być inne. C z y n n i k i s t a ł e zaś to czynniki, których poziomy się nie zmieniają - pozostają stałe w różnych sytuacjach badawczych. Czynniki stałe odnoszą się do wystandaryzowanych warunków badania. Im bardziej warunki badania zostaną wystandaryzowane (ujednolicone), z tym mniejszą liczbą źródeł błędu będziemy mieli do czynienia. Dlaczego? I znowu wróćmy do naszego przykładu. Wiemy, że jeden z wykładowców ocenił pracę studenta na 8 pkt. Możemy się oczywiście zastanawiać, czy ten sam wykładowca oceniłby tak samo tę pracę, gdyby zrobił to innego dnia. A co byłoby wtedy, kiedy inny wykładowca oceniłby te pracę, lub gdyby ocenie poddać inne prace tego samego studenta? Myśląc w ten sposób, wprowadza my trzy czynniki: czas oceny, oceniającego wykładowcę oraz różne prace studenta. Gdybyśmy te wszystkie czynniki potraktowali jako czynniki stałe, to automatycznie wyeliminowalibyśmy je jako źródła błędu. Mówiąc inaczej, zdefiniowalibyśmy naszą sytuację jako sytuację oceny jednej pracy przez jednego wykładowcę w jednym momencie czasu. Zakładając zatem, że wszystkie inne warunki są również stałe, ocenę, jaką otrzymał nasz student (8 pkt.), możemy potraktować jako ocenę całkowicie rzetelną. Ale - konsekwentnie - byłaby to rzetelna ocena zdolności studenta w ocenie tego konkretnego wykładowcy i w tym konkretnym momencie. Przykład ten pokazuje jedną ważną konsekwencję teorii uniwersalizacji. Eliminowanie źródeł błędu (traktowanie ich jako czynników stałych) zdecy dowanie upraszcza analizę i ułatwia interpretowanie konkretnego wyniku, jednak zbyt duże zawężenie tego, co jest przedmiotem pomiaru, może sprawić, że przestanie on mieć jakiekolwiek psychologiczne znaczenie (bę-
Klasyczna
t e o r ia t e s t ó w j a k o p o d s t a w a w n io s k o w a n ia o r z e t e l n o ś c i t e s t u
dziemy interpretować konkretny wynik, otrzymany i obliczony w konkretnej sytuacji testowania przez konkretnego badającego, itd.). Aby można było zastosować rozwiązania wypracowane przez teorię uni wersalizacji, przynajmniej jeden z czynników musi być losowy. Gdyby bowiem absolutnie wszystkie czynniki były stałe, otrzymany wynik byłby całkowicie rzetelny i przeprowadzenie badań okazałoby się zbędne. Nadto, przedmiot pomiaru zostałby skrajnie zawężony (por. Cronbach, 1970, s. 152). Wynik prawdziwy a wynik uniwersalny. W klasycznej teorii testów w y n i k i e m p r a w d z i w y m danej osoby określaliśmy średni wynik, jaki otrzymałaby ona w nieskończenie wielu badaniach tym samym testem. Wynik prawdziwy jest zatem pewną stałą charakterystyką badanej osoby i nie zależy od kontekstu badania. W teorii uniwersalizacji zaś przyjmuje się, że dana osoba może zostać scharakteryzowana za pomocą w y n i k u u n i w e r s a 1n e g o, tj. odpowied niego wyniku średniego otrzymanego przy losowym wyborze poziomów odpowiedniego czynnika. „Każda osoba będzie zazwyczaj posiadać kilka wyników uniwersalnych dla różnych uniwersów. Wynik uniwersalny, jaki otrzymała Mary, rozwiązując test 5 maja, nie będzie dokładnie odpowiadał jej wynikowi uniwersalnemu dla całego tego miesiąca (...) Niektórzy badacze nazywają średni wynik otrzymany w dużej liczbie porównywalnych pomia rów «wynikiem prawdziwym», np. «prawdziwa szybkość pisania na maszy nie, jaką osiągnęła Mary w 3-minutowym teście». My jednak wolimy mówić o «wyniku uniwersalnym», podkreślając w ten sposób, że każdy wynik zależy od branego pod uwagę uniwersum. W każdym pomiarze można wskazać wiele «wyników prawdziwych», każdy odnoszący się do innego uniwersum” (Cronbach, 1970, s. 153). Badania typu G i badania typu D. Teoria uniwersalizacji postuluje dwa rodzaje badań. Pierwsze z nich to tzw. badania typu G (ang. generałizability study). Celem ich jest oszacowanie wielkości wariancji związanej z każdym czynnikiem pomiaru. Znając owe wariancje, możemy określić konsekwencje zmiany w przyjętym schemacie myślenia i poszukiwać układu optymalnego. Możemy np. określić, jak zmniejszyłby się błąd pomiaru, gdyby niektóre czynniki potraktować jako stałe (a więc wystandaryzować je). Możemy też określić, czy nasz test możemy zastosować w innej sytuacji lub co się stanie po jego wydłużeniu. Ten drugi rodzaj badań, a więc określanie rzetelności naszego testu w różnych sytuacjach, nazywany jest badaniami typu D (ang. decision study) (por. Suen, 1990, s. 46). Schematami badawczymi stosowanymi w badaniach typu G są odpowied nie schematy ANOVA, pozwalające określić interesujące nas komponenty wariancji. Mogą to być albo schematy krzyżowe (ang. crossed design), albo gniazdowe (ang. nested design). Jeżeli każda osoba jest badana na każdym poziomie danego czynnika, to mówimy o skrzyżowaniu osób z tym czyn nikiem; podobnie, jeżeli każdy poziom jednego czynnika jest połączony
75
R
o z d z ia ł
2
Rys. 2.4. Schemat badawczy dla układu krzyżowego oraz układu gniazdowego (opracowano na podstawie Nowakowska, 11975, s. 65)
Schemat krzyżowy
K la syczna
t e o r ia t e s t ó w ja k o
p o d s t a w a w n io s k o w a n ia o r z e t e l n o ś c i t e s t u
z każdym poziomem drugiego czynnika, wtedy mówimy o skrzyżowanym układzie tych czynników. Jeżeli każda osoba jest badana przy określonych poziomach (nie wszyst kich) lub też poszczególne poziomy danego czynnika łączone są tylko z niektórymi poziomami drugiego czynnika, wtedy mówimy o układzie gniazdowym (por. rys. 2.4). W naszym przykładzie, gdyby wszyscy wy kładowcy oceniali wszystkie egzaminy wszystkich osób, mielibyśmy układ krzyżowy, gdyby zaś każdy z nich oceniał inne prace, byłby to układ gniazdowy. Wpływ różnych czynników na wielkość wyniku testowego jest odzwier ciedlany przez tzw. współczynnik uniwersalizaeji (ang. coefficient of generalizability). „Kiedy traktujemy pojedynczą obserwację jako odzwierciedlenie pewnego uniwersum, to znaczy, że dokonujemy uogólnienia. Uogólniamy wyniki testowe, sposób dokonywania selekcji, a nawet konkretne dni. Jeżeli wynik, który otrzymamy w wyniku zastosowania konkretnej procedury, będzie ściśle odpowiadał wynikowi uniwersalnemu, to możemy powiedzieć, że procedura ta jest «dokładna», «rzetelna» «dająca się uogólnić». Jeżeli ponadto wyniki otrzymane w różnych procedurach są do siebie podobne, to powiemy, że są one «zgodne» i że są obarczone «niską wariancją błędu» (...) Pojęciem najczęściej wykorzystywanym w literaturze jest pojęcie «rzetelnoś ci». Autor woli jednak pojęcie «uniwersalności», ponieważ to pojęcie określa wprost zakres, na jaki uogólniamy nasze wyniki” (Cronbach, 1970, s. 154). Na podstawie danych uzyskanych w badaniach typu G określamy w bada niach typu D różne współczynniki rzetelności naszego testu. To, którym będziemy się dalej posługiwać, zależy od naszego konkretnego zapotrzebo wania (por. rys. 2.5). Cronbach (1970, s. 152) tak uzasadnia konieczność przeprowadzania badań typu D: „Podjęcie decyzji, że uczeń z sukcesem ukończył dany przedmiot lub że możemy podjąć decyzję o zakończeniu terapii określonego pacjenta, nie może w istotnym stopniu zależeć od błędów losowych, chwilowego zróżnicowania poziomu wykonania testu czy wyboru konkretnych zadań przez osobę stosującą test. Podjęcie błędnej decyzji może przynieść nieodwracalne skutki zarówno dla jednostki, jak i dla społeczeń stwa. Nawet wtedy, kiedy błędna decyzja zostanie zmieniona, będzie spo strzegana jako niesprawiedliwa i może wpłynąć na morale osoby badanej czy też może zahamować jej rozwój”. Cronbach i inni (1972), proponując swoją teorię uniwersalizaeji, twierdzili, że istotą pomiaru psychologicznego (podobnie jak każdych badań nauko wych) jest umiejętność uogólniania otrzymanych wyników. Przeprowadzając badania typu G i typu D, użytkownik testu może świadomie podjąć decyzję o zakresie możliwej uniwersalizaeji wyników. Rzetelność testu, którym się posługuje, zależy bowiem od okoliczności, w jakich test był tworzony, stosowany i interpretowany.
R o z d z ia ł
2
Rys. 2.5. Kolejne etapy postępowania w ramach teorii uniwersalizacji (opracowano na podstawie Suen, 1990, s. 53)
K la syczna
t e o r ia t e s t ó w ja k o
p o d s t a w a w n io s k o w a n ia o r z e t e l n o ś c i t e s t u
Podstawowe pojęcia: • badania typu G i D • błąd losowy • błąd pomiaru • błąd systematyczny • klasyczna teoria testów • przedział ufności • rzetelność • standardowy błąd pomiaru • standardowy błąd różnicy • technika połówkowania • technika testów równoległych • technika test-retest • teoria uniwersalizacji • testy równoległe • wskaźnik rzetelności • współczynnik rzetelności • współczynnik uniwersalizacji • wynik otrzymany • wynik prawdziwy Literatura zalecana Anastasi A., Urbina S. (1999). Testy psychologiczne. Warszawa: Pracownia Testów Psychologicznych Polskiego Towarzystwa Psychologicznego. Brzeziński J. (1996). Metodologia badań psychologicznych. Warszawa: Wy dawnictwo Naukowe PWN. Guilford J.P. (1988b). Rzetelność i trafność pomiarów. Biblioteka Psychologa Praktyka. Tom II: Problemy teońi, rzetelności, konstrukcji i analizy wyników testów psychologicznych (s. 51-103). Warszawa: Polskie Towa rzystwo Psychologiczne, Laboratorium Technik Diagnostycznych.
79
R o z d z ia ł 3
T R A F N O Ś Ć , C Z Y L I O K R E Ś L A N IE O B S Z A R U Z A S T O S O W A N IA T E S T U
W poprzednim rozdziale zajmowaliśmy się sposobami określania siły związku między wynikiem otrzymanym w teście a wynikiem prawdziwym. Obliczając współczynnik rzetelności testu, określaliśmy siłę tego związku. Otrzymany wynik w teście był tym lepszym odzwierciedleniem wyniku prawdziwego, im wyższa była otrzymana wartość współczynnika rzetelności. Na tej podstawie jednak nie możemy stwierdzić, czy wynik testowy jest dobrym odzwierciedleniem tej cechy psychologicznej, którą zamierzaliśmy mierzyć. Mówiąc inaczej, znajomość samego współczynnika rzetelności nie jest wystarczającym kryterium wyboru testu. Musimy jeszcze wiedzieć, na ile trafne są wyniki naszego testu. 3.1. POJĘCIE TRAFNOŚCI W języku codziennym, mówiąc, że coś jest trafne, mamy na myśli, że jest to właściwe, stosowne czy słuszne (por. Szymczak, 1981, tom 3, s. 521). W tym sensie mówimy o trafnej teorii, trafnej argumentacji czy trafnych powodach. Podobnie i w psychometrii: posługujemy się terminem „trafny” wtedy, kiedy wynikom testowym chcemy nadać psychologiczny sens. W psychometrii pytanie o trafność to pytanie o to, „co dany test mierzy?”. I choć wydaje się ono oczywiste, można wskazać na wiele przykładów (opisa nych w literaturze przedmiotu czy znanych z praktyki) stosowania testów bez zwrócenia należytej uwagi na to, czy nadają się one do określonego celu. Mogłoby się to wydawać o tyle zaskakujące, że przecież każdy test posiada swoją nazwę, która może być traktowana jako źródło informacji o jego przeznaczeniu. Warto jednak pamiętać, że nazwa testu jest jedynie wyrazem w i a r y jego autora w to, że test mierzy to, o co intencjonalnie temu autorowi chodziło. Test zdolności może się np. okazać testem sprawności werbalizowa nia, zaś test osiągnięć może się okazać testem inteligencji ogólnej. Bez sprawdzenia, czy dany test nadaje się do konkretnego wykorzystania (a więc czy jest t r a f n y ) , jest on praktycznie bezużytecznym psychologicznie narzędziem. Pojęciu trafności testu przez lata nadawano różne znaczenie. Pierwotnie przez trafność testu rozumiano po prostu dokładność, z jaką test realizuje
T
ra fn o ść
,
c z y l i o k r e ś l a n ie o b s z a r u z a s t o s o w a n ia t e s t u
założone cele. W tym rozumieniu trafność traktowana była - podobnie jak współczynnik rzetelności - jako stała właściwość wyników testowych (por. Suen, 1990, s. 134). Koncepcja ta staje się zrozumiała, jeśli uwzględnić, jak pierwsze testy były tworzone i oceniane. Autor testu zazwyczaj z góry decydował o tym, co test będzie mierzył, i konstruował go w taki sposób, aby osiągnąć swój cel, a następnie starał się wykazać, jak dobrze ten cel osiągnął. Możliwość, że dany test równie dobrze (albo i lepiej) mierzy jakąś inną cechę, rzadko była brana pod uwagę. Po ukazaniu się słynnej pracy Cronbacha i Meehla (1955) oraz późniejszej pracy Messicka (1989) pojęcie trafności testu przestało być tak statycznie rozumiane. Początkowe pytanie,,jak dobrze test realizuje zamierzenia jego autora?”, zastąpiono pytaniem „co test mierzy i j a k d o b r z e to robi?”. Oczywiście, autorzy testów nadal konstruowali je w określonym celu, jednak ich użytkownicy coraz częściej zadawali sobie pytania: ,jaki jest obszar zastosowania danego testu?” oraz „czy ten test odpowiada moim celom?”. Definicja trafności sformułowana przez Messicka (1989, s. 13) wydaje się najlepiej oddawać tę zmianę perspektywy: „trafność jest to zintegrowany proces oceny stopnia, w jakim dowody empiryczne i rozważania natury teoretycznej potwierdzają adekwatność i poprawność interpretacji oraz pro gramów działania wyprowadzonych na podstawie wyników testowych czy innych narzędzi pomiaru”. Trafność stała się - w miejsce zamkniętej proce dury - otwartym procesem badawczym. Co więcej, w definicji tej nastąpiło wyraźne przesunięcie punktu ciężkości - z pojęcia trafności testu na pojęcie t r a f n o ś c i i n t e r p r e t a c j i w y n i k ó w danego testu. W takim też duchu formułują definicję trafności Standardy... (1985a, s. 33), gdzie czytamy: „pojęcie trafności dotyczy poprawności wniosków wyprowadzanych na pod stawie wyników testowych lub innych form badania”, i dalej „(...) trafność jest pewnym wnioskiem, a nie pomiarem. W podręczniku testowym można przedstawić jedynie współczynniki trafności. To na ich podstawie wyciąga się wnioski o trafności konkretnego zastosowania testu (...)”. Określanie trafności danego testu, nazywane w psychometrii procesem walidacji testu (ang. validation), polega na zbieraniu i ocenie danych świad czących o trafności określonej interpretacji wyników testu. Im więcej prze prowadza się badań z udziałem danego testu, tym szerszy jest potencjalny obszar jego zastosowania. Procedura walidacji testu nie kończy się zatem na podaniu jednego współczynnika trafności, a polega na prowadzeniu ciągłych badań i gromadzeniu informacji (por. też Bechtold, 1969). W procesie walidacji ważną rolę odgrywa zarówno autor testu, jak i jego użytkownik. Do obowiązków autora testu należy „(...) podanie informacji potwierdzających trafność każdej zalecanej interpretacji wyników testowych, a jeżeli dane dotyczące określonej interpretacji nie zostały zebrane, to fakt ten powinien zostać wyraźnie podkreślony” {Standardy..., 1985a, s. 40). Z kolei użytkownicy testów często stoją w obliczu konieczności określenia
81
R
o z d z ia ł
3
trafności danego testu dla konkretnej grapy osób badanych. Takie „lokalne” badania walidacyjne są koniecznie zawsze wtedy, kiedy użytkownik testu chciałby wykorzystać jego wyniki do wąsko rozumianych - i nie potwier dzonych w badaniach walidacyjnych - celów1. W jaki zatem sposób możemy ocenić trafność naszego testu? Zanim odpowiemy na to pytanie, scharakteryzuj my rodzaje trafności wyników testowych, a dopiero potem wynikające z nich strategie badawcze. 3.2. RODZAJE TRAFNOŚCI W psychometrii na ogół wyodrębnia się trzy rodzaje trafności: trafność treściową, trafność kryterialną oraz trafność teoretyczną - zwane też za Guionem (1980) Ś w i ę t ą T r ó j c ą (ang. Holy Trinity). Za sprawą Stan dardów... (1985a) upowszechniła się maniera rozłącznego ich traktowania, i dlatego poszczególne źródła informacji o potencjalnych obszarach zastosowa nia testu traktowane były niezależnie. Przyjmowano, że potwierdzenie trafnoś ci testu w jednym z tych trzech aspektów jest wystarczające dla praktycznej użyteczności metody. Współcześnie jednak stanowisko to uległo zmianie. Zdaniem Cronbacha (1990, s. 151) wymienione trzy rodzaje trafności są raczej trzema aspektami trafności, trzema różnymi metodami badawczymi niż trzema różnymi rodzajami trafności, co więcej - niesłusznie traktowanymi jako niezależne rodzaje informacji. Każde badanie trafności testu powinno integrować informacje z wszystkich tych źródeł. Według Anastasi i Urbiny (1999, s. 159-160) „każda z tych procedur przynosi cenne informacje, które są specyficzne tylko dla niej i niezastąpione przy ocenie testów przeznaczo nych do określonych celów”. Także w kolejnej edycji Standardów... (APA, 1985b, s. 9) 2 można już zauważyć zmianę stanowiska: zamiast mówić o ro dzajach trafności mówi się tu o dowodach na rzecz trafności testu, wynikają cych z różnych źródeł (por. też Brzeziński, 1996, s. 520). Przyjrzyjmy się zatem, co się kryje pod pojęciami trafności treściowej, kryterialnej i teoretycznej, które - dla łatwości prezentacji - omówimy
82
1 Dzięki temu, że ukazuje się (lziś na świecie kilka periodyków zajmujących się integracją danych o wydawanych testach, łatwiej jest również śledzić badania dotyczące trafności określonego testu. Do najbardziej znanych publikacji tego typu należą Mental Measurements Yearbook (MMY), zapoczątkowane przez O.K. Burosa w roku 1934, oraz Test Critiques, wydawane przez Test Corporation of America. W pierwszym ukazują się recenzje testów dokonywane przez przynajmniej dwie niezależne osoby; można w nim także znaleźć kompletne wykazy publikacji dotyczące każdego - angielskojęzycznego - testu. Drugie publikuje głównie informacje dotyczące testu i pochodzące od jego wydawcy. Również w kwartalniku Educatio nal and Psychological Measurement istnieje stały dział pt. „Validity Studies”. Warto też odnotować pojawienie się pierwszej edycji Test Validity Yearbook, pisma, w którym ukazywać się będą informacje na temat badań walidacyjnych testów psychologicznych (por. Cronbach, 1990, s. 148). 2 Polskie tłumaczenie Standardów... (1985a) oparte jest na trzecim wydaniu amerykańskim z 1974 r.
T
ra fn o ść
,
c z y l i o k r e ś l a n ie o b s z a r u z a s t o s o w a n ia t e s t u
niezależnie. Za Cronbachem (1990) podkreślać jednak będziemy, że pojęcia te odnoszą się do różnych sposobów zbierania danych dotyczących trafności testu. Trafność treściowa. Trafność treściowa, nazywana też trafnością wewnęt rzną lub logiczną (ang. content validity) jest definiowana jako „zakres, w jakim pozycje testowe właściwie reprezentują uniwersum pozycji testo wych lub interesujący nas konstrukt” (Suen, 1990, s. 136) czy też (por. Anastasi, Urbina, 1999, s. 160) jako zakres, w jakim treść testu stanowi „reprezentatywną próbę dziedziny, która ma być przedmiotem pomiaru”. Jak piszą autorzy Standardów... (1985a, s. 36) „aby potwierdzić trafność treściową zbioru wyników otrzymanych w teście, należy wykazać, że za chowania demonstrowane w badaniu testowym są reprezentatywną próbką zachowań ujawniających się w interesującej badacza sferze”. Mówiąc inaczej, trafność treściowa jest wyrażana jako stopień poprawności losowania zbioru pozycji tworzących test z szerszego zbioru (uniwersum) możliwych pozycji, reprezentujących określony obszar zachowania (por. też Bechtold, 1969). Trafność treściową należy odróżnić od tzw. t r a f n o ś c i f a s a d o w e j (ang. face validity). To ostatnie pojęcie nie oznacza trafności w sensie definicyjnym i „dotyczy nie tego, co test rzeczywiście mierzy, lecz tego, co «wydaje się mierzyć»” (Anastasi, Urbina, 1999, s. 164). Trafność fasadowa opisuje, jak spostrzegają test osoby badane i czy - z ich punktu widzenia - wydaje się on trafnie mierzyć to, co ma mierzyć. Mówiąc jeszcze inaczej, ■ trafność fasadowa zapewnia, że dany test wydaje się - w opinii osób badanych - adekwatny w wypadku określonego celu. I choć trafność fasadowa niewiele ma wspólnego z pojęciem trafności jako miary dobroci testu, nie należy bagatelizować jej znaczenia. Brak trafności fasadowej może bowiem zaowocować brakiem właściwej motywacji w trakcie rozwiązywania testu, i w ten sposób wpłynąć bezpośrednio na otrzymane wyniki. Dany test może być wysoce trafnym narzędziem z punktu widzenia konkretnego celu, jeżeli jednak nie będzie tak spostrzegany przez osoby badane, to wynikające z teg;o negatywne konsekwencje (wspomniany spadek motywacji czy odrzucenie testu w ogóle) mogą sprawić, że wyniki testowe okażą się psychologicznie bezużyteczne. Trafność kryterialna. „O trafności kryterialnej mówimy wtedy, gdy na podstawie wyników testowych wnioskuje się o przypuszczalnej pozycji badanego względem innej zmiennej - tzw. kryterium” (Standardy..., 1985a, s. 35). Innymi słowy, trafność kryterialna wskazuje na zakres, w jakim wyniki testowe są empirycznie powiązane z interesującym nas kryterium. I tak np. wyniki testu mierzącego introwersję można potraktować jako wskaźnik jakości relacji interpersonalnych nawiązywanych przez osobę badaną, a wy niki testu stanowiącego egzamin wstępny na wyższą uczelnię można potrak tować jako wskaźnik późniejszych osiągnięć w trakcie studiów. 83
R
o z d z ia ł
3
Trafność kryterialna (ang. criterion-related validity) określa zatem skutecz ność testu w diagnozowaniu i/lub prognozowaniu funkcjonowania jednostki w określonej sferze (por. Anastasi, Urbina, 1999, s. 165). Trafność diagnos tyczna (ang. concurrent validity) określa, w jakim zakresie można wykorzys tywać dany test do określania aktualnej pozycji osoby badanej względem kryterium, a z kolei trafność prognostyczna (ang. predictive validity) mówi o tym, w jakim stopniu można - na podstawie wyników testowych - prze widywać przyszłą pozycję osoby badanej względem zmiennej kryterialnej (Standardy..., 1985a, s. 35). Trafność teoretyczna. W roku 1955 ukazał się artykuł Cronbacha i Meehla (1955), w którym postulowali oni szerokie wprowadzenie pojęcia trafności teoretycznej (ang. construct validity)3. Artykuł ten rozpoczął dyskusję nad rozumieniem pojęcia trafności wyników testowych w ogóle, a szczególnie nad rolą teorii w wyjaśnianiu rezultatów otrzymanych w wyniku zastosowania testów psychologicznych. Jak piszą autorzy (ibidem), „określanie trafności teoretycznej ma miejsce wtedy, kiedy wyniki testu mają być interpretowane jako.miara pewnego atrybutu lub pewnej właściwości, które nie są zdefinio wane operacyjnie”. Czym jest zatem trafność teoretyczna? Trafność teoretyczna jest oceną stopnia, w jakim wnioski wyprowadzone na podstawie wyników testowych odzwierciedlają pozycję osoby badanej na pewnym teoretycznym kontinuum, zwanym konstruktem4. Trafność teoretyczna jest określana przez: a) definiowanie - tak jasno jak to możliwe - mierzonej cechy (konstruktu), oraz b) wiązanie wyników testowych z zachowaniami osób badanych w takich sytuacjach, w jakich - z założenia - mierzony konstrukt jest traktowany jako ważna zmienna (por. Cohen, Swerdlik, 1999, s. 197). Trafność teoretyczna pokazuje zatem stopień, w jakim test mierzy daną cechę (konstrukt teoretyczny). Warto w tym miejscu podkreślić, że wyniki testowe nie są równoznaczne z mierzonym konstruktem (Messick, 1989; też Brzeziński, 1996). Konstrukty przejawiają się na wiele różnych sposobów - przez wiele różnych wskaźników (por. też Homowska, 1989,1993a, 2000a). Trafność teoretyczną, w odróżnieniu od trafności diagnostycznej oraz trafności prognostycznej, ocenia się nie za pomocą jednego współczynnika korelacji między wynikiem testu a wynikiem na kontinuum zmiennej kryteria lnej, lecz raczej na podstawie kumulacji wyników wielu badań, których celem jest potwierdzenie hipotez wynikających z teorii mierzonej cechy (Magnusson, 1981, s. 195).
84
3 Formalnie rzecz biorąc, termin „trafność teoretyczna” został wprowadzony w roku 1954 przez American Psychological Association (por. APA, Technical Recommendations..., 1954, s. 13-18). 4 W sprawie rozważań na temat pojęcia konstruktu patrz: Cronbach i Meehl (1955).
T
ra fn o ść
,
c z y l i o k r e ś l a n ie o b s z a r u z a s t o s o w a n ia t e s t u
>- T r a f n o ś ć t e s t u jest to stopień, w jakim test Fealizuje stawiane przed nim cele. Trafność odzwierciedla relację, jaka zachodzi między koncepcją właściwości psy chologicznej a użytymi wskaźnikami tej właściwości, czyli - inaczej mówiąc - traf ność operacjonalizacji wielkości psychologicznej. Rozróżniamy następujące rodzaje trafności: • t r a f n o ś ć t r e ś c i o w ą (stopień, w jakim treść testu reprezentuje całokształt zachowań, których próbkę pobiera test) • t r a f n o ś ć k r y t e ri al ną (stopień, w jakim test pozwala na ocen ę-w czasie teraźniejszym lub przyszłym - określonej właściwości psychologicznej innej niż ta, którą test bezpośrednio mierzy • t r a f n o ś ć t f o r e t y ć z n ą (stopień, w jakim test pozwala na pomiar nasilenia u osoby badanej hipotetycznej właściwości - czyli psychologicznego konstruktu - o której mają świadczyć odpowiedzi na bodźce testowe)
3.3. SPOSOBY BADANIA TRAFNOŚCI W jaki sposób zatem można określić, na ile dany test jest trafny treściowo, kryterialnie lub teoretycznie? Na początku tego rozdziału wspomniano, że mowa w nim raczej o różnych strategiach badawczych niż całkowicie niezależ nych pytaniach o trafność wyników testowych. Omówimy je w kolejności definiowania, zachowując w ten sposób historyczny podział na trzy sposoby rozumienia pojęcia trafności wyników testów psychologicznych. Raz jeszcze jednak warto podkreślić, że są to trzy różne sposoby zbierania informacji 0 trafności testu i nie można ich traktować całkowicie rozłącznie (por. rys. 3.1).
Trafność treściowa Trafność treściowa - przypomnijmy - to stopień, w jakim treść pozycji testowych reprezentuje pewne szersze uniwersum treści. I tak np. możemy zapytać, czy test wiadomości z matematyki zawiera pytania treściowo re prezentatywne dla wiedzy z matematyki na danym poziomie nauczania lub też na ile pozycje tworzące test asertywności reprezentują uniwersum za chowań, które mogą być traktowane jako wskaźniki tej cechy. Kluczem do oceny stopnia trafności danej metody są zatem dwa pojęcia: pojęcie uniwersum i pojęcie reprezentatywności. Pojęcie uniwersum treści opisuje pełen zakres dziedziny, której test ma dotyczyć. Jeżeli zatem chcemy badać poziom wiedzy z matematyki w klasie piątej, to uniwersum treści dla naszego testu zostanie zdefiniowane przez wymagania programowe z tego przedmiotu i na tym poziomie nauczania. I choć inne zagadnienia matematyczne mogą nam się wydawać także istotne, w tym wypadku nie będą wchodzić w zakres interesujące go nas uniwersum. W wypadku testu asertywności (por. Król-Fijewska, 1991) możemy opisać uniwersum jako zbiór określonych zachowań, takich jak obrona swoich praw w sytuacjach społecznych, obrona swoich praw w kontaktach osobistych, inicjatywa i kontakty towarzyskie, wyrażanie i przyjmowanie krytyki 1 pochwał, wyrażanie próśb, wyrażanie uczuć, wyrażanie opinii, wystąpienia publiczne, kontakt z autorytetem oraz naruszenie cudzego terytorium.
85
Rys. 3.1. Definicja i rodzaje trafności
R o z d z ia ł
3
T
ra fn o ść
,
c z y l i o k r e ś l a n ie o b s z a r u z a s t o s o w a n ia t e s t u
Pierwszym krokiem na drodze oceny trafności treściowej testu jest zatem o k r e ś l e n i e z a k r e s u u n i w e r s u m . Najczęściej korzysta się w tym celu z pomocy sędziów-ekspertów, którzy na podstawie swojej wiedzy o tym, co ma być przedmiotem pomiaru, przygotowują taką definicję. W wypadku testów osiągnięć szkolnych w roli ekspertów mogą wystąpić np. nauczyciele danego przedmiotu, w przypadku testów psychologicznych - specjaliści z danej dziedziny. Kolejnym krokiem jest określenie, w jakim stopniu pozycje składające się na test można traktować jako r e p r e z e n t a t y w n ą p r ó b k ę zdefiniowa nego uniwersum. W sensie statystycznym o reprezentatywności można mówić wtedy, kiedy pozycje testowe byłyby losową próbką uniwersum pozycji. Jednakże w wypadku trafności treściowej odwoływanie się do takiej koncepcji reprezentatywności byłoby raczej mało sensowne. Dlatego też przyjmuje się, że pozycje testowe powinny reprezentować czy odtwarzać interesujące nas uniwersum odpowiednio proporcjonalnie (por. Cohen, Swerdlik, 1999; Anastasi, Urbina, 1999). Dany test jest zatem trafny treściowo wtedy, kiedy spełnione są oba warunki: a) wszystkie pozycje tego testu należą do zdefiniowanego uniwersum, oraz b) cały test proporcjonalnie reprezentuje zdefiniowane uniwersum. I tak, jeżeli w teście z matematyki znajdą się pytania z fizyki, to powiemy, że test nie jest trafny w sensie warunku pierwszego. Jeżeli natomiast w tym samym teście z matematyki 90% pytań dotyczyć będzie wiedzy z geometrii, a tylko 10% pozostałych treści, test ten również nie będzie trafny treściowo, gdyż tym razem nie został spełniony warunek drugi (por. rys. 3.2). W jaki sposób zatem można praktycznie określić trafność treściową testu? Najprostszym sposobem jest przeprowadzenie analizy logicznej (stąd inna nazwa tego rodzaju trafności) treści testu. Dysponując definicją uniwersum, możemy poprosić sędziów-ekspertów o ocenę stopnia, w jakim każda pozycja testowa reprezentuje to uniwersum. Analizując każdą pozycję oddzielnie, a następnie cały zbiór pozycji, możemy określić, czy skonstruowany test spełnia oba warunki trafności treściowej. Prostą ilościową metodę obliczania zgodności ocen sędziów przedstawił Lawshe (1975)5. Metoda ta polega na poproszeniu każdego sędziego-eksperta o wyrażenie swojej opinii o każdej proponowanej pozycji testowej na na stępującej skali: • pozycja ta ma zasadnicze znaczenie dla testu; • pozycja ta jest użyteczna, jednak nie ma zasadniczego znaczenia; • pozycja ta nie powinna znaleźć się w obrębie testu. Następnie notuje się, ilu sędziów przyznało danej pozycji zasadnicze znaczenie. Według Lawshego (ibidem), jeżeli więcej niż połowa sędziów 5 Jako miarę zgodności ocen sędziowskich możemy też wykorzystać współczynnik zgod ności ocen sędziów W Kendalla (por. np. Brzeziński, 1978).
87
R o z d z ia ł
3
Rys. 3.2. Kiedy test jest trafny treściowo?
88
uzna daną pozycję za istotną dla testu, można przyjąć, że pozycja ta jest trafna treściowo. Im większy stopień zgodności sędziów co do znaczenia danej pozycji testowej, tym oczywiście większa jej trafność treściowa (por. też Cohen, Swerdłik, 1999, s. 179). Wychodząc z tego założenia, Lawshe (1975, s. 569) zaproponował metodę, którą określił jako w s p ó ł c z y n n i k t r a f n o ś c i t r e ś c i o w e j (CVR - amg. content validity ratio):
T
ra fn o ść
,
c z y l i o k r e ś l a n ie o b s z a r u z a s t o s o w a n ia t e s t u
gdzie: ne oznacza liczbę sędziów, którzy określili daną pozycję testową jako „zasadniczą” dla testu, a N oznacza ogólną liczbę sędziów. Współczynnik trafności treściowej może mieć wartość ujemną (mniej niż połowa sędziów uznała daną pozycję za zasadniczą dla testu), może wynosić zero (zrobiła to dokładnie połowa sędziów) i wartość dodatnią (więcej niż połowa sędziów pozytywnie oceniła daną pozycję). Lawshe (1975) zaleca, aby z ostatecznej wersji testu eliminować te pozycje, dla których szansa, iż zaobserwowana zgodność sędziów ma u swojego podłoża wyłącznie czynniki przypadkowe, jest większa niż 5% (por. tab. 3.1, która zawiera odpowiednie wartości krytyczne). Tab. 3.1. Minimalne wartości współczynnika trafności treściowej (CVfl)> pozwalające uznać otrzymaną wielkość CVR za Istotną statystycznie (dla a = 0,05) (opracowano na podstawie Lawshe, 1975, s. 573) Liczba sędziów
Nllnimatna wartość wskaźnika CVR
5
0,99
6
0,99
7
0,99
8
0,78
9
0,75
10
0,62
11
0,59
12
0,56
13
0,54
14
0,51
15
0,49
20
0,42
25
0,37
30
0,33
35
0,31
40
0,29
Trafność treściową analizuje się szczególnie w wypadku testów wiadomo ści, testów umiejętności i osiągnięć szkolnych oraz niektórych testów uzdol nień. Ma ona jednak również znaczenie w wypadku testów zawodowych lub testów zorientowanych na kryterium (por. Anastasi, Urbina, 1999, s. 162).
89
R o z d z ia ł
3
Trafność kryterialna Drugim rodzajem trafności jest trafność kryterialna. Ten rodzaj trafności mówi nam, w jakim stopniu wyniki danego testu są powiązane z jakąś inną zmienną, zewnętrzną w stosunku do tego testu. Tę zmienną nazywamy kryte rium. Trafność kryterialna jest wyznaczana przez stopień zgodności dwóch pomiarów: zmiennej testowej i zmiennej kryterialnej (por. Jakubowski, 1983). Definicja kryterium. Kryterium jest to zatem pewien standard, względem którego ocenia się jakość wyników testowych. Innymi słowy, możemy powiedzieć, że a) kryterium jest to pewne zachowanie czy właściwość, o której chcemy wnioskować na podstawie wyników danego testu, b) jest to zmienna pozatesltowa, oraz c) kryterium jest pomiarem innej zmiennej niż ta, którą bezpośrednio mierzy test. I tak np. na podstawie testu rozwoju poznawczego możemy określić postępy szkolne dziecka (kryterium), na podstawie wyników w teście ryso wania figur geometrycznych możemy określić stopień uszkodzenia ośrod kowego układu nerwowego (kryterium), na podstawie wyników testu ko ordynacji wzrokowej możemy określić przydatność do zawodu pilota (kryte rium), a na podstawie wyników testu temperamentu możemy określić, jakie jest ryzyko zachorowania na chorobę alkoholową (kryterium). Cechy kryterium. Każda zmienna, którą chcemy wykorzystać jako kryte rium, powinna dawać - podobnie jak test - rzetelne wyniki. Rzetelność kryterium pozostaje bowiem w bezpośredniej zależności z trafnością kryterialną testu6. Powinna to być także zmienna istotna (adekwatna) z punktu widzenia tego, co mierzy dany test. Chcąc np. na podstawie wyników testu wiadomości dotyczącego udzielania pierwszej pomocy określić powodzenie w zawodzie pielęgniarki, możemy - jako zmienną kryterialną - wybrać obserwację przyszłych pielęgniarek w trakcie stażu w szpitalu. Trudno natomiast uznać, że np. ich stosunek do zwierząt byłby tu istotną zmienną kryterialną (choć oczywiście i w tym wypadku osoba uparta mogłaby poszukać sensownego uzasadnienia). Należy zatem starannie wybierać zmienną kryterialną, pamię tając, że każdy test może zostać sprawdzony w stosunku do wielu zmiennych kryterialnych. Tych zmiennych może być tyle, ile jest potencjalnych za6 Związek między trafnością kryterialną a rzetelnością kryterium jest wyrażany jako (por. Magnusson, 1981, s. 218-220): rlk<'!(r„)(rkk)
90
gdzie: r,k oznacza współczynnik trafności kryterialnej, r„ jest współczynnikiem rzetelności testu, a ru jest współczynnikiem rzetelności kryterium. Innymi słowy, współczynnik trafności kryterialnej jest mniejszy lub równy pierwiastkowi iloczynu współczynnika rzetelności testu i kryterium. Im mniejsza będzie zatem rzetelność testu lub kryterium, tym mniejsza trafność kryterialna testu.
T
ra fn o ść
,
c z y l i o k r e ś l a n ie o b s z a r u z a s t o s o w a n ia t e s t u
stosowań danego testu. Jednakże ważne jest, aby były to zmienne adekwatnie dobrane. Ponadto powinna to być zmienna trafna z punktu widzenia celu pomiaru. Jeżeli test A ma być wykorzystywany jako kryterium dla testu B, to oczywiś cie musi być on trafnym narzędziem pomiarowym. Jeżeli np. chcemy wyko rzystać, jako dane kryterialne, diagnozy lekarskie, to powinniśmy wcześniej sprawdzić, na ile są one trafne. Kontaminacja kryterium. Kolejnym problemem związanym z oceną wy ników dla zmiennej kryterialnej jest problem tzw. kontaminacji kryterium (ang. criterion contamination). Z problemem kontaminacji („skażenia”) kryterium mamy do czynienia wtedy, kiedy znajomość wyników, jakie osoba badana uzyskała w teście, może wpływać na ocenę wyniku tej osoby wzglę dem analizowanej zmiennej kryterialnej. Przypuśćmy np., że interesuje nas możliwość określania - na podstawie wyników w teście MMPI - takiego kryterium, jakim jest rodzaj zaburzenia psychicznego funkcjonowania. W tra kcie badań, czekając na wyniki ekspertyz psychiatrycznych (miara kryterium), poinformowaliśmy psychiatrów, jakie wyniki otrzymały osoby badane w teś cie MMPI. Czy może to w jakiś sposób wpłynąć na oceny psychiatrów? Musimy założyć, że tak! Psychiatrzy mogą bowiem - niekoniecznie świado mie - kierować się tymi informacjami. W efekcie uzyskamy wysoki stopień podobieństwa między wynikami testu a wynikami kryterium - co przecież jest wyraźnym artefaktem (por. Amastasi, Urbina, 1999, s. 166-167; patrz też Crocker, Algina, 1986, s. 226). Współczynnik trafności kryterialnej. W jaki sposób zatem możemy for malnie wyrazić trafność kryterialną? Trafność kryterialna jest wyrażana w postaci współczynnika korelacji między wynikami testu a wynikami zmiennej kryterialnej, zebranymi dla tej samej grupy badanych osób. Im wyższa wartość współczynnika korelacji, tym wyższa trafność kryterialna testu. Zazwyczaj jako ocenę stopnia trafności kryterialnej stosuje się współ czynnik korelacji r Pearsona, jednakże w zależności od charakteru zebranych danych (skala pomiarowa czy kształt rozkładu) można (a nawet należy) wykorzystywać inne miary siły związku (np. współczynnik rho Spearmana). Podobnie jak w wypadku współczynnika rzetelności, tak i w wypadku współczynnika trafności czynnikiem wpływającym na wielkość korelacji jest zakres mierzonej cechy. Im mniejszy zakres (im mniejsze rozproszenie wyników), tym mniejszą wartość współczynnika korelacji otrzymamy. Dlatego planując badania walidacyjne, trzeba uważać, aby nie zawęzić badanej próby (np. badając tylko pacjentów hospitalizowanych i tylko jednego oddziału), gdyż w ten sposób zmniejszymy wariancję wyników, czyli otrzymamy niższy współczynnik trafności kryterialnej. Z drugiej zaś strony stosując test o znanej trafności kryterialnej do grupy osób o mniejszym zróżnicowaniu mierzonej cechy (np. grupy kandydatów poddanych preselekcji), powinniśmy pamiętać o możliwości zmniejszenia się trafności tego testu. Żadna decyzja nie powinna być podejmowana mechanicznie !
91
R
o z d z ia ł
3
Kolejnym czynnikiem wpływającym na wielkość współczynnika trafności jest rzetelność, i to zarówno testu, jak i kryterium. Ponieważ stosowane przez nas testy i kryteria nigdy nie są idealnie rzetelne (por. przyp. 6), tym samym otrzymany empiryc2;nie współczynnik trafności jest zazwyczaj niższy niż współczynnik, jaki otrzymalibyśmy wtedy, kiedy obie zmienne byłyby wolne od błędu. I dlatego kiedy zainteresowani jesteśmy oceną związku między wynikami prawdziwymi dla obu zmiennych, możemy zastosować tzw. poprawkę na obniżenie wielkości współczynnika (por. Magnusson, 1981, s. 218). Poprawka ta wskazuje, jaką maksymalną trafność kryterialną otrzy malibyśmy wtedy, kiedy test i kryterium byłyby całkowicie rzetelne: r,k Tt k — '
'VforX») gdzie: r,k oznacza współczynnik trafności kryterialnej, r„ współczynnik rzetelności testu, a rkk współczynnik rzetelności kryterium. Np. w sytuacji, w której wartość współczynnika korelacji między wynikami testu a kryterium wynosi 0,80, rzetelność testu 0,96, a rzetelność kryterium 0,85, współczynnik trafności kryterialnej dla całkowicie rzetelnego testu i kryterium wynosiłby: _
0,80
f~TK ~ ~ r
.......
_ n OG
......... U,oO
V(0,96)(0,85)
92
Poprawka ta bywa zazwyczaj wykorzystywana wtedy, kiedy istnieje potrzeba porównania ze sobą kilku współczynników trafności kiyterialnej, uzyskanych dla kryteriów o różnym stopniu rzetelności (por. Magnusson, 1981, s. 219). Trafność diagnostyczna. Omawiając różne sposoby wyprowadzania wnios ków o trafności kryterialnej testu, posługiwaliśmy się dwoma rodzajami przykładów. Pierwszy dotyczył sytuacji, w których na podstawie wyników ocenianego testu chcieliśmy wnioskować o zachowaniu (czy poziomie cechy) aktualnie występującym u osoby badanej. Było tak np. wtedy, kiedy na podstawie wyników testu MMPI (np. na podstawie wskaźnika nasilenia patologii - por. Modlin, 1947) chcieliśmy wnioskować o stopniu zaburzeń w funkcjonowaniu osób badanych. Taki rodzaj trafności kryterialnej, w którym kryterium dla ocenianego testu jest pomiar zachowania lub cechy aktualnie występującej u osoby badanej, nazywa się t r a f n o ś c i ą d i a g n o s t y c z n ą . Istotę trafności diagnostycz nej można zobrazować za pomocą następującego pytania: „Czy osoba badana posiada cechę X?” (np. czy jest neurotykiem?). Dane testowe i dane kryterialne w tym wypadku zbiera się w tym samym czasie (por. Anastasi, Urbina, 1999, s. 165-166; Cohen, Swerdlik, 1999, s. 183-184; Jakubowski, 1983, s. 228). Można w takim razie zadać sobie następujące pytanie: po-co opracowywać trafność kryterialną testu i stosować test, jeżeli w tym samym czasie mamy
T
ra fn o ść
,
c z y l i o k r e ś l a n ie o b s z a r u z a s t o s o w a n ia t e s t u
bezpośredni dostęp do kryterium? Testy są zazwyczaj prostszym, szybszym, a więc po prostu bardziej ekonomicznym sposobem uzyskania tych infor macji, jakie uzyskalibyśmy, zbierając dane kryterialne. Lepiej jest np. sko rzystać z wyników trafnego testu niż prowadzić długotrwałą obserwację osoby badanej (por. Anastasi, Urbina, 1999, s. 166). Trafność prognostyczna. Druga z opisywanych sytuacji obejmowała takie przykłady, w których wyniki testowe były wykorzystywane do przewidywania przyszłego zachowania osób badanych. Taki rodzaj trafności kryterialnej, w którym kryterium dla ocenianego testu jest pomiar zachowania lub cechy występującej w przyszłości u osoby badanej, nazywa się t r a f n o ś c i ą p r o g n o s t y c z h ą . Istotę trafności prognostycznej można zobrazować za pomocą następującego pytania: „Jakie jest prawdopodobieństwo tego, że osoba badana będzie posiadać cechę X?” (np. czy stanie się neurotykiem?). Dane testowe i dane kryterialne w tym wypadku zbiera się w różnym czasie - ściśle rzecz biorąc, dane kryterialne zbiera się znacznie później niż dane testowe (por. Anastasi, Urbina, 1999, s. 165-166; Cohen, Swerdlik, 1999, s. 183-184; Jakubowski, 1983, s. 228). Testy o znanej trafności prognostycznej są szczególnie przydatne dla potrzeb selekcji i klasyfikacji (rekrutacja pracowników, przyjmowanie do zawodów wymagających szczególnych predyspozycji, ocena ryzyka poja wienia się późniejszych zaburzeń zachowania, itd.). Warto w tym miejscu podkreślić, że różnica między trafnością diagnos tyczną a trafnością prognostyczną nie polega na różnicy czasu w zbieraniu danych kryterialnych (tu i teraz w wypadku trafności diagnostycznej i później, w przyszłości - w wypadku trafności prognostycznej). Podstawowa różnica polega tu na różnym przedmiocie badania: przy diagnozie interesuje nas ocena stanu istniejącego, przy prognozie zaś - przewidywanie skutków stanu aktualnego. Wysoka trafność diagnostyczna testu nie gwarantuje jeszcze jego wysokiej trafności prognostycznej (Edwards, 1970, s. 49). Zamykając problem trafności kryterialnej, zwróćmy uwagę na jeszcze jeden problem. Tak jak do obowiązków autora testu należy przedstawianie danych empirycznych na temat trafności kryterialnej testu, tak do obowiązków użytkow nika testu należy staranne czytanie tych danych i ich ocena w świetle własnych potrzeb. Użytkownik testu powinien umieć określić, czy na ich podstawie może wykorzystywać test do takich, a nie innych celów, czy charakterystyki próby, na której przeprowadzono badania walidacyjne, odpowiadają charakterystykom tej grupy osób, dla której test ma być stosowany, wreszcie: czy podane współczynni ki trafności są wystarczająco wysokie. Tę ostatnią decyzję użytkownik testu musi podjąć sam, biorąc pod uwagę własny, indywidualny cel zastosowania testu7. 7 Cronbach i Gleser (1965) byli zdecydowanie przeciwni podawaniu jakichkolwiek sztyw nych reguł pozwalających uznać dany współczynnik trafności za wystarczająco wysoki. Ich zdaniem tylko użytkownik testu jest w stanie podjąć taką decyzję odpowiedzialnie i nic (zwłaszcza arbitralnie ustalane granice) nie powinno go z tego zwalniać. 93
R
o z d z ia ł
3
Trafność teoretyczna
94
j
I
Trafność teoretyczna jest oceną stopnia, w jakim dany test odzwierciedla cechę psychologiczną (konstrukt), która ma być przedmiotem pomiaru. Mówiąc inaczej, trafność teoretyczna pokazuje na związek między cechą psychologiczną, wywodzącą się z określonej teorii psychologicznej, a narzę dziem pomiarowym (testem), będącym operacjonalizacją owej cechy (por. Brzeziński, 1996; Jakubowski, 1983; Anastasi, Urbina, 1999). „«Konstrukt psychologiczny» jest pewnym pojęciem teoretycznym, które wprowadzono po to, aby wyjaśnić i uporządkować niektóre fragmenty ist niejącej wiedzy” (Standardy..., 1985a, s. 38). Konstruktami są pojęcia, takie j jak „lęk”, „satysfakcja z pracy”, „inteligencja”, „przystosowanie emocjonal ne” czy „twórczość”. Pojęcia te są nieobserwowalne, zaś test jest traktowany J jako sposób ich operacyjnego definiowania. Bez potwierdzenia tego, że test jest trafny teoretycznie, tzn. że odpowiedzi na pozycje tego testu można ■] potraktować jako sposób przejawiania się określonej cechy, wyniki testu są i psychologicznie nieużyteczne. Trafność teoretyczna odpowiada wprost na pytanie o przedmiot pomiaru testowego. |H Ze względu na istotę informacji, jakie przynosi znajomość trafność teoretycznej IB testu, już Loevinger (1957) po stulowała, że jest to najważniejszy rodzaj trafności. w Campbell (1960), Cronbach (1970), Guion (1980) i Messick (1989) przyczynili się 1 do współczesnego rozumienia, czym jest trafność testu, twierdząc, że można w mówić tylko o trafności teoretycznej, która obejmuje i podsumowuje wszystkie 1 rodzaje informacji. I tak zarówno trafność treściowa, jak i trafność kryterialna fl powinny być traktowane jako aspekty trafności. Podobnie sądzą Anastasi i Urbina a (1999, s. 187), które piszą, że: „(...) trafność treściowa, kryterialna i teoretyczna nie 1 stanowią odrębnych ani logicznie równorzędnych kategorii. Wręcz przeciwnie, % trafność teoretyczna jest szerokim pojęciem, które zawiera w sobie inne rodzaje * trafności”. Istotą procesu oceny trafności teoretycznej testu jest odwołanie się do teorii mierzonej cechy. Teoria ta powinna opisywać wewnętrzną strukturę konstruktu, sposób powiązania konstruktu z jego wskaźnikami i związki konstruktu z innymi zmiennymi (por. Lord i Novick, 1968; Homowska, 1989, 2000a). Z teorii tej wyprowadzane następnie są hipotezy, które poddaje się weryfikacji, wykorzystując w tym celu wyniki testowe. W literaturze przedmiotu opisano wiele metod badania trafności teoretycz nej testu. Powszechnie akceptuje się podział metod badania trafności teore tycznej, wprowadzony już przez Cronbacha i Meehla (1955; por. też Anastasi, Urbina, 1999; Brzeziński, 1996; Cohen, Swerdlik, 1999; Jakubowski, 1983; Magnusson, 1981). Również w niniejszej pracy podział ten zostanie wyko rzystany jako sposób organizacji prezentowanego materiału. Do podstawowych metod badania trafności teoretycznej testu należą: • analiza różnic międzygrupowych • analiza macierzy korelacji
T
ra fn o ść
,
c z y l i o k r e ś l a n ie o b s z a r u z a s t o s o w a n ia t e s t u
• analiza czynnikowa • analiza struktury wewnętrznej testu • analiza zmian nieprzypadkowych wyników testu • analiza procesu rozwiązywania testu Omówimy je pokrótce. Analiza różnic miądzygrupowych. Metoda ta polega na weryfikowaniu hipotez dotyczących różnego zachowania się dwóch grup osób. Hipotezy te wyprowadzane są z teorii mierzonej cechy, a badane grupy różnią się ze względu na ogólny wynik w teście. Są to zatem grupy różniące się nasileniem cechy badanej przez test. Najczęściej są to tzw. grupy skrajne, tj. grupa o niskich wynikach oraz grupa o wysokich wynikach w teście. Istota tej metody polega na przyjęciu następującego założenia: jeżeli test jest trafną miarą określonego konstruktu, to wyniki testowe otrzymane przez osoby różniące się między sobą ze względu na ten konstrukt także powinny być różne. Wyobraźmy sobie, że skonstruowaliśmy test religijności8. Z teorii za chowań religijnych, leżącej u podstaw naszego testu, wyprowadzamy na stępującą hipotezę: osoby o wysokim stopniu religijności częściej biorą aktywny udział w życiu Kościoła w porównaniu z osobami o niskim stopniu religijności. Następnie badamy grupę osób naszym testem i na podstawie uzyskanych wyników testowych dzielimy te osoby na dwie grupy: osoby 0 wysokim stopniu religijności (wysokie wyniki w teście) oraz osoby o niskim stopniu religijności (niskie wyniki w teście). Dalej przeprowadzamy wywiad z każdą z badanych osób, rejestrując, w jakim stopniu i jak często uczestniczy ona w życiu Kościoła. Zgodnie z naszą hipotezą oczekujemy, że średnie wyniki dotyczące uczestniczenia w życiu Kościoła powinny być statystycznie różne w obu grupach. A oto inny przykład (za Cohen, Swerdlik, 1999, s. 201). Roach i współ pracownicy (1981) postanowili sprawdzić trafność teoretyczną skonstruowa nej przez siebie „Skali Zadowolenia z Małżeństwa”. Zgodnie z hipotezą oczekiwali, że w grupie osób o wysokich wynikach oceny jakości związku małżeńskiego badanych osób, dokonywane przez ich rówieśników i profes jonalnych terapeutów, będą wyższe niż w grupie o niskich wynikach. I jeszcze inny przykład. Matczak z zespołem (1995), sprawdzając trafność teoretyczną skonstruowanej przez siebie skali inteligencji ogólnej APIS-Z, przyjęła następującą hipotezę: wyniki ocenianego testu będą się różnić w zależności od wykształcenia osób badanych. Inteligencja skrystalizowana, a taką ma mierzyć APIS-Z, jest bowiem także funkcją kształcenia (Matczak 1inni, 1995, s. 44). Przeprowadzone badania, w których analizowano różnicę między średnimi wynikami testu w grupie studentów i uczniów, potwierdziły 8 Rzeczywisty przykład badania trafności teoretycznej skali postaw wobec Kościoła Thurstone’a i Chave’a podają Cronbach i Meehl (1955). 95
R
o z d z ia ł
3
zakładaną hipotezę, przemawiając tym samym na rzecz trafności teoretycznej tego narzędzia. Każdy z tych trzech przykładów pokazuje nieco inne zastosowanie techniki analizowania różnic międzygrupowych do badania trafności teoretycznej testu. Jednak istota tej technika pozostaje niezmieniona: punktem wyjścia jest zawsze hipoteza sformułowana na podstawie teorii mierzonej cechy, a jej weryfikacji dokonuje się, oceniając różnicę między wynikami testowymi w dwóch grupach osób, które różnią się ze względu na mierzony konstrukt. Przykłady te wskazująrównież na to, że proces oceny obszaru trafności teoretycznej testu w zasadzie nigdy się nie kończy. Możemy bowiem prze prowadzić tyle badań, ite sensownychhipotez jesteśmy w stanie sformułować. Weryfikacja (bądź bi&k weryfikacji) każdej hipotezy przyczynia się do lepszego zrozumienia mieraonegokonstruktu. Pamiętajmy jednak: potwier dzenie hipotezy wyprowadzonej x teorii jednego testu nigdy nie może być wykorzystywane ńa rzecz potwierdzenia trafności innego testu! Analiza macierzy korelacji. Drugą metodą oceny trafności teoretycznej testu jest analiza współczynnikówkoreiacji wyników analizowanego testu z innymi testami. Generalnie oczekuje się, że korekcje wyników ocenianego testu z wynikami testów mierzących podobne cechy powinny być wysokie, zaś korelacje z wynikami testów mierzących inne cecty powinny być niskie. Do szczególnie zalanych i zalecanych metod wypracowanych w tej grupie technik należy tzw. analiza macierzy wielu cech-wielu metod, opracowana przez Campbella i Fiskego (1959). Metoda ta polega na dokonaniu pomiaru dwóch lub więcej niezależnych cech za pomocą dwóch lid) więcej niezależnych metod (np. kwestionariuszy, ocen obserwatorów i technik projekcyjnych). Następnie sporządza się macierz korelacji dla wszystkich cech i wszystkich metod. Zgodnie ze stanowiskiem Campbella i Fiskego (1959), aby dany test można .było uznać za trafny teoretycznie, nie wystarczy tylko wykaizać, że jego wyniki korelują odpowied nio wysoko z wynikami podobnych testów (tzw. aspekt zbieżny trafności), ale i że n ie k o r e l u j ą one z wynikami testów mierzących inne cechy (tzw. aspekt różnicowy trafności)9. Współcześnie podkreśla się, że tylko pełnainformacja (tj. zarówno o aspek cie zbieżnym, jak i aspekcie różnitKJwym) pozwala uznać dany test za trafny teoretycznie (por. Gaul \9%9, Standardy..., 1985b;ja także stanowisko pol skich autorów zajmujących się zagadnieniami psychometrycznymi: Brzeziń ski, 1996; Drwal, 1995), Analiza „macierzy wielu cech-wielu metod” do starcza takich danych i pozwala na przełamanie niechlubnej praktyki w tym względzie. Owa praktyka to. dominacja badań poświęconych wyłącznie szukaniu danych dotyczących trafności zbieżnej. Ciągle jeszcze można 96
9 Metodę Campbella i Fiskego szczegółowo omawia Brzeziński (1996, s. 525-532), a ta Anastasi i Urbina (1999, s. 179-182).
T
ra fn o ść
,
c z y l i o k r e ś l a n ie o b s z a r u z a s t o s o w a n ia t e s t u
spotkać testy, w których jedynymi danymi, jakie przytacza się na rzecz trafności teoretycznej, sąwartościwspófczynników korelacji z innymi, mie rzącymi podobne konstrukty, testami. Jakpisze Drwal <1995, s. 27), niektóre przytaczane korelacje zamiast świadczyćna rzecz trafności testu zdecydowaniejej zaprzeczają. Dlatego też -podkreślmy raz jeszcze - pełne, korela cyjne badanie trafności teoretycznej powinno dotyczyć obu jej aspektów: zbieżnego i różnicowego. ; Przykładem zastosowania tej metody do oceny trafności teoretycznej testu mogą być badania przeprowadzone przez Brzozowskiego i Drwala (1995) w trakcie opracowywania pn«z nich połskiej adaptacji „Kwestionariusza Osobowości” Eysencka. Autorzy ci zastosowali zmodyfikowaną analizę ma cierzy wielu cech-wielu metodi uzyskali dane potwierdzające wysoką trafność zbieżną i różaicowąprzygotowywanej ptzeą siebie meboófy(ibidem, s. 62-63). Analiza czynnikowa. Kolejną naetodą stosowaną w badaniu trafności teoretycznej jest również metoda, w której podstawą jest analiza korelacji. Tąmetodą jest analiza czynnikowa. . * Mówiąc najprościej, „ceł analizy czynnikowej można ująć w sposób następu jący: jest nim odnalezienie nowej grupy zmiennych, mniej licznej niż grupa zmiennych oryginalnydi, które wyrażająto,eo jestwspólne między oryginalny mi zmiennymi. Jest więc to technika statystyczna używana do identyfikowania relatywnie małych grup czynników, mogących reprezentować relacje między grupami wielu wzajemnie skorelowanych zmiennych” (Zakrzewska, 1994, s. 7). W jaki sposób można wykorzystać technikę analizy czynnikowej do badania trafaóści testu? Przede wszystkim pozwala ona sprawdzić, czy otrzymane dane empiryczne są zgodnez zakładaną strukturą teoretyczną testu. Mówiąc inaczej, czynniki otrzymane w wyniku zastosowania analizy czynnikowej powinhypdpówiadać teoretycznie zakładanym wymiarom (ich operacjonałizacją są najczęściej tzw. podskale w teście). I tak np. przyjmuje się, że wariancję wyników otrzymanych w jedenastu testach S k a l i W e c h s l e r a W A I S - R można wyjaśnić trzema czynni kami: rozumowania werbalnego, organizacji percepcyjnej oraz pamięci i od porności na dystraktory (por. Zate^wska* 1993, s. 302; 1997; 2000). Wyniki przeprowadzonych badań potwierdzają tę hipotezę (ibidem). Z kolei Brzozowski i Drwal (1^95) zastosowali metodę analizy czyn nikowej do oceny trafności teoretycznej wspomnianego już „Kwestionariusza Osobowości” Eysencka. Zgodnie z założeniami teoretycznymi oczekiwali ujawnienia się czterech czynników odpowiadających zakładanym czterem wymiarom teoretycznym kwestionariusz&Przeprowadzona przez nich analiza potwierdziła, że cztery najsilniejsze czynniki w kwestionariuszu są zgodne z czterema wyodrębnionymi skalami: neyrotycznością, ekstrawersją, kłam stwem i psychotycznością (ibidem, ś.64)*^ Stosowanie metody analizy czynnikowej wymaga przebadania stosunkowo dużej grupy (nie mniejszej niż 100-200 osób) i umiejętności podjęcia decyzji
97
R
o z d z ia ł
3
technicznych, takich jak wybór metody szacowania zasobu zmienności wspól nej czy wybór kryterium rotacji czynników. Nie jest to zatem metoda polecana dla osób z podstawowątyłko wiedząstatystyczną. Jednakże dzięki obecności literatury fachowej(zob.zwiaszcza Zakrzewska, 1994) oraz do stępności pakietów statystycznychmożoa sądzić, że zainteresowanie polskich psychologów tą metodą anałizy^traftiościteoretycznej będzie rosło. Analiza struktury wewnętrzną testu* Termin zgodność wewnętrzna (homogeniczność) zasadniczo oznacza stopień, w jakim dany test można uznać za miarę jednego konstruktu. Jeżełimożna przyjąć w świcie teorii, że mierzona cecha jest cechą homogeniczną, to wysoki współczynnik zgodności wewnętrznej może być traktowany jako dowód trafności teoretycznej testu. Jedną z metod szacowania stopnia zgodności wewnętrznej jest analiza współczynników korelacji między wynikiem każdej pozycji testu a ogólnym wynikiem w tym teście. Istotą tej metody jest poszukiwanie takich pozycji testowych, które różnicują badaną grupę osób w takim samym kierunku co cały test, i eliminowanie tych pozycji, które nie spełniają tego warunku. Można również zastosować tę metodę, biorąc pod uwagę poszczególne skale, z których składa się cały test. Analizując wielkość korelacji między wynikami w poszczególnych skalach a ogólnym wynikiem w teście, można ocenić, na ile dany test jest jednorodnym narzędziem. W taki sposób min. ocenianotrafhość teoretyczną S k a l i I n t e l i g e n c j i W A I S - R . W polskich badaniach standaryzacyjnych i normalizacyjnych otrzymano następujące współczynniki korelacji między poszczególnymi testami a ogólnym wynikiem odpowiednio»w S k a l i P e ł n e j , S k a l i S ł o w n e j i S k a l i B e z s ł o w n e j (por. Brzeziński i in., 1996, s .42): Współczynniki korelacji między poszczególnymi testami a ogólnym wynikiem w Skali Pełnej, Skali Słowne] I Skali Bezsłowne) w teście WAIS-R iWiadomości
8httH PttHwr
8M*8ł0WlM
ttkatettartowM
0,789
0,864
0,551
Powtarzanie Cytr
0,675
0,733
0,481
Słownik
0,836
0,882
0,631
Arytmetyka
0,781
0,793
0,633
Rozumienie
0,806
0,816
0,656
Podobieństwa
0776
0,805
0,606
Braki w Obrazkach
0,681
0,575
J 0,717
Porządkowanie Obrazków
0,675
0,571
0,710
Klocki
0,645
0,506
0,734
Układanki
0,534
0,368
0,680
Symbole Cyfr
0,629
0,527
0,668
T
ra fn o ść
,
c z y l i o k r e ś l a n ie o b s z a r u z a s t o s o w a n ia t e s t u
Chociaż homogeniczność testu jest pożądaną jego właściwością (gwaran tuje, że wszystkie jego elementy składowe mierzą „to samo”), nie można jednak jej traktowaćjako wyczerpującej informacji o trafności teoretycznej testu. Pozwala oqą scharakteryzować mierzony konstrukt, lecz nic nie mówi 0 związkach mierzonego konstruktu z innymi cechami czy zachowaniami. Dlatego też informacje na temat stopnia homogeniczności danej metody można traktować jedynie jako dane uzupełniające wnioski o trafności teore tycznej testu (por. Anastasi, Urbina. 1999, s. 178-179). Analiza zmian nieprzypadkowych wyników testu. Ta metoda badania trafności teoretycznej polega z kolei na porównywaniu wyników dwukrotnego badania tym samym testem10. W przerwie między badaniami wprowadza się oddziaływanie eksperymentalne, wyprowadzone z teorii mierzonej cechy. Wynik ¡porównywania powinien być zgodńyz założonymi efektami manipu lacji (a więc wymki tzw. piost-testu powinny się obniżyć albo podwyższyć). Najczęściej taką fofm4manipulacji, po której oczfekujemy zmiany w wy nikach testowych, jest formalne kształeenie, terapią, cykl leczenia czy zwięk szanie doświadczeń związanych żwykonywanąpracą. Jednakże dokładne określenie czynników, które mogą zmienić wyniki testowe w określonym kierunku, jest moźliwe jedynie w kontekście ocenianego testu. Tę metodę sprawdzania trafnośei teoretycznej zastosował sam Eysenck (2000, s. 81-82), pracując nad skonstruowanym przez siebie „Kwestionariu szem Osobowości? (por. też Jakubowski, 1983). Jedna z hipotez, jaką posta wił, dotyczyła wymiaru introwersji-ekstrawersji. Eysenck mianowicie przyjął, że u introwertyków silniejsze są procesy pobudzenia od procesów hamowania. Dlatego też podanie im leków uspokajających wzmocni procesy hamowania korowego, prowadząc w efekcie do zmian zachowania na bardziej ekstrawertywne. I odwrotnie, podanie leków pobudzających pbwinno wzmocnić proce sy pobudzenia korpwego i prowadzić do zmian zachowania na bardziej introwertywne. Przeprowadzone badania empiryczne potwierdziły ten punkt widzenia (pod działaniem leku uspokajającego zaobserwowano wzrost wyni ków w tej skali, a pod działaniem leku pobudzającego - ich spadek). Stosowanie tej metody wymaga starannego zaplanowania procedury eks perymentalnej (Szczególnie pod kąteiirjej trafności teoretycznej, wewnętrznej 1 zewnętrznej), tylko wtódy boWićM można przypiśać zaobserwowane efekty końcowe tym cżyńmkom, które Ityły ptótediriiotem manipulacji (por. szcze gółowe kompendiom wiedzy na temat stosowania eksperymentu w psycho logii - Brzeziński/ 2000). Analiza proćem rozw iew an ia testu. Ostatnią z prezentowanych metod badania trafnościteoretycznejjest analiza procesu rozwiązywania testu11. 10 Pierwsze badanie nazywane jest pre-testem, a drugie post-testem; technika ta jest również znana jako analiza z^aniOBędzy pe^estem ą ppst^testem. " Inne metody (w »tym modelowanie la pomocą równań strukturalnych) można znaleźć u Anastasi i Urbiny (1999). 99
R
o z d z ia ł
3
Metoda ta w pewnym sensie powsflafetjakowyraz uznania dla dorobku psychologii poznawczej ipolega fii anaMzowaniużadańtestowychz punktu widzenia procesów przetwarzani* informacji. Obserwacja kolejności wyko nywanych czynności, elementów zadania ^aw tójfeych taąfWięcej frudności, elementów pomijanych, popełfriimycfr błędów (taką ańafii^ przeprowadzi już Raven - por. Hornowski, 1970; też O kr^Bcka-Pb^iak, 1993) czy analiza czasu potrzebnego do udzielenia odpowiedzi są wykorzystywane jako źródło informacji o mierzonym kpftstrukcić. Szczególnie ciekawą propozycją w tym zakresie jest techniką dekom pozycji zadania zaproponowana przez Embretson (1985; też Anastasi, Urbina, 1999). Technika ta - mówiąc najprościej - polega na eksperymentalnym manipulowaniu złożonością zadania, liczbą dostarczanych wskazówek, kolej nością prezentowania jego elementów po to, aby określić, jakie procesy przetwarzania informacji ¡ją zaangażowane w rozwiązanie ojkreślonych zadań i jaka wiedzą jest w tym celu nięzśbędna. Technika ta - ciągle jeszcze traktowana jako «byt n o wą j e s t niedoceniana jako metoda badania trafności teoretycznej testu. Pozwała ona na wgląd w p r o c e s y odpowiadania na pozycje testu* zmieniając dotychczasową koncentrację na analizie samych odpowiedzi. „Co więcej - jak piszą Anastasi i Urbina (1999, s. 186-187) - analizaindywidualnych wyników odwołująca się do elementarnych procesów, które do nich doprowadziły, powinna wresz cie umożliwić dokładne określenie, jakie śą źródła mocnych i słabych stron każdej osoby, a co za tym idzie - zwiększyć diagnostyczną wartość testów”. 3.4. STRONNICZOŚĆ TESTÓW 12 Wraz z pierwszym praktycznym zastopowaniem testów inteligencji poja wiło się pytanie o to, czy różne wyniki testowe uzyskiwane przez wyodręb nione grupy badanych osób odzwierciedlają rzeczywiste różnice inteligencji, czy też jest to efekt „przychylności” zastosowanego narzędzia pomiarowego wobec pewnych grup osób, tj. „stronniczości” testów psychologicznych (ang. test bias). Już bowiem w roku 1905 Binet i Simon (por. 1905a, 1905b, 1905c, 1916) zwrócili uwagę ną fakt, że skonstruowana przez nich metoda, która wystandaryzowana została na grupie dzieci paryskich robotników, daje zdecydowanie wyższe wyniki w wypadku dzieci pochodzących ze środowisk o wyższym statusie społecznym. Podobny efekt opisany został w łatach 30. przez psychologów belgijskich, niemieckich i amerykańskich (Jensen, 1980).
100
12 Szerokie omówienie problematyki stronniczości testów psychologicznych wraz z prak tycznymi wskazówkami dla autorów testów znajdzie czytelnik w monografii Stronniczość testów psychologicznych (Homowska, 1999).
Trafno
ść
,
c zyli o k r e ś l a n ie o b s z a r u z a s t o s o w a n ia t e s t u
Powstało zatem pytanie, czy różnice w wynikach testowych dzieci - spowo dowane przynależnością do różnych warstw społecznych - odzwierciedlają rzeczywiste różnice w poziomie inteligencji tych dzieci, czy też zaobser wowana kulturowa stronniczość testu (tu: raczej stronniczość wynikająca z położenia społecznego grupy) jest artefaktem, spowodowanym doborem pozycji testowych trafnych tylko w stosunku do jednej grupy społecznej? Z czasem coraz więcej psychologów zaczęło zwracać uwagę na różnice w wynikach testowych badanych osób, wynikające przypuszczalnie z przy należności do różnych warstw społecznych. Bardzo szybko zaczęto też podkreślać konieczność tworzenia specjalnych testów dla osób z niskim poziomem wykształcenia, słabo posługujących się językiem, w jakim test został napisany, lub analfabetów. W ramach tej właśnie polityki psychometrycznej psychologowie w czasie I wojny światowej stworzyli baterię testów do mierzenia inteligencji ogólnej, tzw. test T e s t A l f a d l a W o j s k a , przeznaczony do selekcji poborowych, oraz - równolegle - pierwszy niejęzykowy test do pomiaru inteligencji, tzw. T e s t B e t a d l a W o j s k a , przeznaczony dla analfabetów i poborowych nie mówiących po angielsku (por. Einhorn, Bass, 1971; Crocker, Algina 1986). Na ogół problem stronniczości testów wynika ze specyfiki pomiaru psycho logicznego. Jak stwierdzili Reynolds i Brown (1984, s. 15): „Testy psycho logiczne mierzą cechy, które nie są bezpośrednio obserwowalne, które różnie są definiowane i które mierzone są jedynie w sposób pośredni. Z tej perspek tywy problem stronniczości testów inteligencji jest częścią szerszego - w spo sób oczywisty ważniejszego - problemu niejednoznaczności. Problem ten dotyczy generalnie wszelkich testów psychologicznych. Stronniczość bowiem może się ujawnić nie tylko w wypadku testów inteligencji, ale również testów osobowości, testów psychopatologicznych czy testów zawodowych”. Jeżeli dodać, że badanie za pomocą testu wymaga współpracy od osoby badanej, to jej brak - będący wynikiem niezrozumienia sytuacji, w jakiej realizowany jest pomiar psychologiczny - znacząco może wypłynąć na wynik testu, nie odzwierciedlając wcale poziomu zmiennej, która w intencji twórcy testu miała być mierzona. Termin „stronniczość”, opisujący jedną z cech narzędzi pomiarowych (testów) stosowanych w diagnozie ilościowej (szczególnie w obszarze dia gnozowania poziomu funkcjonowania intelektualnego), ma swoje specyficzne i unikatowe znaczenie. Ze względu jednak na to, że pojęcie to - szczególnie z powodu swoich językowych skojarzeń13 - ciągle budzi wiele nieporozumień i przypisuje się mu sens spoza rozważanej tu problematyki (psychometrycz13 Zgodnie ze Słownikiem języka polskiego pod redakcją M. Szymczaka (1981, tom 3, s. 350) stronniczy oznacza „nieobiektywny, tendencyjny, kierujący się osobistymi uprzedze niami, sympatiami, własnym interesem, niesprawiedliwy”. 101
R o z d z ia ł 3
nego znaczenia wyników testowych), spróbujmy najpierw sprecyzować jego znaczenie14. >• S t r o n n i c z o ś ć t e s t u p s y c h o l o g i c z n e g o to błąd systematyczny: • w sensie statystycznym oznacza to tyle, że stronniczość wpływa na wyniki testowania zawsze w stały sposób; • w sensie psychometrycznym stronniczość polega na tym, że poszczególne pozycje testowe są mniej lub bardziej trudne dla osób należących do różnych wyodrębnianych podgrup (np. ze względu na wiek czy płeć) w ramach tej samej populacji.
Definicja stronniczości W statystyce termin „stronniczość” (czy raczej „obciążenie”) oznacza systematyczne niedoszacowywanie lub przeszacowywanie parametru popula cyjnego na podstawie danych z próby. Na gruncie psychometrii „stronni czość” to również b ł ą d s y s t e m a t y c z n y - tyle że związany z wynikami testowymi osób należących do konkretnej podgrupy populacji. „Stronniczość” zatem to pojęcie techniczne, związane z szeroko rozumianą przynależnością grupową - rasową, klasową, narodowościową, religijną - lub np. wiekiem. Tak też definiują stronniczość autorzy zajmujący się tą problematyką, np. według Jensena (1980, s. 375): „W psychometrii «stronniczość» odnosi się do systematycznych błędów związanych z trafnością prognostyczną lub trafnością teoretyczną wyników testowych, które wynikają z przynależności grupowej badanych osób. Stronniczość jest terminem ogólnym i nie jest ograniczona jedynie do «stronniczości kulturowej». Może ona dotyczyć każdego rodzaju przynależności grupowej - ze względu na rasę, klasę społe czną, narodowość, płeć, religię czy wiek. Szacowanie stronniczości jest problemem wyłącznie obiektywnym, empirycznym, statystycznym i iloś ciowym, niezależnym od subiektywnych sądów wartościujących i rozważań etycznych dotyczących uczciwego i nieuczciwego stosowania testów. S t r o n n i c z o ś ć w s e n s i e p s y c h o m e t r y c z n y m j e s t to zbiór w ła ś ci w o ś ci statystycznych, charakteryzują c y c h j e d n o c z e ś n i e d any t es t i d w i e l ub w i ę c e j gr u p y w y o d r ę b n i o n e z p o p u l a c j i ”.
102
14 Por. interesująca analiza kłopotów językowych dotyczących funkcjonowania terminu „stronnic2:ość” w języku codziennym i języku nauki, dokonana przez Nancy Cole (1993). Zwraca ona uwagę na różnice pomiędzy społecznym a technicznym znaczeniem tego terminu oraz na różnice między jego znaczeniem na poziomie teoretycznym i operacyjnym. W rozu mieniu społecznym stronniczość jest zjawiskiem złym - oznacza brak równych szans dla wszystkich osób badanych testami (np. testy wiadomości będą ZAWSZE stronnicze względem osób o niskim poziomie wiedzy z danego obszaru); w sensie technicznym stronniczość jest zjawiskiem niepożądanymi z punktu widzenia właściwości testu, nie jest jednak „złem społecz nym” (ibidem, s. 27). Ta rozbieżność znaczeń powoduje, że w dyskusjach nad społecznymi konsekwencjami testów psychologicznych opinia publiczna i psychometrzy są jak „statki mijające się ciemną nocą” (ibidem).
T r a fn o ść ,
c z y li
o k r e ś la n ie o b s z a r u z a s to s o w a n ia t e s t u
Stronniczość zatem jest definiowana w kategoriach systematycznego błędu pomiaru i jak każdy błąd wpływa na wszystkie pomiary - raz je zwiększając, a raz obniżając. Termin ten różni się pojęciowo i operacyjnie od pojęć, takich jak uczciwość, równość, uprzedzenia, preferencje, lub od innych podobnych pojęć używanych w języku codziennym. Stronniczość to termin techniczny oznaczający - ni mniej, ni więcej tylko „stałe zniekształcenie danych testowych” (por. Osterlind, 1983). Niektórzy autorzy, podejmując próbę zdefiniowania, czym jest stronniczość testu, odwołują się do pojęcia uczciwej selekcji. I tak np. zdaniem Lorrie Shepard (1981, s. 80) stronniczość testu to odchylenie w sposobie pomiaru przez test tego, co z założenia ma on mierzyć: jest to błąd systematyczny, powodujący, że wykonanie testu stawia w niekorzystnym położeniu jedną grupę w porównaniu z drugą15. Zauważmy, że w definicji tej autorka kładzie nacisk na efekty stronniczości w postaci niekorzystnego położenia jednej z grup. Posługiwanie się pojęciem „niekorzystnego położenia” oznacza w gruncie rzeczy uznanie, że test stronniczy jest z definicji testem nieuczci wym. W podobnym tonie sformułowali swoją definicję Shepard, Camilli i Averil (1981, s. 318), pisząc, że: „stronniczość jest rodzcijem braku trafności, który dotyka jedną grupę bardziej niż drugą. W dobrze skonstruowanym teście osiągnięć, w którym próbka treści została właściwie wylosowana, stronniczość mimo wszystko może się pojawić, ponieważ format pytań czy sposób ich prezentacji będzie nieuczciwy w stosunku do jednej z grup (...)”• Wprowadzanie do definicji stronniczości pojęcia uczciwości (ang. test fairness) nie jest dobrym rozwiązaniem16, gdyż nie pozw ala wyraźnie odróż^ Te dwie grupy to tzw. grupa większości i grupa mniejszości. Pojęcia grupy większości (ang. majority group) i mniejszości (ang. minority group) wykorzystywane są do opisywania dwóch grup pochodzących z tej samej populacji i branych pod uwagę przy ocenie potencjalnej stronniczości testu. W tym kontekście pojęcie większości oznaczać może: a) tę grupę, która jest większa w populacji, b) tę grupę, na której test został wy standaryzowany, i c) tę grupę, która uzyskuje wyższy średni wynik w teście, o ile grupy te różnią się pod względem tych wyników (Jensen, 1980, s. 376). Grupa większości nie oznacza zatem wyłącznie najliczniejszej grupy etnicznej, ale po prostu tę część osób badanych testem, która - ze względu na wyróżnione parametry - stanowi właśnie większość (i tak np. wśród starających się o pracę pielęgniarki w szpitalu kobiety mogą stanowić grupę większości, a mężczyźni mniejszości, a wśród kandydatów na lotników odwrotnie). 16 Przyjmijmy, że terminy „uczciwe” i „nieuczciwe stosowanie testu” będziemy odnosić do sposobu, w jaki wyniki testowe (bez względu na to, czy test może zostać uznany za stronniczy czy też nie) są wykorzystywane w sytuacji selekcji. Pojęcie „uczciwości” odwołuje się zawsze do jakiegoś systemu wartości. Dlatego też nie można sprowadzać problemu uczciwego stosowania testu do decyzji o charakterze wyłącznie statystycznym. Praktyka stosowania testów pokazuje, że sformułowano jak dotąd wiele - często wzajemnie się wy łączających - kryteriów uczciwości i żadna procedura statystyczna czy psychometryczna per se nie pozwala określić, które z nich jest najlepsze. Decy2:ja dotycząca kryteriów uczciwego stosowania testu powinna być lokowana w sferze (a) kompetencji psychologa, (b) polityki społecznej, (c) rozwiązań prawnych i wreszcie (d) konsekwencji praktycznych. „Uczciwego” stosowania testu nie należy zatem utożsamiać z jego cechą formalną - tj. stronniczością. 103
R o z d z ia ł
3
nić stronniczości rozumianej jako c e c h a t e s t u od pojęcia uczciwości dotyczącego s p o s o b u s t o s o w a n i a t e g o t e s t u . Podsumujmy zatem: termin „stronniczość” wykorzystywany jest najczęściej przy opisie właściwości testów zdolności i definiowany w terminach systematy cznego błędu pomiaru. W sensie statystycznym oznacza to tyle, że stronniczość wpływa na wyniki testowania zawsze w stały sposób. W sensie psychometrycznym natomiast stronniczość polega na tym, że poszczególne pozycje testowe są mniej lub bardziej trudne dla osób należących do różnych wyodrębnianych podgrup (np. ze względu na wiek czy płeć, a nie mierzoną właściwość podmiotową) w ramach tej samej populacji. O stronniczości pozycji testowych mówimy zatem wtedy, gdy prawdopodobieństwo udzielenia prawidłowej odpo wiedzi na daną pozycję testową jest różne dla osób o tej samej wartości mierzonej cechy, a pochodzących z różnych grup należących do tej samej populacji (por. Shepard, Camilli, Averill, 1981; Hulin, Drasgow, Parsons, 1983). Przyczyną tego zjawiska może być stosowanie specyficznych pojęć, właściwych dla wąsko pojętej podkultury i bardzo rzadko używanych w populacji, włączanie do testu pozycji, w których występują pojęcia nie używane przez którąś z grup, lub pozycji, które zostały źle przetłumaczone z języka obcego, itp. Stronniczość nie oznacza błędu losowego (ten ostatni jest zawsze taki sam dla wszystkich wyłonionych grup). Oczywiście, żaden test nie mierzy danej cechy w sposób idealnie dokładny. Jeżeli błąd pomiaru w jednakowym stopniu dotyczy wszystkich członków różnych grup pochodzących z tej samej popula cji, to nie istnieją powody, dla których test mógłby zostać określony jako stronniczy. Ta ostatnia uwaga jest niezmiernie istotna w badaniach nad stronni czością. Nie jest bowiem tak, że stronniczość testu pozwala wyjaśnić każdą obserwowaną różnicę wyników między dwiema grupami. Gdyby tak było, każdy test byłby „stronniczy” w stosunku do jakiejś grupy osób wyróżnionych ze względu na pleć, pochodzenie etniczne czy jakąkolwiek inną zmienną, którą zawsze dałoby się jakoś nazwać. Konsekwencje społeczne przyjęcia hipotezy o stronniczości testu, kiedy nie jest ona prawdziwa, mogłyby być dramatyczne. W takim wypadku bowiem obserwowane rzeczywiste różnice w wynikach testowych będą traktowane jako artefakt i prowadzić będą do decyzji abstrahu jących od wyników testowych - np. dzieci nie będą kierowane do odpowied nich placówek wychowawczych, choć byłoby to dla nich najlepsze. U c z c i w o ś ć to termin odnoszący się do strony etycznej testowania. Pojęcie uczciwości, społecznej sprawiedliwości i jednakowej ochrony przez prawo to pojęcia moralne i prawne, i w tym sensie należy je odróżniać od pojęcia s t r o n n i c z o ś c i testu, traktowanej jako cecha testu.
Potencjalne źródła stronniczości testu 104
Analizując literaturę przedmiotu, można zauważyć, że różne klasy czynników bywają traktowane jako przyczyny stronniczości testu. Jak się wydaje,
Trafno
ść
,
c zy li o k r e ś l a n ie o b s z a r u z a s t o s o w a n ia t e s t u
można je pogrupować na siedem następujących kategorii (por. też Reynolds, Brown, 1984, s. 17; Van de Vijver, Tanzer, 1997, s. 268): Niewłaściwa treść testu - osoby pochodzące z grup społecznych np. o niższym statusie mogą nigdy nie zetknąć się ze specyficznym materiałem, który złożył się na treść pozycji testowych. Może to dotyczyć zarówno języka, wiedzy, jak i wartości. Utożsamianie stronniczości testu z niewłaściwą treścią pozycji testowych znalazło swoje najsilniejsze odzwierciedlenie w twierdzeniu, że każda pozycja testowa zawierająca treści odnoszące się do wybranej kultury w obszarze stosowania testu jest stronnicza. Zdaniem zwolenników takiego stanowiska pozycje testowe powinny być całkowicie wolne od wpływu czynników kulturowych. Tak rozumiana stronniczość jest utożsamiana z brakiem trafności treściowej testu. Pomiar różnych charakterystyk - ten sam test może mierzyć odmienne charakterystyki (wielkości psychologiczne), jeżeli stosowany jest w stosunku do osób pochodzących spoza kultury, która była „źródłem” pozycji testowych. Test jest zatem trafny teoretycznie tylko w stosunku do osób należących do jednej kultury i nietrafny w stosunku do osób spoza owej kultury. Różna trafność teoretyczna tego samego testu w różnych kulturach może być przeto istotą zjawiska stronniczości. Zakłócenia trafności prognostycznej - test może umożliwiać dokonywanie dobrych prognoz w wypadku członków grup większości, lecz nie pozwalać na skuteczne przewidywanie analogicznych zachowań w wypadku członków grup mniejszości. Tym samym decyzje podejmowane na podstawie wyników testowych mogą być obciążone błędem stronniczości zawsze wtedy, kiedy badania walidacyjne nie są pełne (zwłaszcza w zakresie trafności prognos tycznej), a test jest stosowany także w wypadku tych osób, które należą do grup nie objętych takimi badaniami. Język, w jakim test został sformułowany - osoby poddane badaniu testo wemu w innym - niż własny - języku uzyskują generalnie niższe wyniki. Jednakże wyniki uzyskane przez osoby mówiące innym językiem niż język testu nie muszą być wskaźnikiem mniejszych zdolności, mogą zaś być - po prostu - wskaźnikiem trudności komunikacyjnych. Taki test należy uznać zatem za stronniczy językowo. Źródłem stronniczości jest w tym wypadku wadliwa procedura badania testem i nieprzestrzeganie standardów postępo wania w tym zakresie (tj. nieupewnienie się, że osoba badana dobrze rozumie zadanie, jakie przed nią stoi, i że zrobiono wszystko, aby umożliwić jej jak najlepsze wykonanie testu - por. np. APA, Standardy..., 1985a, s. 75). Niewłaściwa próba standaryzacyjna - jeżeli w próbie standaryzacyjnej nie są reprezentowane wszystkie grupy, które mogą być badane określonym testem, to test należy uznać za narzędzie stronnicze w stosunku do tych grup, które nie zostały w próbie standaryzacyjnej uwzględnione. Przy takim sposobie ujmowania stronniczości wychodzi się z założenia, że w próbach standaryzacyjnych brak jest właściwej (w sensie statystycznym) reprezentacji
105
R
o z d z ia ł
106
3
grup mniejszościowych, co musi stronniczo wpływać na opracowywane normy. Na tej podstawie właśnie Williams (por. Williams, Dotson, Dow, Williams, 1980) krytykował test WISC-R (Wechsler, 1974) z powodu wad liwie -j e g o zdaniem - skonstruowanej próby standaryzacyjnej. W próbie tej odtworzono bowiem procentowy skład populacji amerykańskiej (tj. na 2200 badanych osób 330 stanowili przedstawiciele mniejszości narodowych), a zdaniem Williamsa ( ibidem ) tak mała reprezentacja w żaden sposób nie może wpłynąć na normy testowe. Taki test musi być zatem stronniczy wobec mniejszości (tu: Murzynów). Okazuje się jednak, że w świetle zebranych danych empirycznych stanowi sko to nie znajduje swojego uzasadnienia, a co najmniej budzi wątpliwości. I tak np. stwierdzono, że w teście Wechslera, przeznaczonym do badania inteligencji ludzi dorosłych i wystandaryzowanym na populacji amerykańskiej (WAIS-R), Japończycy (a więc grupa całkowicie spoza próby standaryzacyj nej) uzyskują ilorazy inteligencji o około 6 punktów wyższe niż Amerykanie, a Eskimosi zamieszkujący Arktykę, uzyskują w teście Ravena przeciętne wyniki porównywalne z populacją Anglików (Jensen, 1984, s. 516). Różnice grupowe w średnim wykonaniu testu - każda różnica wykonania testu przez dwie grupy (różniące sią rasa,, pochodzeniem lub np. płciaj je s t traktowana jako dow ód oczyw istej stronniczości testu. U podstaw takiego stanowiska leży przyjm owane a priori założenie o wyjściowej równości wszystkich grup pod względem wszystkich charakterystyk mierzonych przez test. I choć takie stanowisko - nazwane przez Jensena błędem egalitaryzmu (Jensen 1980, s. 370) - trudno dziś zaakceptować, stało się ono podstawą wielu wyroków, wydanych przez sądy w Stanach Zjednoczonych, w roz prawach, w których decyzje podejmowano na podstawie wyników badań testami psychologicznymi. Niejednakowe konsekwencje społeczne - decyzje podejmowane na pod stawie wyników testowych są podstawą podejmowania decyzji często okreś lających przyszłość osób badanych (rekrutacja do szkół czy przyjmowanie na dane stanowiska). W efekcie zastosowania stronniczego testu decyzje te (np. dotyczące dalszego kształcenia) mogą być niekorzystne w stosunku do członków grup mniejszości - którzy już i tak, ze względu na przynależność do tych grup, mieli mniejsze możliwości - i pogłębiają tym samym istniejące nierówności społeczne. Jak widać z przedstawionego wyżej zestawienia, większość z wymienia nych w literaturze przedmiotu źródeł stronniczości można generalnie zaliczyć do problematyki walidacji testu (etap konstrukcji) lub jego stosowania - po winny one zatem stać się elementem analiz psychometrycznych. Natomiast w wypadku niejednakowych konsekwencji społecznych sprawa jest nieco bardziej złożona. Problem ten bowiem generalnie dotyczy testowania psycho logicznego i nie można go analizować wyłącznie z punktu widzenia grup mniejszości. Społeczne konsekwencje tworzenia ścieżek edukacyjnych czy
T
r a fn o ść
,
c zyli o k r e ś l a n ie o b s z a r u z a s t o s o w a n ia t e s t u
zawodowych powinny być analizowane w ramach psychologii rozwojowo-wychowawczej czy psychologii pracy lub poradnictwa zawodowego, a nie bezrefleksyjnie utożsamiane z problematyką stronniczości. Psychologowie wykorzystujący w praktyce instrumentarium testowe po winni zdawać sobie sprawę z możliwości wystąpienia efektu stronniczości. Zarzut stronniczości jednak musi wynikać z obiektywnych przesłanek i musi stać się elementem obiektywnego postępowania (podobnie jak w wypadku trafności czy rzetelności). Subiektywna intuicja czy wrażliwość społeczna nie są tu wystarczającym uzasadnieniem. Spróbujmy zatem sformułować obiektywne kryteria stronniczości i wskazać na możliwe techniki jej szaco wania. Ponieważ problematyka stronniczości testów psychologicznych jest przede wszystkim łączona z zagadnieniem trafności - od tego problemu zacznijmy.
Stronniczość testu a trafność treściowa Przypomnijmy, że trafność treściowa - zgodnie ze Standardami dla testów stosowanych w psychologii i pedagogice (APA, 1985a) - wymaga wykazania, że „zachowania demonstrowane w badaniu testowym są reprezentatywną próbą zachowań ujawniających się w interesującej badacza sferze” ( ibidem , s. 36). Dany test może zostać uznany za stronniczy, jeżeli uniwersum pozycji testowych zostało trafnie określone tylko w stosunku do członków jednej grupy (np. grupy większości). Taki test - ze względu na brak trafności treściowej - będzie stronniczy w stosunku do wszystkich pozostałych osób. Co ciekawsze, problem stronniczości treści pozycji testowych jest najczęściej podnoszony przez autorów generalnie potępiających stosowanie testów in teligencji wobec grup mniejszościowych (por. np. Williams, 1974; Hilliard, 1979). Można wskazać na trzy przyczyny stronniczości z punktu widzenia traf ności treściowej (por. Berk, 1982; Reynolds, 1982a, b, Camilli, Shepard, 1994): a) pozycje testowe są stronnicze, ponieważ wymagają od członków grupy mniejszości odpowiedzi na takie tematy, z którymi osoby te nigdy nie miały szansy się zetknąć. Np. młodzież uczęszczająca do innych szkół niż licea ogólnokształcące może mieć trudności z wymieniem współczes nych poetów polskich ostatniego dziesięciolecia; b) pozycje testowe są stronnicze, ponieważ nieprawidłowo skonstruowany został klucz do ich oceny. Autor testu zdecydował bowiem arbitralnie o tym, jaka odpowiedź zostanie potraktowana jako prawidłowa. W efekcie członkowie grupy mniejszości są karani za dawanie odpowiedzi prawid łowych z punktu widzenia własnej kultury, a nieprawidłowych z punktu widzenia kultury autora testu. Np. w zadaniu sprężyna jest częścią (samo chodu, motocykla, wagonu, zegarka) za prawidłową odpowiedź uznawany
107
R o z d z ia ł 3
jest jedynie zegarek, choć każdy mający niewielką tylko wiedzę techniczną chętnie wskazałby i inne m ożliwości17; c) pozycje testowe są stronnicze, ponieważ sposób sformułowania pytania jest tak obcy dla członków grupy mniejszości, że choć znają oni prawidłową odpowiedź, nie są w stanie jej udzielić, ponieważ nie rozumieją pytania. Np. pytanie „co to za część statku, która jest zszyta z brytów, wzmocniona bantem i obsi^yta likliną?” zostało sformułowane z punktu widzenia osób zaintereso wanych sportem wodnym, stając się mało czytelnym dla pozostałych. Analizując wymienione wyżej potencjalne źródła stronniczości treściowej, można zauważyć, że wszy stkie one mają jedną cechę wspólną: stronnicza pozycja testowa okazała się w jakimś aspekcie trudniejsza dla członków grupy mniejszości w porównaniu z grupą większości. Dlatego też można przyjąć za Reynoldsem (1982a, s. 188) następującą ogólną definicję stron niczości treściowej: „Pozycja testowa (...) może zostać określona jako stron nicza treściowo, jeżeli udowodniono, że jest ona relatywnie trudniejsza dla członków jednej grupy w porównaniu z drugą, mimo że ogólny poziom zdolności obu grup pozostaje taki sam i w żaden sposób nie można racjonalnie wyjaśnić obserwowanych różnic w jakości odpowiedzi na tę pozycję (...)” 18. Uznanie, że niewłaściwa treść testu może być przyczyną stronniczości, zwróciło uwagę wielu instytucji na konieczność opracowania zbioru zasad, które byłyby pomocne przy tworzeniu pozycji testowych. Takim zbiorem są m.in. wskazówki opublikowane przez wydawnictwo Macmillan pt. Guidelines f o r creating positive sexual and racial images in educational materials (1975)19, które mają obowiązywać nie tylko przy konstruowaniu testów, ale w ogóle wszelkich materiałów dydaktycznych. Wskazówki te mają pozwalać na tworzenie pozytywnego kontekstu i unikanie negatywnego kontekstu, w jakim przedstawia się kulturę grup mniejszości narodowych. Możemy tu przeczytać m.in.: „Reprezentantów grup mniejszości należy przedstawiać jako osoby tworzące swoje własne drogi rozwoju, wypracowujące własne rozwią zania, posiadające własne osiągnięcia i pomagające innym. Bohaterów z grup mniejszości należy opisywać głęboko, a nie jedynie powierzchownie. Osoby z grup mniejszości powinny być głównymi, wielowymiarowymi bohaterami opowiadań i przykładów” (Macmillan, 1975, s. 35).
108
17 Przykład ten podaje Witwicki (1928) jako ilustrację sytuacji, w której klucz odpowiedzi stworzono w sposób mechaniczny, bez sprawdzenia jego zasadności. 18 Zjawisko stronniczości treściowej zatem nie oznacza ipso facto stronniczości w stosunku do grupy mniejszości, a jest źródłem różnic odpowiedzi między dwoma zdefiniowanymi grupami. Rzecz jest o tyle istotna, że wielu autorów ma tendencję do utożsamiania zjawiska stronniczości wyłącznie z negatywnym oddziaływaniem na grupę mniejszości, tymczasem można wskazać na przykłady testów stronniczych w stosunku do grup większości (Reynolds, Brown, 1984, s. 25). 19 Podobne wskazówki opublikowało też wydawnictwo McGraw-Hill (na podstawie Tittle, 1982): Recommended multiethnic publishing guidelines (1968) i Guidelines fo r equal treatment of the sexes (1974).
Trafno
ść
,
c zy li o k r e ś l a n ie o b s z a r u z a s t o s o w a n ia t e s t u
W literaturze przedmiotu można znaleźć szereg metod zaprojektowanych specjalnie w celu szacowania stronniczości treściowej (por. zwłaszcza Jensen, 1980; Tittle, 1982). Metody te, wbrew oczekiwaniom ich twórców, nie przyniosły jednak oczekiwanych rezultatów. I tak np. analizy treści dokony wane przez zespoły ekspertów składające się z przedstawicieli grup więk szości i grup mniejszości nie okazywały się wcale lepsze od subiektywnych ocen samych autorów, a dotyczących tego, które z pozycji testowych mogłyby być stronnicze ze względu na ich treść (Reynolds, Brown, 1984). Ocena stronniczości wymaga wypracowania obiektywnych (statystycznych) kryte riów, a odwoływanie się wyłącznie do aspektu trafności treściowej, jako próby zdefiniowania istoty tego zjawiska, nie jest wystarczające.
Stronniczość testu a trafność kryterialna O stronniczości z punktu widzenia trafności kryterialnej, głównie prognos tycznej, mówi się najczęściej w kontekście zastosowania testów do celów selekcyjnych. Psychologom praktykom najbliższa jest perspektywa prognosty czna. Z punktu widzenia „(...) tradycyjnych zastosowań testów zdolności i inteligencji trafność prognostyczna jest bowiem najistotniejszym rodzajem trafności, gdy myślimy o potencjalnej stronniczości testu” (Reynolds, Kaiser, 1990, s. 511). Podstawowym celem stosowania testów w takiej sytuacji jest uzyskanie możliwości dokonywania przewidywania przyszłych zachowań na podstawie wyników testowych. Ponieważ stronniczość jest tu traktowana jako cecha testu, a nie cecha procedury selekcji, można przyjąć następującą definicję stronniczości z punktu widzenia trafności prognostycznej (Reynolds, 1982a, s. 201): „Test może zostać potraktowany jako stronniczy z punktu widzenia jego trafności prognostycznej, jeżeli wnioski uzyskiwane na podsta wie wyników testowych nie są wyprowadzane z najmniejszym dopuszczal nym błędem lub jeżeli pojawił się stały błąd [przeszacowywanie lub niedoszacowywanie - przyp. E.H.] w przewidywaniu przyszłych zachowań badanych osób, będący wynikiem ich przynależności do określonej grupy”. Te same uwagi można również sformułować w stosunku do trafności diagnostycznej. Innymi słowy, wykorzystywanie wiedzy o przynależności osoby badanej do określonej grupy w procesie przewidywania - na podstawie wyniku testowego - jej aktualnego lub przyszłego zachowania może wpływać stron niczo na dokładność stawianych diagnoz lub prognoz. Nie obciążone stronniczością prognozy będą odzwierciedlały a) poziom osiągnięć właściwy dla danej grupy, b) będzie się to działo z jednakową dokładnością dla każdej z grup (McCornack, 1983). W kontekście stronniczości rozważane są zatem zazwyczaj dwie grupy wyników: a) wyniki zastosowania określonego testu psychologicznego oraz b) wyniki innych zmiennych pozatestowych, stanowiących kryterium prze widywania przyszłych zachowań. 109
R o z d z ia ł 3
Ten sam test może być testem stronniczym prognostycznie jedynie ze względu na określone kryteria. Stronniczość prognostyczna odwołuje się bowiem zawsze do konkretnego kryterium i dotyczy użyteczności wyników testowych jako predyktorów tego właśnie kryterium oraz tego, czy wyniki testowe są jednakowo dobrym predyktorem przyszłych zachowań dla różnych grup pochodzących z tej samej populacji. Ujmowanie stronniczości z punktu widzenia relacji między wynikami testo wymi a miarami kryterialnymi późniejszego funkcjonowania jednostki najbar dziej zainteresowało specjalistów z dziedziny psychometrii i pomiaru psycho logicznego (por. np. Darlington, 1971; Thomdike, 1971; Bemal, 1975; McNemar, 1975; Angoff, 1976; Cronbach, 1976; Petersen, Novick, 1976). Efektem ich dociekań było wypracowanie wielu modeli u c z c i w e j s e l e k c j i , a nie zdefiniowanie stronniczości jako cechy narzędzia pomiarowego - testu. Zaga dnienie uczciwej selekcji pozostaje poza problematyką stronniczości i genera lnie związane jest z określaniem systemów wartości obowiązujących przy podejmowaniu decyzji na podstawie wyników testowych. Modele uczciwej selekcji nie odwołują się też do tego, co ma być istotą definicji stronniczości z punktu widzenia trafności prognostycznej - tj. szacowania wielkości stałego błędu popełnianego przy prognozowaniu wyniku kryterialnego, jako funkcji przynależności grupowej (por. też Anastasi, Urbina, 1999, s. 230-231). Podkreślmy raz jeszcze: stronniczość z punktu widzenia trafności kryterialnej to stały błąd w przewidywaniu wyniku kryterialnego na podstawie wyników testowych, będący rezultatem przynależności osób badanych do określonej grupy. Techniki szacowania tak rozumianej stronniczości odwołują się do obiektywnych kryteriów jakości diagnozy lub prognozy.
Stronniczość testu a trafność teoretyczna
110
Trafność teoretyczna (Cronbach, Meehl, 1955) odnosi się do zakresu, w jakim test mierzy określony konstrukt teoretyczny (cechę psychologiczną). O istnieniu stronniczości z punktu widzenia trafności teoretycznej powiemy zatem wtedy, kiedy (Reynolds, 1982a, s. 194): „(...) test mierzy różne cechy hipotetyczne (konstrukty psychologiczne) w wypadku różnych grup lub gdy mierzy tę samą cechę, lecz z różnym stopniem dokładności”. Pytanie o istnienie stronniczości z punktu widzenia trafności teoretycznej ma ogromne znaczenie zarówno z punktu widzenia teorii, jak i praktyki psychologicznej. Gdyby bowiem wykazano istnienie stałej stronniczości metod testowych z punktu widzenia trafności teoretycznej dla jakichkolwiek grup (wyłonionych ze względu na płeć, rasę czy pochodzenie społeczne), to dorobek psychologii różnic indywidualnych powinien być podany w wąt pliwość, gdyż może się on odwoływać do artefaktów! Ogólne badania trafności teoretycznej należy zatem uważać za niewystarczające i trzeba rozszerzyć je o badania potencjalnej stronniczości w tym zakresie. Jeżeli okaże się, że w wypadku danego testu można mówić o takiej stronniczości,
Trafno
ść
,
c zyli o k r e ś l a n ie o b s z a r u z a s t o s o w a n ia t e s t u
to wszystkie badania naukowe, w których wykorzystywano ten test, powinny zostać co najmniej skorygowane z punktu widzenia potencjalnej stronniczości. Problematyka stronniczości z perspektywy braku trafności teoretycznej zaowocowała wieloma rozwiązaniami natury technicznej - zaproponowano wiele szczegółowych technik pozwalających szacować tego typu stronniczość (już Cronbach, 1970). Do najczęściej wymienianych metod należy analiza czynnikowa. Stwierdzenie identycznych czynników w grupach wyodręb nionych w ramach tej samej populacji można potraktować jako dowód, że test mierzy ten sam konstrukt we wszystkich grupach (Reynolds, Brown, 1984). Takie same wyniki analiz czynnikowych pozwalają przyjąć, że osoby należące do wszystkich grup (zwykle grupy większości i grupy mniejszości) tak samo spostrzegają i interpretują materiał testowy. Dobrym przykładem testów, o których można powiedzieć, że są stronnicze pod względem trafności teoretycznej, są testy inteligencji powstające w obsza rze kultury zachodniej. W większości takich testów kładzie się nacisk na umiejętność rozumowania, posiadaną wiedzę i zakres pamięci. Umiejętności funkcjonowania społecznego są znacznie rzadziej brane pod uwagę, a te mogą mieć zdecydowanie większe znaczenie w innych kulturach (np. w chińskiej, w której zakres powinności dzieci wobec rodziców decyduje o ich wychowa niu i zdobywanej wiedzy - por. Van de Vijver, Tanzer, 1997, s. 264). Powstaje zatem pytanie: czy można bezpośrednio porównywać wyniki w testach, które z nazwy mierzą to samo (np. inteligencję), a zostały wykonane przez osoby należące do różnych kultur? Rozwiązaniem jest tu odwołanie się do trafności teoretycznej. Jeżeli wykażemy, że pojęcie inteligencji jest tak samo operacjonalizowane w interesujących nas kulturach, to zyskamy podstawy dla takiego porównania. Porównywalna trafność teoretyczna może być zatem kluczowym dowodem braku stronniczości testów stosowanych w różnych kulturach. Jak widać z przedstawionego wyżej omówienia, problematyka stronniczo ści testów psychologicznych jest ściśle związana z problematyką trafności, a badania nad stronniczością powinny stać się elementem badań walidacyjnych. Bardzo wielu autorów definiuje stronniczość jako wskaźnik braku trafności testu - właściwości opisującej sposób zastosowania testu, a nie właściwości testu jako takiego. Stronniczość testu zatem powinna być trak towana jako szczególny rodzaj braku trafności.
Techniki szacowania stronniczości testu Generalnie rzecz biorąc, empiryczne szacowanie stronniczości testu spro wadza się do oceny funkcjonowania testu z punktu widzenia jego trafności kryterialnej. Stosowane testy powinny być - z założenia - wysoko skorelo wane z kryterium będącym podstawą podjęcia decyzji o charakterze kwalifi kacyjnym (czy to diagnostycznych, czy prognostycznych). Ponieważ trafność kryterialna jest często najważniejszą użytkową cechą testu, dlatego jego ewentualna stronniczość może być rozważana w kategoriach związku między
111
R o z d z ia ł 3
kryterium a predyktorami. Możemy zatem powiedzieć, że test stronniczy to test nietrafny kryterialnie. Jest to taki test, którego wyniki nie pozwalają na trafne przewidywanie zachowań występujących aktualnie lub w przyszłości w stosunku do wszystkich badanych osób, bez względu na ich przynależność grupową. Najważniejszym - z tego punktu widzenia - wskaźnikiem stronniczości testu jest zatem wielkość korelacji między wynikami testu a wybranymi miarami kryterium. Test bezstronny powinien posiadać podobne korelacje z tymi samymi miarami kryterium dla w s z y s t k i c h analizowanych grup. Ponieważ związek między wynikami testowymi a kryterium jest operacjonalizowany w postaci równania regresji, stronniczość testu jest operacyjnie definiowana właśnie jako nierówność linii regresji w dwóch wyodrębnionych grupach (grupie mniejszości i grupie większości). I tak, w wypadku testu stronniczego związek między wynikami testowymi a prognozowanym kryte rium będzie inny w każdej z grup. Bartlett i O’Leary (1969) przedstawili jedenaście modelowych sytuacji pokazujących wzajemne zależności między testem a kryterium dla dwóch grup (np. mniejszości i większości). Sytuacje te przedstawiono na rys. 3.3 (za: Jensen, 1980, s. 390). Na rysunku tym zamieszczono wykresy korelacji między wynikami testo wymi (X) a wynikami zmiennej kryterialnej (Y). Elipsa ilustruje istotną korelację między tymi zmiennymi, a koło - brak związku. Zgodnie z definicją stronniczości jako nierówności linii regresji w dwóch grupach, tylko sytuacja przedstawiona jako pierwsza (na zacieniowanym polu) ilustruje przykład testu bezstronnego. Zewnętrznym standardem ewaluacji testu jest tu zmienna kryterialna. Dany test uznamy za stronniczy, jeżeli diagnozowanie lub prognozowanie przy szłego funkcjonowania badanych będzie obarczone stałym błędem i błąd ten zależeć będzie od przynależności do różnych grup (definiowanych ze wzglę du, np. wiek, płeć czy rasę). O stronniczości testu zatem świadczyć będą zawsze zbyt wysokie lub zawsze zbyt niskie wyniki zmiennej kryterialnej, otrzymane dla osób należących do różnych grup, a oszacowane na podstawie linii regresji wyznaczonej dla całej populacji (por. też Anastasi, Urbina, 1999, s. 224-230). Podsumujmy: stronniczość testów oznacza zatem błąd systematyczny popełniany przy prognozowaniu wartości zmiennej kryterialnej dla osób z różnych grup, będący rezultatem: a) oparcia diagnozy łub prognozy na wspólnej linii regresji wyznaczonej dla wszystkich osób bez względu na ich populacyjną przynależność, lub też b) oparcia diagnozy lub prognozy wyników kryterialnych osób należących do jednej grupy na równaniu regresji wyznaczonym dla innej. Test oceniany jest pod kątem trafności diagnozy lub prognozy w stosunku 112 do członków określonych grup pochodzących z tej samej populacji. Badanie
Rys. 3.3. Diagramy korelacyjne przedstawiajace rodzaje relacji między wynikami testowymi (X) i zmiennaŁkryterialną(Y) w grupie większości i mniejszości (opracowano na podstawie Jensen, 1980, s. 390)
X
X
X
>-
X
V"
R
o z d z ia ł
3
stronniczości polega na wyznaczeniu linii regresji dla każdej z grup, a na stępnie na ocenie ich zgodności20. 3.5. WYKORZYSTANIE TESTÓW DLA CELÓW SELEKCYJNYCH21 Procedury selekcyjne są dzisiaj jednym z podstawowych elementów działań rekrutacyjnych prowadzonych przez rozmaite instytucje i przedsiębiorstwa. Mają też daleko idące konsekwencje dla samej instytucji, kandydatów, jak i społeczeństwa. Z punktu widzenia instytucji procedury selekcyjne pozwalają na tworzenie właściwych zespołów pracowników czy zespołów osób kształcą cych się. Trafny dobór ludzi do firmy, jej poszczególnych jednostek organiza cyjnych i stanowisk może prowadzić do jej późniejszych sukcesów. Jeżeli firma potrafi znaleźć najzdolniejszych, najlepszych i najbardziej przydatnych kandydatów, ma szanse przetrwania i rozwoju (por. Listwan, 1993). Z punktu widzenia kandydatów procedury selekcyjne stwarzają optymalne szanse na zatrudnienie w zawodzie dającym możliwości awansu, przyczynia jącym się do zwiększenia prestiżu społecznego, pozwalającym na zwiększanie dóbr - zarówno tych materialnych, jak i niematerialnych, na kształcenie się w odpowiednim obszarze. Na poziomie społecznym natomiast procedury selekcyjne są jednym ze sposobów dzielenia rynku pracy czy ofert edukacyj nych. Można wręcz stwierdzić, że procedury te są również odpowiedzialne za to, kto zostanie dotknięty bezrobociem i będzie dyskryminowany na rynku zawodowym czy edukacyjnym. Społeczna i ekonomiczna rola procedur selekcyjnych jest zatem ogromna. Nie może też dziwić, że osoby poddawane tym procedurom domagają się gwarancji ich obiektywności i uczciwości. Zarządzanie potencjałem społecznym jest procesem ciągłym, którego elementem są zarówno rekrutacja i selekcja (obsada stanowisk pracy, kontakty z rynkiem pracy i z jego organizacjami), jak i ocena przy awansach pracow ników już zatrudnionych w firmie (ocena osiąganych rezultatów oraz ocena możliwości rozwoju pracowników). Selekcja to proces zbierania informacji o kandydatach na uczestników organizacji oraz wyboru najbardziej odpowied niego spośród nich na wakujące stanowisko pracy. Nie ma zatem wątpliwości, że społeczne zainteresowanie problematyką selekcji będzie coraz większe, a opinia publiczna domagać się będzie rozwiązań, które będzie mogła uznać za bezstronne, tj. takich, które prowadzić będą do oceny kandydatów wyłącznie ze względu na ich przydatność na dane stanowisko. Uczciwa selekcja to taka procedura, w ramach której formułuje się - wynikające
114
20 Linie regresji wyznaczone dla różnych grup mogą różnić się ze względu na standardowy błąd pomiaru (wariancję błędu), współczynnik nachylenia i przesunięcia. Istotność różnic linii regresji wyznaczonych dla różnych grup można ocenić za pomocą testu identyczności równań regresji (por. Neter, Wasserman, 1974, Domański, 1979). 21 Ten podrozdział jest skróconą wersją rozdziału zatytułowanego „Filozofia uczciwej selekcji”, zamieszczonego w pracy Stronniczość testów psychologicznych (Hornowska. 1999).
Trafno
ść
,
c zyli o k r e ś l a n ie o b s z a r u z a s t o s o w a n ia t e s t u
z rzetelnie przeprowadzonej analizy pracy na danym stanowisku i dotyczące tylko wiedzy, umiejętności, zdolności i zakresu doświadczeń - kryteria okreś lające zasady przyjmowania na określone stanowiska. Nierzetelne, a nawet nielegalne, są kryteria pozamerytoryczne, takie jak narodowość, religia czy płeć. Problem opracowania takich strategii selekcyjnych, które będą „uczciwe” wobec przedstawicieli wszystkich kultur, przestaje zatem być problemem interesującym głównie teoretyków. Coraz częstsze stosowanie wywiadów i testów psychologicznych w procesie doboru przyszłych pracowników sprawia, że rozwiązań tych oczekuje się również od psychologów. Zasadność stosowania testów potwierdzają następujące ich zalety: a) gwarantując standaryzację sytuacji egzaminacyjnej, testy zapewniają wszy stkim kandydatom jednakowe szanse, gdyż wyniki testów nie pozostają pod wpływem osobistych względów i uprzedzeń, kwestii pozamerytorycz nych lub nieistotnych informacji; b) skale ocen i odniesienia są jawne, co ułatwia porównywanie wyników poszczególnych kandydatów; c) przed zastosowaniem testy są badane pod względem jakości merytorycznej i przydatności empirycznej; z uwagi na to, że zostały opracowane według racjonalnego schematu, ich wyniki mogą być wykorzystane także w okre sie późniejszym; d) testy mogą uzupełniać zebrane już informacje o kandydacie lub je kory gować, co w inny sposób byłoby trudne lub niemożliwe. W Stanach Zjednoczonych, aby zapewnić stosowanie procedur selekcyj nych nie prowadzących do dyskryminacji żadnej z grup (większości czy mniejszości), już w 1978 roku opracowano dokument pt. Uniform Guidelines on Employee Selection Procedures (Roe, Greuter, 1991) ustalający zasady selekcji kandydatów. Biorąc pod uwagę przemiany na dzisiejszym rynku pracy (nowe technologie, zmieniające się warunki pracy, optymalizację wykorzystania zasobów ludzkich, także zmianę systemów edukacyjnych), zagadnienie uczciwej selekcji ponownie powinno znaleźć się w centrum naukowego zainteresowania psychologów. Od strony psychometrycznej sytuację selekcji można opisać następująco (za: Guilford, 1964, s. 386-395; por. też Anastasi, Urbina, 1999, s. 198): przyjmijmy, że kryterium wyboru jest wynik testu psychologicznego. Test ten powinien być wysoce skorelowany z kryterium, którym może być np. poziom wykonywania przyszłej pracy zawodowej czy postępy w kształceniu. Niech oś X przedstawia skalę wyników testów psychologicznych, a oś Y skalę kształce nia lub pracy zawodowej. Populacja osób starających się o pracę czy przyjęcie do szkoły może zostać podzielona na cztery kategorie (por. też rys. 3.4): (A) osoby, które zostaną wybrane i osiągną powodzenie, (B) osoby, które zostaną odrzucone, a które osiągnęłyby powodzenie, gdyby zostały wybrane, (C) osoby, które zostaną wybrane i nie osiągną powodzenia,
115
R o z d z ia ł 3
(D) osoby, które zostaną odrzucone i które nie osiągnęłyby powodzenia, gdyby zostały wybrane. Problem skutecznej selekcji można zatem rozważać w kategoriach trafnej prognozy (por. wyżej - definicja stronniczego testu). I tak, na rys. 3.4 widać, że trafna prognoza (i właściwa decyzja selekcyjna) dotyczy osób wpadających Rys. 3.4. Podział populacji starających się o pracę przy uwzględnieniu kwalifikacyj nego wyniku testu psychologicznego (oś X) oraz kryterium pracy zawodowej (oś Y) (opracowano na podstawie Guilford, 1964, s. 387)
Odrzucani
116
1..-........... ...— ..............-....—...........~H* Przyjęci
Test
do kategorii oznaczonych jako A i D, nietrafną decyzję zaś podjęto w przy padku osób z kategorii B i C. Od czego zatem zależy wielkość obszarów A, B, C i D, czyli inaczej trafność decyzji selekcyjnej? Czynnikami, które determinują wielkość błędu popełnianego przy prognozowaniu kryterium, będą - obok, oczywiście, wielkości korelacji między testem i kryterium - różne punkty podziału wprowadzone na skali powodzenia i na skali wyników testowych. Punkty te zostały nazwane przez Taylora i Russella (1939, za Guilford, 1964, s. 388)
Trafno
ść
,
czyli o k r e ś l a n ie o b s z a r u z a s t o s o w a n ia t e s t u
stosunkiem powodzenia i stosunkiem wyboru22. Stosunek powodzenia to proporcja przyjętych kandydatów, którzy osiągną powodzenie, zaś stosunek wyboru to proporcja wszystkich kandydatów, którzy zostali przyjęci (ibidem) - por. rys. 3.5. Ftys. 3.5. Różne kombinacje stosunku wyboru i stosunku powodzenia przy różnych stopniach trafności prognostycznej testu (opracowano na podstawie Guilford, 1964, s. 389)
(a)
(b)
22 Warto w tym miejscu przytoczyć koncepcję współczynnika selekcji, którą formułuje się w naukach o zarządzaniu, czyli poza psychologią. I tak np. Szatkowski (1995, s. 83) opisuje współczynnik selekcji, rozumiany jako stosunek liczby kandydatów podlegających procesowi selekcji na danym etapie do liczby potencjalnych kandydatów: liczba kandydatów poddanych selekcji Współczynnik selekcji = — -------------------------------------------------liczba potencjalnych kandydatów Wartość tego współczynnika zależy nie tylko od przyjmowanych założeń, ale także od popytu i podaży, charakteryzujących dany rynek pracy - w wypadku pewnych branż, firm czy stanowisk podaż osób o odpowiednich kwalifikacjach (w konkretnej procedurze selekcji) może być tak mała lub ogólny popyt na nie tak duży, że współczynnik ten będzie mieć wartość 1, a wypadku innych przyjmować będzie wartości mniejsze od 1.
117
R
o z d z ia ł
118
3
Analiza rys. 3.5 pozwala zauważyć, że skuteczność selekcji za pomocą testów nie zależy wyłącznie od trafności testu, lecz od odpowiedniej kom binacji stosunku powodzenia i stosunku wyboru. I tak na wykresie a i b sto sunek powodzenia jest wysoki, a na wykresach c i d bardzo niski. Testy a i c to testy mało trafne, a testy b i d to testy o zadowalającej trafności. Przyjrzyjmy się dokładniej wykresowi c. Jest to ilustracja sytuacji, w której —mimo że stosujemy test o niskiej trafności —możemy dokonać skutecznej selekcji (odrzucamy bowiem parokrotnie więcej potencjalnych niepowodzeń niż potencjalnych powodzeń). Z kolei na wykresie a mamy do czynienia z sytuacją, w której ustalenie zbyt wysokiego punktu odcięcia (wyniku kwalifikacyjnego) w wypadku testu o niskiej trafności prowadzi do od rzucania osób o najlepszych kwalifikacjach (Guilford, 1964, s. 389-390). Wykresy te są dobrą ilustracją faktu, że trafność procedury selekcji zależy nie tylko od trafności prognostycznej wykorzystanego narzędzia psycho logicznego, ale także od szeregu innych czynników, które mogą w sposób znaczący wpływać na ostateczne rezultaty. Ogólnie rzecz biorąc, w tworzeniu schematu procedury selekcyjnej należy - jak się wydaje - wziąć pod uwagę pięć rodzajów wymagań: a) t r a f n o ś ć — c z y li dobór takich inform acji, które pozwalają na dokony wanie prognoz i zapewniają trafność decyzji wyprowadzonych na ich podstawie. Innymi słowy, metoda ma faktycznie mierzyć te cechy i zdol ności, które zgodnie z koncepcją jej autora mierzy (powinna być trafna teoretycznie), oraz przewidywać te przyszłe efekty pracy bądź zachowania, których pomiar jest jej przypisywany. Może to prowadzić np. do włączenia pewnych rodzajów pytań do podania aplikacyjnego, do stosowania okreś lonych testów zdolności, kombinacji tych testów, korzystania z danych biograficznych czy próbek pracy; b) s k u t e c z n o ś ć - czyli właściwą kombinację stosunku powodzenia i stosunku wyboru; c) e t y c z n e p o s t ę p o w a n i e - czyli dbanie o to, aby w procedurze selekcyjnej nie pojawiły się takie aspekty, jak naruszenie prawa do prywat ności, prawa do odwołania czy prowadzenie polityki dyskryminacyjnej. Dbałość o etyczne postępowanie może prowadzić do zadawania pytań na tematy drażliwe dopiero pod koniec sesji, do włączania do selekcji proce dur załatwiania odwołań czy tworzenie różnych procentowych kryteriów przyjmowania osób należących do różnych grup etniczno-kulturowych; d) o p ł a c a l n o ś ć - czyli łączną sumę kosztów i zysków wynikających ze stosowanych procedur selekcyjnych. Opłacalność można zwiększyć przez włączenie tańszych informacji (np. stopni szkolnych), stosowanie krót szych testów czy prowadzenie selekcji etapowych; e) w y d a j n o ś ć - czyli odpowiedni stopień strukturalizacji procedur selek cyjnych. Wydajność jest związana z automatyzacją postępowania selekcyjnego, optymalnym wykorzystaniem możliwości zespołu prowadzącego
Trafno
ść
,
c zyli o k r e ś l a n ie o b s z a r u z a s t o s o w a n ia t e s t u
postępowanie kwalifikacyjne i standaryzacją procedur testowania. Jest czynnikiem minimalizującym ponoszone koszty. Na gruncie psychometrii formułuje się trzy ogólne koncepcje selekcji. Koncepcje te opisane, przez Huntera i Schmidta (1976; też Jensen, 1980; Hunter, Schmidt, Rauschenberger, 1984) jako indywidualizm nieograniczony (ang. unqualified individualism ), indywidualizm ograniczony (ang. qualified individualism) i dobór kwotowy (ang. quotas), raczej odzwierciedlają odmien ne stanowiska filozoficzne, niż tworzą zbiory praktycznych reguł postępowa nia. Ze względu jednak na to, że pozwalają sformułować odmienne kryteria etyczne dotyczące uczciwości procedury selekcyjnej, warto się im bliżej przyjrzeć. Co więcej, tworzą one wygodny system klasyfikacyjny dla opisy wanych (licznie w literaturze przedmiotu) konkretnych strategii postępowania. »- Na gruncie psychometrii formułuje się trzy ogólne koncepcje selekcji. Są to: • i n d y w i d u a l i z m n i e o g r a n i c z o n y - instytucja dokonująca selekcji powin na wybierać tych kandydatów, którzy otrzymali najwyższy przewidywany wynik kryterialny, bez względu na to, jakie zmienne predykcyjne zostały uznane za najbardziej trafne (mogą to być takie zmienne informacje, jak te dotyczące pochodzenia etnicznego, płci, religii czy statusu socjoekonomicznego badanych osób); • i n d y w i d u a l i z m o g r a n i c z o n y - instytucja dokonująca selekcji również powinna się kierować zasadą maksymalizowania trafności predykcyjnej. Jed nakże w procedurze selekcji n ie w o l n o brać pod uwagę wszystkich tych zmiennych, na podstawie których można by zidentyfikować, do jakiej grupy należy badana osoba. Takie zmienne, jak rasa, płeć, pochodzenie etniczne, nie mogą być - z zasady - włączane do zbioru zmiennych predykcyjnych; • d o b ó r k w o t o w y -według tego stanowiska trafna procedura selekcji to taka procedura, która w proporcjach przyjętych kandydatów z grupy mniejszości i większości uwzględnia szeroko rozumiane kryteria społeczne.
Indywidualizm nieograniczony Zgodnie ze stanowiskiem indywidualizmu nieograniczonego, instytucja dokonująca selekcji powinna wybierać tych kandydatów, którzy otrzymali najwyższy przewidywany wynik kryterialny. Do ustalenia wyniku kryterialnego można wykorzystać dowolne zmienne predykcyjne (lub kombinacje tych zmiennych). Nakłada się na nie jeden tylko warunek - muszą mieć one najwyższą z możliwych trafność prognostyczną. Zgodnie z tym stanowiskiem, w trakcie postępowania selekcyjnego - obok zmiennych predykcyjnych, takich jak wyniki testowe - można wykorzystywać wszelkie informacje o przynależności grupowej, np. informacje dotyczące pochodzenia etnicznego, płci, religii czy statusu socjoekonomicznego (por. Hunter, Schmidt, 1976, s. 1055-1057; też Jensen, 1980, s. 392-394). Ogólnie rzecz biorąc, każda zmienna demograficzna czy biologiczna może zostać potraktowana jako dopuszczalna zmienna predykcyjna, o ile tylko jest skorelowana z prognozowanym kryterium. To, czy zostanie ona wyko-
119
R o z d z ia ł 3
120
rzystana czy też nie, zależy zatem od rozważań natury statystycznej, a nie etycznej. Jeżeli włączenie danej zmiennej do zbioru predyktorów zwiększa trafność prognostyczną tego zbioru, jest to wystarczający argument, aby tak uczynić. Jedynie kryteria natury praktycznej (koszty, czas), zestawione z ewentualnym wzrostem trafności prognostycznej, mogą przemawiać prze ciwko wykorzystaniu takich informacji jako zmiennych predykcyjnych (por. Jensen, 1980, s. 394). Jeżeli rasa, płeć czy wiek okażą się trafniejszymi predyktorami kryterium w danej sytuacji selekcyjnej niż inne zmienne predykcyjne, to - zgodnie ze stanowiskiem indywidualizmu nieograniczonego - mamy etyczne prawo się nimi posłużyć dla celów selekcyjnych. Co więcej, zgodnie ze stanowiskiem indywidualizmu nieograniczonego, nie trzeba stosować tego samego testu czy zmiennych predykcyjnych w stosunku do wszystkich kandydatów. Można bowiem wykorzystywać różne predyktory, zgodnie z przynależnością kandydatów do grup społecznych. Jeżeli jakikol wiek test okaże się bardziej trafny dla członków jednej grupy, a inny test dla członków drugiej grupy, to każda grupa powinna wypełniać ten test, który jest dla niej bardziej trafny. Etyczny wymóg stanowiska indywidualizmu nieogra niczonego można zatem sprowadzić do wymogu tworzenia takich procedur selekcyjnych, które są najbardziej trafne dla danej osoby. Dlatego też np. kobiety powinny być testowane za pomocą testów najbardziej trafnych dla kobiet, a mężczyźni dla mężczyzn. Kandydaci powinni być następnie wybie rani w porządku rangowym, od najlepszego do najgorszego, ze względu na prognozowany wynik w kryterium, tak długo, aż nie zostanie przekroczony punkt odrzucenia ustalony przez instytucję dokonującą selekcji. Celem postępowania selekcyjnego jest maksymalizowanie trafności pro gnozy, a nie określanie, jak dana osoba mogłaby funkcjonować, gdyby stała za nią inna historia życia, gdyby pochodziła z lepszego czy gorszego środo wiska lub posiadała inną kombinację genów (Jensen, 1980, s. 393). Jeżeli zatem osoba należąca do konkretnej grupy zostanie odrzucona przez strategię indywidualizmu nieograniczonego, to stało się tak nie dlatego, że jest człon kiem tej grupy, ale dlatego, że jest to najlepsza prognoza kryterium dla tej osoby. Ten rodzaj selekcji pozwala również na stworzenie wszystkim pracow nikom wyrównanych szans na przyszły awans. Hunter i Schmidt (1976, s. 1069) opisali np. przypadek przedsiębiorstwa, które w znacznym stopniu obniżyło standardowe kryterium zatrudniania, aby można było przyjąć więcej czarnych pracowników. Jednakże pracownicy ci nie mogli sprostać wewnętrz nym kryteriom awansowania, co sprawiło, że zajmowali najniższe stanowiska w tym przedsiębiorstwie. W efekcie prowadzania takiej polityki przedsię biorstwo to znalazło się przed sądem z powodu prowadzenia dyskryminacyj nej polityki awansowania. Oczywiście i w tej strategii zdarzają się błędy prognozy. Zawsze będą tacy kandydaci, którzy zostaną odrzuceni, choć przyjęci zostali ci, którzy
Trafno
ść
,
c zyli o k r e ś l a n ie o b s z a r u z a s t o s o w a n ia t e s t u
uzyskali gorsze wyniki. Takie błędy prognozy są jednak nieuniknione i zda rzają się w każdej sytuacji selekcji, w której stosujemy niedoskonale trafny zbiór predyktorów. To, co rzeczywiście można zrobić na podstawie dostęp nych informacji o kandydatach, to podjęcie wysiłku minimalizowania błędów prognozy. Zaakceptowanie takiej koncepcji selekcji gwarantuje, że cel ten może zostać osiągnięty. Jakie są główne zarzuty w stosunku do tego stanowiska? Podstawowy zarzut, jaki można sformułować, dotyczy tego, co miało być siłą tej propozycji. Przypuśćmy, że dla jednej z grup nie można skonstruować trafnego zbioru predyktorów lub że zbiór skonstruowany dla tej grupy ma zdecydowanie niższą trafność niż zbiór dla drugiej grupy. W tej sytuacji nawet najlepsi kandydaci z tej grupy będą mieli mniejsze szanse na pozytywną decyzję w porównaniu z kandydatami należącymi do drugiej grupy. W tym sensie strategia selekcji może zostać potraktowana jako nieuczciwa w stosunku do członków tej grupy, dla której predyktor (zbiór predyktorów) ma niższą trafność. Wyobraźmy sobie taki skrajny przypadek, w którym trafność predyktora wynosi zero. Linia regresji wyznaczona dla wyniku testowego i wyniku kryterialnego dla tej grupy będzie wówczas równoległa do osi X (będzie pozioma). W tej sytuacji prognozowanym wynikiem kryterialnym będzie średnia grupowa. Jeżeli średnia wypadnie poniżej punktu odrzucenia przyjętego przez pracodawcę, to żadna osoba z tej grupy nie zostanie przyjęta. Jeżeli z kolei średnia znajduje się powyżej punktu odrzucenia, to wszyscy kandydaci z tej grupy mają jednakowe szanse na przyjęcie, i w efekcie najlepsi z nich nie będą promowani (Jensen, 1980, s. 394). Jednakże najbardziej na tym traci instytucja przyjmująca. W pierwszym wypadku bowiem zmienna predykcyjna nie pozwala na identyfi kowanie najlepiej rokujących kandydatów; w drugim zaś może zdarzyć się tak, że zostaną przyjęte osoby niekompetentne (Hunter, Schmidt, 1976, s. 1070). Warunkiem stosowania strategii indywidualizmu nieograniczonego jest zatem stworzenie maksymalnie trafnego zbioru predyktorów dla każdej z grup i upewnienie się, że różnica współczynników trafności w obu grupach jest najmniejsza z możliwych. Jeżeli okaże się, że nie jest to możliwe, stanowi to poważne wyzwanie dla uczciwej polityki selekcji. Zagorzały zwolennik tej strategii będzie jednak twierdzić, że żadna inna możliwość nie jest bardziej uczciwa niż ta, w której wykorzystuje się najlepszy z dostępnych zbiorów predyktorów, bowiem tylko w ten sposób można zminimalizować błędy prognozy. Czy rzeczywiście ta argumentacja jest do przyjęcia? Przyjrzyjmy się, co mają do zaproponowania zwolennicy pozostałych dwóch koncepcji.
Indywidualizm ograniczony Na gruncie indywidualizmu ograniczonego, podobnie jak w koncpecji indywidualizmu nieograniczonego, główny nacisk kładzie się na zasadę maksymalizowania trafności predykcyjnej. Jednakże przedstawiciele tego stanowiska wprowadzają zasadnicze ograniczenia w stosunku do zbioru
121
R o z d z ia ł 3
dopuszczalnych predyktorów: w procedurze selekcji nie wolno brać pod uwagę wszystkich tych zmiennych, na podstawie których można by ziden tyfikować, do jakiej grupy należy badana osoba. Tym samym takie zmienne, jak rasa, płeć, pochodzenie etniczne, nie mogą być - z zasady - włączane do zbioru zmiennych predykcyjnych (por. Hunter, Schmidt, 1976, s. 1058). W sytuacji, kiedy test wykorzystywany jako predyktor nie jest testem stronniczym, obie strategie prowadzą do takich samych rezultatów: każdy wynik w teście pozwala na dokonywanie trafnych prognoz niezależnie od przynależności grupowej. W wypadku testu stronniczego pojawia się jednak poważny problem. Zwolennik stanowiska indywidualizmu ograniczonego nie może bowiem zastosować różnych testów dla obu grup, gdyż identyfikacja grupowa jest zakazana. Nie może też, oczywiście, wykorzystać zmiennych identyfikujących przynależność grupową jako zmiennych predykcyjnych nawet wtedy, kiedy ich włączenie do zbioru predyktorów istotnie podniosłoby jego trafność predykcyjną. Zgodnie z koncpecją indywidualizmu ograniczonego, jednym ze sposobów radzenia sobie w sytuacji, kiedy wykorzystywany test okaże się testem stronni czym, jest włączanie do równania regresji dodatkowych zmiennych, nie po zwalających na identyfikację przynależności grupowej jednostki. To zaś może prowadzić do wybierania takich zmiennych, które skorelowane z kryterium, mogą też pośrednio być skorelowane23 z przynależnością grupową. Takimi zmiennymi są wszelkie dane biograficzne, np. data urodzenia, wykształcenie własne i wykształcenie rodziców lub miejsce zamieszkania. Czy posługiwanie się takimi danymi zamiast danymi dotyczącymi przynależności grupowej jest bardziej uczciwe, niż gdyby były to dane o rasie, płci czy religii? Przedstawiciele indywidualizmu ograniczonego zgadzają się, że płeć czy rasa to zmienne, które rzeczywiście posiadają trafność predykcyjną w wypad ku prognozowania wielu specyficznych osiągnięć szkolnych czy powodzenia w specjalistycznych zawodach. Źródło tej trafności nie jest jednak jasne i wzbudza spory wśród naukowców. Nie można zatem - nie znając istoty powiązania między predyktorem a kryterium - wykorzystywać tych zmien nych w równaniu regresji. Wykorzystywane predyktory powinny mieć trafność wewnętrzną, tj. po siadać jasne, funkcjonalne powiązania ze zmienną kryterialną. Jeżeli np. szukamy kandydatów do pracy na stanowisku urzędnika w banku, to możemy jako jedną ze zmiennych predykcyjnych zastosować test szybkości spo strzegania, jeżeli tylko wykażemy, że wyniki tego testu są powiązane z suk cesem w pracy na tym stanowisku. Zwolennicy indywidualizmu nieograni czonego będą jednak twierdzić, że - w tym sensie - każdy predyktor posiada trafność wewnętrzną, o ile jest istotnie skorelowany ze zmienną kryterialną.
122
21 Wskaźnik pośredni jest tu definiowany jako taka zmienna, która jest bardziej skorelowan z przynależnością grupową niż ze zmienną kryterialną (por. Jensen, 1980, s. 395).
Trafno
ść
,
c zyli o k r e ś l a n ie o b s z a r u z a s t o s o w a n ia t e s t u
Decyzja o tym, które zmienne można włączyć do zbioru predyktorów (za kładając, że wszystkie są istotnie skorelowane z kryterium), ma charakter subiektywny. To jednak nie podlega już żadnym metodom kontroli naukowej. Główną zaletą ograniczonego indywidualizmu - wedle jego orędowników - je s t możliwość wybierania spośród kandydatów osób najlepiej wykwalifi kowanych, i to - ich zdaniem - w sposób uczciwy, bowiem bez korzystania z informacji o przynależności grupowej badanych osób. Jest to strategia, która zmusza do poszukiwania zbioru najlepszych predyktorów, i to takich, które odwołują się wyłącznie do indywidualnych umiejętności jednostki (np. zdolności czy motywacji). Przeciwnicy tego stanowiska twierdzą natomiast, że jego zwolennicy - wbrew deklaracjom - nie starają się postępować zgodnie z zasadą maksymalizacji trafności predykcyjnej, bowiem odrzucają część danych (te o przynależności grupowej). Mogą natomiast włączać pośrednie wskaźniki przynależności grupowej, a nawet włączać do testu obciążone kulturowo pozycje testowe jako substytuty przynależności grupowej.
Dobór kwotowy Zgodnie ze stanowiskiem, którego istotą jest kwotowy (proporcjonalny) dobór kandydatów z grupy mniejszości i większości, pojęcie uczciwej selekcji nie odwołuje się do maksymalizowania trafności i minimalizowania błędów prognozy (indywidualizm nieograniczony) czy do tworzenia procedur nieza leżnych od przynależności grupowej (indywidualizm ograniczony). Zwolen nicy dobru kwotowego uważają, że uczciwa procedura selekcji to taka procedura, która w proporcjach przyjętych kandydatów z grupy mniejszości i większości uwzględnia szeroko rozumiane kryteria społeczne. I tak, jeżeli w danym mieście mieszka 45% czarnych i 55% białych, to każda strategia, która dopuszcza inne proporcje wśród wybranych białych i czarnych kan dydatów, jest „politycznie stronnicza” (Hunter, Schmidt, Rauschenberger, 1984, s. 56). Ustalanie uczciwych proporcji (ang. fair-share quotas) może być oparte na procentowym składzie populacji czy innych czynnikach, niezależnych od prognozowanego wyniku kryterium (Darlington, 1971). Strategia postępowania zgodnie z doborem kwotowym może być jawna lub ukryta w statystycznych procedurach selekcji. Jej istota pozostaje jednak nie zmieniona - dobieranie kandydatów z grupy mniejszości i większości w spo sób proporcjonalny powinno przeważać nad zasadą doboru według najwyż szego prognozowanego wyniku kryterialnego. Im szerzej będą definiowane obie grupy (mniejszości i większości), tym większe będą korzyści społeczne wynikające z doboru kwotowego i tym bardziej będą przeważać nad stratami wynikającymi z obniżenia prognozowanego wyniku kryterialnego. W strategii opartej na doborze kwotowym wychodzi się zatem z założenia, że warto poświęcić formalną zasadę dobierania kandydatów zgodnie z naj wyższym prognozowanym wynikiem kryterialnym na rzecz innych korzyści, mających większą wartość społeczną. Np. ze społecznego punktu widzenia
123
R o z d z ia ł 0
sprawą niezmiernie ważną może być podjęcie decyzji o preferowaniu kan dydatów z grupy mniejszości (wybranie większej ich proporcji), aby w ten sposób zrekompensować mniejsze ich szanse w przeszłości, i w ten sposób zadość uczynić przeszłej, niesprawiedliwej polityce społecznej (np. prefero wanie dzieci pochodzenia robotniczego i chłopskiego przy przyjmowaniu na studia wyższe w PRL, praktyka political correctness w USA czy prawnie usankcjonowane tworzenie drużyn sportowych w RPA, proporcjonalnie do rasowego składu populacji). Preferowanie kandydatów z grupy mniejszości jest zatem społecznie uzasadnione nawet wtedy, kiedy z konieczności zmusza do obniżenia ich prognozowanego wyniku kryterialnego i prowadzi do częstszych ich niepowodzeń w nauce czy pracy. Istota doboru kwotowego - choć działającego w odwrotnym kierunku, tj. dyskryminująco - znalazła swoje szczególne odzwierciedlenie w realizowanej w latach 30. w Polsce zasadzie numerus clausus (ograniczanie ogólnej liczby osób z pewnej kate gorii - tu: pochodzenia żydowskiego - przy przyjmowaniu na studia wyższe, do stowarzyszeń lub do pracy w urzędach)24 czy zasadzie numerus nullus (niedopuszczaniu w ogóle pewnych grup kandydatów do studiów czy stowa rzyszeń - por. też Walasek, 1994). Czy rzeczywiście ta strategia doboru jest społecznie uczciwa, i w związku z tym przeważa nad strategiami indywidualizmu nieograniczonego i ograni czonego? Podstawowym pytaniem w doborze kwotowym jest pytanie o to, jakie grupy społeczne powinny być w kwocie faworyzowane i jak duże powinny być to kwoty (proporcje). Bez względu na decyzję zawsze staniemy w obliczu następującego problemu: przyjęliśmy mniej wykwalifikowanych kandydatów (w terminach prognozowanego wyniku kryterialnego) z jednej grupy i odrzuciliśmy lepiej wykwalifikowanych kandydatów z drugiej. Wy brani kandydaci z grupy faworyzowanej zaakceptują selekcję kwotową z po wodu oczywistych korzyści, jakie im ona daje. Jednakże kandydaci z drugiej grupy, którzy mieli jednakowo wysokie wyniki testowe i zostali odrzucenie będą mieli zdecydowanie mniej powodów do zadowolenia. Problemu tego nie da się jednak rozwiązać w terminach psychometrycznych czy statystycz nych, a odpowiednia decyzja musi zostać podjęta na innych podstawach. Kiedy jednak decyzja ta zostanie już podjęta, można się odwołać do precyzyjnych, matematycznych strategii ustalania optymalnych punktów odrzucenia dla różnych grup i określić najbardziej prawdopodobne konsek wencje danej strategii (por. Roe, Greuter, 1991). Najczęściej jako optymalny sposób postępowania przy wypełnianiu odpowiednich kwot wybiera się
124
24 W sprawie zasady numerus clausus obowiązującej przy przyjmowaniu młodzieży po chodzenia żydowskiego na studia medyczne w Polsce por. też Wojtkiewicz-Rok (1996, s. 154-155), która opisuje wiec ogólnoakademicki mający miejsce 15 III 1923 roku na Uniwersytecie Poznańskim. Podczas tego wiecu postulowano zróżnicowanie zasady numerus clausus dla poszczególnych ośrodków akademickich w zależności od ich specyfiki. Ponieważ na terenie poznańskiego ludność żydowska stanowiła 1%) uczestnicy wiecu proponowali, aby na Uniwersytet Poznański przyjmować właśnie 1% osób tego pochodzenia.
Trafno
ść
,
czyli o k r e ś l a n ie o b s z a r u z a s t o s o w a n ia t e s t u
następująca zasadę: „dla każdej z grup należy - posługując się maksymalnie trafnym testem dla tej grupy - ustalić prognozowany wynik kryterialny” (Hunter, Schmidt i Rauschenberger, 1984, s. 79). Preferowana strategia selekcji kandydatów w ramach kwot odwołuje się zatem wprost do indy widualizmu nieograniczonego, tj. maksymalizowania wyniku kryterialnego i minimalizowania błędu prognozy wewnątrz każdej grupy. Jakie zatem zastrzeżenia można sformułować pod adresem tej koncepcji? Jak się wydaje, podstawowy problem strategii opartej na doborze kwotowym polega na tym, że średni wynik kryterialny kandydatów z grupy mniejszości jest zawsze niższy od średniego wyniku kandydatów z grupy większości, a przecięt na różnica między wybranymi kandydatami z grupy większości i mniejszości będzie się powiększać. Ta cecha charakterystyczna doboru kwotowego ma znaczenie nie tylko ze statystycznego punktu widzenia, ale przede wszystkim z powodu społecznych konsekwencji. Jak pisali Hunter i Schmidt (1976, s. 1069): „dobór kwotowy w sposób oczywisty zaniża średnie wyniki uczniów kończących szkołę, i dlatego musi obniżać jej prestiż. Podobne uwagi można sformułować w stosunku do rynku pracy”. Dobór kwotowy może też stać się - wbrew intencji jego zwolenników - narzędziem dyskryminacji (określanie grup mniejszości i większości dla doraźnych celów politycznych). Inne zastrzeżenie sformułowane przez Huntera i Schmidta ( ibidem ) dotyczy konsekwencji strategii doboru kwotowego dla kandydatów z preferowanej grupy mniejszości. Ich zdaniem, osoby należące do grupy mniejszości i wy brane zgodnie z systemem kwotowym, które zostałyby również wybrane, gdyby zastosować strategię indywidualizmu nieograniczonego, płacą społecz ne koszty w postaci mniejszego prestiżu i mniejszej samooceny. Jest to spowodowane ogólnie niższymi wynikami kryterialnymi całej grupy mniej szości i traktowaniem wszystkich osób należących do tej grupy jako mniej wykwalifikowanych w porównaniu z odrzuconymi kandydatami z grupy większości. A to powinno uwrażliwić wszystkich decydentów na, być może, zbyt duże koszta indywidualne - w porównaniu z zyskami społecznymi - wynikające ze stosowania strategii selekcji opartej na doborze kwotowym. Literatura na temat stronniczości selekcji nie dostarcza definicji uniwer salnej, dającej się zastosować w każdej sytuacji społecznej, nawet jeżeli pojęcie uczciwej selekcji ograniczymy wyłącznie do trafności prognostycznej. Jak się wydaje, ogromną rolę w podejmowaniu decyzji dotyczących prefero wanych strategii selekcji odgrywają przyjęte systemy wartości. Odwołanie się wyłącznie do procedur statystycznych nie jest tu rozwiązaniem, chyba że uznamy, iż jedynym celem selekcji jest maksymalizacja trafności prognozy wyniku kryterialnego. Ta ostatnia zasada sama w sobie jest już jednak wartością i jak przekonywał Ellett (1980), powinna również stać się przed miotem moralnej debaty (szerzej na temat pojęcia uczciwej selekcji i modeli decyzyjnych wykorzystywanych dla potrzeb selekcji por. Anastasi, Urbina, 1999; Homowska, 1999, 2000b).
125
R
o z d z ia ł
126
3
P o d s u m o w a n i e . Nasza refleksja na temat stronniczości testu i jego uczciwego stosowania na pozór wykracza poza obszar tradycyjnie zarezer wowany dla problematyki trafności. Jednakże zagadnienia te - co, mam nadzieję, udało się wyraźnie pokazać - są ściśle powiązane z trafnością testu, a analiza stronniczości powinna być traktowana jako element badań walidacyjnych. Badania nad stronniczością w sposób oczywisty rozszerzają nasze rozumienie trafności testu. Wczesne standardy dotyczące wymogu trafności można nazwać „wymo giem prawdziwości etykietowania” - twórca testu musiał wykazać, że test mierzy to, co z założenia ma mierzyć. Rosnące zainteresowanie testami i wadliwe ich stosowanie zwiększyły społeczny nacisk na wymóg trafności. Po to, aby można było prowadzić badania, które potwierdziłyby wnioski wyciągane na podstawie wyników testowych, badacze musieli umieć sfor mułować te wnioski i następnie je badać. Stało się wyraźne, że wnioski te zależą od konkretnego zastosowania testu. Już w 1971 roku Cronbach (1971) twierdził, że jeżeli wyniki testowe mają stać się podstawą decyzji (zwłaszcza selekcyjnych), to konsekwencje tych decyzji muszą być elementem badań walidacyjnych. Stąd w Standardach dla testów stosowanych w psychologii i pedagogice wydanych w 1985 roku (APA, 1985b) sformułowano już - idąc za Cronbachem (1971) - następującą dyrektywę: jeżeli test jest wykorzys tywany np. do podejmowania decyzji o kierowaniu do różnych placówek (np. szkół specjalnych), należy wykazać, że idący za tym inny sposób oddziaływania stanie się skuteczny. Kluczowym pojęciem staje się skutecz ność - dzieci skierowane do szkół specjalnych muszą się lepiej rozwijać tam, niż gdyby zostały w dotychczasowym środowisku. Podczas gdy tradycyj ne badania walidacyjne można określić jako udowadnianie prawdziwości w etykietowaniu, współczesne można porównać do testowania nowego leku - z jednakowym naciskiem na efekty uboczne, jak i zamierzone korzyści. Problem stronniczości testów psychologicznych nie może być więc prob lemem ignorowanym przez psychologów. Każdy test powinien zostać obiek tywnie zbadany pod tym względem za pomocą wszelkich dostępnych technik psychometrycznych i statystycznych. Jeżeli hipoteza o istnieniu stronniczości testu zostanie potwierdzona, kwestionowanej metody nie powinno się stoso wać przynajmniej do badania tej grupy, która jest przez nią dyskryminowana, lub powinna być ona stosowana w sposób umożliwiający kontrolowanie wyników testowania ze względu na stronniczość. Warto też pamiętać że w stronniczych testach można często zrewidować oraz wyeliminować - jeżeli nie całkowicie, to w sposób wyraźny - ich stronniczość w stosunku do konkretnej grupy społecznej. Nim jednak zdecydujemy się odrzucić jakiś test całkowicie, powinniśmy także koniecznie rozważyć, czy to co nam zostaje w zamian - a więc pozatestowe techniki szacowania - gwarantuje mniej stronnicze i bardziej uczciwe decyzje w stosunku do zdefiniowanej, określonej grupy osób badanych.
Trafno
ść
,
c zy li o k r e ś l a n ie o b s z a r u z a s t o s o w a n ia t e s t u
Zakończmy tę część cytatem z dzieła wielkiego filozofa: „Zane j e s t s t a r e p o w i e d z e n i e g ł o s z ą c e , iż r ó w n o ś ć c z y n i p r z y j a z n e u c z u c i a mi ę d z y ludźmi. S ł u s z n e jest o n o i t r a f ne. A 1e j a k t ak ą r ó w n o ś ć z n a 1e ź ć, n i e u ś w i a damiamy sobie jasno, i z tego powodu w s z y s t ko stra s z l i w i e m ą c i s i ę i m i e s z a ” (IV Księga Praw Platona).
Podstawowe pojęcia: • • • • • • • • •
dobór kwotowy indywidualizm nieograniczony indywidualizm ograniczony kontaminacja kryterium macierz wielu cech-wielu metod stronniczość testu trafność trafność fasadowa trafność kryterialna trafność diagnostyczna trafność prognostyczna • trafność teoretyczna • trafność treściowa • uniwersum treści
Literatura zalecana Anastasi A., Urbina S. (1999). Testy psychologiczne. Warszawa: Pracownia Testów Psychologicznych Polskiego Towarzystwa Psychologicznego. Brzeziński J. (1996). M etodologia badań psychologicznych. Warszawa: Wy dawnictwo Naukowe PWN. Guilford J.P. (1988b). Rzetelność i trafność pomiarów. Biblioteka Psychologa Praktyka. Tom II: Problem y teorii, rzetelności, konstrukcji i analizy wyników testów psychologicznych (s. 51-103). Warszawa: Polskie Towa rzystwo Psychologiczne, Laboratorium Technik Diagnostycznych. Hornowska E. (1999). Stronniczość testów psychologicznych. Problemy - kie runki - kontrowersje. Poznań: Wydawnictwo Fundacji Humaniora. Jakubowski J. (1983). Elementy klasycznej teorii trafności testów psycho logicznych, w: W.J. Paluchowski (red.), Z zagadnień diagnostyki osobowo ści (s. 223-247). Wrocław-Warszawa: Ossolineum.
127
R o z d z ia ł 4
N O R M Y , CZYLI N A D A W A N IE ZN A C Z E N IA W Y NIK O M T E ST O W Y M Termin „norma” zgodnie ze słownikową definicją oznacza „ustaloną, ogólnie przyjętą zasadę; regułę, przepis czy wzór” (Szymczak, 1979, tom II, s. 389). Jest to pojęcie powszechnie i wszechstronnie wykorzystywane. Możemy się z nim spotkać, mówiąc np. o normie czasu pracy, normie moralnej, normie psychicznej, normie technicznej, normie wiekowej czy wreszcie normie grupowej. Generalnie rzecz biorąc, posługując się pojęciem normy, mamy na myśli (por. Swirydowicz, 1985): a) powszechność, masowość, częstość występowania określonego zachowa nia (cechy) w populacji; b) zgodność z oczekiwaniami, konwencją, wzorami zachowań charaktery stycznymi dla danej populacji; c) zgodność z zasadami obowiązującymi w danej populacji. Sowa (1984) wyróżnia trzy koncepcje normy: normę definiowaną przez kryterium teoretyczne, kryterium kulturowe i kryterium statystyczne. Zgodnie z k r y t e r i u m t e o r e t y c z n y m norma wyznaczona jest przez jakąś teorię (koncepcję) psychologiczną. Zasadniczym znaczeniem terminu norma jest pewien wzór (model) wynikający z przyjętej teorii, pozostałe zaś zna czenia mieszczą się w tych ramach. Według k r y t e r i u m k u l t u r o w e g o normę określają przepisy i wzory kulturowe. Bez względu na treść tych wzorów istotą normy jest zgodność z takim przepisem. Z kolei według k r y t e r i u m s t a t y s t y c z n e g o normą jest to, co jest opisywane jako „zachowanie większości” czy jako „zachowanie średnie lub przeciętne” (por. ibidem). Co zatem oznacza pojęcie „normy” na gruncie psychometrii? 4.1. POJĘCIE NORMY W PSYCHOMETRII Przypuśćmy, że osoba badana otrzymała w teście 20 pkt. Jest to tzw. w y n i k s u r o w y (ang. raw score) otrzymany w tym teście. Czy możemy ten wynik już zinterpretować, czyli określić, jak jest on wysoki? Dopóki nie będziemy dysponować jakimś układem odniesienia, taka interpretacja nie jest możliwa. Wyniki testowe jako takie (tj. wyniki surowe) pozbawione są znaczenia psychologicznego. Nie wiemy bowiem (Matuszewski, 1984, s. 58):
N
o r m y , c z y l i n a d a w a n ie z n a c z e n ia w y n ik o m t e s t o w y m
a) czy na tle określonej populacji otrzymany wynik surowy jest wynikiem przeciętnym, niskim czy też może wysokim; b) na ile odbiega od wyniku przeciętnego, jeżeli nie jest to wynik przeciętny; c) czy odchylenie od wyniku przeciętnego - w porównaniu z innymi osobami z populacji - jest znaczące; d) jak ocenić aktualnie otrzymany wynik w teście na tle wyników po przednio otrzymanych przez tę osobę. Jednym ze sposobów nadawania znaczenia wynikom testowym jest odnosze nie ich do n o r m 1. Normą - w sensie psychometrycznym - jest „standard ilościowy, wyznaczony przez średnią, medianę lub inną miarę tendencji central nej obliczoną dla grupy przedstawicieli danego typu (gatunku)” (por. Ricks, 1993, s. 50). Mówiąc inaczej, normą jest typowe zachowanie (typowy wynik w teście) otrzymany dla określonej grupy osób. W psychometrii zatem przyjmu jemy statystyczne rozumienie normy (por. wyżej). Podkreślmy wyraźnie: norma nie oznacza standardu „dobrego” wykonania testu; norma opisuje poziom t y p o w e g o wykonania testu przez osoby należące do określonej grupy. Dzięki istnieniu norm możemy odpowiedzieć na pytanie „jaka jest wartość wyniku testowego otrzymanego przez osobę badaną w stosunku do wyników otrzymanych przez inne osoby” (por. Niemierko, 1975, s. 136). Co więcej, odwołanie się do norm pozwala na porównywanie ze sobą dwóch wyników testowych. Przeprowadzanie takiego porównania bezpośrednio dla wyników surowych nie jest możliwe, ponieważ każdy z nich może być wyrażony w różnych jednostkach i mógł zostać otrzymany w testach różniących się poziomem trudności (por. Anastasi, Urbina, 1999, s. 77). Dopiero przeliczenie wyników surowych na wspólną skalę pozwala na dokonanie takiego porówna nia. Jak pisze Jaworowska (1996, s. 10), „jeśli stosujemy test w diagnozie indywidualnej i chcemy orzekać o właściwościach psychologicznych badane go, to podstawą formułowanych wniosków jest zawsze ocena, j a k ów b a d a n y w y p a d a na t l e i n n y c h o s ó b. Wybór tła ma kluczowe znaczenie dla efektu końcowego, czyli formułowanych wniosków”. Istotą normatywnej interpretacji wyników testowych jest zatem odwołanie się do sposobu wykonania danego testu przez określoną grupę osób. Grupa ta stanowi tzw. g r u p ę o d n i e s i e n i a , inaczej nazywaną też g r u p ą n o r m a l i z a c y j n ą . Wybór właściwej grupy normalizacyjnej jest istotnym czynnikiem decydującym o jakości interpretacji wyników testowych.
Znaczenie grupy odniesienia Zgodnie ze Standardami... (1985a, s. 28) „normy przedstawiane w pod ręczniku testowym powinny zostać opracowane dla wyraźnie zdefiniowanych 1 Innym sposobem interpretacji wyników testowych jest odwoływanie się do treści, co ma miejsce w tzw. testach zorientowanych na kryterium. Zagadnienie to krótko omówimy na końcu tego rozdziału. 129
R o z d z ia ł 4
populacji. Populacje te muszą odpowiadać tym grupom osób, z którymi badający testem będzie zazwyczaj porównywał osoby badane”. Co to ozna cza? Oznacza to tyle, że właściwa interpretacja wyników testowych zależy od cech charakterystycznych tej grupy osób, której wyniki zostały wykorzys tane do obliczenia norm. Jak piszą Gaul i Zakrzewska (1993, s. 107), „Jest rzeczą oczywistą, że struktura próby osób badanych (...) powinna, tak dalece jak jest to możliwe, odzwierciedlać strukturę populacji, dla której test ten jest przeznaczony. Innymi słowy, próba powinna być dla tejże populacji reprezentatywna”. Problem polega na tym, że prosty dobór losowy, z jakim najczęściej kojarzymy pojęcie reprezentatywności, nie jest najlepszym rozwiązaniem wtedy, kiedy więcej niż jedna cecha charakteryzująca populację (np. wiek, płeć, miejsce zamieszkania czy wykształcenie) jest istotna dla badanego problemu (ibidem). Lepsze rozwią zanie w takim wypadku to dobór warstwowy lub dobór kwotowy, gwarantujący, że cechy uznane za ważne zostaną proporcjonalnie odzwierciedlone w próbie. D o b ó r w a r s t w o w y - mówiąc najprościej - polega na podzieleniu populacji na warstwy2 i niezależnym losowaniu określonej liczby osób z każdej warstwy (Brzeziński, 1996, s. 241). Wariant proporcjonalny losowa nia warstwowego dodatkowo pozwala nam na uwzględnienie proporcjonal nego wkładu każdej warstwy do całej próby. Jak piszą Frankfort-Nachmias i Nachmias (2001, s. 202), „Badacze posługują się próbą warstwową przede wszystkim po to, aby mieć pewność, że różne grupy składające się na populację są właściwie reprezentowane w próbie”. Ten sposób doboru próby normalizacyjnej jest bardziej użyteczny i lepiej reprezentuje populację pod względem kryteriów podziału na warstwy niż próba wylosowana w sposób indywidualny nieograniczony (ibidem). D o b ó r k w o t o w y z kolei polega na takim doborze próby, aby uzyskać maksymalne podobieństwo do wyjściowej populacji (Frankfort-Nachmias, Nachmias, 2001, s. 199). Istotą doboru kwotowego jest określenie procen towego składu populacji i odtworzenie go w próbie. I tak jeżeli wiadomo, że 52% populacji stanowią kobiety, a 48% mężczyźni, w próbie liczącej 100 osób powinny się znaleźć dokładnie 52 kobiety oraz 48 mężczyzn. Jeżeli normy testowe mają być psychologicznie użyteczne, to w „podręcz niku testowym opis próby normalizacyjnej powinien być na tyle dokładny, aby badający testem umiał ocenić jej adekwatność, biorąc pod uwagę sposób, w jaki korzysta z testu” (Standardy..., 1985a, s. 29). Normy testowe opisują bowiem poziom wykonania określonej grupy osób i w tym sensie zawsze mają charakter r e l a t y w n y . Bez posiadania informacji o tym, kto tworzył
130
2 Warstwa jest to grupa osób minimalnie różniących się między sobą pod względem wartości cechy będącej kryterium podziału na warstwy. I tak np. możemy osoby podzielić na trzy homogeniczne warstwy ze względu na poziom wykształcenia. Do pierwszej warstwy będą należeć tylko te osoby, które mają wykształcenie podstawowe, do drugiej te z wykształceniem średnim, a do trzeciej - osoby z wykształceniem wyższym.
N
o r m y , c z y l i n a d a w a n ie z n a c z e n ia w y n ik o m t e s t o w y m
grupę normalizacyjną, użytkownik testu nie może ocenić przydatności pub likowanych norm do własnych celów. Podkreślmy jeszcze raz: normy testowe opisują typowy poziom wykonania testu przez ściśle określoną grupę odniesienia. Znajomość tej grupy jest kluczem do prawidłowej interpretacji wyników testowych. Ważnym czynnikiem, który musimy wziąć pod uwagę przy określaniu grupy odniesienia, jest jej w i e l k o ś ć . Reprezentatywność próby zależy bowiem nie tylko od procedury wyboru osób, które wchodzą w jej skład, ale także od jej wielkości (por. Magnusson, 1981, s. 361). Dlatego też w podręczniku testowym zawsze powinny się znaleźć informacje o wielkości badanej próby, a gdy próba jest zbyt mała, „należy zachować wielką ostrożność przy wykorzystywaniu danych normalizacyjnych do porównań w sytuacjach decyzyjnych” {ibidem). Kolejnym ważnym czynnikiem decydującym o jakości zebranych danych normatywnych jest ich a k t u a l n o ś ć . Jeżeli nawet odpowiednie dane tes towe będące podstawą obliczenia norm zostały zebrane dla dobrze określonej grupy (lub grup), lecz miało to miejsce dawno temu, to mogą one przyczyniać się do błędnych interpretacji. Zgodnie ze Standardami... (1985b, s. 33) dane normatywne prezentowane w podręczniku testowym powinny zawierać in formacje o roku, w którym zostały zebrane. Tylko wtedy każdy użytkownik testu może ocenić ich przydatność dla własnych celów. Pamiętajmy, że normy testowe starzeją się z różnych powodów. Cronbach (1990, s. 130) podaje następujący przykład dezaktualizacji norm. W jednym z testów „umiejętności strukturalizacji” zadania polegały na układaniu koła z przedstawionych dziewięciu nieregularnych elementów. W pierwszej wersji testu elementy, z których układano koło, wykonane były z aluminium. Po paru latach zastosowano elementy z cięższego drewna, bo tak było wygodniej i taniej. Norm nie zmieniono, bo autorom testu wydawało się, że niedługi czas, jaki upłynął od badań normalizacyjnych (kilka lat), nie ma w tym wypadku większego znaczenia. Tymczasem okazało się, że zasadniczo zmie nił się średni czas układania zadań w tym teście: wzrósł ze 140 do 182 sekund dla tych samych osób badanych! Brak nowych norm prowadził zatem do poważnych błędów w interpretacji wyników testu. Wiedząc o tym, autorzy innego testu, testu „Szybkości i dokładności spostrzegania”, obliczali nowe normy za każdym razem, gdy tylko zmieniał się arkusz odpowiedzi. Inne normy obowiązywały, kiedy na jednej stronie arkusza mieściło się 51 zadań, inne gdy 42 zadania, a jeszcze inne w trzeciej wersji, gdy na jednej stronie mieściło się 48 zadań {ibidem).
Normy ogólnokrajowe Jednym ze sposobów interpretowania wyników testowych jest odwołanie się do wyników - reprezentujących z założenia - populację ogólną. I tak np. normy otrzymane w próbie, która odzwierciedla populację uczniów klas ósmych, wszystkich dorosłych Polaków, pracowników kopalń czy kobiet, są
131
R o z d z ia ł 4
n o r m a m i o g ó l n o k r a j o w y m i . Normy tego typu są użyteczne w wy padku wszystkich rodzajów testów. Chronią one przed zbyt wąskim („za ściankowym”) sposobem interpretacji wyników testowych. Umożliwiają bowiem zestawienie wyników otrzymanych przez osobę badaną z wynikami reprezentującymi populację całego kraju. Ogólnokrajowa próba normalizacyjna była podstawą w opracowaniu pol skich norm m.in. dla S k a l i I n t e l i g e n c j i W e c h s l e r a W A I S - R . Badana próba została zdefiniowana kwotowo ze względu na cztery zmienne metryczkowe: wiek, płeć, miejsce zamieszkania oraz wykształcenie, i liczyła 1817 osób (Gaul, Zakrzewska, 1993, s. 107). Ostateczny kształt próby został opracowany na podstawie Mikrospisu Ludności z roku 1984, przeprowadzo nego przez Główny Urząd Statystyczny. W tab. 4.1 przedstawiono szcze gółowy skład próby normalizacyjnej dla Skali WAIS-R(PL). Normy ogólnokrajowe są bardzo użyteczne, mają jednak pewne ograni czenia. Nie zawsze bowiem pozwalają na uzyskanie rzeczywiście potrzebnych Tab. 4.1. Kwotowy układ polskiej próby normalizacyjnej dla testu WAIS-R(PL) (opracowano na podstawie Gaul, Zakrzewska, 1993, s. 116-117)
Grupa wiekowa
Płeć
Miasto poniżej Miasto powyżej 100 000 mieszkańców 100 000 mieszkańców wykształcenie 4 2 3 18 9 11 15 -
Wieś
wykształcenie 1 -
2 -
3
4
10 13
23 21
1 -
wykształcenie 4 2 3 32 9 30 11 -
16-17
M K
1 -
18-19
M K
— -
5 10
18 14
6 5
-
2 7
20 18
7 6
-
2 6
27 24
14 12
20-24
M K
1 1
15 21
12 7
3 2
1
9 16
14 9
3 3
-
8 16
26 17
9 7
25-34
M K
5 6
11 16
12 8
4 4
3 3
10 16
14 9
5 5
1 1
6 10
19 10
12 12
35-44
M K
7 6
10 15
10 6
6 8
4 3
10 13
11 6
8 11
1 1
4 5
10 5
19 21
45-54
M K
6 4
9 12
8 4
9 13
3 2
8 8
8 4
12 16
1 1
3 3
6 2
29 33
55-64
M K
5 2
8 8
5 3
12 18
2 1
6 4
5 2
15 21
-
2 1
3 1
38 41
65-69
M K
3 1
7 7
5 2
12 20
1 -
4 3
4 1
16 ' 21
-
1 1
2 1
45 45
70-74
M K
3 1
6 6
4 2
13 21
1 -
3 3
4 1
16 22
-
1 1
2 -
47 45
Łącznie - 1817 osób
132
Oznaczenia: 1 - pełne wyższe; 2 - pełne średnie, policealne, niepełne wyższe; 3 - średnie nieukończone, zasadnicze zawodowe; 4 - podstawowe oraz brak danych.
N
o r m y , c z y l i n a d a w a n ie z n a c z e n ia w y n ik o m t e s t o w y m
informacji. Wyobraźmy sobie, że interesuje nas to, jak na tle innych kan dydatów zgłaszających się do pracy w zawodzie programisty wypada kon kretna osoba. W takiej sytuacji ocena jej wyniku na tle wszystkich osób w jej grupie wiekowej mogłaby się okazać nad wyraz korzystna. Gdyby jednak ten sam wynik zestawić tylko z wynikami innych osób starających się o taką samą pracę, ocena ta mogłaby być zupełnie inna.
Normy lokalne W bardzo wielu sytuacjach zatem z punktu widzenia konkretnego celu testowania użyteczniejsze są tzw. n o r m y l o k a l n e . Ponieważ rzadko daje się opracować normy rzeczywiście reprezentatywne dla populacji ogólnej, dlatego najczęściej oblicza się je dla wąsko zdefiniowanych populacji, odpowiadających specyficznemu wykorzystaniu danego testu. Są to właśnie normy lokalne. Przymiotniki „ogólne” i „lokalne” są terminami relatywnymi i ich znacze nie zależy od punktu zakotwiczenia. Ricks (1993, s. 50) podaje następujący przykład ilustrujący oba znaczenia: szkolnictwo klasa budynek system stan lub region naród
przemysł stanowisko pracy fabryka spółka przemysł stalowy cały przemysł
Na obu listach kategoria pojawiająca się wcześniej jest „lokalna” w stosun ku do kategorii następnej. Najczęściej jako lokalne traktuje się normy opisu jące najwęziej zdefiniowane grupy; w naszym przykładzie byłyby to pierwsze dwie kategorie z listy (ibidem). Normy lokalne odwołują się zatem do rozkładów częstości wyników testo wych w grupach o mniejszym zakresie i są wykorzystywane dla realizacji wąsko zdefiniowanych celów. Takimi normami mogą być średnie wyniki testu wiadomości z określonego przedmiotu, uzyskane przez uczniów danego roczni ka w danej szkole, czy też przeciętne wyniki uzyskiwane w testach przez kandydatów starających się o określone stanowisko w danym przedsiębiorstwie. Odwołanie się do norm lokalnych zamiast do norm ogólnokrajowych prowadzić może do zupełnie odmiennych interpretacji (patrz przykład wyżej). Dlatego też „ w y n i k u z y s k a n y w t e ś c i e n a l e ż y i n t e r p r e t o wać j ako o c e n ę w y k o n a n i a testu w o k r e ś l o n y c h w a r u n k a c h [i na tle określonej grupy odniesienia - przyp. E.H.], a n ie j a k o b e z w z g l ę d n ą w ł a ś c i w o ś ć badanego, dającą się u o g ó l n i a ć na w s z e l k i e i n n e o k o l i c z n o ś c i”. To zdanie ze Standar dów... (1985a, s. 79) każdy użytkownik testów powinien uznać za pod stawową zasadę postępowania.
133
R o z d z ia ł 4
4.2. RODZAJE NORM ZE WZGLĘDU NA SPOSÓB ICH KONSTRUKCJI Istnieje wiele różnych sposobów przedstawiania norm. Do najczęściej spotykanych należą normy typu standardowego, normy typu rangowego (centyle) oraz normy typu równoważnikowego (tzw. równoważniki wieku i równoważniki klasy). Omówimy je pokrótce. > N o r m a p s y c I h o m e t r y c z n a jest to standard ilościowy, wyznaczony przez liczbę osób uzyskujących dane wyniki lub przez średnią, medianę czy inną miarę tendencji centralnej, obliczoną dla przedstawicieli danej grupy. Ze względu na sposób definiowania grupy odniesienia wyróżniamy: • normy ogólnonarodowe • normy lokalne Ze względu na sposób konstrukcji wyróżniamy: • normy typu standardowego • normy typy rangowego • normy typu równoważnikowego
Normy standardowe Normy standardowe powstają przez przekształcenie wyników surowych otrzymanych wr teście na wyniki standardowe z. Przekształcenia tego doko nujemy według wzoru (por. np. Fergusson, Takane, 1997, s. 92):
Xi-X
z = -------
5'
gdzie: X t oznacza wynik surowy w teście, jaki otrzymała osoba badana, X oznacza średni wynik w tym teście dla właściwej grupy odniesienia, a s ozna cza odchylenie standardowe wyników tego testu w tej samej grupie odniesienia. Wyniki standardowe mają średnią równą 0 i odchylenie standardowe równe 1. Mówiąc inaczej, wynik z pokazuje nam, jak bardzo wynik surowy otrzymany przez daną osobę badaną odchyla się od średniego wyniku grupowego. Odleg łość ta jest wyrażona w jednostkach odchylenia standardowego (por. rys. 4.1). Znając wynik z danej osoby, możemy powiedzieć, czy jest to wynik wysoki (powyżej średniej i ile powyżej) lub niski (poniżej średniej i ile poniżej). Najbardziej przyjętą typologią wyników jest następująca klasyfikacja3: • wyniki bardzo niskie: -2 z i poniżej (około 2,27% populacji) • wyniki niskie: - I z do - 2 z (około 13,59% populacji) • wyniki przeciętne: - l z do + lz (około 68,26% populacji) • wyniki wysokie: + lz do +2z (około 13,59% populacji) • wyniki bardzo wysokie: +2z i powyżej (około 2,27% populacji) Jeżeli zatem nasza osoba badana otrzymałaby wynik surowy 20 pkt. i po przeliczeniu na wyniki z okazałoby się, że wynik ten odpowiada wartości
134
3 Każda klasyfikacja ma charakter umowny. N ic nie stoi zatem na przeszkodzie, ab wprowadzać inne typologie wyników. Tak zrobił np. Wechsler, który dokonując klasyfikacji ilorazów inteligencji, odwołał się nie do wartości odchylenia standardowego, a do tzw. błędu prawdopodobnego pomiaru (por. Brzeziński, 1993; Brzeziński i in., 1996, s. 22).
o r m y , c z y l i n a d a w a n ie z n a c z e n ia w y n ik o m t e s t o w y m
Tetrony
Rys. 4.1. Normy typu standardowego (opracowano na podstawie Seashore, 1955)
N
135
R o z d z ia ł 4
+2,25z, to możemy powiedzieć, że jej wynik - na tle tej grupy odniesienia - może być oceniony jako wysoki. Ze skalą wyników z nie spotykamy się jednak w podręcznikach testowych. Dlaczego? Powód jest bardzo prosty. Interpretowanie wyników testowych - jeśli pamięta się o tym, że punkt 0 nie oznacza początku skali, a wartość średnią, oraz 0 tym, że co innego oznaczają wyniki ujemne, a co innego wyniki dodatnie - może być kłopotliwe. Dlatego też zaproponowano, aby dokonując kolejnej transformacji liniowej, przekształcić wyniki z w taki sposób, by początek skali znajdował się po lewej stronie, a kolejne punkty skali miały wyłącznie wartości dodatnie. Transformacja tego typu polega na wybraniu dla nowej skali jej wartości średniej i jej odchylenia standardowego. Ogólnie wzór transformacyjny ma następującą postać: jednostka nowej skali —(S)(z) + M
136
gdzie: M oznacza średnią nowej skali, S jest odchyleniem standardowym nowej skali, a z to wynik standardowy. Wybierając dowolne kombinacje wartości średniej (M) i odchylenia standardowego (S ), można stworzyć nieskończenie wiele nowych skal, na które można przeliczyć wyniki surowe otrzymane w teście. W praktyce upowszechniło się kilka konkretnych skal 1 są one zazwyczaj wykorzystywane w podręcznikach testowych. Skala T. Jedną z najpopularniejszych skal tego typu jest Skala T opracowa na przez McCalla (1939). Skala ta została tak nazwana na cześć profesora E.L. Thorndike’a. Parametry tej skali są następujące: M = 50, S = 10. Skala ta obejmuje swoim zasięgiem przedział od -5 do +5 odchyleń standardowych w rozkładzie normalnym (por. rys. 4.1). Dzięki temu jest to skala o najwięk szym zakresie i znakomicie nadaje się do różnicowania zarówno bardzo niskich, jak i bardzo wysokich wyników. Jest ona rutynowo wykorzystywana w kwestionariuszu MMPI. Skala ta liczy 101 jednostek (od 0 do 100 pkt.). Wyniki surowe przelicza się na skalę T według następującego wzoru: T = lOz + 50. Skała stenowa. Kolejną często stosowaną skalą wyników przeliczonych jest tzw. skala stenowa. Jej nazwa pochodzi od ang. standard ten , czyli „standardowa dziesiątka”. Parametry tej skali są następujące: M = 5,5, 5 = 2. Jest to skala 10-punktowa, obejmująca swym zasięgiem od -2,25 do +2,25 odchylenia standardowego wyników w rozkładzie normalnym (por. rys. 4.1). Liczy ona 10 jednostek. Skalę tę możemy znaleźć np. w K w e s t i o n a r i u s z u T e m p e r a m e n t u P T S Strelaua i Zawadzkiego (1998). Wyniki surowe przelicza się na skalę stenową według następującego wzoru: sten - 2 z + 5,5. Skala staninowa. Skala staninowa to skala 9-punktowa. Liczy ona 9 jed nostek, stąd jej nazwa od ang. standard nine („standardowa dziewiątka”). Skala ta pierwotnie została skonstruowana dla potrzeb Armii Stanów Zjednoczonyćh, a dziś jest szeroko wykorzystywana w różnego rodzaju testach.
N
o r m y , c z y l i n a d a w a n ie z n a c z e n ia w y n ik o m t e s t o w y m
Powód powstania tej skali był nader prozaiczny. Stosowane w tym czasie karty perforowane, m.in. do komputerów i sorterów IBM, zawierały w każdej kolumnie jedynie dziewięć pól - można zatem było wprowadzić tylko 9 war tości dla każdej zmiennej. Stąd powstała konieczność przeliczania wyników surowych tylko na 9 wartości przeliczonych (Mehrens, Lehman, 1973, s. 153). Skala ta rozciąga się od - 2 do +2 odchyleń standardowych wyników w rozkładzie normalnym. Jest to najkrótsza ze skal (obejmuje swoim zasię giem środek rozkładu normalnego - por. rys. 4.2), i dlatego nadaje się do testów, które są przeznaczone dla szeroko rozumianej normy. Skalę staninową wykorzystali np. Zawadzki i Strelau (1997), opracowując normy do stworzo nego przez siebie K w e s t i o n a r i u s z a T e m p e r a m e n t u ( F C Z - KT ) . Parametry tej skali są następujące: M = 5, 5 = 2, a wyniki surowe przelicza się na skalę staninową według następującego wzoru: Stanin = 2z+5. Na rys. 4.1 przedstawiono powszechnie przyjętą interpretację wyników prze liczonych na skalę staninową (por. Cohen, Swerdlik, 1999, s. 113). Rys. 4.2. Rozkład normalny a skala staninowa (opracowano na podstawie Cohen, Swerdlik, 1999, s. 113)
Skala ilorazów inteligencji IQ. Skala ilorazów inteligencji IQ została upowszechniona dzięki testom inteligencji Davida Wechslera. Zaproponował on przedstawianie wyników na skali o średniej równej 100 i odchyleniu standardowemu równemu 15 pkt. Powstała w ten sposób skala tylko z nazwy nawiązuje do klasycznego rozumienia pojęcia ilorazu inteligencji i jest taką samą skalą wyników standardowych, jak skale opisane powyżej (por. Brzeziń ski, 1993, s. 84-93; też Anastasi, Urbina, 1999, s. 96-97). Wyniki surowe przelicza się na skalę IQ według następującego wzoru: IQ - 15z+ 100. Skala tetronowa. Ostatnią z prezentowanych skal (przypominamy jednak, że skal standardowych można stworzyć nieskończenie wiele - por. wyżej) jest skala często stosowana w testach wykorzystywanych w poradniach psychologiczno-pedagogicznych w Polsce. Skala ta została opracowana przez Matuszewskiego (1984). Jest to skala 21-punktowa (od 0 do 20 punktów)
137
R
o z d z ia ł
4
i obejmuje swoim zasięgiem od -2,5 do +2,5 odchylenia standardowego wyników w rozkładzie normalnym. Skala ta ze względu na swój zasięg, podobnie jak skala staninowa czy stenowa, nadaje się do tych testów, które są przeznaczone dla szeroko rozumianej normy. Skala tetronowa opisywana jest przez średnią równą 10 i odchylenie standardowe równe 4. Wyniki surowe przelicza się na skalę tetronową według następującego wzoru: tetron = 4z + 10. »- N o r m y t y p u s t a n d a r d o w e g o otrzymuje się, stosując następującą trans formację liniową: j e d n o s t k a s k a l i s t a n d a r d o w e j = (S)(z) + M gdzie: M oznacza średnią nowej skali, Sjest odchyleniem standardowym nowej skali, a z to wynik standardowy, otrzymany według wzoru: X ,-X
z —-----s
gdzie: X, oznacza wynik surowy w teście, jaki otrzymała osoba badana, X oznacza średni wynik w tym teście dla właściwej grupy odniesienia, a s oznacza odchylenie standardowe wyników tego testu w tej samej grupie odniesienia. >- Najczęściej stosuje się następujące transformacje: • T = 10z+50 • sten = 2z+ 5,5 • stanin = 2 z + 5 • IQ Wechslera= 15z+100 • tetron = 4 z +10 U w a g a : prostego przeliczenia wyników surowych na wyniki z, a następnie na wybraną skalę standardową możemy dokonać tylko wtedy, kiedy rozkład wyników surowych jest rozkładem normalnym. Jeżeli tak nie jest, najpierw dokonujemy nor malizacji rozkładu wyników surowych.
138
Czym sią kierować przy wyborze skali? Już z tego krótkiego przeglądu widać, że skal standardowych jest wiele i że mają one różne właściwości. Niektóre z tych skal mają niewielki zakres (jak skala stenowa czy staninowa), inne zaś rozciągają się od -5 do +5 odchyleń standardowych wyników w rozkładzie normalnym (jak np. skala T). Niektóre są skalami długimi (skala T - 101 jednostek), inne z kolei są bardzo krótkie (skala staninowa - 9 jednostek). Na co zatem powinniśmy zwrócić uwagę, decydując się na wybór którejś z tych skal? Pierwszym kryterium, jakie powinniśmy wziąć pod uwagę, jest c e l t e s t o w a n i a . Jeżeli jest nim dobre różnicowanie w zakresie patologii (bardzo niskich lub bardzo wysokich wyników), to, rzecz jasna, wybrana przez nas skala musi obejmować swym zasięgiem krańce rozkładu normalnego. Jeżeli nato miast chcemy móc dobrze różnicować osoby mieszczące się w granicach tzw. normy (w granicach środkowych wyników), to zupełnie wystarczająca będzie skala obejmująca swoim zasięgiem środek rozkładu normalnego. Dlaczego? Przeanalizujmy rys. 4.3. Przedstawiono na nim wyniki dwóch hipotetycznych osób badanych: osoby (X), która uzyskała w teście wynik surowy
N
o r m y , c z y l i n a d a w a n ie z n a c z e n ia w y n ik o m t e s t o w y m
Rys. 4.3. Wykorzystanie skali standardowej o szerokim zakresie wyników (Skala T) i skali standardowej o wąskim zakresie wyników (skala staninowa) do przedstawienia wyników dwóch osób (X) i (Y)
CD
II >
in
°> u
139
R o z d z ia ł 4
odpowiadający wynikowi z = 2,45, oraz osoby (Y), która otrzymała równie wysoki wynik w tym teście (z = 3,25). W sytuacji A dokonaliśmy przeliczenia wyników tych osób na Skalę T (o szerokim zasięgu), a w sytuacji B na skalę staninową (o niewielkim zakresie). I cóż się okazało? W sytuacji A pozycja zarówno osoby (X), jak i osoby (Y) została dokładnie odzwierciedlona na Skali T (mamy do czynienia z taką samą różnicą zarówno między wynikami z, jak i odpowiadającymi im wynikami T). Z kolei w sytuacji B - mimo różnicy w wynikach z - obie osoby otrzymały taki sam, najwyższy z możliwych wynik na skali staninowej. I dlatego wyrażając wynik w Staninach, nie będziemy mogli ocenić, która z tych osób faktycznie otrzymała wyższy wynik. Widać zatem wyraźnie, że standardowa skala wyników o niewielkim zakresie „gubi” zróżnicowanie między tymi wynikami, które znajdują się na jej krańcach. Drugim kryterium, jakie powinniśmy wziąć pod uwagę, podejmując decy zję o wyborze konkretnej skali standardowej, jest d ł u g o ś ć t e s t u . Reguła, która jest tu brana pod uwagę, brzmi następująco: dla krótkich testów wybieramy krótkie skale (liczące niewiele punktów), dla długich testów możemy wybrać skalę dłuższą (liczącą więcej punktów). Tym razem kieru jemy się zasadą dopasowania skali wyników surowych do skali wyników przeliczonych. Gdyby bowiem skala wyników surowych była krótka (krótki test), a skala wyników przeliczonych długa, to tylko niektóre z wyników skalowych znalazłyby swój odpowiednik w wynikach surowych (por. rys. 4.4). Taki efekt końcowy może się przyczyniać do trudności w inter pretacji wyników testowych, a z całą pewnością nie jest to rezultat pożądany. Dlaczego sprawdzenie zgodności rozkładu wyników surowych z rozkładem normalnym jest niezbędnym elementem procedury tworzenia norm typu standardowego? Wyniki otrzymywane przez liniowe przekształcenie jakiegoś rozkładu wyników surowych (np. wyniki standardowe) rzadko mają dokładnie określone znaczenie statystyczne. W praktyce w ogóle takich wyników nie da się zinterpretować, ponieważ względna pozycja, jaką wyznacza taki wynik, zależy całkowicie od kształtu rozkładu wyników surowych. Nie znając kształtu tego rozkładu, nie możemy wiele powiedzieć o statystycznych właściwościach otrzymanych wyników (por. Magnusson, 1981, s. 347). Można oczywiście sporządzić rozkład wyników surowych i spróbować określić jego właściwości, jednak praktycznie jest to zadanie bardzo trudne. Znacznie prościej można rozwiązać ten problem, dokonując n i e l i n i o w e g o p r z e k s z t a ł c e n i a rozkładu wyników surowych do rozkładu o już znanych właściwościach. Takim rozkładem jest np. dobrze nam znany rozkład normalny. Zabieg przekształcania rozkładu wyników surowych na rozkład normalny nazywa się n o r m a l i z a c j ą rozkładu4. Dokonując
140
4 Zwróćmy uwagę, że termin „normalizacja'” występuje w dwóch znaczeniach: normaliza jako procedura tworzenia norm oraz normalizacja jako nieliniowe przekształcanie nakładu wyników surowych do rozkładu normalnego.
N
orm y
,
c z y l i n a d a w a n ie
z n a c z e n ia w y n ik o m
testo w ym
Rys. 4.4. Efekt niezgodności między długością skali wyników surowych a długością skali wyników przeliczonych Skala wyników surowych
Skala tetronowa
J
141
R o z d z ia ł 4
normalizacji, rozkładu wyników testowych, możemy interpretować każdy wynik standardowy zgodnie z właściwościami rozkładu normalnego. Wiemy więc np., jaki odsetek osób znajduje się powyżej lub też poniżej danego wyniku5. W taki też sposób interpretowaliśmy wyniki wyrażone w jedno stkach zaprezentowanych wyżej skal standardowych. Na rys. 4.5 przedstawiono istotę zabiegu normalizacji (por. Guilford, 1964, s. 503). Jak widzimy, rozkład empiryczny jest rozkładem skośnym. Dokonu jąc jego normalizacji, zmieniamy kształt rozkładu, nie zmieniamy jednak odpowiadających sobie pól powierzchni. I tak: powierzchnie P(l), P(2), P(3), P(4), P(5), P(6) oraz P(7) odpowiadają proporcjom powierzchni P ( l’), P(2’), P(3’), P(4’), P(5’), P(6’), i P(7’). Wróćmy zatem do zagadnienia tworzenia norm typu standardowego i odpo wiedzmy na pytanie zawarte w tytule tego paragrafu: Dlaczego sprawdzenie zgodności rozkładu wyników surowych z rozkładem normalnym jest niezbęd nym elementem procedury tworzenia norm typu standardowego? Jeżeli przy interpretacji wyniku testowego chcemy korzystać z właściwości rozkładu normalnego, to musimy się najpierw upewnić, czy rozkład wyników surowych jest zgodny z rozkładem normalnym6. Dopiero potem możemy dokonywać liniowej transformacji wyników z na dowolnie wybraną skalę standardową. N orm alizacja rozkładu. Co zatem trzeba zrobić wtedy, kiedy otrzymany rozkład wyników surowych nie jest rozkładem normalnym? Czy fakt ten uniemożliwia nam korzystanie z norm typu standardowego? Oczywiście nie! Jednakże procedura tworzenia norm jest nieco bardziej złożona. Zanim bowiem będziemy mogli dokonać liniowego przekształcenia wyników z na określoną skalę standardową, musimy najpierw dokonać normalizacji roz kładu. Na czym praktycznie polega procedura normalizacji? Przeanalizujmy następujący przykład. Chcemy obliczyć normy dla stworzonego przez nas testu liczącego 12 zadań. Przebadaliśmy w tym celu 40 osób7 i otrzymaliśmy wyniki, które przedstawia w tab. 4.2 (por. też Magnusson, 1981, s. 347-349; Brzeziński, 1996, s. 540). W kolumnie (1) znajdują się uporządkowane, kolejne wyniki surowe, jakie można było otrzymać w naszym teście. Kolumna (2) zawiera proste liczebności otrzymanych wyników (jest to rozkład em piryczny wyników surowych), a kolumna (3) rozkład skumulowany. W ko lumnie (4) wprowadzono tzw. poprawkę na ciągłość. Ponieważ wyniki naszego testu są wynikami dyskretnymi (są to kolejne wartości ze zbioru
142
5 Inny rodzajem przekształcenia nieliniowego jest przekształcenie wyników w skalę centylową dającą rozkład prostokątny. Skalę tę omawiamy dalej w tym rozdziale. (> Istnieje wiele testów pozwalających nam ocenić zgodność empirycznego rozkładu wyni ków z założonych rozkładem teoretycznym (tu: normalnym). Takim testem może być np. test zgodności chi’ (por. Domański, 1979). 7 Pamiętajmy, że próba normalizacyjna powinna być też próbą odpowiednio liczebną (por. wyżej). Tylko dlatego, aby przedstawiony przykład był wystarczająco czytelny, ograniczono liczbę badanych osób do 40.
N
orm y
,
c z y l i n a d a w a n ie
z n a c z e n ia w y n ik o m
testo w ym
liczb całkowitych), a rozkład normalny jest rozkładem zmiennej ciągłej, powinniśmy to uwzględnić w dalszych obliczeniach. Poprawkę na ciągłość oblicza się według następującej reguły: do skumulowanej liczebności poniżej
143
R
o z d z ia ł
4
danego wyniku surowego dodaje się połowę liczebności dla danego wyniku (obliczamy w ten sposób liczebności, uwzględniając środek każdego prze działu). I tak np. dla wyniku surowego 3 dokonujemy następujących obliczeń: poniżej tego wyniku liczebność skumulowana (czyli cf) wynosi 3, a połowa prostej liczebności (czyli f) dla tego wyniku wynosi 1 (2/2=1). Zatem suma obu tych wartości wynosi 3+1=4. Dla każdej poprawionej w ten sposób liczebności skumulowanej obliczamy następnie skumulowaną proporcję (p ), dzieląc wartości z kolumny (4) przez liczbę badanych osób (N). Wreszcie z tablic dystrybuanty rozkładu normalnego (np. Greń, 1974) odczytujemy wyniki z odpowiadające kolejnym proporcjom skumulowanym. I na koniec dokonujemy przeliczenia wyników z na wybraną skalą standardową. W na szym przykładzie wyniki zostały przeliczone na trzy skale standardowe: skalę stenową, tetronową i skalę T (dociekliwy Czytelnik będzie mógł sam ocenić, co dzieje się wtedy, kiedy wyniki krótkiego testu są przeliczane na długą skalę wyników przeliczonych). Tab. 4.2. Przykład normalizacji rozkładu oraz obliczania norm typu standardowego (na podstawie Magnusson, 1981, s. 347-349; Brzeziński, 1996, s. 540)
(7)
(8)
(5)
(6)
wiersza + 0,5f dla danego wiersza
P
z
1
0,5
0,0125
-2,24
1
1
28
2
3
2,0
0,05
-1,64
2
3
34
3
2
5
4,0
0,1
-1,28
3
5
37
4
4
9
7,0
0,175
-0,93
4
6
41
5
5
14
11,5
0,2875
-0,56
4
8
44
6
5
19
16,5
0,4125
-0,22
5
9
48
7
6
25
22,0
0,55
0,13
6
11
51
12
55
(1)
(2)
(3)
ws
f
cf
1
1
2
(4)
(9)
cf poniżej danego Steny Tetrony
T
8
4
29
27,0
0,675
0,45
6
9
4
33
31,0
0,775
0,66
7
13
57
10
3
36
34,5
0,8825
1,09
8
14
61
11
3
39
37,5
0,9375
1,53
9
16
65
12
1
40
39,5
0,9875
2,24
10
19
72
P o d s u m o w a n i e . Zbierzmy zatem wszystko, co powiedzieliśmy o tworze niu norm typu standardowego. Normy tego typu pozwalają nam na interpretowa nie wyniku otrzymanego w teście przez odwołanie się do właściwości rozkładu normalnego. Dlatego aby taka interpretacja była uzasadniona, musimy się upewnić, czy rozkład wyników surowych jest rozkładem normalnym. Zazwyczaj jest tak rzeczywiście, jednak czasami rozkład wyników surowych jest rozkładem
N
orm y
,
c z y l i n a d a w a n ie
z n a c z e n ia w y n ik o m
testo w ym
na tyle skośnym, że nie możemy go uznać za wystarczające dobre przybliżenie rozkładu normalnego. W takiej sytuacji pow inniśm y najpierw dokonać nor
malizacji rozkładu, a dopiero potem skorzystać z możliwości liniowego prze kształcenia odczytanych wyników z na wyniki wybranej skali standardowej. Kolejne etapy postępowania przy tworzeniu norm przedstawiono na rys. 4.6. Rys. 4.6. Etapy procedury normalizacji
R o z d z ia ł 4
Na koniec podkreślmy, że korzystanie z norm jest niezbędne wtedy, kiedy dokonujemy diagnozy indywidualnej bądź chcemy dokonywać porównań wewnątrzgrupowych. Jeżeli natomiast naszym celem jest dokonanie prostej selekcji (mamy przyjąć określoną liczbę kandydatów), to możemy odwołać się do wyników surowych i przyjąć tych, którzy uzyskali najwyższe wyniki w teście (pamiętajmy jednak, że wykorzystywany w tym celu test musi być trafny, i nie wolno wam tego zaniedbać!). Podobnie postępujemy również prowadząc badania naukowe (por. Magnusson, 1981, s. 362; Brzeziński, 2000, s. 414).
Normy rangowe Innym sposobem przedstawiania wyników testowych jest ich przedstawia nie w postaci tzw. centyli. C e n t y 1 to punkt na skali, poniżej którego leży określony odsetek rozkładu (Magnusson, 1981, s. 352). Podobnie jak inne miary położenia (np. mediana), centyle stanowią wygodne punkty odniesienia przy opisywaniu danego rozkładu wyników surowych i przy porównywaniu go z innymi rozkładami. Przypuśćmy, że w naszych badaniach okazało się, iż na 40 zbadanych osób 2 osoby były lepsze od osoby A, a 37 osób otrzymało wyniki gorsze niż osoba A. Jeżeli osobę A (i wszystkie inne osoby mające taki sam wynik jak ona) przydzielimy arbitralnie to jednej z dwóch grup: lepszych bądź gorszych od niej, to otrzymamy: 2,5 przypadka w grupie lepszych oraz 37,5 przypadka w grupie gorszych. Ponieważ 37,5 z 40 stanowi 94%, możemy powiedzieć, że wynik osoby A jest równy 94. centylowi. Innymi słowy, oznacza to tyle, że w badanej grupie 94% osób otrzymało wyniki gorsze od naszej osoby badanej (Cronbach, 1990, s. 110). Zwróćmy także uwagę, że przy takim sposobie obliczania centyli osoba, która wypadnie najlepiej, nie otrzyma wyniku centylowego równego 100. Jeżeli bowiem 2 osoby otrzymałyby 40 pkt., to jedną z nich przydzielamy do grupy gorszych, a drugą do grupy lepszych od niej. Wówczas każda z tych osób otrzyma wynik centylowy równy 97,5 (100 x 39/40). Gdyby wynik równy 40 otrzymała tylko jedna osoba, odpowiadający mu centyl wynosiłby 98,75 (100 x 39,5/40)8. Jeżeli przeliczamy wyniki surowe na centyle w taki właśnie sposób, osoba znajdująca się dokładnie w środku rozkładu zostanie opisana za pomocą 50. centyla. Centyl 50 odpowiada m e d i a n i e rozkładu. W tym sensie możemy powiedzieć, że 50 centyl opisuje poziom wykonania testu przez „typową” osobę badaną. Jak zatem szybko można obliczyć centyle? Przeanalizujmy ponownie tab. 4.2, w której przedstawiliśmy sposób obliczania norm typu standar dowego. Zaczynamy tak samo - od sporządzenia rozkładu częstości wyników surowych (kolumna 2), następnie kumulowanego rozkładu częstości (kolum na 3), poprawionego rozkładu kumulowanego (kolumna 4) do obliczenia proporcji (kolumna 5). Centyle otrzymamy, przeliczając proporcje na procen ty, i dla ułatwienia wyrażamy je w postaci liczb całkowitych (por. tab. 4.3). s Ten zabieg przydzielania, w jednakowej proporcji, osób badanych do grupy lepszych
146
i gorszych odpowiada poprawce na ciągłość (por. wyżej).
N
orm y
,
c z y l i n a d a w a n ie
z n a c z e n ia w y n ik o m
testo w ym
Tab. 4.3. Przykład obliczania norm typu centylowego (na podstawie Magnusson, 1981, s. 352; Brzeziński, 1996, s. 540) (1)
(2)
(3)
ws
f
cf
1
1
1
2
2
3
2
4
(4)
(5)
c f poniżej danego wiersza
(6) Centyle (C)
+ 0 ,5 /dla danego wiersza
P
0,5
0,0125
3
2,0
0,05
5
4,0
0,1
10
4
9
7,0
0,175
18
11,5
0,2875
29
1 5
5
5
14
6
5
19
16,5
0,4125
41
7
6
25
22,0
0,55
55
8
4
29
27,0
0,675
68
9
4
33
31,0
0,775
78
10
3
36
34,5
0,8825
88
11
3
39
37,5
0,9375
94
12
1
40
39,5
0,9875
99
Chociaż centyl definiowany jest jako odsetek, nie jest tym samym co powszechnie stosowane wyniki procentowe. W pierwszym wypadku mówimy bowiem o odsetku osób, które znajdują się poniżej jakiegoś punktu na skali, w drugim zaś odsetek to wynik surowy, dotyczący poprawnie rozwiązanych zadań. Skala centylowa pozwala na ocenę wyniku danej osoby w stosunku do wyników innych osób należących do określonej populacji. Są to wyniki czytelne, i dlatego chętnie stosowane. Problem polega jednak na tym, że skala centylowa nie odzwierciedla kształtu rozkładu wyników surowych. Rozkład otrzymywany w rezultacie przeliczenia wyników surowych na odsetki jest prostokątny - niezależnie od kształtu wyjściowego rozkładu wyników (por. Magnusson, 1981, s. 353). Rozkład prostokątny to inaczej rozkład równoprawdopodobny, czyli rozkład, w którym wszystkie wartości zmiennej pojawiają się z tym samym prawdopodobieństwem. Na rys. 4.7 przedstawiono rozkład prostokątny z naniesionymi nań centylami. Jak widać, wszystkie pola powierzchni rozkładu prawdopodobieństwa, odpowiadające kolejnym wynikom, są sobie równe i wynoszą 1%. Nie dotyczy to tylko dwóch skrajnych części. Pole każdej skrajnej powierzchni wynosi bowiem 0,5%. Skala centylowa liczy 101 jednostek (0 jest początkiem skali) i podział na 101 równych jednostek prowadziłby do tego, że pole całkowite nie sumowałoby się do 100% (por. Matuszewski, 1984, s. 64).
R
o z d z ia ł
4
Rys. 4.7. Skala centylowa (opracowano na podstawie Matuszewski, 1984, s. 64)
Normy cent yl owe następującego wzoru: CentyI (C) =
148
0,5%
CENTYL 0
1,0%
CENTYL1
190%
CENTYL2
1,0%
CENTYL98
1,0%
CENTYL 99
0,5%
CENTYL100
obliczamy według
c//_i+0,5i
Ż\T
100%
gdzie: cf oznacza liczebność kumulowaną, f - prosta liczebność, a N - liczbę badanych osób.
Skala centylowa ma jednak i inne wady. Jeżeli rozkład wyników surowych jest roz kładem normalnym, to skala centylowa pro wadzi do przeceniania wielkości różnic pośrodku rozkładu, a niedocenianiu ich na krańcach tego rozkładu (ib id e m ). W rozkła dzie normalnym bowiem najwięcej wyników lokuje się w środku rozkładu. Dlatego też różnice między wynikami skupiającymi się w środku rozkładu mogą w rzeczywistości być niewielkie, lecz nawet najmniejsze róż nice zostaną odzwierciedlone w centylach. Z kolei na krańcach rozkładu, gdzie rzeczy wiste różnice między wynikami mogą być duże, będą one odzwierciedlone jedynie przez małe różnice między centylami. Efekt ten przedstawiono na rys. 4.8. Normy centylowe są normami typu ran gowego (porządkowego). Oznacza to, że nor my tego typu dobrze odzwierciedlają upo rządkowanie osób badanych w grupie nor malizacyjnej, nie odzwierciedlają natomiast względnych różnic między tymi osobami. Jednym z rozwiązań tego problemu może być sporządzanie tzw. s i a t k i c e n t y l o we j, w której centyle są tak rozmieszczone, aby odpowiadały równym odległościom w rozkładzie normalnym (por. Anastasi, Urbina, 1999, s. 91). Siatka centylowa po prawnie odzwierciedla rzeczywiste różnice między wynikami osób badanych. Na rys. 4.9 przedstawiono wyniki czterech osób badanych. Różnica w wynikach centylowych między osobą A i B oraz między osobą C i D jest taka sama i wynosi 10 pkt., co nie
(opracowano na podstawie Cronbach, 1990, s. 112)
N
o rm y
,
c z y l i n a d a w a n ie
z n a c z e n ia w y n ik o m
N CO
CD CD
N
Osi
O CD O 00 O o
CD
o
LO
o
normalnym Rys. 4.8. Związek między centylami a rozkładem
testo w ym
OJ
c
ro 0
~o
o co o
CM
N CM
I
N CO
I
149
R
o z d z ia ł
4
odpowiada rzeczywistej wielkości różnicy między nimi. Siatka centylowa pozwala to zróżnicowanie uchwycić (por. rys. 4.9). Rys. 4.9. Siatka centyiowa obrazująca możliwość porównywania dwóch wyników wyrażonych w centy lach (opracowano na podstawie Anastasi, Urbina, 1999, s. 91) d1
eo d3
20
10
A
B
C
D
Normy typu równoważnikowego Kolejnym rodzajem norm, dziś stosunkowo rzadko stosowanym, są normy typu równoważnikowego. Normy te określa się również mianem norm roz wojowych, bowiem pozwalają określić, „jak daleko na drodze normalnego rozwoju znalazła się jednostka” (Anastasi, Urbina, 1999, s. 84). Normy te mają głównie charakter opisowy, a wyniki wyrażone w nich „są psychometrycznie surowe i nie nadają się do precyzyjnej obróbki statystycznej” (ibi dem ). Do najbardziej znanych norm tego typu należą tzw. równoważniki wieku i równoważniki klasy. Równoważniki wieku. Równoważniki wieku to liczby wskazujące na kolejny rok i miesiąc życia badanych osób, odpowiadające średniej aryt metycznej lub medianie wykonania testu na danym etapie rozwoju. Innymi słowy, są to dane informujące nas o przeciętnym poziomie wykonania testu w określonych grupach wiekowych, z uwzględnieniem roku i miesiąca życia badanych osób (por. Niemierko, 1975, s. 153; Anastasi, Urbina, 1999, 150 s. 84-85). Np. równoważnik wieku dla dziecka, które otrzymało 40 pkt.
N
orm y
,
c z y l i n a d a w a n ie
z n a c z e n ia w y n ik o m
testo w ym
w pewnym teście, może wynosić 10-4 (co oznacza 10 lat i 4 miesiące). Oznacza to tyle, że taki właśnie wynik (40 pkt.) osiągają przeciętnie dzieci dokładnie w tym wieku9. Jednym z rodzajów norm typu równoważników wieku jest tzw. w i e k u m y s ł o w y . Pojęcie to wprowadzone zostało przez Bineta i Simona (1908) na określenie poziomu rozwoju umysłowego dziecka i stosowane jest głównie w obszarze testów inteligencji10. Mówiąc najprościej (por. też Matczak, 1994, s. 111), wiek umysłowy oblicza się następująco: na podstawie badania grup normalizacyjnych (tak definiowanych, aby każda z nich obejmowała dzieci w innym wieku) dobiera się zestawy zadań testowych w taki sposób, aby ich wykonanie różnicowało te grupy. Wskaźnikiem określonego etapu rozwoju umysłowego badanego dziecka jest odpowiedni odsetek poprawnie wykonanych zadań w grupie normalizacyjnej {ibidem). Wynik ten porównuje się z wiekiem życia osoby badanej i na tej podstawie podejmuje decyzje diagnostyczne11. Normy tego typu są powszechnie akceptowane, jeżeli chodzi o pomiar cech fizycznych (np. wzrostu czy wagi), budzą natomiast sporo zastrzeżeń w przypadku cech psychologicznych12. Przede wszystkim - i to jest pod stawowy zarzut - jednostka wieku umysłowego maleje wraz z wiekiem, gdyż tempo rozwoju umysłowego jest szybsze w młodszym wieku, a maleje wraz z dojrzewaniem (Anastasi, Urbina, 1999, s. 85). Dlatego też nie można wyników wyrażonych w postaci równoważników wieku porównywać bez pośrednio. Co innego oznacza przyśpieszenie rozwoju o rok, gdy dziecko ma 6 lat, a co innego, gdy dziecko ma 10 lat. Choć i tu, i tu mamy do czynienia z różnicą jednego roku, znaczenie psychologiczne tej różnicy jest zupełnie inne w każdym wypadku (Cronbach, 1990, s. 242). Normy tego typu bywają też nadmiernie uogólniane. Bardzo często do chodzi do następujących nieporozumień: bez względu na wiek chronologiczny dziecka przyjmuje się, że jego wiek umysłowy wskazuje na ogólny (a więc dotyczący różnych obszarów zachowania) poziom rozwoju, który jest charak terystyczny dla grupy normalizacyjnej. Jednakże fakt, że w jakimś teście (np. zdolności werbalizowania) 6-latek uzyskał wynik właściwy dla 12-latka, wcale nie oznacza, że jest on podobny do dzieci w wieku 12 lat we wszystkich obszarach (np. jego rozwój społeczny nadal może być właściwy dla jego własnej grupy wiekowej). Równoważniki wieku należy zatem bardzo ostroż nie interpretować; trzeba też dbać o to, aby ich niesłusznie nie uogólniać. 9 Równoważniki wieku zapisuje się właśnie w ten sposób (np. 10-4), gdyż rok kalendarzowy liczy 12 miesięcy i danych tych nie można przedstawić w postaci dziesiętnej. 10 Szczegółowe informacje dotyczące sposobu obliczania wieku umysłowego można znaleźć w pracy Strelaua (1987, s. 97-100). 11 Pojęcia wieku umysłowego i wieku życia są wykorzystywane w klasycznej definicji ilorazu inteligencji rozumianego jako stosunek wieku umysłowego do wieku życia: WU 1Q = -----100% WZ 12 Notabene te same zastrzeżenia można również sformułować w stosunku do wielkości fizycznych.
151
R
o z d z ia ł
4
Równoważniki klasy. Równoważniki klasy z kolei definiowane są jako liczby wskazujące na rok i miesiąc nauczania w roku szkolnym, odpowiada jące średniej arytmetycznej lub medianie wykonania testu na danym etapie rozwoju (Niemierko, 1975, s. 153). Ponieważ rok szkolny liczy zazwyczaj dziesięć miesięcy, dlatego normy tego typu można łatwo wyrazić w systemie dziesiętnym. Osoba badana, będąca typowym przedstawicielem swojej grupy normalizacyjnej, powinna uzyskać wynik w postaci równoważnika klasy dokładnie odpowiadającego jej poziomowi nauczania (np. typowe dziecko badane w trzeciej klasie, w piątym miesiącu nauczania, powinno osiągnąć wynik w postaci równoważnika klasy równego 5,3). Normy tego typu oblicza się w ten sposób, że określa się średni wynik w teście dla dzieci będących aktualnie w określonej klasie. Wyniki liczbowe, odpowiadające kolejnym miesiącom nauczania, otrzymuje się zasadniczo przez interpolację, choć oczywiście można również badać dzieci w każdym miesiącu nauki szkolnej (Anastasi, Urbina, 1999, s. 86). Równoważniki klasy mają te same wady co równoważniki wieku - przede wszystkim bywają nadmiernie uogólniane. Można je stosować tylko w ogra niczonym zakresie - w stosunku do dzieci chodzących do szkoły. Ponadto - j a k piszą Anastasi i Urbina (ibidem ) - normy tego typu są przeznaczone tylko dla przedmiotów nauczanych na „wszystkich poziomach, dla których test jest przeznaczony. W zasadzie norm tych nie da się stosować w szkole średniej, ponieważ wielu przedmiotów naucza się tam przez rok lub dwa (...) Innymi słowy, jednostki pomiarowe, które w tym przypadku stanowią klasy, są wyraźnie nierówne i nierówności te występują w sposób nieregularny w zakresie różnych przedmiotów nauczania”. »- N o r m y t y p u r ó w n o w a ż n i k o w e g o to inaczej normy rozwojowe. • R ó w n o w a ż n i k i w i e k u to liczby wskazujące na kolejny rok i miesiąc życia badanych osób, odpowiadające średniej arytmetycznej lub medianie wykonania testu na danym etapie rozwoju. • R ó w n o w a ż n i k i k l a s y to liczby wskazujące na rok i miesiąc nauczania w roku szkolnym, odpowiadające średniej arytmetycznej lub medianie wykonania testu na danym etapie rozwoju.
Krytyka norm typu równoważnikowego. Najpoważniejsze zastrzeżenia wobec norm typu równoważnikowego można sformułować następująco (por. też Crocker, Algina, 1986, s. 450-451; Cohen, Swerdlik, 1999, s. 122-123): a) podstawowe zastrzeżenie dotyczy tego, że normy tego typu zakładają liniowy związek między wiekiem (rokiem nauczania) a mierzoną funkcją. Wiele danych wskazuje jednak na to, że jest to założenie kontrfaktyczne, i to nie tylko w grupie osób dorosłych (co raczej oczywiste), ale także w grupie dzieci (por. np. Sattler, 1974); 152
N
orm y
,
c z y l i n a d a w a n ie
z n a c z e n ia w y n ik o m
testo w ym
b) normy tego typu prowadzą do większych nieporozumień niż normy standardo we, zwłaszcza wśród nieprofesjonalistów. Załóżmy np., że osoba badana otrzymała pod koniec nauczania w klasie 7 wynik równy 8,3 w matematyce i fizyce. Wynik ten należy zinterpretować następująco: osoba badana, b i o r ą c p o d u w a g ę z a d a n i a w ł a ś c i w e d l a k l a s y sió d m ej,ro zw iąza ła je tak, jak rozwiązuje je typowy uczeń klasy ósmej, w trzecim miesiącu nauczania. N ie o z n a c z a to jednak, że ta sama osoba badana wypadłaby identycznie wtedy, kiedy rozwiązywałaby test przeznaczony dla uczniów klas ósmych. Sformułowanie wyniku w taki sposób może jednak prowadzić do niesłusznego przekonania, że badana osoba zdoła sobie poradzić z materiałem właściwym dla innego poziomu nauczania czy innego poziomu wieku; c) trudno porównywać równoważniki klasy otrzymane dla tej samej osoby, ale dla różnych obszarów zachowania. I tak np. wynik 4-2 w matematyce i 4-2 w języku polskim świadczyłby o jednakowej biegłości w obu przedmiotach nauczania. To jednak niekoniecznie musi być prawdą. Przeliczenie tych samych wyników np. na centyle może pokazać, że w pierwszym przypadku wynik ten odpowiada 65. centylowi, a w drugim 45. centylowi. Widać zatem wyraźnie, że pozycja osoby badanej w grupie normalizacyjnej jest inna dla matematyki (powyżej przeciętnej) i inna dla języka polskiego (poniżej przeciętnej). Dlatego też niektórzy specjaliści w dziedzinie pomiaru psychologicznego zaapelowali o moratorium na stosowanie norm typu równoważnikowego. I tak np. Cronbach (1970, s. 98) opisuje normy tego typu jako archaiczne. Uważa on, że „równoważniki klasy nigdy nie powinny być wykorzystywane ani do oceny ucznia, ani klasy, ani też nie powinny być stosowane w bada niach naukowych. Lepszym sposobem przedstawiania wyników jest odTab. 4.4. Wady i zalety norm typu równoważnikowego (opracowano na podstawie Niemierko, 1975; Crocker, Algina, 1986; Cohen, Swerdlik, 1999) Zalety • osiągnięcia badanych są traktowane rozwojowo
Wady • przyjmuje się w nich założenie o równo miernym rozwoju
• rok szkolny i rok życia stanowią natural • bywają podstawą zbyt daleko idących ne, dobrze znane wszystkim użytkowni uogólnień kom testów jednostki miary • bywają mylnie uważane za opis zakresu • równoważniki klasy bądź wieku pokazują wymagań programowych opóźnienia bądź przyspieszenie w ucze • wartość norm typu równoważnikowego niu się albo w stosunku do średnich osią zależy od przedmiotu nauczania i polityki gnięć uczniów tej samej klasy, albo władz szkolnych w stosunku do rówieśników • normy takie nadają się tylko do nie • normy te można dostosować do każdego których treści nauczania miesiąca nauki • ustalanie ich jest pracochłonne i kosz towne
R
o z d z ia ł
4
woływanie się do centyli lub norm standardowych. Podobnie i równoważniki wieku mogą prowadzić do błędnych interpretacji”. W tab. 4.4 zestawiono wady i zalety norm typu równoważnikowego. 4.3. INTERPRETACJA WYNIKÓW TESTÓW ZORIENTOWANYCH NA KRYTERIUM W poprzednim paragrafie przedstawiliśmy jeden z możliwych sposobów interpretacji wyników testowych, a mianowicie: nadawanie znaczenia wyni kowi testowemu przez odnoszenie go do innych wyników otrzymanych w tym samym teście. Ten sposób interpretacji wyników testowych nazywa się interpretacją n o r m a t y w n ą czy zorientowaną na normy (ang. norm-referenced). W przeciwieństwie do podejścia normatywnego, podejście z o r i e n t o w a n e n a k r y t e r i u m (ang. criterion-referenced) nie opisuje poziomu wykonania testu w stosunku do innych osób z grupy normalizacyjnej. Wyniki testowe są interpretowane ze względu na pewne kryterium czy poziom wykonania13. Przykładów takich interpretacji można podać wiele. Np. na uczyciel w szkole może chcieć poznać, jakie konkretne umiejętności opano wali jego uczniowie, a przedstawiciel linii lotniczych może przyjmować do pracy tylko tych kandydatów na pilotów, którzy uzyskali odpowiedni poziom w testach sprawnościowych, itd. Kryterium będące podstawą oceny indywidualnego wyniku otrzymanego w teście jest zazwyczaj pochodną wartości czy standardów uznawanych przez daną jednostkę lub organizację. Linie lotnicze nie są zainteresowane tym, na ile dobrze - na tle innych kandydatów na pilotów - wypadła osoba badana. Aby zapewnić bezpieczeństwo swoim pasażerom, przyjmą do pracy wyłącz nie tych, którzy spełniają określone minimum w zakresie funkcji uznanych za ważne. Jeżeli w badanej grupie nikt nie spełniłby takiego kryterium, nikt też nie zostałby przyjęty bez względu na to, jak dobrze wypadł na tle pozostałych osób. Ten sposób interpretacji wyników testowych bywa różnie nazywany w lite raturze przedmiotu. Używa się tu takich określeń, jak „odwołanie się do treści” czy „odwołanie się do celów kształcenia” 14. Istotą takiego podejścia jest bowiem nacisk na konkretny zakres wiedzy czy umiejętności. To nie grupa normalizacyjna jest tu punktem odniesienia, a dobrze zdefiniowany zakres wymagań. Anastasi i Urbina (1999, s. 111) proponują, aby w miejsce terminu interpretacja zorientowana na kryterium wprowadzić określenie interpretacja
154
13 Problematyka dotycząca testów zorientowanych na kryterium jest tak obszerna, że może być przedmiotem odrębnej książki. Czytelnika szerzej zainteresowanego tą problematyką odsyłam do pracy Berka (1984). 14 Termin „interpretacja zorientowana na kryterium” został wprowadzony przez Glasera (1963).
N
orm y
,
c z y l i n a d a w a n ie
z n a c z e n ia w y n ik o m
testo w ym
„zorientowana na standard wykonania”. Ich zdaniem to drugie określenie jest określeniem budzącym najmniej niepożądanych skojarzeń15. W testach zorientowanych na standard wykonania „wyniki osoby badanej opisuje się, np. wskazując na specyficzne operacje matematyczne, jakie opanowała, szacowany rozmiar jej słownika, poziom trudności lektur, jakie jest w stanie zrozumieć (...) lub szanse osiągnięcia określonego poziomu wykonania w zakresie zewnętrznego kryterium (edukacyjnego lub zawodowego)” (ibi dem). Ogólnie rzecz biorąc, można powiedzieć, że interpretacja zorientowana na standard wykonania dostarcza informacji o tym, c o osoby badane potrafią zrobić, zaś interpretacja zorientowana na normy mówi o tym, jak osoby badane są oceniane n a t l e innych osób do nich podobnych (należących do tej samej grupy normalizacyjnej). Istotą interpretacji zorientowanej na stan dard wykonania jest zatem odwołanie się do kategorii treściowych. Dlatego też podstawowym wymaganiem przy tego rodzaju interpretacji wyników testowych jest staranne zdefiniowanie - w kategoriach treści - tego, co jest przedmiotem pomiaru (standardu wykonania). Oczywiście, w zależności od celu testowania standard ten będzie mniej lub bardziej szeroko określany. W testach diagnostycznych cele te są zazwyczaj węższe (np. poprawne rozpoznawanie słowa składającego się z rdzenia i przedrostka), natomiast w testach oceniających osiągnięcia pod koniec roku nauczania - szersze (np. stopień rozumienia tekstu naukowego - por. Hambleton, Rogers, 1991, s. 5). Interpretację zorientowaną na standard wykonania stosuje się przede wszy stkim w testach biegłości i w testach osiągnięć. Jest ona powszechnie wykorzystywana w programach kształcenia wspomaganych komputerowo, w których przejście do następnego poziomu nauczania jest uwarunkowane wcześniejszym opanowaniem odpowiedniego zakresu materiału. Często sto sowana jest także w pedagogice przy określaniu tego, czy uczeń opanował podstawowe umiejętności czytania, pisania lub liczenia. Testy tego typu służą również do oceny poziomu opanowania umiejętności niezbędnych do pracy w armii, straży pożarnej, policji czy innych służbach tego typu, a także wszędzie tam, gdzie otrzymanie licencji (lub prawa wykonywania okreś lonego zawodu) wymaga osiągnięcia określonych kompetencji16. 15 Warto w tym miejscu wspomnieć, że w Standardach... (1985a, s. 27) wprowadzono rozróżnienie między testami zorientowanymi na treść (ang. content-referenced) i testami zorientowanymi na kryterium (ang. criterion-refrenced). W testach zorientowanych na treść „wynik jest interpretowany bezpośrednio w terminach poziomu wykonania testu, w każdym punkcie mierzonego kontinuum” (ibidem), zaś w testach zorientowanych na kryterium „wynik testu jest interpretowany bezpośrednio w terminach poziomu wykonania w danym punkcie kontinuum, tworzonego przez jakąś zmienną zewnętrzną w stosunku do testu. Zmienną taką mogą tworzyć np. średnie oceny szkolne lub poziom wykonywania zadań wynikających z podjętej pracy” (ibidem). Podobne rozróżnienie wprowadza Cronbach (1990, s. 105) 16 W Stanach Zjednoczonych ta zasada dotyczy około 900 zawodów (Hambleton, Rogers, 1991, s. 3).
155
R
o z d z ia ł
4
Entuzjaści oceniania wyniku testowego z punktu widzenia pewnego stan dardu wykonania podkreślają, że —zwłaszcza w edukacji —otrzymują w ten sposób informacje pozwalające im indywidualnie traktować każdego ucznia. Uczeń, który w trakcie roku szkolnego poprawi swoje wyniki, może zostać niedoceniony, jeżeli w typowym teście zorientowanym na normy ciągle wypada poniżej średniej. Test zorientowany na standard wykonania pozwoli uchwycić taką zmianę (np. Hambleton, Rogers, 1991, s. 4-5). Krytycy twierdzą natomiast, że odwoływanie się wyłącznie do standardu wykonania prowadzi do utraty ważnych informacji, jakimi są dane o relatyw nej pozycji badanej osoby w grupie odniesienia. I chociaż dane odnoszące się do standardu wykonania są niewątpliwie przydatne, jeżeli chodzi o ocenę poziomu opanowanej wiedzy czy umiejętności, to nie da się ich odnieść do maksymalnego poziomu wykonania (trudno np. na tej podstawie prognozo wać, jakie mogą być przyszłe osiągnięcia osoby badanej w dziedzinie mie rzonej przez test). Co więcej, normy tego typu, jak pisze Niemierko (1975, s. 160), omawiając testy osiągnięć szkolnych, „są obciążone istotnym brakiem w postaci subiektywizmu, to jest zależności od osobistych poglądów dydak tycznych ich twórcy. Wprawdzie subiektywizm można zmniejszyć przez powierzenie analiz treści większej liczbie - pracujących niezależnie - spec jalistów, mimo to pozostanie on znaczny tak długo, jak długo programy nauczania będą nasuwały wątpliwości co do wymagań”. >- I n t e r p r e t a c j a z o r i e n t o w a n a na k r y t e r i u m (standard wykonania) to taki sposób oceny wyniku testowego, w którym nacisk kładzie się na konkretny zakres wiedzy czy umiejętności. >- Dostarcza ona informacji o tym, co osoby badane potrafią zrobić, w odróżnieniu od interpretacji zorientowanej na normy, która mówi o tym, jak osoby badane są oceniane na t le innych osób do nich podobnych (należących do tej samej grupy normalizacyjnej).
Wszystkie testy są w gruncie rzeczy testami odwołującymi się do norm, a „normatywny układ odniesienia jest zawarty implicite w każdym badaniu testowym, bez względu na to, w jaki sposób wyraża się wyniki” (Anastasi, Urbina, 1999, s. 116; też Cohen, Swerdlik, 1999). To bowiem, co jest przedmiotem pomiaru, zależy od naszej wiedzy o tym, czego można oczeki wać na danym etapie rozwoju, a także naszej decyzji dotyczącej tego, jaki zakres wiedzy czy umiejętności powinien zostać uznany za standard wyko nania (a ta decyzja ma już charakter normatywny).
156
Podstawowe pojęcia: • grupa odniesienia • normalizacja rozkładu • normy • normy lokalne
N
orm y
,
c z y l i n a d a w a n ie
z n a c z e n ia w y n ik o m
testo w ym
• normy ogólnokrajowe • normy typu rangowego centyle • normy typu równoważnikowego równoważniki klasy równoważniki wieku • normy typu standardowego • przekształcenie liniowe • przekształcenie nieliniowe • skala ilorazów inteligencji • skala staninowa • skala stenowa • skala T • skala tetronowa
Literatura zalecana Anastasi A., Urbina S. (1999). Testy psychologiczne. Warszawa: Pracownia Testów Psychologicznych Polskiego Towarzystwa Psychologicznego. Brzeziński J. (1996). Metodologia badań psychologicznych. Warszawa: Wy dawnictwo Naukowe PWN. Matuszewski, A. (1984). Interpretacja formalna wyników w testach psycho logicznych, w: J. Brzeziński (red.), Wybrane zagadnienia z psychometrii i diagnostyki psychologicznej (s. 47-72). Poznań: Wydawnictwo Naukowe UAM. Ricks J.H. (1993). Normy lokalne - kiedy i dlaczego? w: J. Brzeziński, E. Homowska (red.), Zpsychometrycznych problemów diagnostyki psycho logicznej (s. 49-58). Poznań: Wydawnictwo Naukowe UAM.
157
R
K o n s t r u o w a n ie PROCEDURY
158
t e st u
o z d z ia ł
5
—po d sta w o w e
Każdy test składa się z pozycji testowych. Pozycje te można scharakteryzować za pomocą takich samych kategorii pojęciowych, jak cały test. I tak np. pytanie „Czy często miewasz zmienne nastroje?” ma swoją własną punktację (powiedz my „0” dla odpowiedzi „nie” i „1” dla odpowiedzi „tak”), i może okazać się pytaniem nierzetelnym (te same osoby pytane w różnych momentach dają różne odpowiedzi), może być pytaniem nietrafnym (odpowiedź „tak” lub „nie” może wskazywać na zupełnie inną cechę psychologiczną niż ta, o którą nam chodziło), wreszcie może być pozycją stronniczą (osoby należące do różnych grup społecznych mogą częściej udzielać jednej lub drugiej kategorii odpowiedzi). Stwierdzenie, że dobry test powinien składać się z dobrych pozycji testo wych, może się wydawać truizmem. Jednakże - o czym świadczy wcale nie taka mała liczba przykładów - etap budowy testu bywa niedoceniany. Jakość całego testu zależy od jakości jego elementów składowych, czyli właśnie pozycji testowych. Posiadanie odpowiedniej wiedzy na temat przedmiotu pomiaru nie wystarczy do tego, aby tworzenie testu zakończyło się sukcesem. Zbudowanie dobrego testu to proces wymagający dobrej znajomości obo wiązujących w tym zakresie procedur. W niniejszym rozdziale przedstawimy podstawowe zasady obowiązujące w tej dziedzinie. Mówiąc najkrócej, budowanie testu rozpoczynamy od konceptualizacji tego, co ma być przedmiotem pomiaru (definiujemy mierzoną cechę oraz dokonujemy jej operacjonalizacji). Następnie formułujemy dużą pulę pozycji testowych, którą poddajemy analizie językowej i treściowej. Odrzucając pozycje, które nie spełniają przyjętych kryteriów, tworzymy pierwszą, eksperymentalną wersję testu. Po przeprowadzeniu badań pilotażowych i obliczeniu statystycznych właściwości poszczególnych pozycji podejmujemy decyzję, które z nich nadają się do ostatecznej wersji budowanego przez nas narzędzia. Analiza statystyczna pozycji testowych pozwoli nam ocenić, które pozycje testowe nie wymagają już żadnych zmian, które należy poddać rewizji, a które całkowicie zmienić. Poprawioną pierwszą wersję testu ponownie sprawdzamy w badaniach pilotażowych. Jeżeli okaże się, że pozycji testowych spełniających nasze wymagania jest zbyt mało, rozpoczynamy całą procedurę właściwie od początku, tj. od zbudowania nowej puli pozycji testowych. Na rys. 5.1 przedstawiono kolejne etapy tworzenia testu.
Ko
n s t r u o w a n ie
testu
-
po dstaw o w e
pro cedury
Rys. 5.1. Etapy tworzenia testu Etap 1 Zdefiniowanie mierzonej właściwości i jej operacjonalizacjd
Etap 2 Określenie formatu bodźca i formatu odpowiedzi
Etap 3 Generowanie pozycji testowych
zbyt mała liczba pozycji spełnia założone warunki
Etap 4 Analiza językowo-treściowa pozycji
W:r' Etap 5 Ustalenie kit c a odpowiedzi
Etap 8 Obliczenie wybranych wskaźników statystycznych dla wszystkich pozycji testu
Etap 9 Zbudowanie ostatecznej wersji testu 159
R
o z d z ia ł
5
5.1. OD CZEGO ZACZYNAMY? Zanim przystąpimy do tworzenia pozycji testowych, musimy sobie od powiedzieć na dwa podstawowe pytania: czemu ma służyć tworzony przez nas test? oraz: jak definiujemy obszar interesujących nas zachowań?
Określanie celu pomiaru Pierwszym zadaniem, jakie stoi przed autorem nowego testu, jest określenie tego, czemu ma służyć test. Wyobraźmy sobie np., że chcemy skonstruować test kompetencji społecznych. Test ten może być przeznaczony dla celów selekcyjnych (wybieramy na jego podstawie osoby, które przyjmiemy do szkoły kształcącej przyszłych pracowników socjalnych), może być podstawą decyzji kadrowych (wpłynie na to, że będziemy awansować pracowników) bądź testem diagnostycznym (pomoże nam określać indywidualny zakres kompetencji społecznych jednostki). Trudno sobie wyobrazić, aby jeden test jednakowo dobrze realizował wszystkie trzy cele. Test, którego wyniki mają być podstawą selekcji, po winien dobrze różnicować w zakresie wysokich kompetencji społecznych, z kolei test przeznaczony do diagnozy indywidualnej powinien jednakowo dobrze różnicować na całym kontinuum mierzonej właściwości (a więc zarówno w zakresie niskich, jak i wysokich kompetencji). I podobnie, treść pozycji testowych powinna być inna wtedy, kiedy interesuje nas badanie osób, które starają się o przyjęcie na specjalistyczny kurs, a inna wtedy, kiedy chcemy określać indywidualne możliwości każdej osoby i np. planować na tej podstawie dalsze działania terapeutyczne. Jasne określenie celu głównego obszaru zastosowania testu i hierarchii decyzji, jakie będą podejmowane na podstawie jego wyników testowych, w dużym stopniu zwiększa nasze szanse na to, że ostateczna wersja testu spełni nasze oczekiwania. Określanie obszaru zachowań identyfikowanych z mierzonym konstruktem (procedura operacjonalizacji)1 Większość konstruktów psychologicznych to pojęcia bardzo szerokie, najczęściej nie posiadające wyraźnych definicji. Przykładami takich właśnie pojęć są: „wysiłek umysłowy”, „konformizm”, „zaangażowanie”, „lęk”, „popęd” czy „osobowość”. Tworząc test, musimy być przygotowani na konieczność precyzyjnego wskazania, co rozumiemy pod pojęciem „kom-
160
1 W literaturze przedmiotu opisuje się generalnie dwie strategie tworzenia narzędzi - st tegię racjonalną i empiryczną (Edwards, 1970; Wiggins, 1994). Punktem wyjścia konstrukcji metod za pomocą strategii racjonalnej jest teoria mierzonej cechy. W strategii empirycznej rozpoczynamy od dowolnej puli pytań i poszukujemy empirycznie potwierdzonych różnic między odpowiednio dobranymi grupami kontrastowymi. W skalach empirycznych kryterium zakwalifikowania twierdzeń do ostatecznej wersji skali jest związek między kryterium podziału na grupy a treścią twierdzeń (dokładniej na ten temat por. Paluchowski, 2001). Tu zajmiemy się strategią racjonalną jako bardziej ogólną.
Ko
n s t r u o w a n ie
testu
-
po dstaw o w e
pro cedury
petencji społecznych” czy „postawy”. Co więcej, nasze definicje powinny zostać sformułowane w języku dających się obserwować zachowań. Między pojęciami i obserwowałnymi zachowaniami może istnieć bardzo długi łańcuch powiązań i często trzeba wprowadzić wiele pośrednich pojęć i relacji, zanim ustalimy związek między terminami teoretycznym i za chowaniami. Wiązanie terminów teoretycznych z obserwacjami jest pod stawowym sposobem wyjaśniania, co przez nie rozumiemy. W każdym więc wypadku musimy być przygotowani na to, by każdej zainteresowanej osobie móc wyjaśnić treść ważnych dla nas pojęć przez dokładne pokazanie ich powiązań z obserwowałnymi zachowaniami. Procedura wiązania terminów teoretycznych (odnoszących się do nieobserwowalnych właściwości zdarzeń i obiektów) z terminami obserwacyjnymi (oznaczającymi obserwowalne właściwości i relacje) nazywa się procedurą o p e r a c j o n a l i z a c j i (por. Hornowska, 1989, 2000a). Zabieg operacjonalizacji to zbiór procedur pozwalających badaczowi (także autorowi testu) na powiązanie mierzonej cechy (pojęcia teoretycznego) z konkretnym zbiorem obserwacji. Innymi słowy, to zabieg, który określa, co należy zrobić i co należy obserwować, aby badane zachowania można było potraktować jako wskaźniki mierzonej cechy psychologicznej2. Cecha i narzędzie zatem są ze sobą ściśle związane, gdyż narzędzie odzwierciedla tę cechę na poziomie zachowań. I tak np. Zawadzki i Strelau (1997), konstruując swój kwestionariusz tempe ramentu (FCZ-KT), przyjęli za punkt wyjścia twierdzenia regulacyjnej teorii temperamentu, sformułowanej przez Strelaua (1995). Podstawowe dla tego kwestionariusza pojęcie temperamentu zostało zdefiniowane następująco: tem perament odnosi się do „(...) podstawowych, względnie stałych czasowo cech osobowości, które manifestują się w formalnej charakterystyce zachowania (parametrach energetycznych i czasowych). Cechy te występują we wczesnym dzieciństwie i są wspólne dla człowieka i zwierząt. Będąc pierwotnie zdetermi nowany przez wrodzone mechanizmy fizjologiczne, temperament podlega zmianom zachodzącym pod wpływem dojrzewania (i starzenia się) oraz niektó rych czynników środowiskowych” (Zawadzki, Strelau, 1997, s. 12). W obrębie poziomu energetycznego zachowania autorzy wyróżnili siedem własności temperamentu: wrażliwość sensoryczną, wrażliwość emocjonalną, odporność emocjonalną, odporność na dystraktory, odporność na zmęczenie oraz aktyw ność. W obrębie poziomu czasowego wyróżnili pięć kategorii zachowań: ruchliwość, szybkość, tempo, powtarzanie i utrzymywanie zachowania (ibidem , s. 48). Szczegółowe definicje wszystkich kategorii stały się podstawą wygenero wania wyjściowej puli pozycji testowych - w tym wypadku twierdzeń. Ci sami autorzy (Strelau, Zawadzki, 1998), tworząc inny kwestionariusz temperamentu (PTS), jako podstawę konstrukcji przyjęli pawłowowską kon2 Koncepcję operacjonalizacji szczegółowo omawiam w dwu pracach (Hornowska, 1989;
2000a).
161
R
o z d z ia ł
5
cepcję temperamentu. Do właściwości temperamentu Pawłów zaliczył: siłę procesu pobudzenia, siłę procesu hamowania, równowagę między tymi procesami i ruchliwość procesów nerwowych (ibidem, s. 10). Dla każdej z tych właściwości - na podstawie szczegółowej analizy prac Pawłowa oraz doświadczeń badawczych autorów - wyodrębniono 17 składników definicyj nych, a dalej wygenerowano różne ich wskaźniki na poziomie obserwacji (ibidem, s. 34). To samo pojęcie - temperament - zostało w obu wypadkach inaczej zdefiniowane. Konsekwencją różnych podejść teoretycznych było powstanie dwóch różnych kwestionariuszy temperamentu. Podsumowując: jeżeli chcemy zbudować test, to właściwym punktem startu jest wyraźne zdefiniowanie mierzonej cechy oraz jej operacjonalizacja. W ten sposób możemy określić obszar zachowań, które będziemy traktować jako wskaźniki interesującej nas cechy, a pozycje testowe powinny ten obszar odzwierciedlać. >- Dwa p i e r w s z e e t a p y konstrukcji testu to: • określenie celu pomiaru oraz • określenie obszaru zachowań identyfikowanych z mierzonym konstruktem
5.2. ZASADY BUDOWANIA POZYCJI TESTOWYCH Po zdefiniowaniu mierzonej właściwości i określeniu obszaru interesują cych nas zachowań możemy przystąpić do układania pozycji testowych. Wyjściowy zbiór pozycji testowych nazywać będziemy dalej pulą pozycji (ang. item pool). Pula ta powinna być stosukowo duża (zazwyczaj zaleca się skonstruowanie dwa razy tylu pozycji, ile liczyć ich ma ostateczna wersja testu), gdyż gwarantuje to nam uzyskanie odpowiedniej liczby pozycji speł niających wymagane kryteria. Zanim sami lub zaproszeni przez nas eksperci zaczną tworzyć pozycje testowe, powinniśmy najpierw odpowiedzieć na pytanie, jaki wybieramy format pozycji testowej. Zgodnie z Pophamem (1981) można mówić general nie o dwóch formatach pozycji: f o r m a c i e o t w a r t y m (ang. constructed-responseformat) i f o r m a c i e z a m k n i ę t y m (ang. selected-response format). W pierwszym wypadku zadanie osoby badanej polega na swobod nym udzieleniu odpowiedzi. Np. pytanie: „Co to jest błąd standardowy pomiaru?” posiada format otwarty. Osoba badana, o ile tylko rozumie sens pytania, odpowiada na nie całkowicie swobodnie, spontanicznie, posługując się swoim własnym językiem (por. też Frankfort-Nachmias, Nachmias, 2001). Natomiast w przypadku pozycji zamkniętych osobie badanej przedstawia się zbiór odpowiedzi, a jej zadanie polega na wybraniu jednej bądź kilku z nich. Pozycje zamknięte często też nazywa się pozycjami obiektywnymi z tego 162 względu, że ich ocena jest w mniejszym stopniu obciążona subiektywizmem.
Ko
n s t r u o w a n ie
testu
-
po dstaw o w e
pro cedury
Pozycje, z jakich składa się test, mogą mieć f o r m a t otwarty lub zamknięty: • typowymi przykładami pozycji o formacie otwartym są pozycje do uzupełnienia, krótkie wypowiedzi oraz opowiadanie; • typowymi przykładami pozycji o formacie zamkniętym są pozycje alternatywne, pozycje wielokategorialne z wieloma opcjami do wyboru, pozycje z dopasowy waniem, pozycje w formacie skali Likerta oraz dwubiegunowe skale przymiot nikowe.
Typowymi przykładami pozycji o formacie otwartym są pozycje do uzupeł nienia (ang. completion item), krótkie wypowiedzi (ang. short answer) oraz opowiadanie (ang. essay) - por. też Niemierko, 1975; Cohen, Swerdlik, 1999. • P o z y c j e d o u z u p e ł n i e n i a wymagają dokończenia przez osobę badaną rozpoczętego zdania. Formułowane są one najczęściej w sposób następujący3: rzetelność testu jest t o ............................................................. Pozycja tego typu powinna zostać tak zbudowana, aby odpowiedź prawid łowa (zgodna z kluczem) dawała się wyraźnie określić. W przeciwnym wypadku bowiem możemy napotkać na poważne trudności w ocenianiu odpowiedzi udzielonych na takie pozycje. • Pozycje testowe wymagające k r ó t k i e j w y p o w i e d z i formułuje się tak, aby osoba badana rzeczywiście mogła w związku z nimi przygotować zwięzłą wypowiedź. Zazwyczaj za krótką wypowiedź uznaje się tekst o objętości jednego lub dwóch paragrafów (Cohen, Swerdlik, 1999, s. 229). Pozycja tego typu może zostać zbudowana następująco: Jakie założenia przyjmuje się w klasycznym modelu wyniku prawdziwego? • pozycje testowe, na które odpowiedź ma charakter o p o w i a d a n i a , stosuje się wtedy, kiedy interesuje nas np. określenie głębokości wiedzy na dany temat. Pozycje tego typu nie tylko uruchamiają posiadaną wiedzę (wymagają bowiem odwołania się do pamięci), ale również pozwalają na ocenę stopnia jej integracji (zaplanowania i ustrukturalizowania wypowie dzi - ibidem), przykładowo: Omów badania psychologiczne poświęcone problemowi konformizmu i posłuszeństwa. W wypadku pozycji zamkniętych do najczęściej stosowanych w testach psychologicznych należą tzw. pozycje alternatywne (ang. alternate choice), ’ Aby ujednolicić sposób prezentacji tej części materiału, podawane przykłady będą generalnie dotyczyć testów właściwości poznawczych. Omawiane rodzaje pozycji testowych mają swoje zastosowanie również i w testach właściwości afektywnych.
163
R
o z d z ia ł
5
pozycje wielokategorialne z jedną lub wieloma opcjami do wyboru (ang. multiple choice), pozycje z dopasowywaniem (ang. matching), pozycje w for macie skali Likerta (ang. Likert format) oraz dwubiegunowe skale przymiot nikowe (ang. bipolar adjective checklist)4. • P o z y c j e a l t e r n a t y w n e to twierdzenia lub pytania zawierające tylko dwie możliwe odpowiedzi (tak-nie lub prawda-fałsz). Taki format właśnie posiada pozycja:
Potrafię polubić ludzi mających inne wartości niż ja fałsz prawda dla której przewidziano właśnie tylko dwa rodzaje odpowiedzi: „prawda” lub „fałsz”. Ten rodzaj pozycji nadaje się zarówno do testów właściwości poznawczych (testów umiejętności), jak i testów właściwości afektywnych (np. testów osobowości). Pozycje tego typu powinny być formułowane w prostym języku, warto też unikać sformułowań w postaci przeczeń (zwłaszcza podwójnych przeczeń), bowiem może wtedy istnieć niebezpie czeństwo niewłaściwej oceny odpowiedzi osoby badanej (por. Mehrens, Lehmann, 1973, s. 271-274). • P o z y c j a z w i e l o m a o p c j a m i d o w y b o r u składa się z trzonu (w którym przedstawione jest pytanie bądź problem), odpowiedzi prawid łowej (bądź zgodnej z kluczem) oraz kilku odpowiedzi nieprawidłowych (bądź niezgodnych z kluczem), nazywanych dystraktorami, przykładowo: Trafność kryterialna to inaczej: a. trafność diagnostyczna i prognostyczna
trzon odpowiedź prawidłowa
b. trafność predykcyjna i treściowa
dystraktor
c. trafność diagnostyczna i treściowa
dystraktor
d. trafność teoretyczna i treściowa
dystraktor
Dobra pozycja tego typu powinna: posiadać jedną prawidłową odpowiedź, wszystkie możliwości odpowiedzi powinny być gramatycznie równoważne, powinny być podobnej długości, powinny być zgodne gramatycznie z trzonem, a dystraktory nie powinny być dziwacznie sformułowane (por. Cohen, Swerdlik, 1999, s. 227). Czasami stosuje się testy z pozycjami wielokategorialnymi i wieloma opcjami do wyboru. Te jednak są trudniejsze do obróbki psychometrycznej. Ten rodzaj pozycji testowych stosuje się głównie w testach osiągnięć. • P o z y c j e z d o p a s o w y w a n i e m to pozycje składające się z dwóch list - listy bodźców i listy odpowiedzi. Obie listy są ułożone w porządku losowym. Zadanie polega na dopasowaniu bodźców do odpowiedzi. Przykła dowo: 164
4 Różne rodzaje pozycji testowych omawiają też: dla testów osiągnięć - Niemierko (1975), oraz dla testów osobowości - Cohen, Swerdlik (1999)
Ko
n s t r u o w a n ie
testu
-
po dstaw o w e
pro cedury
Połącz poszczególne pojęcia z ich definicjami, wstawiając numer definicji w wykropkowane miejsce obok litery oznaczającej dane pojęcie ......... a. zmienna kontrolowana
1. zmienna, która oddziałuje na inne zmienne
......... b. zmienna zależna
2. właściwość przyjmująca różne wartości dla obiektów, których dotyczy
......... c. zmienna niezależna
3. zmienna, której wpływ na zmienną zależną badacz jest w stanie ustalić
.. d. zmienna nominalna
4. zmienna po2:walająca stwierdzić, ile razy na tężenie danej zmiennej dla danego obiektu jest większe lub mniejsze od natężenia tej zmiennej dla innego obiektu
......... e. zmienna porządkowa
5. zmienna pozwalająca stwierdzić, o ile natę żenie danej zmiennej dla danego obiektu jest większe lub mniejsze od natężenia tej zmien nej dla innego obiektu
......... f. zmienna interwałowa
6. zmienna pozwalająca na uporządkowanie osób według przysługujących im wartości zmiennej
......... g. zmienna ilorazowa
7. zmienna kategorialna, jakościowa, będąca prostą klasyfikacją
......... h. zmienna
8. zmienna, która podlega oddziaływaniom ze strony innych zmiennych 9. zmienna, której wpływu na zmienną zależną badacz nie jest w stanie ustalić 10. zmienne, które burzą jasny obraz zależności między zmienną zależną a zmiennymi dla niej głównymi
Pozycje testowe tego typu powinny być konstruowane według następują cych zasad (por. Mehrens, Lehmann, 1973, s. 261-264): obie listy powinny być stosunkowo krótkie, lista odpowiedzi nie powinna się składać ze zbyt długich wyrażeń (najlepiej, aby były to pojedyncze zdania), pojedyncze zadanie powinno dotyczyć jednego pojęcia czy obszaru pojęciowego, lista odpowiedzi nie powinna być tej samej długości co lista bodźców (łatwiej wtedy bowiem ustalić prawidłowe połączenia tylko na drodze eliminacji), wreszcie: wszystkie zadania powinny być poprawne gramatycznie. Ten rodzaj pozycji również stosuje się przede wszystkim w testach osiągnięć. P o z y c j e w f o r m a c i e s k a l i L i k e r t a są twierdzeniami, do których dołączono pięć kategorii odpowiedzi: całkowicie się zgadzam, zgadzam się, trudno powiedzieć, nie zgadzam się, całkowicie się nie zgadzam. Osoba badana określa stopień aprobaty treści twierdzenia, wy bierając jedną z opcji odpowiedzi. Tego typu pozycje testowe wykorzystuje się z kolei przede wszystkim w testach właściwości afektywnych, głównie do pomiaru postaw (zgodnie z oryginalnym sposobem ich wykorzystania - por. Likert, 1932; też Brzeziński, 1978 - w sprawie szczegółowych zasad konstrukcji skali postaw Likerta). Przykładowo:
165
R
o z d z ia ł
5
Wszystkie dzieci powinny bezwarunkowo wykonywać polecenia swoich rodziców całkowicie się zgadzam
zgadzam się
trudno powiedzieć
nie zgadzam się całkowicie się nie zgadzam
D w u b i e g u n o w e s k a l e p r z y m i o t n i k o w e to z kolei rodzaj pozycji testowych zaczerpniętych z metody dyferencjału semantycznego. Osgood, Suci, Tannenbaum (1957; por. też Czapiński, 1978) zaproponowali - do pomiaru znaczenia konotacyjnego pojęć - stosowanie zbioru skal zdefiniowanych przez parę spolaryzowanych przymiotników, przykładowo: Gwiazda jasna
-1
gorąca
-1
duża
+1
+2
+3
ciemna
-2
-3
+1
+2
+3
zimna
-2
-3
+1
+2
+3
mała
Autorzy ci przeanalizowali szereg par przymiotników i stwierdzili, że większość z nich można pogrupować na trzy kategorie: wartościowanie (ang. evaluation ), siła (ang. potency) i aktywność (ang. activity). W efekcie otrzymali wystandaryzowane narzędzie, składające się z kilkunastu skal. Pozycje testowe w postaci dwubiegunowych skal przymiotnikowych by wają wykorzystywane poza orygimilną metodą dyferencjału semantycz nego. W takiej sytuacji jednak to na autorze testu ciąży obowiązek wyka zania w jaki sposób zbudowane przez niego skale przymiotników wiążą się z badaną właściwością, jak będą oceniane i interpretowane. Przedstawione przykłady formatu pozycji testowych nie wyczerpują oczy wiście wszystkich możliwości. Dobre opracowanie tego zagadnienia można znaleźć w pracach Niemierki (1975), Thorndike’a i Hagen (1977), Cronbacha (1990), oraz Cohena i Swerdlika (1999). Na koniec warto podkreślić, że decyzjo dotyczące formatu pozycji testowej powinny zostać podjęte bardzo starannie. Należy rozważyć konsekwencje wprowadzenia takiego, a nie innego formatu (dobrze jeżeli decyzje takie są poprzedzone badaniami empirycznymi)5. Tak zrobili np. Zawadzki i Strelau (1997), tworząc kwestionariusz temperamentu. Na jednym z etapów przygo towywania kwestionariusza poproszono osoby badane o wybranie jednej z dwóch możliwych opcji: TAK/NIE lub czterostopniowej skali Likerta (całkowicie się zgadzam, zgadzam się, nie zgadzam się i całkowicie się nie zgadzam - ibidem , s. 50). W badaniach okazało się, że osoby w grupie
166
5 Taką konsekwencją może być zwiększenie prawdopodobieństwa ujawnienia się tzw. stylu odpowiadania, tj. skłonności do odpowiadania na pozycje testowe niezależnie od treści tych pozycji. Do stylów najczęściej opisywanych należą tzw. tendencja do potakiwania, unikanie odpowiadania, poświęcanie dokładności na rzecz szybkości odpowiadania, udzielanie odpowiedzi składających się z kilku słów, gdy wymagana odpowiedź ma mieć formę opowia dania, czy nieco inny mechanizm znany jako odpowiadanie zgodnie ze zmienną aprobaty społecznej (Cronbach, 1990, s. 175; szerzej patrz Wiggins, 1994).
K o n str u o
w a n ie
testu
-
po dstaw o w e
pro cedury
wiekowej 20-65 lat preferują format TAK/NIE. Ponieważ kwestionariusz ten jest przeznaczony do badania dorosłych, autorzy zdecydowali się na taki właśnie format pozycji testowych. Ilustracją tego, co powiedzieliśmy na temat formatu pozycji testowych, niech będzie tab. 5.1, w której na przykładzie testu sprawdzającego poziom wiedzy z matematyki przedstawiono sposób konstruowania pozycji testowej wkfókategorialnej z jedną opcją do wyboru. Tab. 5.1. Konstruowanie pozycji testowej wielokategorialinej z jedną opcją do wyboru (na przykładzie testu sprawdzającego poziom wiedzy z matematyki) Rodzaj wiedzy: umiejętność mnożenia ułamków dziesiętnych Rodzaj pozycji testowej: obliczanie iloczynów dwóch ułamków dziesiętnych Cechy bodźca Cechy odpowiedzi 1. Zadanie z treścią wymagające oblicze 1. Odpowiedzi są podawane w postaci war nia iloczynu dwóch ułamków dziesięt tości iloczynów, w porządku malejącym nych lub rosnącym 2. Każdy z ułamków powinien zawierać jedno lub dwa miejsca po przecinku
2. Każde zadanie posiada cztery odpowie dzi do wyboru: a) odpowiedź prawidłowa b) dystraktor - błąd wynikający z nie prawidłowego określenia miejsca dziesiętnego c) dystraktor - błąd wynikający ze złego ustawienia („podpisania”) ułamków d) dystraktor - błąd wynikający z nie zrozumienia treści zadania
3. W żadnym zadaniu nie powinny się dwukrotnie powtórzyć te same liczby
5.3. ANALIZA ZADAŃ Mając już gotową pulę pozycji testowych, możemy przystąpić do ich oceny. Ocena ta powinna zostać przeprowadzona na trzech płaszczyznach: językowej, treściowej i statystycznej. Efektem tego będzie ustalenie ostatecz nej wersji budowanego testu. A n a l i z a z a d a ń obejmuje trzy etapy: • analizę językową • analizę treściową • analizę statystyczną
Analiza językowo-treściowa Pierwszym krokiem pozwalającym nam sprawdzić jakość wygenerowanych przez nas pozycji testowych jest sprawdzenie ich pod kątem poprawności językowej i trafności treściowej. Ten etap analizy zadań przeprowadza się
167
R
o z d z ia ł
5
zazwyczaj p r z e d uruchomieniem badań pilotażowych i przeprowadzeniem analizy statystycznej pozycji (Nunnally, 1978, s. 262)6. Taka wstępna selekcja pozycji testowych pozwoli na odrzucenie pozycji językowo bądź teoretycznie wadliwych i tym samym będzie sprzyjać zbudowaniu rzetelnego i trafnego testu Analiza językowa. Analiza językowa jest zazwyczaj przeprowadzana przez językoznawców. Ich zadanie polega na przeanalizowaniu każdej pozycji pod kątem jej poprawności gramatycznej, zrozumiałości, stosowanego słownictwa czy też długości, konkretności lub metaforyczności. I choć generalnie za właściwe uznaje się reguły danego języka, można sformułować kilka zasad ogólnych. I tak - pozycja testowa (por. Thorndike, Hagen, 1977; Nunnally, 1978; Crocker, Algina, 1986): • nie powinna być zbyt długa (preferowane są pozycje jednozdaniowe, chyba że mają stanowić opis pewnej sytuacji lub problemu); • powinna być raczej zbudowana ze zdań prostych niż złożonych, jeżeli dana pozycja wymaga dłuższego sformułowania; • powinna być sformułowana w trybie oznajmującym (przeczenia, zwłaszcza podwójne, mogą prowadzić do nieporozumień interpretacyjnych); • stosowany język powinien być prosty (nie powinny zawierać trudnych zwrotów lub wrażeń); • powinna być napisana językiem dostosowanym do przeciętnych kompeten cji językowych badanych osób (a więc innym dla dzieci oraz dla dorosłych); • powinna być poprawnie sformułowana gramatycznie; • nie powinna zawierać takich określeń, jak „czasami”, „rzadko”, „niekiedy”, „kilka” „wiele” „nigdy” czy „zawsze”, ponieważ osoby badane mogą im przypisywać różne znaczenia. Każda pozycja testowa jest po kolei analizowana. Autor testu może ją pozostawić bez zmian, przeformułować lub odrzucić. Staranna analiza języko wa pozwala wyeliminować zasadnicze błędy w sposobie formułowania pozycji testowych. Dzięki temu pozycje składające się na pierwszą wersję testu powinny być wolne od błędów językowych. Analiza treściowa. Kolejnym etapem wstępnej analizy pozycji testowych jest ich analiza pod kątem treściowym. Pytanie, na jakie powinien odpowie dzieć autor testu, to pytanie o to, czy wszystkie pozycje testowe można treściowo wywieść z teorii mierzonej cechy. Podstawą tej analizy jest oczy wiście treść pozycji testowych. I tym razem zespół ekspertów dokonuje oceny zgodności treści poszczególnych pozycji testowych z przyjętymi
168
() Niekiedy analizy językowo-treściowe są przeprowadzane po badaniach pilotażowych. Zaproszeni eksperci analizują tylko te pozycje, które spełniają formalne kryteria. Ponieważ zazwyczaj po badaniach pilotażowych wiele pozycji jest przeformułowywanych, ten sposób jest ekonomicznie mało efektywny, nie pozwala bowiem na zaoszczędzenie czasu i kosztów związanych z tworzeniem nowego testu (taka analiza powinna być przeprowadzona nie tylko dla wyjściowej puli pozycji, ale także i dla ostatecznej wersji testu).
Ko
n s t r u o w a n ie
testu
-
po dstaw o w e
procedury
wcześniej założeniami. Innymi słowy, zespół ten udziela odpowiedzi na dwa pytania: a) czy wszystkie pozycje testowe można traktować jako operacjonalizację mierzonej cechy, oraz b) czy pozycje testowe reprezentują uniwersum zachowań, ważnych z punktu widzenia tej cechy. Odpowiednio wysoki współczynnik zgodności między sędziami może być dobrą podstawą podjęcia decyzji o jakości pozycji testowej (por. omówienie problemu trafności treściowej w rozdz. 4). Ten rodzaj analizy pozwala także wyeliminować - już na wczesnych etapach konstrukcji testu - wiele pozycji nie spełniających kryterium trafności treściowej. Aby zilustrować praktycznie nasze rozważania dotyczące analizy językowo-treściowej, odwołajmy się do wspomnianego już kwestionariusza temperamen tu (FCZ-KT) Zawadzkiego i Strelaua (1997). Na pierwszym etapie konstrukcji kwestionariusza autorzy poprosili studentów psychologii i dyplomowanych psychologów o sformułowanie pozycji typowych dla zdefiniowanych wcześniej własności temperamentu. W ten sposób uzyskali 600 oryginalnych (czyli nie pochodzących z innych narzędzi) pozycji testowych (ibidem , s. 48). Następnie pozycje te zostały poddane ocenie językowej (przez 30 studentów wyższych lat polonistyki i dyplomowanego lingwistę) oraz analizie treściowej (przez 12 psychologów różnic indywidualnych). W efekcie tej procedury pozostały 392 pozycje (ibidem , s. 49), które zostały ocenione pod kątem formalnym.
Badanie pilotażowe Po odrzuceniu pozycji testowych źle sformułowanych pod względem językowym i nietrafnych treściowo przygotowujemy pierwszą wersję naszego testu. Tę wersję sprawdzamy następnie w badaniach pilotażowych. Badanie pilotażowe (próbne testowanie) powinno zostać przeprowadzone na tej grupie osób, dla której test jest przeznaczony. I tak np. jeżeli tworzony przez nas test jest przeznaczony do badania młodzieży uczącej się w gim nazjum, to badanie pilotażowe powinno zostać przeprowadzone na próbie uczniów gimnazjów. Obok decyzji: k o g o powinniśmy przebadać, musimy także podjąć decyzję j a k l i c z n a powinna być to grupa. W podręcznikach trudno znaleźć proste rady na ten temat, jednak najczęściej zaleca się prze badanie od 5 do 10 osób, licząc na każdą pozycję testową (por. np. Nunnally, 1978, s. 279; Crocker, Algina, 1986, s. 83; Cohen, Swerdlik, 1999, s. 230)7. Co więcej, próba ta nie powinna być nigdy mniejsza niż 100 osób. Im większa próba, tym oczywiście lepiej, bowiem pozwoli to nam uniknąć przypadkowych wyników (zalecenie to jest szczególnie ważne, kiedy planu jemy zastosowanie analizy czynnikowej). Jeżeli test jest stosunkowo długi, 7 Niestety, lektura wielu podręczników testowych wskazuje, że zasada ta nie jest prze strzegana, a prezentowane w nich wyniki analizy zadań mogą być - ze względu na zbyt małą liczebność próby - niewiarygodne.
169
R
o z d z ia ł
5
to dopuszczalną procedurą jest podział testu na części i zbadanie każdą z części innej grupy osób. Badanie pilotażowe powinno przebiegać w takich samych warunkach, w jakich gotowy już test będzie stosowany. Oznacza to, że zarówno instruk cja, ewentualne limity czasowe, charakter badania (indywidualny czy grupo wy), jak i atmosfera w trakcie badania powinny być takie, jak w trakcie właściwego badania tym testem. Jak pisze Nunnally (1978, s. 279): „Jeżeli w badaniu pilotażowym osoby badane mogą dowolnie długo rozwiązywać test, a w wersji końcowej planuje się wprowadzenie poważnych ograniczeń czasowych, to analiza zadań najprawdopodobniej dostarczy nam - wprowa dzających w błąd - informacji. Jeżeli odpowiedzi na pozycje testowe inwen tarza osobowości są uzyskiwane w atmosferze zachęcającej do szczerości, a ostateczna wersja testu będzie stosowana w atmosferze zniechęcającej do mówienia o sobie złych rzeczy, to analiza zadań przyniesie nam wadliwe dane o naszym teście” (por. też Cohen, Swerdlik, 1999, s. 230). Wyniki otrzymane w badaniu pilotażowym są następnie analizowane i każda pozycja testowa jest opisywana za pomocą wybranych wskaźników statystycznych. Typowymi wskaźnikami tu: wskaźnik trudności pozycji i współczynnik mocy dyskryminacyjnej. Do ostatecznej wersji testu włączane są tylko te pozycje, których właściwości statystyczne okażą się wystarczająco zadowalające.
Wskaźnik trudności Najprostszą miarą pozwalającą nam podjąć decyzję o tym, które pozycje testowe mogą wejść do ostatecznej wersji testu, jest tzw. wskaźnik trudności pozycji (ang. item-difficulty index). Wskaźnik ten oblicza się głównie w testach właściwości poznawczych (musi istnieć kategoria odpowiedzi prawidłowej, poprawnej) i jest on wykorzystywany do wybrania takich pozycji testowych, które mają odpowiedni - z punktu widzenia celu testowania - poziom trudności8. Wskaźnik trudności jest definiowany następująco:
T = T = pi*lOO% N
gdzie: T oznacza wskaźnik trudności, n, - liczbę osób, które odpowiedziały prawidłowo na daną pozycję testową, a N - ogólną liczbę osób, które udzieliły odpowiedzi na tę pozycję. Innymi słowy, jest to proporcja osób, które poprawnie odpowiedziały na daną pozycję testową (p,), wyrażona w procen tach. Im wyższa wartość T, tym łatwiejsza jest dana pozycja testowa (bo tym więcej osób znało prawidłową odpowiedź). Ze względu na taki właśnie sposób interpretacji wielkości współczynnika T czasami nazywa się go K Odpowiednikiem tego wskaźnika w testach osobowości jest tzw. wskaźnik częstości odpowiadania w określony sposób (ang. item-endorsement index), który pozwala ustalić, jak
170
często osoby badane odpowiadają np. „tak” na daną pozycję testową.
Ko
n s t r u o w a n ie
testu
-
po dstaw o w e
pro cedury
wskaźnikiem łatwości zadania, aby nie wprowadzać zbędnych trudności interpretacyj nych. Jaka zatem wartość tego wskaźnika uprawnia nas do zakwalifikowania danej pozycji testowej do ostatecznej wersji testu? Jeżeli naszym celem jest różnicowanie badanych osób na całym kontinuum zmienności cechy, to dobrą pozycją testową jest taka pozycja, która gwarantuje nam to zróżnicowanie. A dana pozycja różnicuje tym lepiej, im bardziej jej wskaźnik trudności zbliża się do 50%9. Dlatego też optymalne pod względem trudności są takie pozycje testowe, których trudność oscyluje wokół tej wartości. Taka prosta reguła decyzyjna może być stosowana pod jednym wszakże warunkiem, a mianowicie, że pozycje testowe nie pozostają ze sobą w żad nym związku. Zazwyczaj jednak założenie to jest trudne do spełnienia. Większość testów to testy jednorodne, a im bardziej jednorodny jest test, tym większe są korelacje między jego pozycjami. Aby zilustrować tę zależ ność, wyobraźmy sobie taką sytuację: nasz test składa się z 10 identycznych pozycji (np. „Co to jest współczynnik trudności pozycji testowej?”). W takim teście korelacje między poszczególnymi pozycjami testowymi będą oczywiś cie maksymalne i wyniosą 1. Gdyby trudność wszystkich pozycji testowych wynosiła 50% i gdybyśmy takim testem przebadali grupę 10 osób, to otrzy malibyśmy następujący rezultat: dokładnie 5 osób znałoby poprawną od powiedź, a 5 nie umiałoby jej udzielić. W efekcie zamiast dobrze zróżnicować badaną grupę pod względem wiedzy o zasadach budowy testu otrzymalibyś my podział tylko na dwie kategorie: tych, którzy mają maksymalną wiedzę na ten temat, i tych, którzy nic nie wiedzą. To, oczywiście, nie może być dobry sposób postępowania. Co zatem możemy zrobić? W takim przypadku zaleca się, aby pozycje testowe posiadały zróżnicowaną trudność (od najłat wiejszych do najtrudniejszych); zróżnicowanie to powinno być tym większe, im większa jest korelacja między pozycjami. Pozycje testowe należy dobrać tak, by średnia trudność całego testu oscylowała wokół 50% (por. Nunnally, 1978, s. 242-243; Anastasi, Urbina, 1999, s. 235; Cohen, Swerdlik, 1999, s. 232). W taki właśnie sposób m.in. dobrano pozycje do ostatecznej wersji testu S ł o w n i k w Skali Wechslera WAIS-R(PL) - por. tab. 5.2. W niektórych wypadkach jednak ogólna reguła, że średnia trudność testu powinna oscylować wokół 50%, nie ma zastosowania. Dotyczy to przede wszystkim testów przeznaczonych do celów selekcyjnych. Testy tego typu 9 Aby wyjaśnić, dlaczego tak się dzieje, musimy najpierw przypomnieć sobie, jak oblicza się miarę zróżnicowania (czyli wariancji) dla pozycji dwukategorialnej. Otóż miara ta jest definiowana następująco: V x= P ,(li
gdzie: p, oznacza proporcję odpowiedzi prawidłowych, a i/, proporcję odpowiedzi nieprawid łowych (pl + qi = 1) - por. np. Ferguson i Takane (1997). Otóż jak łatwo się przekonać, miara ta będzie miała największą wartość wtedy, kiedy p i = q, = Q,5, czyli 50% (bo 5 0 x 5 0 = 2500 porównań). W każdym innym wypadku wartość ta będzie mniejsza.
171
R
o z d z ia ł
5
Tab. 5.2. Wartości wskaźnika trudności dla poszczególnych pozycji oraz średnia trudność testu Słownik z baterii WAIS-R (PL) (opracowano na podstawie Hornowska, 1993b, s. 180) Nr pozycji testowej
T
Nr pozycji testowej
T
1
94,4
18
57,9
2
79,1
19
56,9
3
74,5
20
55,6
4
73,2
21
55,0
5
73,1
22
54,6
6
70,0
23
51,1
7
69,6
24
49,7
8
68,4
25
47,4
9
68,2
26
45,9
10
66,6
27
44,8
11
66,3
28
40,9
12
63,8
29
35,2
13
62,6
30
32,0
14
61,9
31
29,6
15
60,7
32
28,6
16
60,2
33
09,3
17
59,2
34
06,4
35
05,1
T= 53,65%
powinny zawierać pozycje testowe o takiej trudności, jaka jest najbliższa pożądanemu współczynnikowi selekcji. I tak np. jeżeli interesuje nas wy branie najlepszych 30% kandydatów, to najoptymalniejsze będą te pozycje, których wskaźnik trudności waha się właśnie wokół 30% (po uwzględnieniu problemu zgadywania wskaźnik ten może być nieco wyższy - patrz niżej). Innymi słowy, im bliżej punktu krytycznego (punktu selekcji) znajduję się wskaźnik trudności pozycji, tym lepiej z uwagi realizację celu pomiaru. To właśnie przeznaczenie testu powinno decydować o tym, jakie pozycje testowa znajdą się w ostatecznej jego wersji. Decyzji tych - jak piszą Anastasi i Urbina (1999, s. 242) - „nie można podejmować w sposób rutynowy, nie wiedząc, do czego będą wykorzystywane wyniki testowe”. Problem zgadywania. Przedstawiona wyżej reguła postępowania może być stosowana w wypadku pozycji z formatem otwartym. W wypadku pozycji z formatem zamkniętym musimy jeszcze dodatkowo uwzględnić problem zgadywania. Nikogo, kto rozwiązywał jakiekolwiek testy, nie trzeba przekony172 wać, że przy braku wiedzy szansa udzielenia prawidłowej odpowiedzi na pytanie:
Ko
n s t r u o w a n ie
testu
-
po dstaw o w e
pro cedury
C o to j e s t z m i e n n a ? jest znacznie mniejsza niż wtedy, kiedy pytanie zostałoby sformułowane w następujący sposób: Z m i e n n a j e s t to: a) w ł a ś c i w o ś ć p r z y j m u j ą c a r ó ż n e w a r t o ś c i d l a o b i e k t ów, k t ó r y c h d o t y c z y ; b) w ł a ś c i w o ś ć p r z y j m u j ą c a t y l k o j e d n ą w a r t o ś ć d l a w sz y s t k i c h obiektów. Efekt zgadywania musi zatem zostać uwzględniony przy doborze pozycji testowych do ostatecznej wersji testu. Zgadywanie w bezpośredni sposób wpływa na wartość wskaźnika trudno ści. Osoby, które nie znają prawidłowego rozwiązania, mogą skreślić właś ciwą odpowiedź, i tym samym otrzymana przez nas wartość p, będzie większa niż zazwyczaj. Aby technicznie rozwiązać problem zgadywania i uwzględnić go w schematach doboru pozycji testowych, przyjmuje się założenie, że osoby badane nie dysponują żadną wcześniejszą wiedzą i że odpowiadają w sposób całkowicie losowy (wszystkie opcje odpowiedzi są dla nich jed nakowo prawdopodobne czy jednakowo atrakcyjne). To założenie znane jest jako m o d e l l o s o w e g o z g a d y w a n i a (ang. random guessing model) - por. Crocker, Algina, 1986, s. 312; Suen, 1990, s. 75. Wiele praktycznych sytuacji pokazuje jednak, że najczęściej osoby badane dysponują już jakąś wcześniejszą wiedzą na temat przedmiotu pomiaru i na jej podstawie od rzucają z góry niektóre odpowiedzi jako mało prawdopodobne. Dokonując wyboru, wybierają zatem jedną możliwość z mniejszej liczby pozostałych, co zwiększa szansę udzielenia odpowiedzi prawidłowej. Do problemu tego wrócimy jeszcze nieco dalej. Przyjmując założenie o losowym zgadywaniu, możemy określić, ile wynosi proporcja osób, które podały prawidłowa odpowiedź, mimo że jej faktycznie nie znały. Proporcja ta zależy od liczby kategorii odpowiedzi, w jakie wyposażona jest dana pozycja testowa, i wynosi Hm, gdzie m jest liczbą kategorii do wyboru. Dlatego też trudność pozycji testowych - z uwzględ nieniem zgadywania - powinna być obliczana jako suma proporcji osób, które faktycznie znały odpowiedź, oraz tej części spośród nie znających odpowiedzi, którzy ją losowo wskazali, tj: T„ - (p0 + q<,/m) 100%
gdzie: T„ oznacza wskaźnik trudności poprawiony ze względu na zgadywanie, p„ jest proporcją osób, które faktycznie znały odpowiedź, q„ proporcją osób, które nie znały odpowiedzi, a m liczbą kategorii do wyboru (Crocker, Algina, 1986, s. 313). Przypomnijmy, w sytuacji, w której nie uwzględnialiśmy możliwości zgadywania, optymalna trudność pozycji testowych (dla testów maksymalnie różnicujących) oscylowała wokół 50%. Jeżeli jednak przyjmiemy, że taka
173
R
o z d z ia ł
5
możliwość istnieje, to aby zmaksymalizować wariancję wyniku prawdziwego, optymalna wartość wskaźnika T powinna być nieco wyższa i - np. dla pozycji dwukategorialnych - wynosić: T - 0,5 + 0,5/2 = 0,75 = 75%. Dobieranie po zycji o odpowiedniej (poprawionej) wartości wskaźnika T zwiększa rzetelność całego testu. W tab. 5.3 zamieszczono poprawione wskaźniki trudności dla pozycji testowych z różną liczbą kategorii odpowiedzi. Tab. 5.3. Rozkład wartości poprawionego wskaźnika trudności (7"0) dla pozycji posiadających różną liczbę kategorii odpowiedzi Proporcja osób Proporcja osób Liczba kategorii odpowiadających zgadujących odpowiedzi odpowiedź prawidłowo
Poprawiony współczynnik trudności (TQ)
2 kategorie
0,50
0,50/2=0,25
0,50+0,25=0,75
(75%)
3 kategorie
0,50
0,50/3=0,17
0,50+0,17=0,67
(67%)
4 kategorie
0,50
0,50/4=0,125
0,50+0,125=0,623
(63%)
5 kategorii
0,50
0,50/5=0,10
0,50+0,1=0,60
(60%)
Jak wspomnieliśmy, losowy model zagadywania oparty jest na założeniach mało realistycznych (rzadko bowiem zdarza się tak, aby osoba badana nie posiadała żadnej wiedzy na temat przedmiotu pomiaru i odpowiadała w spo sób czysto losowy). Dlatego też Lord (1952b) w jednym ze swoich badań symulacyjnych obliczał wskaźniki trudności pozycji dla różnych sytuacji. Jego zdaniem {ibidem), aby zminimalizować wpływ zgadywania (przy uwzględnieniu faktu, że nie wszystkie opcje odpowiedzi są jednakowo prawdopodobne) i zwiększyć rzetelność metody, cały test powinien być jeszcze nieco łatwiejszy. Lord podał następujące wartości średniego wskaź nika trudności testu dla różnych formatów odpowiedzi: Format pozycji Format otwarty Pięć kategorii do wyboru Cztery kategorie do wyboru Trzy kategorie do wyboru Dwie kategorie do wyboru
174
Optymalna średnia trudność testów różnicujących w maksymalnym stopniu 50% 70% 74% 71% 85%
Podkreślmy wyraźnie raz jeszcze: ten sposób doboru pozycji do ostatecznej wersji testu jest optymalny wtedy, kiedy interesuje nas zbudowanie testu maksymalnie różnicującego badane osoby. Jeżeli cel testowania jest inny, pozycje testowe należy dobierać w taki sposób, aby uzyskać możliwość różnicowania w tym punkcie kontinuum, który jest dla nas ważny (patrz wyżej). Poprawka na zgadywanie. Fakt, że dany test jest zbudowany z pozycji o formacie zamkniętym i że może to wpłynąć na wyniki otrzymywane w tym teście, powinien zostać również uwzględniony przy interpretacji wyniku
Ko
n s t r u o w a n ie
testu
-
po dstaw o w e
pro cedury
indywidualnego. Odpowiednia poprawkę na zgadywanie podaje np. Magnusson (1981, s. 335). Przyjmując, że wszystkie kategorie odpowiedzi mają jednakowe prawdopodobieństwo wyboru, liczbę zadań, jakie dana osoba potrafiła rozwiązać bez zgadywania, możemy obliczyć następująco: C = R - ( F / m - 1)
gdzie: C to wynik danej osoby poprawiony ze względu na zgadywanie, R - liczba odpowiedzi prawidłowych, F - liczba odpowiedzi nieprawidłowych, m - liczba opcji dostępnych do wyboru. Np. jeżeli osoba A w teście składają cym się z 20 pozycji czterokategorialnych odpowiedziała prawidłowo na 15 pozycji i nieprawidłowo na 5 pozycji, to jej wynik poprawiony ze względu na zgadywanie wynosi: C= 15 —(5/4) = 13,75, czyli w przybliżeniu 14 pkt. Indywidualna korekta wyników w taki sposób, jak przedstawiono wyżej, powoduje wyrównanie różnic między osobami badanymi ze względu na zgadywanie. Pozwala nam to ocenić rzeczywisty poziom mierzonej cechy n i e z a l e ż n i e od różnej skłonności tych osób do zgadywania (ibidem). Wpływ zgadywania na liczbę poprawnych odpowiedzi zależy od liczby kategorii odpowiedzi. Im więcej kategorii osoba badana ma do wyboru, tym mniejsze prawdopodobieństwo znalezienia prawidłowej odpowiedzi przez przypadek, i tym samym mniejsza będzie wielkość poprawki. Podobną poprawkę możemy również zastosować wtedy, kiedy interesuje nas rzeczywista częstość odpowiedzi prawidłowych na dana pozycję w okreś lonej grupie osób. Poprawka ta może zostać obliczona według wzoru (Magnusson, 1981, s. 338):
gdzie: R to liczba osób, które rzeczywiście umiały rozwiązać zadanie, f to liczba osób, które podały prawidłowe odpowiedzi, F - liczba osób, które podały złe rozwiązania, a m - liczba opcji do wyboru.
Współczynniki mocy dyskryminacyjnej Wiele testów stosuje się po to, aby uzyskać informacje o różnicach indywidualnych w zakresie mierzonego konstruktu lub w zakresie jakiegoś zewnętrznego kryterium, które chcemy przewidywać na podstawie wyników testowych. W każdym z tych wypadków test powinien składać się z takich pozycji testowych, które przede wszystkim umożliwiają dokonanie różnico wania między osobami uzyskującymi niskie i wysokie wyniki na interesują cym nas kontinuum. Idealny test powinien dawać następujący efekt: osoby z niskim ogólnym wynikiem powinny rzadziej odpowiadać poprawnie (czy bardziej ogólnie - diagnostycznie) na daną pozycję testową, zaś osoby z wysokim ogólnym wynikiem testowym - częściej. Ponieważ zazwyczaj - w trakcie konstruowania testu - nie dysponujemy żadną inną miarą mie rzonego konstruktu poza samym ogólnym wynikiem w tym teście, wynik ten
175
R
o z d z ia ł
5
właśnie jest najczęściej traktowany jako operacyjna definicja pozycji osoby na określonym kontinuum. Takie rozumowanie stało się podstawą opracowania różnych wskaźników dobroci pozycji testowych, nazywanych ogólnie współ czynnikami mocy dyskryminacyjnej (ang. item discrimination power index). Współczynnik mocy dyskryminacyjnej to stopień, w jakim dana pozycja testowa różnicuje badaną populację w zakresie zachowania, które dany test ma mierzyć. Wartość tego współczynnika generalnie jest interpretowana następująco (Niemierko, 1975, s. 260; por. też rys. 5.2): a) pozycja testowa o dodatniej mocy dyskryminacyjnej jest częściej roz wiązywana przez osoby badane o wysokich ogólnych wynikach w teście, a więc różnicuje te osoby w zgodzie z innymi pozycjami testu, i tym samym zwiększa wariancję wyników testowania; b) pozycja testowa o ujemnej mocy dyskryminacyjnej jest częściej roz wiązywana przez osoby badane o niskich ogólnych wynikach w teście, a więc różnicuje te osoby przeciwnie niż inne pozycje testu, i tym samym zmniejsza wariancję wyników testowania. Do ostatecznej wersji testu powinny wejść oczywiście te pozycje, które zwiększają wariancję wyników testowania, a więc o dodatniej, wysokiej mocy dyskryminacyjnej. W literaturze przedmiotu można znaleźć informacje o kilkudziesięciu współczynnikach tego typu. Można je pogrupować na trzy kategorie: • proste wskaźniki dyskryminacyjne • współczynniki oparte na analizie korelacji między wynikiem danej pozycji o ogólnym wynikiem w teście Rys. 5.2. Rodzaje związków między wynikiem danej pozycji testowej a ogólnym wynikiem w teście korelacja ujemna
korelacja dodatnia
o? o W
o g
W
CD
0 ogólny wynik w teście 176
odpowiedź diagnostyczna zwiększa ogólny wynik w teście
ogólny wynik w teście
odpowiedź diagnostyczna zmniejsza ogólny wynik w teście
Ko
n s t r u o w a n ie
testu
-
po dstaw o w e
pro cedury
• współczynniki oparte na analizie różnic między tzw. skrajnymi grupami. Omówimy je po kolei. Wskaźnik dyskryminacji. Najprostszym współczynnikiem mocy dyskry minacyjnej jest tzw. wskaźnik dyskryminacji (ang. index of discrimination), który Można stosować tylko w wypadku pozycji dwukategorialnych. Wskaź nik terii wymaga ustalenia punktu podziału osób badanych na dwie grupy: tzw. dolną grupę (tj. grupę o niskich wynikach w teście) i grupę górną (tj. grupę osób o wysokich wynikach w teście). Podział taki może zostać prze prowadzony w punkcie mediany (i wówczas obie grupy będą liczyły po 50% ogółu badanych osób) lub tak, aby brać pod uwagę tylko wyniki skrajne, a nie analizować wyniki środkowe. W klasycznych już badaniach Kelley (1939) udowodnił, że najoptymalniejszym punktem podziału jest wyodręb nienie po 27% badanych osób na każdym krańcu kontinuum. Przy takim podziale bowiem stosunek otrzymanej różnicy do jej błędu standardowego jest maksymalny (ibidem). Przy odpowiednio liczebnych próbach podobny efekt możemy także otrzymać, przyjmując jako punkt podziału po 25% z każdej strony lub dzieląc w punkcie mediany. Mając wyodrębnioną dolną i górną grupę osób badanych, możemy obliczyć wskaźnik dyskryminacji według następującego wzoru: D = p „ -p ,
gdzie: D jest wskaźnikiem dyskryminacji, p u oznacza proporcję odpowiedzi poprawnych (diagnostycznych) w górnej grupie osób badanych, a p, - propor cję odpowiedzi poprawnych (diagnostycznych) w dolnej grupie (Crocker, Algina, 1986, s. 314; Anastasi, Urbina, 1999, s. 249). Współczynnik ten może przybierać następujące wartości: od -1,00 (gdy pozycja testowa idealnie różnicuje w przeciwnym kierunku niż ogólny wynik w teście) do +1,00 (gdy pozycja testowa idealnie różnicuje w tym samym kierunku co ogólny wynik w teście). W tab. 5.4 podano przykładowe wyniki dla trzech różnych pozycji testowych (dla uproszczenia przyjęto punkt podziału w środku rozkładu, dzieląc osoby badane na dwie podgrupy po 50% osób). Tab. 5.4. Przykładowe wyniki dla trzech wybranych pozycji testowych Pozycja testowa
Dolna grupa osób badanych 1 2 3 4 5
Górna grupa osób badanych 7 6 9 10 8 1 1 1 1 0
poz. 1
0
0
0
0
1
poz. 2
0
0
1
1
0
1
0
0
0
1
poz. 3
0
1
1
0
1
0
0
0
1
0
10
14
16
18
21
22
24
25
28
30
ogólny wynik w teście
Uwaga: „0” oznacza odpowiedź niediagnostyczną, a „1” odpowiedź diagnostyczną. Osoby badane zostały już uporządkowane ze względu na wysokość wyniku ogólnego w teście.
177
R
o z d z ia ł
5
Przeprowadzając odpowiednie obliczenia dla danych z tab. 5.4, otrzymamy: D t = 0,8 - 0,2 = + 0,6 D2 = 0,4 -0 ,4 = +0,0 Dj = 0 ,2 -0 ,6 = -0,4 Czym się zatem należy kierować, podejmując decyzję o tym, które pozycje testowe możemy włączyć do ostatecznej wersji testu? Ebel (1965) podał następujące kryteria decyzyjne (por. też Crocker, Algina, 1986, s. 315): a) jeżeli D > = 0,40, pozycję testową można włączyć do testu, b) jeżeli 0,30 =< D = <0,39, pozycja testowa wymaga niewielkich zmian, c) jeżeli 0,20 =
Ko
n s t r u o w a n ie
testu
-
po dsta w o w e
pro cedury
gdzie: Xp oznacza średni wynik ogólny w teście w tej grupie osób, które odpowiedziały diagnostycznie (zgodnie z kluczem) na daną pozycję testową, X - średni ogólny wynik w teście dla całej badanej grupy, Sx - odchylenie standardowe ogólnych wyników w teście dla całej grupy, p -r proporcję odpowiedzi diagnostycznych (zgodnych z kluczem) na daną (analizowaną) pozycję testową, a y - rzędną rozkładu normalnego w punkcie podziału między proporcjami p i q (q = 1 - p ). Istotność współczynnika rh dla tego współczynnika (Magnusson, 1981, s. 303) wynosi: Sn, = ypq/N (y )
gdzie N oznacza liczebność badanej próby . 2) W s p ó ł c z y n n i k k o r e l a c j i p u n k t o w o - d w u s e r y j n e j (ang. point-biserial correlation) jest z kolei obliczany wtedy, kiedy spełnione są następujące założenia: (a) rozkład wyników cechy mierzonej przez daną pozycję testową jest zmienną dyskretną (dwukategorialną) oraz (b) rozkład ogólnych wyników w teście jest rozkładem normalnym. Współ czynnik rph obliczamy następująco (por. Guilford, 1964, s. 310; Magnus son, 1981, s. 297):
gdzie: Xp oznacza średni wynik ogólny w teście w tej grupie osób, które odpowiedziały diagnostycznie (zgodnie z kluczem) na daną pozycję testową, X - średni ogólny wynik w teście dla całej badanej grupy, Sx - odchylenie standardowe ogólnych wyników w teście dla całej grupy, p - proporcję odpowiedzi diagnostycznych (zgodnych z kluczem) na daną (analizowaną) pozycję testową, a q - proporcję odpowiedzi niediagnostycznych (niezgodnych z kluczem). Istotność współczynnika rpb oblicza się, oceniając wielkość błędu standardowego (Srpb) dla tego współczynnika (Magnusson, 1981, s. 299):
srpb=y p gdzie: N, jak poprzednio, oznacza liczebność badanej próby. 3) W s p ó ł c z y n n i k k o r e l a c j i p u n k t o w o - c z t e r o p o i o w e j (phi - ang. phi coefficient) jest obliczany wtedy, kiedy żadne z wymienio nych wyżej założeń nie daje się utrzymać, a więc zarówno wynik pozycji testowej, jak i ogólny wynik w teście są traktowane jako zmienne dychotomiczne (taki wynik może dawać dychotomiczne kryterium, np. sukces i brak sukcesu w terapii). Współczynnik phi obliczamy następująco:
179
R
o z d z ia ł
5
gdzie: p g oznacza proporcję osób, które odpowiedziały zgodnie z kluczem w górnej grupie osób badanych (przypominamy: górna grupa to grupa osób o wysokich ogólnych wynikach w teście), p d oznacza proporcję osób, które odpowiedziały zgodnie z kluczem w dolnej grupie osób badanych, p - proporcję osób, które udzieliły odpowiedzi zgodnej z klu czem w całej badanej grupie, a q - proporcję osób, które udzieliły odpowiedzi niezgodnej z kluczem również w całej badanej grupie. Istotność współczynnika phi obliczamy korzystając ze statystyki chi-kwadrat: x 2=0^Jn
gdzie N jest liczbą wszystkich badanych osób. Podejmując decyzję o tym, jaki współczynnik korelacyjny mocy dys kryminacyjnej chcemy zastosować, musimy przede wszystkim przeanalizo wać, jakie założenia dotyczące rozkładu właściwości będącej podstawą odpowiadania na daną pozycje testową oraz rozkładu ogólnych wyników w teście możemy przyjąć. Każdy z omówionych współczynników korelacji daje nieco inne oszacowania mocy dyskryminacyjnej dla tych samych danych: najwyższe - współczynnik korelacji dwuseryjnej, a najniższe - współczynnik phi. Jeżeli zatem mamy wątpliwości co do rodzaju założeń, jakie możemy przyjąć, bezpieczniej jest zastosować współczynnik nieparametryczny - czyli phi (Magnusson, 1981, s. 310-311). Ponadto, wielkość współczynnika korelacji punktowo-dwuseryjnej zależy od związku między proporcjami p i ą. Im większa jest różnica między p i q, tym mniejszą wartość korelacji otrzymamy. Praktycznie oznacza to tyle, że bardzo łatwe i bardzo trudne zadania testowe będą uzyskiwały systematycznie niższe korelacje z całym testem niż zadania średnio trudne, i tym samym częściej będą odrzucane z ostatecznej wersji testu (ibidem). Jeżeli zatem interesuje nas stworzenie testu składającego się z pozycji testowych o różnym stopniu trudności, to z kolei lepszym współczynnikiem jest współczynnik korelacji dwuseryjnej lub phi (szczegółowe omówienie na ten temat por. Magnusson, 1981, s. 310-314). Należy również pamiętać o tym, że współczynnik korelacji zawszć zależy od rodzaju populacji, z której pobrano próbę. Z tego punktu widzenia najbardziej stabilny jest współczynnik korelacji dwuseryjnej, i dlateg^ poleca się go wtedy, kiedy nasz test może być stosowany również i w innych próbach, a nie tylko tej, dla której dokonano odpowiednich obliczeń (Crocker, Algina, 1986, s. 319). Na koniec części omawiającej korelacyjne współczynniki mocy dyskry180 minacyjnej warto jeszcze zwrócić uwagę na dwa problemy:
K o n str u o w
a n ie
:
testu
-
po dstaw o w e
pro cedury
a) Czy przy obliczaniu współczynnika korelacji między wynikami danej pozycji a ogólnym wynikiem w teście wynik analizowanej pozycji po winien zostać wyłączony z ogólnego wyniku testowego czy też nie? b) Jak powinien wyglądać dobór pozycji testowych ze względu na rzetelność i trafność końcowej wersji testu? Odpowiadając na pierwsze pytanie, należy zwrócić uwagę na fakt, że jeśli korelujemy wynik ogólny z wynikiem pozycji, będącym częścią tego wyniku ogólnego, to wielkość rit (czyli korelacji wyniku danej pozycji z ogólnym wynikiem w teście) wykazuje tendencję do wyrastania (por. np. Guilford, 1988c, s. 139). Im krótszy test, tym większy będzie wzrost wartości r/. Guilford ( ibidem ) określa ten problem jako problem nakładania się zakresów. Gdyby hipotetycznie przyjąć, że rzeczywista korelacja wszystkich pozycji z ogólnym wynikiem w teście wynosi zero i zero wynoszą wariancje wszyst kich pozycji, to współczynnik korelacji między ogólnym wynikiem (z którego nie wyłączono wyniku danej pozycji) a tą pozycją wynosiłby l/k , gdzie k oznacza liczbę pozycji. I tak, gdyby test składał się z 25 pozycji, to korelacja ta wynosiłaby 0,20 dla wszystkich pozycji. Wartość ta mogłaby się okazać istotna na poziomie istotności równym nawet 0,01, o ile tylko badana grupa będzie wystarczająco liczna. Można by ją zatem traktować jako istotną statystycznie, gdyby nie świadomość, iż jest ona fałszywa (ibidem). Dlatego też przy obliczaniu korelacyjnego współczynnika mocy dyskryminacyjnej zaleca się wyłączanie wyniku danej pozycji z ogólnego wyniku w teście (por. rys. 5.3). Rys. 5.3. Ilustracja problemu nakładania się zakresów wynik danej pozycji jest elementem ogólnego wyniku w teście
wynik danej pozycji nie jest elementem ogólnego wyniku w teście
O '* “*- O t= 1+2 + 3
O t=2+3
Z kolei w wypadku drugiego problemu, jeżeli pod uwagę bierzemy jedynie dane z analizy pozycji, to dobór pozycji ze względu na najwyższą wartość współczynnika korelacji wyniku danej pozycji z ogólnym wynikiem w teście prowadzi bezpośrednio do zwiększenia rzetelności testu (powstaje bowiem
181
R
o z d z ia ł
5
metoda homogeniczna), zmniejsza się natomiast trafność testu. Test jest tym bardziej trafny, im jest bardziej heterogeniczny (ma wysokie korelacje z ze wnętrznym kryterium). Zalecanym rozwiązaniem w tej sytuacji jest kon struowanie testów homogenicznych (wysoka rzetelność) i łączenie ich w he terogeniczne baterie testów (wysoka trafność) (por. Guilford, 1988c; Anastasi, Urbina, 1999). Analizowanie różnic miądzy skrajnymi grupami. Inną metodą określania mocy dyskryminacyjnej pozycji testowych jest analizowanie różnic między skrajnymi grupami. Te skrajne grupy to - przypomnijmy - górna i dolna grupa osób badanych (a więc grupa osób o wysokich i niskich wynikach w danym teście). Najoptymalniejszym sposobem wyodrębnienia tych grup - przypomnijmy - jest odcięcie z każdego krańca rozkładu wyników testo wych po 27% badanych osób (Kelley, 1939). Metoda ta polega na ocenie istotności różnicy między średnim wynikiem dla danej pozycji, jaki otrzy mano w grupie górnej, i średnim wynikiem dla tej pozycji, jaki otrzymano w grupie dolnej. W tym celu stosujemy konwencjonalny test t. Edwards (1957, s. 152-154; patrz też Brzeziński, 1978, s. 266-267) podaje odpowiedni wzór, pozwalający obliczyć wartość t dla równolicznych grup skrajnych: t=
l z ( Xg- X g)2i I ( X g- X s)2 \ n(n-l)
gdzie: Xg oznacza średni wynik w górnej grupie osób badanych, Xd - średni wynik w dolnej grupie osób badanych, n - liczebność grupy (dolnej lub górnej). Do ostatecznej wersji testu kwalifikujemy tylko te pozycje testowe, które w istotny sposób różnicują badane osoby. P o d s t a w o w e p a r a m et ry s t a t y s t y c z n e charakteryzujące pozycję testową to: • wskaźnik trudności • współczynnik mocy dyskryminacyjnej, wr tym: wskaźnik dyskryminacji j współczynniki korelacyjne współczynniki oparte na różnicy między skrajnymi grupami
182
Rzetelność i trafność pozycji testowej Każda pozycja testowa może również zostać scharakteryzowana ze wzglę du na swój wkład do współczynnika rzetelności i trafności testu. Dlatego też warto prześledzić, w jakim stopniu dana pozycja testowa może zwiększać lub zmniejszać najważniejsze parametry testu. Współczynnik trafności pozycji. Współczynnik trafności pozycji zależy od wielkości korelacji między wynikami danej pozycji a wynikami inte-
K
o n s t r u o w a n ie
testu
-
po dstaw o w e
pro cedury
resującego nas kryterium oraz od odchylenia standardowego tej pozycji. Jest on wyrażany następującym wzorem (por. Magnusson, 1981, s. 319): wskaźnik trafności - rlkSi
gdzie: rlk oznacza wielkość korelacji między wynikami dla danej pozycji testowej i wynikami dla zmiennej kryterialnej, a s, - odchylenie standardowe wyników w danej pozycji. Im wyższe zatem odchylenie standardowe wyni ków dla danej pozycji, tym większy wkład tej pozycji do trafności testu (ibidem). Obliczanie wskaźnika trafności może być szczególnie przydatne wtedy, kiedy interesuje nas zbudowanie testu o maksymalnej trafności kryte rialnej. Współczynnik rzetelności pozycji. Współczynnik rzetelności pozycji zależy z kolei od wielkości korelacji między wynikami danej pozycji a ogólnym wynikiem w teście oraz - również - od odchylenia standardowego tej pozycji. Współczynnik ten oblicza się następująco (por. Magnusson, 1981, s. 315); wskaźnik rzetelności = ritSi
gdzie: rit oznacza wielkość korelacji między wynikami dla danej pozycji testowej i wynikami dla zmiennej kryterialnej, a s,- - odchylenie standardowe wyników w danej pozycji. Posiadane informacji o wskaźniku rzetelności jest z kolei przydatne szczególnie wtedy, kiedy chcemy zbudować test maksymal nie homogeniczny (o największej zgodności wewnętrznej). Związek miądzy rzetelnością a trafnością pozycji. Można wykazać (por. Magnusson, 1981, s. 319), że trafność kryterialna testu, wyrażana w postaci współczynnika korelacji między wynikami ogólnymi w teście a wynikami wr zmiennej kryterialnej, bezpośrednio zależy od wskaźników rzetelności i trafności pozycji składających się na ten test. Związek ten jest następujący (ibidem): k i =1 rtk = ' *
;=1 gdzie: r,k oznacza trafność kryterialną testu, wyrażenie w liczniku jest sumą wskaźników trafności dla wszystkich pozycji, a wyrażenie w mianowniku jest sumą wskaźników rzetelności dla tych pozycji. Innymi słowy, trafność kryterialna jest stosunkiem sumy wskaźników trafności do sumy wskaźników rzetelności wszystkich pozycji tworzących test. Pozycja testowa o jednakowych wskaźnikach rzetelności i trafności mierzy zmienną kryterialną i zmienną testową w tym samym stopniu, i wnosi ona tyle samo do rzetelności, jak i trafności. Aby otrzymać test o maksymalnej trafności kryterialnej, powinniśmy zatem wybierać takie pozycje testowe, dla których stosunek obu wskaźników jest najwyższy (szczegółowe omó-
183
R
o z d z ia ł
5
wienie tego problemu patrz Magnusson, 1981). W każdym wypadku jednak konkretna decyzja musi być pochodną celu, dla jakiego przeznaczony jest test.
Analiza zadań w testach szybkości Analiza zadań w przypadku testów szybkości nie jest taka oczywista, jak w wypadku testów mocy. W tym wypadku bowiem, im bliżej końca testu, tym trudniejsze są pozycje testowe. A dzieje się tak z prostego powodu: część osób badanych może w ogóle nie zdążyć rozwiązać danej pozycji testowej. Z kolei te same pozycje testowe (czyli te na końcu testu) mogą się okazać bardziej dyskryminatywne, gdyż osoby o wyższym poziomie mierzonej cechy mogą pracować szybciej, i tym samym odpowiedzieć na większą liczbę pozycji testowych. Konwencjonalna analiza zadać może zatem wprowadzać w błąd (por. Anastasi, Urbina, 1999, s. 259-260; Cohen, Swerdlik, 1999, s. 242). Jednym z rozwiązań, które w sposób naturalny wydaje się do zaakcep towania w tej sytuacji, jest ograniczenie analizy zadań tylko do tych pozycji, na które odpowiedziały wszystkie osoby badane. Rozwiązanie to nie jest jednak polecane przynajmniej z trzech powodów (por. ibidem ): a) osoby o wyższym poziomie mierzonej cechy częściej będą rozwiązywać pozycje znajdujące się pod koniec testu. Tym samym, część analizy zadań zostanie przeprowadzona na pełnej próbie, zaś część na próbie wyselek cjonowanej (składającej się z osób o wysokich wynikach); b) im więcej osób o wysokim poziomie mierzonej cechy rozwiąże końcowe pozycje testu, tym będą się one wydawać łatwiejsze, niż ma to miejsce w rzeczywistości; c) im dalej w teście umieszczona jest dana pozycja testowa, tym mniej osób na nią odpowie. Liczebność próby, dla której obliczono określone wskaźniki, będzie zatem maleć wraz z odległością pozycji testowej od początku testu. Jeżeli szybkość nie jest najważniejszym czynnikiem definiującym mierzoną cechę, to najlepszym rozwiązaniem jest przeprowadzenie badania pilotażowego z uwzględnieniem takiego limitu czasowego, który pozwala większości ukoń czyć test. Natomiast normy powinny zostać obliczone z uwzględnieniem takich limitów czasowych, jakie są przewidywane dla ostatecznej wersji testu (Cohen, Swerdlik, 1999, s. 242). 1 - jak podkreślają Anastasi i Urbina (1999, s. 260) - „dobrze jest pamiętać o tym, że dane służące analizie pozycji uzyskiwane dla testów szybkości są niezbyt pewne i wymagają wnikliwego przyglądania się im”. Analiza zadań w testach zorientowanych na kryterium
184
Jak podkreśla wielu autorów, krytycznym momentem tworzenia testów zorientowanych na kryterium jest dobór i selekcja pozycji testowych (np. Hambleton, Rogers, 1991). Szczególnie istotny etap stanowi tu określanie obszaru zachowań, których ma dotyczyć test. Specyficzne zadania definiujące przedmiot pomiaru muszą zostać przełożone na pozycje testowe w taki sposób, aby diagnoza biegłości wykonania była trafna.
Ko
n s t r u o w a n ie
testu
-
po dstaw o w e
pro cedury
W wypadku testów zorientowanych na normy taką selekcję pozycji prze prowadza się, wykorzystując któryś ze wskaźników opisanych wyżej (trud ność pozycji lub moc dyskryminacyjną). W wypadku testów zorientowanych na kryterium miary te nie są skuteczne (nie interesuje nas bowiem doskona łe różnicowanie), a najważniejsze staje się zapewnienie wysokiej trafności treściowej pozycji. Dlatego też tworzenie pozycji dla testów zorientowanych na kryterium polega przede wszystkim na dobrym definiowaniu tego, co ma być przedmiotem pomiaru, i ocenie trafności treściowej wygenerowanych pozycji (ibidem , s. 17). Wykazano np., że odpowiednie wytrenowanie osób piszących pozycje testowe zdecydowanie poprawia jakość testu (por. np. Wieberg, Neeb, Schott, 1984). Innym istotnym czynnikiem, który musi zostać przeanalizowany w wypad ku testów zorientowanych na kryterium, jest zakres, w jakim dana pozycja testowa odzwierciedla stopień rozumienia instrukcji (Popham, Husek, 1972, s. 140; Crocker, Algina, 1986, s. 330). Wrażliwość danej pozycji na instrukcję (ang. instructional sensitivity) określa się jako stopień, w jakim dana pozycja testowa różnicuje dwie grupy osób: tych, którym podano instrukcję, i tych, którzy jej nie mieli. Jedną z miar, jaką można by w tym wypadku zastosować, jest miara D, określana następująco: D
— P p o .sl
P pre
gdzie: ppos, oznacza proporcję osób, które odpowiedziały poprawnie na daną pozycję testową przy podaniu instrukcji, a ppre - proporcję osób, które odpowiedziały poprawnie na daną pozycję testową bez podania instrukcji. Wartości D rozciągają się od -1,00 do +1,00. Najbardziej pożądane są wysokie wartości dodatnie (ibidem). Warto jednak podkreślić, że ten parametr pozycji nie powinien być obliczany rutynowo w wypadku każdego testu zorientowanego na kryterium. Może być bowiem tak: selekcja pozycji tylko ze względu na wartość D sprawi, że z ostatecznej wersji testu zostaną usunięte wszystkie te pozycje testowe, które są trafne treściowo. Parametr ten oblicza się wtedy, kiedy stopień rozumienia instrukcji wchodzi w zakres definicji mierzonej cechy. Generalnie rzecz biorąc, procedura doboru pozycji testowych do testów zorientowanych na kryterium składa się z następujących etapów (Hambleton, Rogers, 1991, s. 10-11): a) zdefiniowanie przedmiotu pomiaru, b) określenie formatu pozycji testowej i przygotowanie instrukcji dla osób generujących pozycje testowe, c) opracowanie odpowiednio licznej wyjściowej puli pozycji, d) stworzenie zespołu sędziów ekspertów oceniających pozycje testowe, e) ocena wszystkich pozycji testowych pod kątem ich poprawności języko wej,
185
R
o z d z ia ł
5
f) ocena wszystkich pozycji testowych pod kątem ich trafności treściowej, g) wyeliminowanie pozycji nie spełniających zakładanych kryteriów, h) powrót do etapu (c), jeżeli w wyniku przeprowadzonej analizy pozostało zbyt mało pozycji. Jak piszą Anastasi i Urbina (1999, s. 113): „bez dobrze przemyślanego określenia treści i kontrolowanego jej wykorzystania rezultaty badania testem zorientowanym na standard wykonania mogą przerodzić się w nieinterpretowalny groch z kapustą, (...) zaś stopień szczegółowości, z jaką należy oceniać różne obszary treściowe, zależy od natury i celu testu”. I dlatego to trafność treściowa proponowanych pozycji testowych jest kryterium decydującym o ich jakości i przydatności do ostatecznej wersji testu. 5.4. STRONNICZOŚCI POZYCJI TESTOWYCH - ZJAWISKO ZRÓŻNICOWANEGO FUNKCJONOWANIA POZYCJI Równolegle z badaniami dotyczącymi stronniczości testów (ang. test bias ) rozwijał się drugi nurt badań nad stronniczością. Podczas gdy w ramach pierwszego koncentrowano się na teście jako całości, w ramach drugiego postawiono inne pytanie - czy psychometryczrią analiza pozycji testowych składających się na test jest w stanie dostarczyć wskaźników identyfikujących poszczególne pozycje testowe jako stronnicze (ang, item bias). Jeżeli od powiedź byłaby pozytywna, konstruktorzy testów łyskaliby nowe, mocne narzędzie konstrukcji testu - narzędzie pozwalające na eliminowanie wad liwych (tj. stronniczych) pozycji testowych już na etapie konstrukcji. Eells, Davis, Havighurst, Herrick i Tyler (1951) uważali, że źródłem wariancji wyników testowych jest nie tylko cecha, którą z założenia test ma mierzyć. W pomiarze za pomocą testów psychologicznych można również zidentyfikować wiele innych źródeł wariancji błędu. A ponieważ źródeł tych nie da się w żaden sposób wyeliminować, należy zadbać o to, aby nie przyczyniały się one do faworyzowania przez test jednej grupy (np. dzieci pochodzących z wyższych warstw społecznych) na niekorzyść drugiej (np. dzieci pochodzących z niższych warstw społecznych). Sytuacja taka może powstać wówczas, jeżeli w grupie osób o takim samym poziomie mierzonej cechy (np. posiadających taki sam iloraz inteligencji) wariancja błędu będzie się zmieniać w zależności od przynależności grupowej. Przyjrzyjmy się trzem następującym przykładom: a) W jednym z testów inteligencji dla dzieci znajduje się następujące pytanie: „Co powinieneś zrobić, jeżeli znajdziesz w sklepie czyjś portfel lub notes?” 10. Właściwa odpowiedź to odpowiedź, w której dziecko zdaje sobie sprawę z konieczności zwrócenia portfela. Niektórzy uważają jed-
186
10 Matczak A., Piotrowska A., Ciarkowska W. (1991). Skala inteligencji D. Wechslera dla dzieci - wersja zmodyfikowana. WISC-R. Podręcznik. Warszawa: Pracownia Testów Psychologicznych PTP.
Ko
n s t r u o w a n ie
testu
-
po dstaw o w e
pro cedury
nak, że pytanie to może być pytaniem stronniczym w stosunku do dzieci pochodzących z bardzo biednych rodzin - gdyż tym dzieciom zabranie pieniędzy może się wydawać usprawiedliwione. b) W jednej ze skal znajduje się twierdzenie: „Uważam, że moja cera wszystkim się podoba”. Można przypuszczać, że twierdzenie to będzie miało inne znaczenie dla osób o białym i czarnym kolorze skóry. c) Pisemny test z matematyki zawiera pytanie: „Jaś dostał od mamy dychę. Ile może kupić paczek gum do żucia, jeżeli jedna paczka kosztuje dwa złote?”. Pytanie to, chociaż zawiera sformułowania kolokwialne, jest zrozumiałe dla polskich dzieci, może jednak okazać się stronnicze dla dzieci obcokrajowców. W każdym z tych przykładów można zauważyć dwa elementy wspólne: po pierwsze - przyjęcie założenia, że zróżnicowanie zachowania testowego w danej pozycji testowej wynika z wielu źródeł wariancji, i po drugie - że źródła wariancji błędu różnią się w sposób systematyczny dla dających się wyodrębnić grup osób badanych. Te dwa założenia - tu podane w sposób nieformalny - stanowią istotę rozumienia stronniczości jako cechy pozycji testowych (por. też Crocker, Algina, 1986). Podpbnie jak to miało miejsce w wypadku testu jako całości, i tu stron niczość oznacza stały błąd pomiaru. W sensie psychometrycznym zatem stronniczość pozycji testowych wyraża się w tym, że poszczególne pozycje testowe są mniej lub bardziej trudne dla osób należących do różnych podgrup wyodrębnianych z tej samej populacji (Camilli, Shepard, 1994). Klasyczne pojęcie trudności pozycji testowej nie wystarcza jednak, aby opisać zjawisko stronniczości. Jest tak dlatego, gdyż w przypadku analizy stronniczości nie interesuje nas trudność pozycji testowych w całej populacji badanych osób, a w poszczególnych grupach o tym samym poziomie ogólnym mierzonej cechy i - co więcej - wyodrębnionych ze względu na kryterium demograficzne, takie jak rasa czy płeć. Dlatego też w miejsce pojęcia trudności pozycji testowej, wprowadzono pojęcie względnej trudności (ang. relative difficulty) pozycji testowych (ibidem). To pozwoliło na sformułowa nie bardziej precyzyjnej definicji pojęcia stronniczości pozycji testowych. I tak stronniczość można rozumieć jako: „względną trudność pozycji testowej, która zniekształca stałe czy typowe różnice grupowe (...) dlatego też można stronniczość traktować (...) jako interakcję między sposobem odpowiedzi na daną pozycję testową a przynależnością grupową” (Camilli, Shepard, 1994, s. 15). Odwoływanie się do pojęcia względnej trudności pozycji testowej jako wskaźnika jej stronniczości nie rozwiązuje jeszcze problemu. Specjaliści w zakresie psychometrii zgadzają się bowiem co do tego, że różnice między grupami - czy to w zakresie średnich wyników i odchyleń standardowych czy skośności rozkładów - nie są jeszcze wystarczającym dowodem istnienia stronniczości (por. Angoff, 1993; Camilli, Shepard, 1994). Dalsze analizy, np. badanie związku między testem a kryterium, między pozycjami testowymi
187
R
o z d z ia ł
5
a ogólnym wynikiem w teście czy związków między poszczególnymi pozy cjami testowymi, mogą dostarczyć danych wyjaśniających zaobserwowane różnice (Angoff, 1982). Mówiąc ogólnie: „ocena stronniczości musi być oparta albo na badaniu wzajemnych relacji między wewnętrznymi kom ponentami testu, albo na analizie wyników testowych w kontekście innych danych empirycznych i zbudowanej niezależnie teorii” (ibidem , s. 96). Dlatego aby podkreślić, że metody statystyczne (tu: analiza trudności) pozwalają jedynie na wyodrębnienie pozycji testowych, które są różnie rozwiązywane w różnych grupach, a nie pozwalają na wyjaśnienie przyczyn tych różnic, Angoff (1982) wprowadził pojęcie „metod badania rozbieżności pozycji testowych” (ang. item discrepancy method), a Holland i Thayer (1988) zaproponowali pojęcie zróżnicowanego funkcjonowania pozycji testowej (ang. dijferential item functioning, w skrócie DIF). Jak piszą wspomniani autorzy (ibidem , s. 129): „W odróżnieniu od badań nazywanych pierwotnie badaniami nad «stronniczością pozycji testowych», współczesne podejścia koncentrują się na fakcie, że różne grupy osób badanych mogą reagować różnie na to samo pytanie testowe. Warto analizować te różnice, ponieważ mogą one rzucić więcej światła zarówno na problem pytań testowych, jak i problem dotyczący doświadczenia czy pochodzenia różnych grup osób badanych. Preferujemy bardziej naturalne terminy, takie jak zróżnicowane wykonanie pozycji czy zróżnicowane funkcjonowanie pozycji testowęj, tj. DIF [skrót od angielskiego dijferential item functioning - E.H.], zamiast pojęcia stronniczości pozycji testowych, gdyż dla wielu pozycji, dla których wykazano istnienie DIF, pojęcie stronniczości nie opisywało dokładnie sytuacji”. Dlaczego tak się dzieje? Wykazanie istotnej statystyki DIF (tj. wykązanie, że dana pozycja testowa zachowuje się różnie w różnych grupach osób badanych) nie jest jeszcze dowodem istnienia stronniczości. Procedury staty styczne wskazują bowiem jedynie na to, że dana pozycja testowa jest trud niejsza dla określonych grup osób badanych (różnicuje odmiennie w zależ ności od przynależności grupowej badanych osób), nic nie mówią natomiast na temat przyczyn takiego stanu rzeczy (tj. celu testowania). Dlatego aby można było potraktować statystyki DIF jako wskaźniki stronniczości, nie zbędne jest przeprowadzenie dalszych analiz, zwłaszcza z uwzględnieniem tego, co test z założenia ma mierzyć. Statystyki DIF dotyczące poszczególnych pozycji testowych (w tym wzglę dna trudność pozycji czy zróżnicowane funkcjonowanie) dostarczają użytecz nych informacji o wewnętrznej strukturze testu. Statystyki te umożliwiają ponadto wykrycie tego, czy dany test mierzy konstrukt wielowymiarowy. Oznacza to, że na ich podstawie możemy stwierdzić, czy grupy osób podobne do siebie ze względu na główną cechę mierzoną przez test nie różnią się między sobą ze względu na cechy drugorzędowe mierzone przez ten sam 188 test. Mówiąc jeszcze inaczej, statystyki DIF informują nas o rozkładzie cech
K
o n s t r u o w a n ie
testu
—po dstaw
ow e
pro cedury
drugorzędowych (np. innych zdolności) w danym teście. Owe drugorzędowe wymiary mogą być swoiste tylko dla jednej pozycji testowej i nie należy ich traktować jako drugiego wymiaru testu, o ile nie zostaną potwierdzone także przez inne pozycje testowe. Z taką sytuacją mamy np. do czynienia w teście mierzącym umiejętności rozwiązywania zadań z matematyki, który składa się z tzw. zadań z treścią wymagających umiejętności czytania. Taki test mierzy nie tylko zdolności matematyczne (główna cecha), ale także umiejęt ność czytania (cecha drugorzędowa). Gdybyśmy zatem w wyróżnionych grupach osób otrzymali istotne statystyki DIF dla pozycji tego testu (np. test okazał się trudniejszy dla chłopców niż dla dziewczynek), to niekoniecznie musi to świadczyć o stronniczości pozycji tego testu. Obie grupy mogą różnić się bowiem ze względu na umiejętność czytania, a umiejętność czytania jest w uzasadniony sposób również odzwierciedlana przez wyniki tego testu11. P o d s u m u j m y : możemy powiedzieć że dana pozycja testowa jest stron nicza jedynie wtedy, kiedy okaże się względnie trudniejsza dla jednej grupy i źródłem tej rozbieżności będą czynniki nie związane z konstruktem mie rzonym przez test. Podkreślmy ponownie, istotna statystycznie wartość DIF nie oznacza jeszcze stronniczości pozycji testowej. Jest ona jedynie wskaź nikiem odmiennego różnicowania. Jak stwierdziła Lorrie Shepard (1981, s. 99): „Logiczne powiązania określone pierwotnie między pozycjami testu i uniwersum konstruktu muszą zostać ponownie przeanalizowane w świetle nowych danych, dotyczących różnego wykonania testu w różnych grupach badanych (...) Istotnym pytaniem, na które trzeba rozważnie odpowiedzieć, jest pytanie o to, czy wskaźniki «stronniczości» sygnalizują odmienne zna czenia [przypisywane pozycji testowej - E.H.] w różnych grupach badanych. Dlatego też rzeczywistą stronniczość czy prawdziwe różnice w wiedzy należy rozważać w kontekście celu, jakiemu służyć ma test. Wniosek o istnieniu stronniczości i decyzja o usunięciu pozycji testowych z testu będzie zależeć od tego, jakie zdolności - z założenia - test mierzy”. S t r o n n i c z o ś ć p o z y c j i t e s t o w e j oznacza stały błąd pomiaru. W sensie psychometrycznym stronniczość pozycji testowych polega na tym, że poszczególne pozycje testowe są mniej lub bardziej trudne dla osób należących do różnych podgrup, wyodrębnianych z tej samej populacji.
Ze względu na złożoność procedury budowania testów ich konstruktorzy starają się opracować najbardziej efektywne techniki gwarantujące, że skon struowane metody będą rzetelnym i trafnym narzędziem pomiaru badanych właściwości. Obok opracowywania standardowych procedur, wyznaczających ^ Shepard, Camilli i Williams (1984) wykazali np., że test z matematyki zawierający zadania z treścią jest systematycznie trudniejszy dla czarnych dzieci w porównaniu z białymi. Nie odnotowali natomiast takiego efektu w wypadku testów składających się wyłącznie z „czystych” zadań rachunkowych.
189
R
o z d z ia ł
190
5
zasady budowy testów, należy również dbać o to, aby skonstruowany test nie okazał się stronniczy w stosunku do tej populacji, dla której jest prze znaczony. Prowadzenie szerokich badań nad stronniczością pozwoli na: a) zidentyfikowanie potencjalnych zmiennych (czynników) odpowiedzial nych za stronniczość konkretnego testu w stosunku do konkretnej podpopulacji. Pozwoli określić, czy i jakie zmiany powinny zostać wprowadzone w procedurze budowania testu, aby zminimalizować ewentualne włączenie pozycji stronniczych w przyszły test lub zapobiec takiemu włączeniu; b) stworzenie zbioru reguł wykorzystywanych przez konstruktorów testów do eliminowania stronniczości, której źródłem może być język, cechy formalne i treść pozycji testowych oraz test jako całość; c) opracowanie procedur statystycznych wykorzystywanych do identyfiko wania stronniczych pozycji testowych. Procedury te powinny spełniać funkcję k o n t r o l i procesu tworzenia testu przez dostarczanie informa cji pozwalających na wyeliminowanie stronniczych pozycji zarówno na wczesnych, jak i na późnych (tj. normalizacji) etapach tego procesu. W efekcie takiego zapotrzebowania powstało wiele nowych schematów badawczych, pozwalających na sprawdzenie różnych aspektów testowania. I chociaż schematy te różnią się ze względu na przyjmowaną w nich per spektywę teoretyczną, wszystkie one realizują ten sam cel ogólny: wyposa żenie konstruktorów testów w skuteczne i szybkie zbiory procedur, które mogą zostać wykorzystane do generowania pozycji testowych i - jednocześ nie - do budowania testu wolnego od stronniczości. W ostatnich latach obserwujemy dynamiczny rozwój technik pozwalających szacować stronniczość pozycji testowych. Techniki te różnią się konceptualiza-i cją pojęcia stronniczości, teoretycznym pogłębieniem, statystyczną złożonością, wymaganą wielkością próby i ponoszonymi kosztami. Różnice w konceptualizacji najczęściej sprowadzają się do tego, ile w obserwowanym zróżnicowaniu między grupami mniejszości i większości przypisuje się różnicom poziomów zdolności, a ile stronniczości. W każdym badaniu stronniczości badacz stara się ustalić stopień obciążenia (stronniczości) narzędzia pomiarowego za pomocą kryterium, które przynajmniej z założenia jest mniej stronnicze. Do najpopularniejszych technik szacowania stronniczości pozycji testo wych należą techniki oparte na sędziowaniu, techniki oparte na analizie wariancji (Osterlind, 1983; Schmeiser, 1982), na analizie współczynników trudności pozycji testowych (Angoff, 1982), na teście chi2 (Berk, 1982) oraz techniki oparte na analizie ICC, czyli krzywych charakterystycznych pozycji testowych - ang. item characteristic curve (Croker, Algina, 1986). Są to raczej strategie niż konkretne metody. Każda z nich bowiem dostarcza wielu konkretnych rozwiązań w ramach przyjętego modelu teoretycznego, jak również wskazówek dotyczących m e tyle szacowani a stronniczości pozycji testowych, ile budowania całego testu. Nie są one również całkowicie odrębne. Nakładają się na siebie i przed wybraniem którejkolwiek z nich należy
Ko
n s t r u o w a n ie
testu
-
po dstaw o w e
pro cedury
dokładnie przeanalizować założenia, na jakich są one oparte, oraz pytania badawcze, na jakie pozwolą odpowiedzieć12. Przypadek Golden Rule. Na zakończenie uwag na temat stronniczości pozycji testowych i ich zróżnicowanego funkcjonowania warto przypomnieć głośną sprawę sądową, w której m.in. odwołano się do pojęcia stronniczości pozycji testowych (por. też Anastasi, Urbina, 1999, s. 267). W sprawie tej chodziło o stosowanie egzaminów licencyjnych przy rekrutacji pracowników do towarzystwa ubezpieczeniowego Golden Rule. Przyjęto, że podstawą decyzji selekcyjnych nie mogą być pozycje stronnicze stosowanego testu, te zaś identyfikowano wyłącznie na podstawie odsetek osób odpowiadających zgodnie z kluczem w różnych grupach społecznych (głównie rasowych). Okazało się jednak, że przy selekcji pozycji stronniczych nie wzięto pod uwagę poziomu zdolności kandydatów i pozycje uznane pierwotnie za stronnicze - przy podziale ze względu na poziom zdolności - mogły być spokojnie zaakceptowane. Co więcej taka praktyka doboru pozycji prowadziła do wyeliminowania najtrafniej szych - z punktu widzenia celu pomiaru - zadań. Gdyby taką procedurę dalej upowszechniać, to jedynie wykazanie, że dwie grupy społeczne odpowiadają inaczej na daną pozycję testową, mogłoby już być podstawą eliminowania „wątpliwych” pozycji testowych. Jak podkreślaliśmy wcześniej, wykazanie, że określone pozycje testowe w zróżnicowany sposób funkcjonują w dwóch grupach badanych, nie jest jeszcze podstawą do stwierdzania ich stronniczości! Dlatego też w Standardach... (1985b, s. 27) sformułowano następujące zalece nie: „należy zawsze sprawdzić, czy obserwowane różnice w sposobie odpowie dzi na daną pozycję testową można przypisać stronniczości tych pozycji”. 5.5. OSTATECZNA REWIZJA TESTU Analiza zadań dostarcza zawsze ogromnej liczby informacji. Na ich pod stawie część pozycji testowych pozostaje bez zmian, część zostaje popra wionych, a część usuniętych z ostatecznej wersji testu. Powstaje zatem praktyczne pytanie: w jaki sposób można efektywnie wykorzystać informacje o trudności pozycji, ich mocy dyskryminacyjnej, trafności, rzetelności i wresz cie stronniczości w ocenie ostatecznej wersji testu? Ostateczna ocena testu nazywana jest procesem rewizji testu i jak piszą Cohen i Swerdlik (1999, s. 245): „istnieje tyle sposobów rewidowania testu, ilu jest ich twórców”. Jednakże większość autorów jest zgodna, że najlepszą metodą oceny ostatecz nej wersji testu jest tzw. jego walidacja krzyżowa (ang. cross-validation ).
Walidacja krzyżowa Co to jest w a l i d a c j a k r z y ż o w a ? Dysponując ostateczną wersją testu, powinniśmy go ponownie sprawdzić. Gdybyśmy jednak dokonali takiej 12 Szczegółowo techniki te omówione są w pracy Hornowska (1999).
191
R
o z d z ia ł
5
oceny na tej samej próbie badanych osób, której wyniki były podstawą dotychczasowych analiz, to wszystkie miary korelacyjne, jakimi się będziemy posługiwać, będą zawyżone. Dlatego też powinniśmy ocenić trafność testu na innej próbie niż ta, która była podstawą selekcji pozycji. Takie niezależne badanie trafności nazywa się właśnie walidacją krzyżową (por. Anastasi, Urbina, 1999, s. 261). Crocker i Algina (1986, s. 328) proponują stosowanie następującej proce dury: biorąc pod uwagę wysiłek związany z oceną pozycji testowych, warto zrealizować obie fazy tworzenia testu (ocenę pozycji i walidację krzyżową) w jednym badaniu. Generalna strategia postępowania jest następująca: wszy stkie pozycje testowe wchodzące w skład puli pozycji testowych daje się do rozwiązania dużej grupie osób badanych. Następnie losowo przydziela się część wypełnionych arkuszy testowych do analizy zadań, a część do walidacji krzyżowej. I tak, jeżeli 400 osób badanych rozwiązało 30-pozycyjny test, to wyniki 200 z nich zostaną wykorzystane do oceny pozycji testowych, a wy niki 200 - do rewizji testu. Jeżeli efektem analizy zadań będzie zaakcep towanie 20 pozycji testowych, to wyniki dla tych 20 pozycji z drugiej dwusetki osób badanych zostaną wykorzystane do oceny trafności testu. Można również nieco bardziej skomplikować tę procedurę i wykorzystać wyniki próby 1 do analizy zadań, a próby 2 - do walidacji krzyżowej, a następnie zrobić odwrotnie: wykorzystać wyniki próby 2 do analizy zadań, a próby 1 - do walidacji krzyżowej. Taka procedura nazywa się p o d w ó j n ą w a l i d a c j ą k r z y ż o w ą (ang. double cross-validation ). Podział na dwie grupy nie musi być dokładnie proporcjonalny. Może być tak, że więcej osób tworzy grupę dla analizy zadań (pamiętajmy o wymogu odpowiedniej liczeb ności tej grupy), a mniej grupę dla walidacji krzyżowej. Jakich wyników walidacji krzyżowej powinniśmy się spodziewać? General nie rzecz biorąc, oczekujemy, że wskaźniki trafności pozycji wybranych do ostatecznej wersji testu będą mniejsze w nowej próbie - ze względu na działanie czynników losowych. To obniżenie się wskaźników trafności, które jest nieuchronną konsekwencją walidacji krzyżowej, nazywa się k u r c z e n i e m t r a f n o ś c i (ang. validity shrinkage - por. Guilford, 1988c, s. 140; Cohen, Swerdlik, 1999, s. 246). Zakres, w jakim nastąpi zmniejszenie się trafności pozycji, zależy od wielkości wyjściowej puli pozycji i wielkości badanej próby osób. I tak, im większa była wyjściowa pula pozycji i im mniej pozycji z niej pozostało, tym większe będzie zmniejszenie trafności (sprzyja to bowiem działaniu przypadkowych różnic i zwiększa wskaźnik trafności - ibidem ). Z kolei im większa próba, tym łatwiej o uzyskanie wysokich wskaźników trafności; wraz ze zmniejszaniem się próby w badaniach krzyżowych maleć też będą wskaźniki trafności. Nadto, jak piszą Anastasi i Urbina (1999, s. 263), „jeżeli pozycje testowe dobiera się na podstawie wcześniej sformułowanych hipotez 192 wynikających z teorii psychologicznej lub z empirii, spadek trafności przy
Ko
n s t r u o w a n ie
testu
-
po dstaw o w e
pro cedury
walidacji krzyżowej będzie mniejszy”. Ten efekt można potraktować jako jeszcze jedno uzasadnienie wyższości trafności teoretycznej (patrz rozdz. 3). Świadomość efektu kurczenia się trafności może nas uchronić przed mało refleksyjnym akceptowaniem wysokich danych na temat trafności pozycji testowych, biorących się z niewłaściwego wykorzystania tej samej próby do ostatecznej oceny testu. Trudno bowiem o większe rozczarowanie, jak prze konanie się w trakcie stosowania testu, iż daje on mniej trafne wyniki, niż tego - na podstawie danych prezentowanych w podręczniku - oczekiwano. 5.6. TEORIA ODPOWIADANIA NA POZYCJE TESTU W ostatnich latach coraz większym zainteresowaniem ze strony autorów testów cieszy się zupełnie nowe, odmienne od podejścia klasycznego, spoj rzenie na proces budowania testu psychologicznego13. I choć odwołanie się do klasycznej teorii testów nadal dominuje wśród osób tworzących metody testowe, gwałtownie rosnące zainteresowanie t e o r i ą o d p o w i a d a n i a n a p o z y c j e t e s t u (ang. item response theory) - jako podstawą teoretycz ną pomiaru psychologicznego w ogóle - świadczy o gotowości psychologów do zmiany dotychczasowych (klasycznych) poglądów. Item Response theory (IRT), czyli teoria odpowiedzi na pozycje testowe, to zbiór twierdzeń opisujących sposób, w jaki osoba badana odpowiada na pozycje testu. IRT pozwala na określenie związku między odpowiedziami udzielanymi przez osobę badaną a zakładaną, nieobserwowalną cechą leżącą u podstaw zachowań testowych. Modele formułowane w ramach IRT mają postać funkcji matematycznych, wiążących prawdopodobieństwo udzielenia odpowiedzi prawidłowej (zgodnej z kluczem) na daną pozycję testową z ogólnym poziomem mierzonej cechy u osoby badanej (por. rys. 5.4). I tak np. możemy przyjąć, że prawdopodobieństwo udzielenia odpowiedzi prawid łowej w teście r o z u m i e n i a Skali WAIS-R jest funkcją hipotetycznej, nieobserwowalnej cechy, którą można określić jako r o z u m i e n i e s y t u a c j i i n o r m s p o ł e c z n y c h ; z kolei prawdopodobieństwo akceptacji twierdzenia „mieć wyniki świadczące, że to, co robię, robię dobrze” może być funkcją hipotetycznej c h ę c i o s i ą g a n i a m i s t r z o s t w a . Owe cechy hipotetyczne to w terminologii IRT cechy latentne (ukryte).
Ograniczenia modelu klasycznego W klasycznej teorii testów przyjmuje się, że związek między wynikiem prawdziwym (rozumianym jako wynik standardowy z) a wynikiem otrzyma nym w teście jest związkiem prostoliniowym (regresją liniową). Przedziały M Warto wspomnieć, że teoria wcale nie jest taka nowa. Pierwsze prace należące do omawianego nurtu powstały już w latach 50. i 60. ubiegłego stulecia (np. Lord, 1953; Bimbaum, 1968). Szerokie zainteresowanie takim podejściem widoczne jest dopiero od niedawna.
193
R
o z d z ia ł
5
Rys. 5.4. Związek między wynikiem otrzymanym w teście a poziomem mierzonej cechy w klasycznej teorii testów oraz w IRT (opracowano na podstawie Embretson, 2000, s. 17) Klasyczna teoria testów
Teoria odpowiadania na pozycje testu
/
194
ufności (zaznaczone na rysunku 5.4. linią przerywaną) są takie same dla wszystkich wyników, a wartość błędu pomiaru zależy od konkretnej badanej populacji. Podobnie, wartość parametrów charakteryzujących pozycje testowe również zależy od konkretnej populacji. Łatwo możemy sobie wyobrazić sytuację, w której badamy dwie różne populacje osób, powiedzmy: grupę osób bardzo zdolnych i o zdolnościach poniżej przeciętnej. Wskaźnik trud ności opisujący pozycję testową będzie oczywiście inny w każdej z tych sytuacji. Kolejny problem związany jest z obliczaniem wyniku ogólnego, który w klasycznej teorii testów jest oszacowaniem poziomu mierzonej cechy. Ponieważ wynik ogólny jest zazwyczaj sumą odpowiedzi prawidłowych (zgodnych z kluczem) na pozycje testu, widać wyraźnie, że zależy on od trudności pozycji tworzących test (por. też Weiss, Yoes, 1991). Natomiast w ramach teorii odpowiadania na pozycje testu związek między wynikiem prawdziwym a wynikiem otrzymanym nie jest związkiem linio wym, a szerokość przedziałów ufności jest inna w środku, a inna na krańcach rozkładu (przedziały są szersze dla skrajnych wyników). Błąd standardowy pomiaru nie jest związany z konkretną populacją, podobnie jak nie są z nią związane parametry opisujące pozycje testowe. W ramach IRT oszacowania poziomu badanej cechy dokonuje się oddzielnie dla każdej odpowiedzi testowej, kontrolując zarazem parametry danej pozycji testu (np. jej trudność) - por. Embretson (2000, s. 18).
Ko
n s t r u o w a n ie
testu
-
po dstaw o w e
pro cedury
>- Teoria odpowiedzi na pozycje testowe, czyli item response theory (IRT), to zbiór twierdzeń opisujących sposób, w jaki osoba badana odpowiada na pozycje testu. IRT pozwala na określenie związku między odpowiedziami udzielanymi przez osobę badaną a zakładaną, nieobserwowalną cechą leżącą u podstaw zachowań testowych.
Założenia IRT W teorii odpowiadania na pozycje testu przyjmuje się trzy podstawowe założenia: (1) o wymiarach przestrzeni latentnej, (2) o lokalnej niezależności pozycji testowych i wreszcie (3) o krzywej charakterystycznej pozycji testowej. Pierwsze założenie dotyczy wymiarów przestrzeni latentnej (ang. dimentionality o f latent space). W IRT przyjmuje się, że zachowanie osoby badanej w teście można przypisać pojedynczej cesze latentnej (nieobserwowalnej). Cecha latentna zaś to zmienna wyznaczająca zachowanie osób w danym teście. Ta zmienna właśnie determinuje obserwowane zależności statystyczne między pozycjami testu (por. Osterlind, 1983; Camilli, Shepard, 1994). Test, który mierzy jedną cechę latentną, jest testem jednowymiarowym. Testami jednowymiarowymi są np. testy zdolności (np. matematycznych, językowych czy myślenia technicznego). Wszystkie zależności statystyczne stwierdzane między pozycjami testowymi są wyjaśniane przez odwołanie się do jednej cechy latentnej. Cechę latentną oznacza się jako theta (0) i przyjmuje, że jest ona ciągła, a jej wartości zawierają się w przedziale od do +°°. Ponieważ skala jest najczęściej wyrażana w postaci konwencjonalnych wartości z, to w praktyce wszystkie wyniki mieszczą się w przedziale od - 4 z do +4z. Założenie drugie dotyczy lokalnej niezależności pozycji testowych (ang. local independence o f item). W założeniu tym przyjmuje się, że odpowiedzi każdej osoby badanej na jedną pozycje testową nie zależą od jej odpowiedzi na jakąkolwiek inną pozycję tego testu. Oznacza to zatem, że rozkład wyników poszczególnych pozycji testowych zależy jedynie od parametru 9; wyniki pozycji testowych są statystycznie niezależne. Jeżeli test jest rzeczy wiście jednowymiarowy (założenie 1), to założenie o lokalnej niezależności pozycji testowych jest również spełnione. Wówczas możemy przyjąć, że cecha latentna jest mierzona w sposób niezależny k razy, gdzie k oznacza liczbę pozycji testowych. Krzywa charakterystyczna pozycji testowej Najważniejsze założenie przyjmowane w ramach IRT dotyczy krzywych charakterystycznych pozycji testowych (ang. item characteristic curve - ICC) i jest kluczowym założeniem teorii odpowiadania na pozycje testu. Krzywa charakterystyczna pozycji testowej to graficzny obraz funkcji matematycznej, wiążącej prawdopodobieństwo udzielenia odpowiedzi prawidłowej na daną pozycję testową z poziomem cechy, operacyjnie wyznaczonym przez ogólny wynik w teście. Funkcję tę oznacza się jako (0), gdzie: P, oznacza praw-
195
R
o z d z ia ł
5
dopodobieństwo udzielenia prawidłowej odpowiedzi na i-tą pozycję testową. Krzywe ICC są bardzo użytecznym sposobem przedstawiania danych doty czących sposobu odpowiadania na poszczególne pozycje testowe w sytuacji, gdy test jest stosowany w heterogenicznej grupie badanych osób. Na rys. 5.5 przedstawiono przykład hipotetycznej krzywej ICC. Zauważmy, że mierzona cecha jest tu zmienną ciągłą, a prawdopodobień stwo sukcesu (prawdopodobieństwo udzielenia prawidłowej odpowiedzi na daną pozycję testową) jest funkcją ogólnego poziomu zdolności. Ogólny poziom zdolności z kolei jest szacowany na podstawie wyniku, jaki osoby badane otrzymały w całym teście. Zwróćmy również uwagę, że krzywa ICC przedstawiona na rys. 5.5 nie jest linią prostą (por. rys. 5.4). Nie reprezentuje ona zatem liniowego związku między prawdopodobieństwem sukcesu a ogól nymi zdolnościami osób badanych; jest to krzywa w kształcie litery S, Rys. 5.5. Przykład hipotetycznej krzywej charakterystycznej pozycji testowej (item characteristic curve, ICC) (na podstawie Osterlind, 1983, s. 40)
Ko
n s t r u o w a n ie
testu
-
po dstaw o w e
pro cedury
zaczynająca się bardzo nisko i rosnąca monotonicznie wraz z ogólnymi zdolnościami badanych osób.
Parametry pozycji testowej i skala cechy latentnej Każdą krzywą ICC można opisać za pomocą trzech parametrów: parametru a - tj. współczynnika mocy dyskryminacyjnej, parametru b - tj. współczyn nika trudności, oraz parametru c - tj. współczynnika zgadywania. Wartości tych parametrów są ustalane empirycznie. Parametr a. W klasycznej teorii testów współczynnik mocy dyskryminacyjnej jest miarą tego, jak dobrze dana pozycja testowa różnicuje badaną populację. W IRT współczynnikowi mocy dyskryminacyjnej pozycji testowej, czyli parametrowi a, odpowiada na wykresie kąt nachylenia (stopień stromości) krzywej ICC w punkcie przegięcia. Na rys. 5.6 przedstawiono dwie Rys. 5.6. Dwie krzywe ICC różniące się współczynnikami mocy dyskryminacyjnej pozycji testowej (na podstawie Camilli, Shepard, 1994, s. 54)
R
o z d z ia ł
5
krzywe ICC różniące się współczynnikami mocy dyskryminacyjnej. Pozycja j jest pozycją bardziej dyskryminatywną niż pozycja i, bowiem w jej wypadku krzywa ICC gwałtowniej rośnie. Wartości parametru a mogą teoretycznie zawierać się w przedziale (-°°, +°°), jednak praktycznie najczęściej mieszczą się między 0,5 i 2,5 (Osterlind, 1983, s. 61; Camilli, Shepard, 1994, s. 53). Parametr b. Współczynnik b, czyli trudność pozycji testowej, jest re prezentowany na wykresie przez wartość P(0) dla danej wartości 0 14. Warto ści tego współczynnika mieszczą się najczęściej w przedziale od -1,5 do +1,5. Wartość 0,0 oznacza pozycję o optymalnej trudności, tj. takiej, dla której prawdopodobieństwo udzielenia odpowiedzi prawidłowej wynosi 50% (Osterlind, 1983, s. 61; Camilli, Shepard, 1994, s. 51). Wysoka dodatnia wartość współczynika b oznacza, że dana pozycja testowa jest bardzo trudna. I odwrotnie, wysoka ujemna wartość współczynika b oznacza, że dana pozycja testowa jest bardzo łatwa. Na rys. 5.7 przedstawiono dwie krzywe ICC różniące się współczynnikami trudności. Krzywa j, której punkt przeRys. 5.7. Dwie krzywe ICC różniące się współczynnikami trudności pozycji testowej (na podstawie Camilli, Shepard, 1994, s. 52)
198
14 Dokładnie rzecz biorąc, współczynnik b jest równy wartości w punkcie P(0) = (1 + c )l2, gdzie c oznacza współczynnik zgadywania (Camilli, Shepard, 1994, s. 51).
Ko
n s t r u o w a n ie
testu
-
po dstaw o w e
pro cedury
gięcia przypada w punkcie 0= 1,0 (jest bardziej przesunięta na prawo), obrazuje pozycję trudniejszą. Dla tej wartości 0 prawdopodobieństwo udzie lenia odpowiedzi prawidłowej na pozycję i wynosi około 0,85, a na pozycję j - 0,50. Pozycja i jest zatem znacznie łatwiejsza. To samo możemy stwier dzić, wykreślając na rys. 5.7 prostą równoległą w punkcie / >(0) = O,5 (tj. przyjmując, że prawdopodobieństwo poprawnej odpowiedzi wynosi 50%). W tym przypadku widzimy, że udzielenie prawidłowej odpowiedzi na pozycje i wymaga mniejszego poziomu zdolności (cechy latentenej 0) niż na pozy cję j. Pozycja i jest zatem łatwiejsza. Linią przerywaną zaznaczono pozycję o optymalnej trudności (maksymalne różnicowanie - P(Q) = 0,50 dla 0 = 0,0). Parametr c. Parametr c reprezentuje prawdopodobieństwo, z jakim osoba badana o niskich wartości cechy latentnej może odpowiedzieć poprawnie na daną pozycję testową. Parametr ten zazwyczaj nazywa się współczynnikiem zgadywania, jako że przyjmuje się, iż osoba badana udzieliła odpowiedzi prawidłowej, stosując strategię nie wynikającą z posiadanej wartości. Graficz nie współczynnik zgadywania jest reprezentowany za pomocą dolnej asymptoty krzywej ICC. W typowej sytuacji testowania prawdopodobieństwo to oblicza się jako l/m, gdzie m oznacza liczbę możliwych kategorii. Jednakże w wypadku krzywych ICC wartość ta rzadko będzie równa l/m. W IRT bowiem przyjmuje się, iż badany, zgadując prawidłową odpowiedź, nie czyni tego w sposób losowy15 (Osterlind, 1983, s. 61). Ponieważ współczynnik zgadywania jest tożsamy z prawdopodobieństwem udzielenia odpowiedzi prawidłowej, dlatego przybiera on wartości od 0,00 do 1,00. W praktyce współczynnik ten najczęściej mieści się w przedziale od 0,00 do 0,40. Im mniejsza wartość c, tym oczywiście lepiej dla testu. Na rys. 5.8 przedstawiono dwie krzywe ICC różniące się współczynnikami zgadywania. Dolna asymptota krzywej j wypada w punkcie P(0) = 0. Można zatem przyjąć, że współczynnik c dla tej pozycji równa się zero. Natomiast w przypadku pozycji i dolna asymptota krzywej ICC wypada w punkcie P(0) = 0,25 i tyle też wynosi współczynnik zgadywania dla tej pozycji. Krzywe ICC zastępują występujące w klasycznej teorii testów tradycyjne wskaźniki formalne charakteryzujące pozycje testowe, tj. trudność, współczynnik mocy dyskryminacyjnej oraz współczynnik zgadywania. Przewaga krzywych ICC nad klasycznymi wskaźnikami dobroci pozycji testowych polega na tym, że na ich podstawie można określić zależność między prawdopodobieństwem poprawnej odpowiedzi na konkretną pozycję testową a różnymi wartościami cechy latentnej.
Modele formułowane w ramach IRT Istnieje wiele matematycznych sposobów (modeli) opisywania krzywych ICC. Modele te zależą od matematycznych postaci funkcji opisujących 15 Por. uwagi na temat losowego modelu zgadywania w części poświęconej współczyn nikowi trudności.
199
R
o z d z ia ł
5
krzywe ICC. Najczęściej opisywane modele to modele ogivy rozkładu nor malnego (tymi funkcjami są funkcje skumulowanego rozkładu normalnego) oraz jedno-, dwu- i trójparametryczny model logistyczny (oparte na funkcjach logistycznych). Do bardziej znanych należy również tzw. model Rascha, często traktowany jako odmiana jednoparametrowego modelu logistycznego (por. też Hornowska, 1980). Każdy z tych modeli ma określone zalety i ograniczenia. Najbardziej obiecującym z punktu widzenia przydatności do badania stronniczości pozycji testowych jest model trójparametryczny. Model trójparametryczny. Model trójparametryczny jest modelem najogól niejszym, sformułowanym po raz pierwszy przez Bimbauma (1968). W mo delu tym przyjmuje się, że prawdopodobieństwo udzielenia odpowiedzi prawidłowej na daną pozycję testową zależy od trzech parametrów charak teryzujących pozycję testową: trudności pozycji, jej mocy dyskryminacyjnej! Rys. 5.8. Dwie krzywe ICC różniące się współczynnikami zgadywania (na podstawie Camilli, Shepard, 1994, s. 55)
200
K
o n s t r u o w a n ie
testu
-
po dstaw o w e
pro cedury
oraz współczynnika zgadywania16. Związek między prawdopodobieństwem udzielenia odpowiedzi prawidłowej a pozycją osoby badanej na kontinuum cechy latentnej jest funkcją logistyczną i wyrażany jest w następującej postaci (por. ibidem, s. 405): P,{0) = Ci + j +eDa/(Q-bi) gdzie: c, to współczynnik zgadywania dla /-tej pozycji, b, to współczynnik trudności, a, to współczynnik mocy dyskryminacyjnej, a D to stała maksymizująca dopasowanie krzywej logistycznej do ogivy rozkładu normal nego; D= \ ,l (por. Hulin, Drasgow, Parsons, 1983, s. 29). Przypomnijmy: wartości wszystkich trzech parametrów są ustalane empirycznie. Poważnym problemem praktycznym związanym z szacowaniem wartości poszczególnych parametrów w modelu trójparametrycznym jest matematycz na trudność tych obliczeń, a także ich ilość. Najczęściej bowiem, aby rzetel ność obliczeń była zadowalająca, trzeba przetworzyć dane uzyskane z prze badania przynajmniej 1000 osób. Czynnikiem ułatwiającym praktyczne szacowanie odpowiednich paramet rów omawianego modelu są odpowiednie programy komputerowe. Do naj bardziej znanych należy program LOGIST, który został opracowany w Edu cational Testing Service, a także MULTILOG, który ma już swoją wersję dla systemu Windows. Program ten pozwala na jednoczesne obliczenie parametrów a„ b,, i c, metodą największej wiarygodności, za pomocą serii iteracyjnych procedur. P o d s u m u j m y : pomiar psychologiczny jest pomiarem pośrednim. Pozy cję danej osoby na kontinuum cechy, która nie jest bezpośrednio obserwowalna (kontinuum latentne), możemy określić tylko na podstawie jej zachowania w ściśle określonych zadaniach. Aby to można było zrobić, musimy dysponować modelem wiążącym konstrukt psychologiczny (cechę latentną) z poziomem zachowań. W wypadku klasycznej teorii testów model ten jest prosty. Przypomnijmy: przyjmuje się w niej, że wynik, jaki otrzymała dana osoba w teście, jest sumą dwóch składowych - wyniku prawdziwego tej osoby i błędu pomiaru. Model ten jednak ma swoje ograniczenia. I tak wynik prawdziwy określany jest tylko w stosunku do konkretnego zbioru pozycji testowych, a statystyczne właściwości pozycji testowych nie są bezpośrednio wiązane z zachowaniami testowymi (por. Embretson, 2000, s. 60). W teorii odpowiadania na pozycje testu buduje się modele wiążące poziom nieobserwowalnej cechy psychologicznej z odpowiedzią na każdą kolejną 1,1 W modelu dwuparametrycznym przyjmuje się, że współczynnik zgadywania wynosi zero, a w modelu jednoparametrycznym bierze się pod uwagę tylko współczynnik trudności pozycji testowej i przyjmuje się, że współczynnik mocy dyskryminacyjnej jest taki sam dla wszystkich pozycji.
R
o z d z ia ł
5
pozycję testową. Zaletą tych modeli jest to, że poziom mierzonej cechy może zostać oszacowany na podstawie każdej pozycji testowej pod warun kiem, że znane są jej parametry, a statystyczne właściwości tych pozycji są bezpośrednio wiązane z zachowaniami testowymi (ibidem).
Gdzie wykorzystuje się modele IRT? Modele formułowane w ramach IRT są dzisiaj szeroko wykorzystywane. Typowym przykładem ich zastosowania są adaptacja językowa testu, testowa nie adaptacyjne (interakcyjne) i szacowanie stronniczości pozycji testowych. Zastosowanie modeli IRT do tłumaczeń językowych. W ramach IRT podejmowane są próby teoretycznego ujęcia problematyki oceny równoleg łości tłumaczeń. Analiza tłumaczeń w ramach IRT oparta jest na określaniu podobieństw związku między odpowiedziami na pozycje testowe a leżącą u ich podstaw cechą latentną dla dwóch języków (języka oryginału i języka tłumaczenia). O równoległości oryginalnej pozycji testowej i pozycji prze tłumaczonej decyduje podobieństwo krzywych ICC wyznaczonych dla tych pozycji (por. Hulin, Drasgow, Parsons, 1983). Testowanie adaptacyjne (interakcyjne). Konstruktorzy testów psycho logicznych zainteresowani są zazwyczaj stworzeniem metody obejm/ującej szeroki zakres wartości interesujących ich charakterystyk. Jest to możliwe dzięki dobieraniu pozycji testowych o zróżnicowanym współczynniku trud ności w taki sposób, aby średnia ich trudność oscylowała wokół 50%. Niezamierzoną konsekwencją takiego doboru pozycji testowych jest koniecz ność odpowiadania przez osobę badaną na wiele pozycji zbyt łatwych lub zbyt trudnych. Pomijając samą czasochłonność takiej procedury (zarówno w wypadku osoby badanej, jak i badającej), może on powodować u osoby badanej spadek motywacji do rzetelnego odpowiadania na pozycje testu. Celem testowania adaptacyjnego jest prezentowanie osobie badanej jedynie takich pozycji testowych, których trudność odpowiada poziomowi mierzonej cechy latentnej. Dzięki temu dana osoba odpowiada jedynie na taki zestaw pozycji testowych, który w optymalny sposób pozwoli określić właściwy dla niej poziom mierzonej cechy (por. Hulin, Drasgow, Parsons, 1983). Zastosowanie modeli IRT do szacowania stronniczości pozycji testowych. Strategia badania stronniczości pozycji testowych wywodząca się z IRT polega na porównywaniu krzywych ICC opisujących daną pozycję testową, a otrzymanych dla dwóch różnych grup osób należących do tej samej popu lacji. I tak „(...) zbiór pozycji testowych możemy traktować jako zbiór bezstronny, jeżeli krzywe ICC wyznaczone dla każdej pozycji testowej tworzącej ten zbiór będą takie same dla obu rozważanych grup należących do tej samej populacji” (Crocker, Algina, 1986, s. 377). Tak więc, w ramach IRT stronniczość pozycji testowych definiowana jest jako różnica między krzywymi ICC otrzymanymi dla dwóch grup (np. etnicznych), wyłonionych z tej samej populacji i nie różniących się ogólnym poziomem zdolności 202 (wartością 9).
K o n str u o
w a n ie
testu
-
po dstaw o w e
pro cedury
Najczęściej stosuje się dwie miary stronniczości: (1) wielkość przestrzeni między krzywymi ICC (Rudner, 1980) oraz (2) test hipotezy o równości trzech parametrów w porównywanych grupach (Lord, 1977; 1980). Na rys. 5.9 przedstawiono trzy hipotetyczne sytuacje, w których stronniczość pozycji testowej przypisywana jest (a) różnej mocy dyskryminacyjnej pozycji testowej w obu grupach, (b) różnej trudności i (c) różnym współczynnikom zgadywania (por. też Homowska, 1999). Stosowanie item response theory jako modelu teoretycznego dającego podstawę do konstrowania konkretnych technik szacowania stronniczości pozycji testowych jest najbardziej dojrzałym rozwiązaniem z wszystkich proponowanych w literaturze przedmiotu. Podstawową barierą utrudniającą jego szerokie stosowanie jest matematyczna złożoność obliczeń. Można mieć jednak nadzieję, że przy dzisiejszym tempie rozwoju oprogramowania kom puterowego ta przeszkoda szybko zniknie (dostępnych jest już kilka pro gramów obliczeniowych), a wówczas - nie tylko w omawianym przez nas Rys. 5.9. Trzy hipotetyczne sytuacje, w których stronniczość pozycji testowych wynika z (a) różnej mocy dyskryminacyjnej pozycji testowej w obu grupach, (b) różnej trudności i (c) różnego współczynnika zgadywania (na podstawie Hulin, Drasgow, Parsons, 1983, s. 176)
R
o z d z ia ł
5
obszarze zagadnień - teoria odpowiadania na pozycje testu, czyli item response theory, zastąpi klasyczną teorię testów.
Podstawowe pojęcia: • analiza zadań • krzywa charakterystyczna pozycji testowej • moc dyskryminacyjna • poprawka na zgadywanie • pozycje testowe • teoria odpowiadania na pozycje testu • walidacja krzyżowa • wskaźnik dyskryminacji • wskaźnik trudności • współczynnik korelacji dwuseryjnej • współczynnik korelacji punktowo-dwuseryjnej • współczynnik korelacji punktowo-czteropolowej • zróżnicowane funkcjonowanie pozycji testowych
{
Literatura zalecana Anastasi A., Urbina S. (1999). Testy psychologiczne. Warszawa: Pracownia Testów Psychologicznych Polskiego Towarzystwa Psychologicznego. Brzeziński J. (1996). Metodologia badań psychologicznych. Warszawa: Wy dawnictwo Naukowe PWN. Hornowska E. (1999). Stronniczość testów psychologicznych. Problemy - kie runki - kontrowersje. Poznań: Wydawnictwo Fundacji Humaniora.
204
R
o z d z ia ł
6
S p o ł e c z n y k o n t e k s t s t o s o w a n ia t e s t ó w P SY C H O L O G IC Z N Y C H
Pomiar psychologiczny nie jest pomiarem jednoznacznym. Interpretacja wyników testowych wymaga nie tylko odpowiedniego przygotowania mery torycznego (wiedzy psychologicznej), ale również znajomości podstaw po miaru testowego. Nie wystarczy bowiem nawet najlepsza znajomość proce dury stosowania danej metody, jeżeli nie znana jest teoria psychologiczna, leżąca u podstaw konstrukcji testu, oraz teoria psychometryczna, decydująca o sposobie ilościowej interpretacji wyników tego testu. Tymczasem, biorąc pod uwagę liczbę prac naukowych poświęconych teorii pomiaru psycho logicznego w Polsce, w porównaniu z ich liczbą publikowaną na świecie, można by sądzić, że przekonanie o możliwości jednoznacznej interpretacji wyników testów psychometrycznych - a co za tym idzie, niska świadomość specyfiki pomiaru psychologicznego - jest w naszym kraju szczególnie silne. Co gorsza, przywiązywanie coraz większej wagi do ulepszania praktycznej strony testowania (np. komputeryzacja procedury badania testowego), z nie mal całkowitym brakiem odniesień do teorii psychometrycznych i dorobku psychologii jako nauki, sprawia wrażenie, że psychometria jako dyscyplina naukowa nie ma dziś do zaproponowania żadnych nowych rozwiązań teore tycznych. Wynikający stąd niski status badań testowych i arefleksyjna po stawa wobec stosowanych narzędzi stwarzają znacznie groźniejsze następstwa niż - jak powiedział to obrazowo Robert Sternberg (1992, s. 135), wybitny teoretyk i specjalista w dziedzinie badań inteligencji - „technologia nuklearna, która również powstała w laboratoriach naukowych”. Jakie niebezpieczeństwa społeczne związane są ze stosowaniem testów psychologicznych? Co można zrobić, aby korzystać z zalet tego sposobu poznania psychologicznego, a jednocześnie minimalizować niepożądane społeczne skutki jego stosowania? 6.1. TESTOWANIE PSYCHOLOGICZNE - SPOŁECZNE NIEBEZPIECZEŃSTWA Testy psychologiczne przestały być dziś celem dla doskonalących je psychomet rów; ich wyniki stają się podstawą decyzji o ważnych społecznie konsekwencjach.
205
R
o z d z ia ł
206
6
Społeczne konsekwencje stosowania testów psychologicznych są poważne i oczywiste - wyniki testowania stają się podstawą orzekania w sytuacji selekcji lub w sytuacji, gdy osoba badana staje się pacjentem. Konsekwencje te wykraczają daleko poza ramy teoretycznych dyskusji psychologów, prze nosząc się na teren polityki społecznej, i w ten sposób mogą wpływać istótnie na losy ludzi. Testy w odbiorze społecznym stały się kontrowersyjne, straciły urok obiektywnych miar i bywają traktowane jako niebezpieczne narzędzie uzys kiwania przewagi przez wtajemniczonych profesjonalistów, selekcjonujących ludzi i działających bez społecznego przyzwolenia. Póki testy stanowią marginalne kryterium selekcji, póty społeczne nimi zainteresowanie jest małe. Gdy jednak oparte na testach selekcja i dobór stają się powszechną praktyką, wówczas wzbudzają uzasadniony niepokój społeczny. W ciągu ostatnich lat obserwujemy właśnie ogromny wzrost zaintereso wania wykorzystaniem testów psychologicznych i edukacyjnych dla potrzeb selekcyjnych. Powszechne przekonanie, że testy są technikami obiektywnymi, bo likwidującymi ewentualną stronniczość oceniających, sprawiła, że zaczęły być one masowo stosowane. Użyteczność obiektywnych metod oceny, umoż liwiających szybkie klasyfikowanie licznych grup osób, jest niewątpliwie nieoceniona. Jednakże skala tego zjawiska musi budzić niepokój - niemal na każdym etapie naszego życia (przedszkole, szkoła, praca zawodowa) możemy znaleźć się w sytuacji wymagającej od nas poddania się badaniu testowemu. A wyniki badania testowego mogą zostać wykorzystane do podjęcia decyzji mogącej zaważyć na całym naszym życiu Po raz pierwszy wykorzystano testy do masowego diagnozowania w trakcie I wojny światowej. W latach 20. amerykański College Board of Education rozpoczął już szerokie stosowanie testów edukacyjnych jako formy egzami nów wstępnych. W roku 1926 po raz pierwszy zastosowano SAT (Scholastic Aptitude Test) i przebadano nim aż 8000 (!) osób. Jedenaście lat później, w roku 1937, tradycyjny egzamin pisemny będący egzaminem wstępnym do college’u, został zastąpiony testem wiadomości z wielokrotnym wyborem (Angoff, Dyer, 1971). Wykorzystywanie testów z wielokrotnym wyborem w trakcie oraz po II wojnie światowej po raz kolejny zademonstrowało użyteczność testów na dużą skalę, nawet przy tak niedoskonałym oprzyrządowaniu, jakim był ówczesny sprzęt wspomagający liczenie wyników. Wraz z rozwojem oprzy rządowania i wprowadzeniem komputerów możliwości obliczania wyników gwałtownie rosły i dzisiaj bez żadnego problemu można ocenić 10 000 wypełnionych arkuszy testowych w ciągu godziny! Testowanie zatem po zwoliło na ocenianie badanych osób na taką skalę, jaka nigdy nie zostanie osiągnięta przy zastosowaniu tradycyjnych metod poznania psychologicznego czy pedagogicznego. Jak podają źródła amerykańskie, już w roku szkolnym 1981-1982 test SAT został rozwiązany przez 1,5 miliona uczniów, a ponad
S
po łeczny k o n tek st
s t o s o w a n ia t e s t ó w
p s y c h o l o g ic z n y c h
250 tysięcy uczniów rozwiązało również inne testy przygotowane przez College Board. W tym samym czasie ponad milion uczniów rozwiązywało także testy przygotowane przez inne ośrodki - w tym American College Testing Program (Frederiksen, 1984, s. 194). Przydatność testów w przewidywaniu powodzenia w nauce szkolnej oka zała się jedną z najważniejszych przyczyn ich popularności. Fakt ten jednak budził i budzi wiele kontrowersji. Powszechnie stosowana w amerykańskim szkolnictwie praktyka testowych badań inteligencji nie jest bowiem po wszechnie akceptowana. Podstawowym zarzutem, jaki stawia się wobec decyzji o charakterze selekcyjnym, opartych na wynikach szeroko rozumia nych testów psychologicznych, jest nieuwzględnianie specyficznego pocho dzenia kulturowego osób należących do mniejszości etnicznych i niższych warstw społecznych oraz towarzyszące stosowaniu testów przeświadczenie, że gorsze wyniki są rezultatem gorszego wyposażenia genetycznego1. Prak tyka ta znalazła swój wyraz w dzieleniu np. uczniów na grupy o różnych programach nauczania, w zależności od osiąganych przez nich wyników w testach inteligencji. W rzeczywistości - z czym również zgodziły się sądy (por. np. Diana vs. California State Board of Education, 1970) - nie było to nic innego jak zamykanie dzieci w obrębie klasy społecznej, z której po chodziły. Przykładem skrajnego stanowiska w tym względzie jest książka Herrnsteina i Murraya (1994) The Bell Curve, w której autorzy dowodzą, że u podłoża różnic w wynikach testów inteligencji leżą przede wszystkim czynniki genetyczne. Po raz pierwszy społeczne konsekwencje związane z testami dały o sobie znać w latach 30. w ówczesnym Związku Radzieckim. Po rewolucji paź dziernikowej w Rosji gwałtownie wzrosło zainteresowanie psychologią i moż liwościami jej praktycznego zastosowania (por. Tomaszewski, 1947). Pierw szy Zjazd Psychologiczny odbył się w 1922 roku, a centralnym jego postula tem było „hasło przebudowy psychologii sowieckiej na zasadach materializ mu dialektycznego” i wykorzystanie tzw. psychologii obiektywnej (ibidem, s. 8). Efektem zjazdu było - między innymi - powstanie instytucji psycho logów szkolnych, sieci instytutów psychotechnicznych oraz szerokie wyko rzystywanie testów. Centralny Komitet Wszechzwiązkowej Partii Komunistycznej podjął 4 lipca 1936 roku uchwałę przeciw tzw. „pedologom” (psychologom szkolnym), zarządzając zamknięcie instytutów psychotechnicznych oraz likwidując sta nowiska psychologów szkolnych, a w efekcie powodując wieloletni upadek psychologii w ZSRR. Powodem tego stanu rzeczy były - jak wówczas pisano 1 Warto w tym miejscu wspomnieć, że już w roku 1928 Władysław Witwicki zwracał uwagę na konsekwencje stosowania testów zaczerpniętych z obcych kultur i nieprzystających do naszej kultury, pisząc wprost: „trzeba jednak raz przetrzeć oczy i spojrzeć przytomnie na te harce intelektualne na głowach dzieci, wykonywane w dziurawej szacie metody naukowej” (Witwicki, 1928, s. 32). 207
R
o z d z ia ł
6
- błędy w założeniach teoretycznych (tzw. „mechanistyczno-fatalistyczny pogląd na człowieka” oraz przyjęcie zasady stałości ilorazu inteligencji i niezmienności środowiska społecznego), a także szkodliwe używanie testów i ankiet, tj. koncentrowanie się na statystyce w oderwaniu od „dialektycznego rozwoju jednostki” (por. Rubinsztejn, 1962, s. 60-61). Co w istocie było przyczyną tak ostrej reakcji, prowadzącej często do indywidualnych tragedii osób więzionych i zsyłanych do osławionego Gułagu? Jest niewątpliwie prawdą, że ówczesne testy inteligencji były swoistymi testami wiadomości, a ich wyniki odnoszono raczej do kryteriów zewnętrz nych niż do norm. Źródłem zadań w ówczesnych testach były sprawności i umiejętności bliskie ich twórcom, a ówczesna kultura była w swej istocie „kulturą białego człowieka” z kolonialnym wydźwiękiem. Jednak nie to, jak sądzę, wywołało opisywaną reakcję. Główną przyczyną było automatyczne przenoszenie testów z jednego kraju do innego, bez uwzględniania różnic kulturowych (a często bez świadomości owych różnic). Musiało to prowadzić do kolizji wyników grupy wzorcowej (większościowej) i narodowej (mniejszościowej). Społeczne konsekwencje tego stanu rzeczy były nie do pogodzenia z ówczesną ideologią państwową, a psychologom zarzucano tendencyjność w badaniach dzieci za pomocą testów, która miała wykazać „wyższość burżuazyjnego Zachodu”. I dziś arefeleksyjne stosowanie testów może prowadzić do wielu niekorzys tnych zjawisk społecznych. Do najważniejszych - jak się wydaje - można zaliczyć (por. też Ebel, 1972; Bourdieu, Passeron, 1990; Sternberg, 1992; Camara, 1997; Ellis, 1998; też APA, 1985a, 1985b): 1) R o z u m i e n i e i n t e l i g e n c j i j a k o j e d y n e j l u b g ł ó w n e j cechy warunkującej powodzenie w bardzo wąsko definiowanych zadaniach. Rodzące się z tego niebezpieczeństwo ma dwa źródła: przyjęcie, iż o powodze niu (definiowanym przez społeczne kryteria) decyduje intelekt - termin ten przez swoje pozytywne nacechowanie wydaje się dobrze pasować jako synonim sukcesu; nawet opisując rolę emocji, określa się ją jako „inteligencję emocjonalną” (Goleman, 1997) - oraz przyjmowanie ze względów pragmatycznych (praktycz nych), iż inteligencja wyraża się w wynikach testów badających inteligencję. A przecież - powołajmy się na opinię Sternberga wyrażoną w rozmowie z dziennikarzem magazynu Skeptic Frankiem Miele (Miele, 1997, s. 41) - „Nie ma absolutnej zgody co do tego, czym jest «inteligencja». Jedną z bitew w tej dziedzinie, ważniejszą niż spór o relację dziedziczność-środowisko, jest dyskusja na temat zakresu pojęcia «inteligencja». Nie ma tu rozstrzygającej odpowiedzi, ponieważ Bóg nie mówi nam, co ma na myśli. W dużej mierze inteligencja jest naszym własnym tworem. Stworzono ją po to, aby opisać fakt, że niektórzy ludzie potrafią więcej niż inni (...)”• W efekcie pragmatycznego zawężania pojęcia inteligencji może dochodzić 208 do bardzo niekorzystnego ograniczania w oczach opinii publicznej innych
S
po łec zn y k o n tek st
s t o s o w a n ia t e s t ó w
p s y c h o l o g ic z n y c h
społecznie potrzebnych umiejętności i oceniania sukcesów zawodowych ludzi jedynie przez pryzmat posiadania przez nich dobrze wytrenowanych, wąskich umiejętności intelektualnych. Dla osób, które słabo wypadają w tak rozu mianych testach inteligencji, istnieje realna groźba „nieotrzymania przepustki i znalezienia się poza systemem” (Sternberg, 1992, s. 41). Ważnym zadaniem dla psychologów staje się zatem konieczność tworzenia takich instrumentów pomiarowych, które będą odzwierciedlać całą przestrzeń celów edukacyjnych czy zawodowych i nie będą prowadzić do opisywania zachowania testowego badanej osoby przez dopasowanie jej do jednego tylko kryterium. 2) E t y k i e t o w a n i e w z a k r e s i e s t a t u s u i n t e l e k t u a l n e g o ( p r z e z o k r e ś l a n i e go j a k o n i s k i , ś r e d n i c zy w y s o k i ) i p r z e w i d y w a n i e na tej p o d s t a w i e p r z y s z ł e g o f u n k c j on ow a ni a osoby badanej. Psycholog stygmatyzuje ludzi, jeśli „w stawianych przez siebie diagnozach przypisuje im pewne etykiety, jeśli naznacza ich jakimiś społecznie pejora tywnymi właściwościami i naraża na szwank ich poczucie własnej wartości i godności. W diagnozach tych w sposób jawny lub ukryty występuje element wartościowania jednostek i grup społecznych, jeśli wskazuje, w jakim stopniu i pod jakim względem ich społeczne zachowania są niepożądane, szkodliwe, nienormalne, słowem: zakazane” (Poznaniak, 1994, s. 73). Etykietowanie jest uproszczoną formą kategoryzacji społecznej, ma więc wszelkie cechy swoistego rasizmu. Przypisywane jednostce cechy wynikają z grupowej przecież etykiety, a nie z własności tejże jednostki. Etykietowanie znacząco upraszcza też prognozowanie - zastępuje się bowiem zbiór hipotez („jak być może, o ile zajdzie x, y, z ..”) diagnozą predykcyjną w postaci („jak będzie z pewnością, skoro...”), której podstawą jest stopień podobień stwa jednostki do przyjętej grupy odniesienia. Etykiety, którymi posługuje się w swoich diagnozach psycholog, mogą mieć postać negatywnej oceny, dotyczącej zarówno zachowania osoby bada nej, jak i jej samej (Poznaniak, 1994, s. 74). Raz nadaną etykietę trudno zmienić, co w efekcie może prowadzić do nie dających się naprawić szkód w zakresie samooceny czy motywacji. „Stosowanie skrótowych etykietek wiąże się zazwyczaj z wartościowaniem. Niestety, słowa, jakie są w tym wypadku używane, pochodzą często z języka potocznego, i z tego powodu mogą być fałszywie interpretowane. Badający powinien precyzyjnie określić znaczenie stosowanych terminów (np. terminu «opóźniony»), chociaż nie może mieć żadnego wpływu na to, jak to samo słowo będą interpretować sędzia, nauczyciel, rodzice czy dziecko” (APA, 1985a, s. 80). Praktyka przewidywania przyszłego sukcesu na podstawie wyników w tes tach inteligencji i idące za tym etykietowanie mają swoje daleko idące konsekwencje społeczne. Wspomiany już Robert Sternberg, rozmawiając z dziennikarzem magazynu Skeptic (Miele, 1997, s. 41), tak skomentował
209
R
o z d z ia ł
210
6
wszechobecne testowanie inteligencji: „[Testowanie] w dużym stopniu jest to po prostu samospełniające się proroctwo. Tak więc, gdy mówi pan, że na podstawie IQ można przewidzieć późniejsze sukcesy, to ja się z tym zgadzam. Ale gdy otrzyma pan w testach słabe wyniki, to wszystko w pana życiu zaczyna się zmieniać i zaczyna się pan zsuwać w dół po równi pochyłej. I nie jest to eksperyment laboratoryjny - każdy wynik może sprawić, że kolejne drzwi będą się przed panem zamykać!”. Skutkiem klasyfikowania przez etykietowanie jest zatem nie tyle opisy wanie aktualnych możliwości osoby badanej, ile raczej determinowanie jej przyszłości. Kto z nas nie zetknął się w szkole z krzywdzącymi opiniami nauczycieli, powstałymi na podstawie nieudolnie opracowanych sprawdzia nów!? I nie trzeba chyba przypominać, jak trudno było takie opinie zmienić. Taki rodzaj myślenia znamy z historii - leżał on u podstaw tzw. dewiacyj nej hipotezy Berga (ang. deviation hypothesis', por. Wiggins, 1994; Berg, 1959). Ta nihilistyczna hipoteza mówi, z grubsza rzecz biorąc, że jeżeli ktoś odchyla się w jednej dziedzinie, to musi odchylać się w innej. Zdaniem Berga (ibidem) tendencja do udzielania odpowiedzi dewiacyjnych ma charak ter ogólny i ujawnia się zarówno w krytycznych, jak i niekrytycznych obszarach zachowania, niezależnie np. od treści pytania. Hipotezę dewiacji dzieli już tylko niewielki krok od legitymizacji etykietowania. Możliwość pojawienia się etykietowania w procesie diagnozowania za pomocą testów psychologicznych jest nie tylko teoretycznie możliwa, ale w świetle rosnącej roli testów w określaniu przydatności badanych osób do określonych celów edukacyjnych czy zawodowych zdecydowanie realna. 3) P r z y p i s y w a n i a p s y c h o l o g o m r o l i o s ó b k o n t r o l u j ą c y c h i d e t e r m i n u j ą c y c h l o s y ż y c i o w e b a d a n y c h osób. Równie istotne niebezpieczeństwo związane z szerokim stosowaniem testów psychologicznych można by określić jako „społeczną dominację testujących”. Ma ona swoje źródło w społecznym przyzwoleniu na to, iżby psychologowie mieli prawo kontrolować i determinować losy życiowe bada nych osób. Podstawą tego społecznego zwyczaju jest przypisywanie narzę dziom stosowanym przez psychologów cechy bezwarunkowego obiektywiz mu. Dodatkowym uzasadnieniem jest też to, iż wyniki badań psychologicz nych podawane są w liczbach: stwierdzenie „wysoka inteligencja” czy „wysoki poziom niepokoju” wydają się ludziom o wiele mniej precyzyjne niż II = 118 i N = 17. Jak się wydaje, opieranie bardzo wielu decyzji, istotnych z życiowego punktu widzenia (wybór szkoły, wybór miejsca pracy), na ilościowym ujmo waniu właściwości ludzkich (tu: wynikach testów psychologicznych) sprzyja przypisywaniu psychologom roli „wyroczni” w wielu życiowych sprawach. Psycholog często pełni funkcję kontrolera ludzkich zachowań. Jest też często „elementem systemu kontroli społecznej, kontroli nad zachowaniami indywidualnymi i zbiorowymi, orzekając, co jest dobre, a co złe zarówno w sensie jednostkowym, jak i społecznym” (Poznaniak, 1994, s. 73).
S
po łec zn y k o n tek st
s t o s o w a n ia t e s t ó w
p s y c h o l o g ic z n y c h
W efekcie, zamiast wykorzystywania wyników testów psychologicznych jako podstawy swobodnych i autonomicznych wyborów dokonywanych przez osoby badane, może dochodzić do podejmowania za nie decyzji dotyczących dalszych kierunków kształcenia czy awansu zawodowego. Realnym niebez pieczeństwem staje się zatem wykorzystywanie wyników testowych do replikowania raz zastanej struktury, zamiast kreowania przestrzeni wyborów dla każdego z nas2. Takiemu społecznemu odczuciu służy nadmierne chronienie tajemnicy własnego warsztatu przez psychologów i brak edukacji - zwłaszcza urzęd ników różnego szczebla - w zakresie istoty i zasad pomiaru psychologicz nego. Tylko świadomość, że na wyniki testowania może mieć wpływ wiele różnych czynników, może chronić przed przypisywaniem im nadmiernego znaczenia. Trudno nie zgodzić się z Ebelem (1972, s. 11), kiedy stwierdza on: „W tych okolicznościach istnieje pewne niebezpieczeństwo, że możemy [psycho logowie] zapomnieć o naszych własnych ograniczeniach i grać rolę Boga w życiu innych ludzi. Pomijanie problemu wieloznaczności pomiaru psycho logicznego i niepewności związanej z każdym prognozowaniem może być dla nas bardzo wygodne. Nadmiernie zapatrzeni we własną mądrość i skutecz ność, możemy rzutować własny system wartości, tworząc idealny - we własnym mniemaniu - wzorzec zachowania wszystkich ludzi”. 4) B i u r o k r a t y c z n e p o d e j m o w a n i e d e c y z j i d o t y c z ą c y c h o c e n y b a d a n y c h osób. Jest faktem, iż jednym z celów stosowania testów psychologicznych jest możliwość prognozowania późniejszego funkcjonowania badanych osób. W tym celu tworzy się reguły postępowania (np. buduje się równania regresji czy zbiera się dane aktuarialne), pozwalające przewidzieć szanse przyszłego sukcesu. Stosowanie takich procedur może sprawiać wrażenie, że zachowanie ludzi jest częścią deterministycznego systemu, który łatwo określić, oraz że to, do czego ludzie dążą, jest dobrze znane i powszechnie akceptowane. Algorytmiczne prognozowanie pozwala stosować je również osobom bez specjalistycznego, psychologicznego wykształcenia. Stąd już krok do biuro2 Pierre Bourdieu i Jean-Claude Passeron (1990) opatrzyli swoją niezwykle ciekawy tekst, poświecony m.in. problemowi odtwarzania struktury społecznej przez system oświatowy, następującym mottem, znakomicie ilustrującym problematykę tej pracy: Oto historia Jonatana, co w wieku młodym, bez zachodu, schwytał był ongiś pelikana na wyspie Dalekiego Wschodu. Rankiem pelikan Jonatana jajo wnet złożył całe białe, z którego wkrótce się wyłania pelikan całkiem doń podobny. Drugi pelikan znów z kolei jajo wnet złożył całe białe. A z wnętrza tego jaja nowy pelikan się wyłania, który uczyni znów to samo. Wszystko to może trwać bez przerwy, jeżeli tylko, oczywiście, nie zrobi się omletu pierwej.
Robert Desnos: Chantefleurs, Chantefafables
211
R
o z d z ia ł
212
6
kratyzacji diagnozowania psychologicznego - oderwania zalgorytmizowanej prócediffy ód jej psychologicznego sensu i znaczenia. Od takiego mechanicz nego podejścia do diagnozy psychologicznej łatwo już przejść do myślenia o tworzeniu komputerowych systemów diagnostycznych, których siła - w oczach opinii publicznej - leży nie w myśli zawartej w oprogramowaniu, ale w samym fakcie podejmowania decyzji przez obiektywną maszynę. A wszystko to wbrew wspomnianej już kilka razy wcześniej powszechnej zasadzie, mówiącej po prostu, że „jeżeli śmieci włożysz, to śmieci wyjmiesz”. Testy były i będą coraz szerzej wykorzystywane. Jednakże mądre korzy stanie z ich dobrodziejstw musi przeważać nad mechanicznym, nierefleksyjnym i nie pogłębionym podejmowaniem decyzji, a umiejętności psycho logiczne nie mogą być ograniczane do automatycznego odczytywania norm dostępnych w podręcznikach testowych. Badany przychodzi przecież do psychologa „z dotychczasową historią swego życia, w której badanie jest tylko chwilą, ze swoimi problemami, potrzebami oraz celami. Badający natomiast przynosi na to spotkanie wiedzę profesjonalną, narzędzia i proce dury diagnostyczne, swój system wartości i preferencję do określonego stylu diagnozowania” (Paluchowski, 1991, s. 36). Badanie testowe jest więc sytuacją, w której badany i badający wchodzą w interakcję. Biurokratyzacja procedury badania testem i automatyzacja procedur interpretowania wyników testowych jest zaprzeczeniem profesjonal nych umiejętności psychologicznych, a dla osoby badanej kończy się me chanicznym (zalgorytmizowanym) podjęciem decyzji dotyczącej często ca łego jej życia. Etycznym obowiązkiem psychologa jest ochrona praw i interesów osób, które się do niego zgłaszają. Świadomość konsekwencji społecznych wyni kających ze stosowania testów psychologicznych jest jednym z elementów naszej postawy etycznej. W sytuacji rosnącego zapotrzebowania na usługi psychologiczne oraz coraz szerzej wykorzystywanego instrumentarium tes towego wiedza o specyfice pomiaru psychologicznego jest jednym z warun ków „etycznego diagnozowania”. Warto na końcu - jako formę podsumowania - przytoczyć to, co na temat badania psychologicznego i osób korzystających z pomocy psychologicznej pisał Goldman (1974, s. 28-29): „Są to ludzie żyjący w jakimś miejscu, od może 12 do 65 lat, zanim spotkali psychologa. Przez te wszystkie lata co najmniej dziesiątki ważnych osób informowały ich tysiące razy o ich zdol nościach, osobowości czy zainteresowaniach (...) Teraz przychodzą do psycho loga na trwające nie więcej niż 8 do 10 godzin spotkanie czy testowanie. Byłoby (...) rzeczą zdumiewającą, gdyby zgodzili się oni z tą jedną informa cją, szczególnie jeżeli nie jest ona zgodna z tysiącami poprzednich lub godzi w stworzony przez te wszystkie lata obraz siebie”. Świadomi tego psychologowie będą wykorzystywać dostępne im instrumentarium testowe w sposób refleksyjny, pamiętając o tym, że test jest
S
po łeczny k o ntek st
st o s o w a n ia t e s t ó w
p s y c h o l o g ic z n y c h
dobrą metodą poznania diagnostycznego jedynie w określonym zakresie i że wyniki testowe mogą być wykorzystywane tylko jako uzasadnienie propo nowanych kierunków działania. Testy nie są podstawą ograniczania naszej odpowiedzialności za podejmowane decyzje diagnostyczne i nie mogą być podstawą ograniczania wolności klientów do swobodnego podejmowania decyzji życiowych na podstawie uzyskanych przez nich wyników testowych. 6.2. PRAWA OSÓB BADANYCH Profesjonalne stosowanie testów psychologicznych polega nie tylko na wykorzystywaniu metod psychometrycznie dobrze opracowanych i właściwej interpretacji ich wyników, ale również na respektowaniu praw osób badanych. Liczne standardy, jakie zostały w tym zakresie opracowane, nie pozostawiają żadnych wątpliwości: standardem najwyższym jest obowiązek dbania osób stosujących testy o prawa i interesy osób badanych3. Podstawowym celem budowania takich standardów jest nie tylko zwiększanie świadomości osób badanych co do przysługujących im praw, ale także uwrażliwianie osób stosujących testy na etyczną stronę testowania. Przedstawione niżej prawa osób badanych zostały opracowane na podstawie Standardów ... (1985a, b; 1999)4 oraz następujących prac: Haney, Madaus, 1991; Brzeziński, 1994; Anastasi, Urbina, 1999; Cohen, Swerdlik, 1999, oraz rozpowszechnianego drogą internetową dokumentu The Rights and Responsibilities o f Test Takers: Guidelines and E xpectations 5 (1998).
Prawo do wyrażenia świadomej zgody na badanie testem Osoby badane mają prawo wiedzieć, dlaczego są testowane oraz jakie informacje o wynikach testowania i komu zostaną następnie udostępnione. Informacje takie należy przekazywać w sposób zrozumiały dla osób badanych i na tej podstawie uzyskiwać zgodę na badanie testowe. Należy zatem uwzględnić wiek osoby badanej, jej poziom wykształcenia, a także możliwość nawiązania kontaktu z osobą badającą. Jeżeli uzyskanie zgody na badanie nie jest możliwe bezpośrednio od osoby badanej (np. w wypadku osób 3 Wśród tych standardów mamy takie publikacje, jak: Standards fo r Educational and Psychological Tests (1956, 1974, 1985, 1999; wyd. polskie
- 1985a) Principles for the Validation and Use o f Personnel Selection P rocedures (1980) Ethical Principles o f Psychologists (1981a) Speciality Guidelines fo r the D elivery o f Services by Clinical Psychologists (1981b) Speciality Guidelines fo r the D elivery o f Sendees by Counseling P sychologists (1981c) Speciality Guidelines fo r the D elivery o f Sendees by Industrial/Organizational Psychologists
(198 Id) Speciality Guidelines f o r the D elivery o f Services by School P sychologists (198 le). 4 W czwartym wydaniu Standardów... (1985b) znalazł się już samodzielny rodział po święcony w całości ochronie praw osób badanych. 11 Autorami tego dokumentu jest 12 psychologów tworzących Joint Committee on Testing Practices, powołany przez APA. 213
R
o z d z ia ł
6
upośledzonych), zgodę tę należy uzyskać od jej prawnych opiekunów. Nie którzy autorzy zalecają wręcz, aby ta zgoda została udzielona pisemnie (por. np. Cohen, Swerdlik, 1999, s. 81). Jak słusznie zwracają uwagę Anastasi, Urbina (1999, s. 680), „osoba poddawana badaniu testowemu powinna być oczywiście poinformowana 0 celu badania, rodzaju poszukiwanych danych i sposobie wykorzystania wyników. Nie należy jednak wcześniej pokazywać badanemu pozycji testo wych ani informować go, jak będą oceniane określone odpowiedzi. (...) Udzielenie tego rodzaju informacji unieważnia zazwyczaj test”.
Prawo do informacji o wynikach testowania Tak jak to stwierdzono w Standardach... (1985a, s. 80), osoba badana ma prawo nie tylko do informacji o celach badaniach czy o jego konsekwencjach, lecz również prawo do informacji o uzyskanym wyniku i jego znaczeniu. To stanowisko jest przeciwieństwem upowszechnianej, zwłaszcza w obrębie psychologii klinicznej, orientacji, zgodnie z którą psycholog powinien udzielić osobie badanej jak najmniej informacji o wynikach testu, i to jedynie takich, które sprawią, że będzie ona „zadowolona i usatysfakcjonowana” (Klopfer 1inni, 1954, s. 15). Współcześnie sposób rozumienia interesów osoby badanej jest zdecydowanie inny i generalnie przyjmuje się, że rzetelna informacja o wynikach testowania jest nie tylko konieczna z powodów etycznych, ale wręcz może odnieść pozytywny skutek terapeutyczny (Cohen, Swerdlik, 1999, s. 81). Informowanie o wynikach badań testowych traktuje się bowiem jako „integralną część porady i element kontaktu między psychologiem a klientem. (...) Psycholog powinien, na tyle, na ile jest to możliwe, włączać swych klientów do interpretowania wyników testowych w świetle zgłaszanych przez nich specyficznych problemów. Niezwykle ważne jest, by klient zaakceptował przedstawione mu informacje. Jeżeli którąś z nich z jakiegokolwiek powodu odrzuci, to pozostanie ona bezużyteczna” (Anastasi, Urbina, 1999, s. 684). Niewątpliwie sposób przekazania informacji o wynikach uzyskanych w teś cie musi być dostosowany do możliwości osób badanych. Informacje takie nie powinny być przekazywane rutynowo, a powinny dostarczać zindywidu alizowanych wyjaśnień interpretacyjnych. Zgodnie ze Standardami... (1985b, s. 85) „osoby stosujące testy w szkole, praktyce klinicznej lub poradnictwie powinny przekazywać osobom badanym (lub ich prawnym opiekunom) odpowiednie i zrozumiałe wyjaśnienia dotyczące otrzymanych przez nie wyników oraz wniosków, jakie z nich wynikają”. Ponieważ komunikowanie wyników badań testowych jest bardzo trudnym etapem badania testowego, należy zrobić wszystko, aby nieudolne przekaza nie takich informacji nie wytworzyło u osoby badanej trwale negatywnego nastawienia do udziału w badaniach testowych i ogólnie w badaniach psycho logicznych (por. Brzeziński, 1994, s. 97). Jak piszą Cohen i Swerdlik (1999, s. 82), „byłoby rzeczą idealną, gdyby osoby zdruzgotane wynikami testowymi 214 mogły zasięgnąć rzetelnej porady”.
S
po łeczny k o n tek st
s t o s o w a n ia t e s t ó w
p s y c h o l o g ic z n y c h
Przekazywanie informacji o wynikach testowych osobom trzecim lub instytucjom powinno mieć miejsce tylko wtedy, kiedy stoją za tym racje merytoryczne. Jak wyraźnie stwierdza się w Standardach... (1985a, s. 80): „(...) ciekawość nie jest tu wystarczającym powodem”. Powinny być one przekazywane „(...) jedynie osobom, które mają wystarczające kwalifikacje, aby je zinterpretować” {ibidem). Należy zadbać także o to, aby przekazywać informacje w taki sposób, który nie będzie prowadził do błędnych interpretacji.
Prawo do minimalizowania skutków etykietowania Zgodnie ze Standardami... (1985a, s. 86), opisując wynik osoby badanej, należy posługiwać się takimi określeniami, które w minimalnie możliwym stopniu etykietyzują osobę badaną (por. też wyżej). Ciekawą sprawę, która znalazła swój finał przed sądem, a która właśnie dotyczyła stygmatyzowania, opisują Cohen i Swerdlik (1999, s. 83-84). Dotyczyła ona 9-letniej dziewczynki, Jo Ann Iverson, która cierpiała na klaustrofobię. Jej mama zdecydowała się na badanie psychologiczne, które zostało przeprowadzone w szpitalu w Blackfoot, w stanie Idaho. Zajmujący się dziewczynką psycholog przeprowadził m.in. badanie testem inteligencji. W swoim orzeczeniu napisał, że uzyskała ona niskie wyniki, na poziomie debilizmu. Na prośbę szkoły kopia orzeczenia psychologicznego została również do niej wysłana, a to wywołało ogromny szum wokół dziewczynki. Matka Jo Ann skierowała do sądu sprawę o zniesławienie. Psychologowi zarzuciła m.in. to, że badanie inteligencji zostało przeprowadzone bezprawnie, bowiem dziewczynka zgłosiła się z innymi problemami (klaustro fobia) i to badanie wykraczało poza zakres konsultacji. Sprawę przegrała, bowiem sąd stwierdził, że było to profesjonalne badanie, które zostało przeprowadzone w najlepszej wierze. Jednakże psychologowie śledzący tę sprawę zgodnie uznali, że zastosowany termin „debil” jest wysoce społecznie naznaczający i że może to wpłynąć na całe późniejsze życie dziewczynki. Przygotowując orzeczenie psychologiczne, należy zatem unikać stosowania skrótowych etykietek. Jak stwierdza się w Standardach... (1985a, s. 80), stosowanie takich określeń wiąże się zawsze z wartościowaniem. Dlatego osoby przygotowujące interpretacje wyników testowych powinny starannie określać znaczenie stosowanych terminów i dbać o to, by ci, do których trafi taka interpretacja, nie nadawali jej fałszywego znaczenia. Prawo do zachowania tajemnicy o wynikach testowania Osoby badane mają prawo do zachowania tajemnicy o wynikach, jakie otrzymały w danym teście. Dane takie mogą być udostępniane innym osobom tylko po świadomym wyrażeniu na to zgody. Problem poufności wyników z badań testowych dotyczy ich udostępniania osobom trzecim. Jak piszą Anastasi i Urbina (1999, s. 681), „podstawowa zasada głosi, że protokołu [z badań psychologicznych] nie należy ujawniać bez wiedzy i zgody badanego, chyba że jest to z uzasadnionych powodów
215
R
o z d z ia ł
6
wymagane lub dopuszczane prawem”. Aby ułatwić psychologom podejmo wanie decyzji, czy ujawnienia danych testowych jest w konkretnej sytuacji dopuszczalne, Amerykańskie Towarzystwo Psychologiczne opracowało od powiednie wytyczne (np. Statement on the Disclosure o f Test Data, APA, 1996). Prawo to oznacza zachowanie tajemnicy zawodowej dotyczącej profe sjonalnego kontaktu psychologa z klientem dokładnie w takim samym sensie, w jakim mówimy o tajemnicy spowiedzi czy tajemnicy lekarskiej. Psycholog ma zatem obowiązek nieudostępniania informacji, jakie uzyskał od swojego klienta. Jak pisze Stepulak (2000, s. 125): „sprawa dochowywania tajemnicy zawodowej wyrasta nie ze ślepego posłuszeństwa zasadom zawartym w ko deksie etycznym, ale z autonomicznego poglądu etycznego, który ciągle jest budowany przez psychologa pracującego nad kształtem własnej osobowości. (...) Problem tajemnicy zawodowej będzie rozwiązany, kiedy przez wszyst kich za naczelną wartość zostanie uznana godność każdego człowieka, z jego prawem do autonomii i dyskrecji”. Obowiązek zachowania tajemnicy zawodowej jako podstawowa dyrektywa etyczna został umieszczony w wielu kodeksach etyczno-zawodowych. W Ko deksie etyczno-zawodowym psychologa (1992) obowiązującym w Polsce również znalazł się zapis dotyczący tajemnicy zawodowej. Sformułowano go bardzo wyraźnie (ibidem, s. 9, §21): „Psychologa obowiązuje przestrze ganie tajemnicy zawodowej. Ujawnienie wiadomości objętych tajemnicą zawodową może nastąpić jedynie wtedy, gdy poważnie zagrożone jest bez pieczeństwo klienta lub innych osób. Jeśli jest to możliwe, decyzję w tej sprawie należy dokładnie omówić z doświadczonym i bezstronnym kolegą. Materiały poufne powinny być komisyjnie zniszczone, jeśli zaistnieją warunki grożące ich ujawnieniem”. Zapis dotyczący obowiązku zachowywania tajemnicy zawodowej znalazł się również w Ustawie o zawodzie psychologa i samorządzie zawodowym psychologów z dnia 8 czerwca 2001 r. W Art. 14, w pkt. 1 stwierdza się: „Psycholog ma obowiązek zachowania w tajemnicy informacji związanych z klientem, uzyskanych w związku z wykonywaniem zawodu”. Obowiązek ten nie może być ograniczony w czasie. Zwolnienie z tego obowiązku możliwe jest jedynie wtedy, gdy poważnie jest zagrożone zdrowie, życie klienta lub innych osób, lub tak stanowią inne akty prawne. Prawo do zachowania tajemnicy o wynikach testowania oznacza również obowiązek odpowiedniego zabezpieczenia danych przez osoby stosujące testy. Dotyczy to zarówno danych przechowywanych w postaci fizycznej (np. papierowych protokołów), jak i w formie elektronicznej. Oznacza rów nież konieczność określenia, jak długo takie dane należy przechowywać. Przechowywanie ich w nieskończoność może być bombą z opóźnionym zapłonem. Zawsze bowiem ktoś niepowołany może takie dane wykorzystać 216 w sposób, którego osoba badana nigdy by nie zaakceptowała.
S
po łeczny k o n tek st
st o s o w a n ia t e s t ó w
p s y c h o l o g ic z n y c h
Prawo do prywatności Prawo do zachowania tajemnicy o wynikach testowania jest związane z prawem do prywatności. Prywatność oznacza „prawo jednostki do decydowa nia o czasie, okolicznościach i zakresie, w jakim będzie się ona dzielić z innymi osobami swoimi myślami, uczuciami, zachowaniami i opiniami” (Shah, 1969, s. 57; za: Cohen, Swerdlik, 1999, s. 82). Prawo to, znajdujące również swoje odzwierciedlenie w słynnej amerykańskiej Piątej Poprawce do Konstytucji, jest rozumiane jako prawo jednostki do wolności i samookreślania. Oczywiście - jak słusznie podkreślają Anastasi i Urbina (1999, s. 679) - „nie daje się tu sformułować żadnych uniwersalnych reguł ochrony prywat ności, można jedynie podać ogólne wskazania. Szczegółowe rozwiązania muszą być wypracowane z uwzględnieniem konkretnych przypadków, na miarę świadomości etycznej i odpowiedzialności zawodowej każdego psycho loga”. Odwoływanie się do celu badania testowego może tu być dobrą wskazówką. I tak np. pytania dotyczące postaw religijnych i preferencji seksualnych mogą zostać uznane za naruszające prywatność, o ile nie znajdą uzasadnienia z punktu widzenia celu testowania. W takim też sensie zapis o prawie do prywatności funkcjonuje w Kodeksie etyczno-zawodowym psychologa (1992), w którym stwierdza się: „Wnikanie w intymne, osobiste sprawy klienta dopuszczalne jest jedynie w takim zakresie, jaki wynika z celów pomocy psychologicznej” (s. 9, §22). I jak pisze Poznaniak (2000), każdy psycholog powinien zdawać sobie sprawę, że zadawane przez niego pytania mogą naruszyć sferę prywatności i że musi się on dobrze zastanowić, zanim zacznie je zadawać, a klient (osoba badana) ma prawo do odmowy odpowiedzi na pytania zadane mu przez psychologa. »- Osoby badane testami psychologicznymi m a j ą p r a w o do: • do wyrażenia świadomej zgody na badanie testem • do informacji o wynikach testowania • do minimalizowania skutków etykietowania • do zachowania tajemnicy o wynikach testowania • do prywatności
6.3. TESTY PRZED SĄDEM Czy obserwowane różnice w wynikach testowych odzwierciedlają rzeczy wiste różnice w poziomie mierzonej cechy? To pytanie było i jest pytaniem najczęściej zadawanym przez osoby, które z różnych powodów chciały (czy też musiały) poddać się testowaniu. Profesjonaliści są świadomi, że od powiedź na to pytanie nie jest taka prosta. Sami wcześniej spytają: jaki to był test, na jakiej grupie został wystandaryzowany, jaka grupa była podstawą obliczenia norm, wreszcie pytają o trafność i rzetelność metody. Opinia publiczna oczekuje natomiast gwarancji, że decyzje podejmowane na pod stawie wyników testowych są „uczciwe”. Ponieważ takie gwarancje (jakkol-
217
R
o z d z ia ł
6
wiek by rozumieć pojęcie „uczciwości”) nigdy nie będą bezwarunkowe, testy i testowanie nie budzą społecznego zaufania. Jednym ze świadectw takiego stanu rzeczy są liczne sprawy sądowe (głównie w USA - choć sądzę, że nas one również nie ominą), w których stroną oskarżoną były testy. No właśnie: testy czy ich amatorskie stosowanie? Warto zatem prześledzić kilka najgłośniejszych spraw, aby samemu ocenić, po której stronie należy się opowiedzieć: zwolenników czy przeciwników testowania. Jedną z pierwszych spraw tego typu była sprawa Hobson vs. Hansen (1967; za: Cohen, Swerdlik, 1999, s. 71). W jednej ze szkół, która miała być wolna od problemu segregacji rasowej i w której - na podstawie wyników testów inteligencji - przydzielano dzieci do odpowiedniej klasy (dla lepiej lub gorzej uczących się), doszło do ponownego ujawnienia się problemu rasowego. Okazało się bowiem, że wszyscy czarni uczniowie znaleźli się w klasach przeznaczonych dla dzieci wolniej uczących się. Sąd Najwyższy uznał, że testy, które zostały wystandaryzowane na populacji dzieci białych, zostały bezprawnie wykorzystane jako podstawa umieszczenia dzieci po chodzenia murzyńskiego w tych klasach. Kolejnym, głośnym przypadkiem była wspomniana już wyżej sprawa Diana vs. California State Board of Education (1970), która została wniesiona do sądu po tym, jak dziewięcioro dzieci hiszpańskiego pochodzenia trafiło do szkoły specjalnej ze względu na orzeczony u nich niski iloraz inteligencji (od 30 II do 72 II). Tymczasem po powtórnym przetestowaniu - tym razem w języku hiszpańskim - siedmioro z nich poprawiło swoje wyniki przeciętnie o 15 pkt. (tj. o jedno odchylenie standardowe!) i znalazło się ponad poprze czką kwalifikującą do szkoły specjalnej (por. Camilli, Shepard, 1994). Podobną sprawą był przypadek Larry P. vs. Riles (1979; za: Cohen, Swerdlik, 1999, s. 71), która wynikła wskutek skierowania sześciorga dzieci murzyńskich do klas specjalnych. Podstawą tego skierowania były wyniki w testach inteligencji. Kiedy jednak wszystkie dzieci zostały powtórnie przebadane tym samym testem, w którym zmieniono tylko sposób sfor mułowania niektórych pytań, by uwzględnić kulturowe pochodzenie bada nych, okazało się, że dzieci poprawiły swoje wyniki od 17 do 38 pkt. W efekcie cała szóstka została przeniesiona do zwykłych klas. Sędzia pro wadzący tę sprawę stwierdził, że umieszczenie dzieci w klasach specjalnych było niezgodne z konstytucją, ponieważ „testy są rasowo i kulturowo stron nicze”. Od decyzji tej władze stanu złożyły odwołanie, jednak została ona w roku 1984 podtrzymana. Konsekwencją tej sprawy był całkowity zakaz stosowania testów inteligencji wobec dzieci murzyńskich w stanie Kalifornia. W efekcie mimo próśb rodziców, którzy świadomi byli tego, że ich dzieci mają kłopoty i że przetestowanie być może pozwoliłoby na określenie przyczyn tego zjawiska oraz wybranie właściwego sposobu kształcenia, przeprowadzenie testu nie było możliwe. Paradoksem w całej tej sprawie 218 jest to, że w roku 1992, w procesie wytoczonym przez czarnych rodziców,
S
po łec zny k o n tek st
s t o s o w a n ia t e s t ó w
p s y c h o l o g ic z n y c h
którzy domagali się, aby ich dzieci zostały poddane testowaniu, sąd ustąpił częściowo ze swojego stanowiska - por. też Seligman (1995, s. 208). Co więcej, jednej z matek - z pochodzenia Meksykance - zaproponowano, aby uznała, ze jej syn jest również Latynosem (miał ojca Murzyna), i w ten sposób uzyskała możliwość legalnego przetestowania swojego syna! Sprawy sądowe, w których oskarżano testy, toczyły się nie tylko „w ob szarze” edukacji. Podobne sprawy miały miejsce zwłaszcza tam, gdzie testy wykorzystywano w procedurze rekrutacji przyszłych pracowników. Tu rów nież podstawowym zarzutem był zarzut dyskryminacji rasowej, której szu kano w wynikach testowych. Z tego punktu widzenia szczególnie ciekawe wydają się dwa wyroki. Pierwszy z nich zapadł w sprawie Griggs vs. Duke Power Company (1971; za: Cohen, Swerdlik, 1999, s. 72). Czarni pracownicy oskarżyli prywatną wytwórnię papieru o dyskryminacyjne praktyki przy przyjmowaniu do pracy. Procedura rekrutacyjna wymagała bowiem przedstawienia świadectwa ukoń czenia szkoły średniej oraz rozwiązania testu zdolności ogólnych. W efekcie do pracy przyjmowano tylko niewielką liczbę osób pochodzenia murzyń skiego. Sąd Najwyższy zgodził się z powodami, stwierdzając, że w tym przypadku „zakres testowanych umiejętności był zbyt szeroki” i że „testy powinny uczciwie mierzyć taki zakres wiedzy i umiejętności, który jest wymagany na konkretnym stanowisku”. Zdaniem sądu „testy powinny okreś lać daną osobę z punktu widzenia podejmowanej przez nią pracy, a nie w kategoriach ogólnych i abstrakcyjnych, niezależnych od tego”. Drugi interesujący wyrok został podjęty w prawie Allen vs. District of Columbia (1993; za: Cohen, Swerdlik, 1999, s. 72). Ten przypadek dotyczył wykorzystywania wyników testów psychologicznych w decyzjach dotyczą cych awansów pracowników w jednostkach straży pożarnej. Test, który roz wiązywali pracownicy, nie był testem zdolności ogólnych, a zawierał pytania dotyczące różnych aspektów pracy w pożarnictwie. Czarni pracownicy wypa dali w nim generalnie gorzej niż biali, czego rezultatem były rzadsze awanse w tej grupie pracowników. Jednakże kierownictwo Straży Pożarnej udowodni ło, że zebrane zostały odpowiednie dane walidacyjne i test posiada wysoką trafność prognostyczną. W tym wypadku sąd uznał zasadność stosowania testu jako elementu polityki dotyczącej awansów, stwierdzając: „(...) ponieważ test okazał się trafną miarą zdolności i ewentualnego przyszłego sukcesu badanych nim osób, dlatego też zostaje uznany za prawomocny element polityki zatrud nienia prowadzonej przez Departament Straży Pożarnej” (ibidem). Czy przedstawione tu sprawy pozwalają na wyciągnięcie jednoznacznych wniosków? Wydaje się, że wszystkie one miały przynajmniej jedną cechę wspólną. Tak naprawdę bowiem to nie generalnie testy jako narzędzia poznania poddawano krytyce, a negowano ich trafność w konkretnych za stosowaniach. Tam, gdzie szkoła lub pracodawca potrafili wykazać, że stosowane przez nich metody są trafne, sądy zazwyczaj odrzucały oskarżenia.
219
R
o z d z ia ł
6
Niechlubnym wyjątkiem jest stan Kalifornia, w którym sędzia federalny jest osobiście nieprzejednanym wrogiem testów, i to jego decyzje doprowadziły do tego, że część mieszkańców stanu (pochodzenia murzyńskiego) pozba wiona została legalnej możliwości testowania. Czyż nie jest to również przejaw dyskryminacji? Czy zrezygnowanie z testów zmieni politykę władz szkolnych lub przed siębiorstw, sprawiając, że stosowane procedury będą uczciwe społecznie? Jak pisze Seligman (1995, s. 212), „wyeliminowanie testów nie będzie oznaczać, że nie ma już potrzeby różnicowania ludzi, np. wśród uczniów na słabszych, którym są potrzebne zajęcia wyrównawcze, i lepszych, którzy mają szansę na uzyskanie stypendiów, czy potrzeby orzekania, który z doros łych ubiegających się o pracę maszynisty w General Electrics nadaje się do tego zawodu. Pierwszym skutkiem wyeliminowania formalnych testów były by od razu nieformalne, mnie precyzyjne lub wyjątkowo stronnicze roz wiązania, takie jak rozmowy z kandydatami do pracy lub stopnie stawiane przez nauczycieli”. W ciągu ostatnich 10 lat uchwalono w Stanach Zjednoczonych ponad 30 aktów prawnych dotyczących procedur stosowanych przez instytucje, które przeprowadzają badania testowe. Jednakże jak się wydaje, problem leży nie tylko w prawnej ochronie interesów osób, które są poddawane testom, a w pro fesjonalnym przygotowaniu osób, które testy stosują. Uchwalona właśnie w Polsce Ustawa o zawodzie psychologa i samorządzie zawodowym psycholo gów skutecznie reguluje ten problem. Prawo do stosowania testów psychologi cznych i do orzekania na podstawie ich wyników mają dyplomowani psycholo gowie. Powinno to wyeliminować z rynku nieprofesjonalistów, stosujących bez zastanowienia testy psychologiczne przy każdej okazji6. Miejmy nadzieję, że realizacja Ustawy o zawodzie psychologa sprawi, że przynajmniej część spraw sądowych będziemy znać tylko ze źródeł amerykańskich. Nie da się bowiem „w sposób kompetentny określić, czy zamierzone zastosowanie testu jest «poprawne» (jakąkolwiek przyjmie się tu definicję), jeśli samemu nie dysponu je się odpowiednimi umiejętnościami technicznymi oraz wiedzą konieczną do oszacowania trafności wniosków różnych typów” (Standardy..., 1985a, s. 68). 6.4. TESTY JAKO PRODUKTY RYNKOWE Testowanie - wykorzystywane w klinice czy w szkole - przestało być usługą, o której zainicjowaniu decydują psychologowie-specjaliści. Powstał rynek usług profesjonalnych, adresowanych do przedsiębiorstw i organizacji. Dziś nikogo nie dziwi mnogość firm zajmujących się audytem kadrowym,
220
6 Nierzadko można przeczytać w naszej prasie takie informacje: „Testy stały się powszech nym narzędziem prześwietlania kandydatów”, „Kandydaci nie są już zdziwieni zaproszeniem do pisania testu, jak bywało kilka lat temu. (...) Dzisiaj kandydat może spodziewać się wszystkiego” czy „Ponad 4 godziny razem z 11 osobami rozwiązywaliśmy kilkadziesiąt stron testów” (R zeczpospolita , 11 lipca 2001 r., dodatek „Moja kariera”).
S
po łeczny k o n tek st
st o s o w a n ia t e s t ó w
p s y c h o l o g ic z n y c h
doradztwem personalnym, rekrutacją i selekcją. Podobnie jak w wypadku leków, tylko część testów można kupić wyłącznie „na receptę” wystawioną przez specjalistę, a część bez niej. Psychologom odebrany został monopol decydowania o zakresie stosowania tworzonych przez nich narzędzi i dziś znaleźli się w mniejszości. Instytucje zajmujące się testowaniem niczym się dzisiaj nie różnią od innych firm w chęci zwiększania wielkości sprzedaży swoich usług, jak i osiąganych z tego powodu zysków. Podobnie jak inne przedsiębiorstwa, odwołują się do promocji swoich usług, i to one w przeważającej mierze kształtują społeczny obraz testowania. O tym więc, czego kupuje się najwięcej, decydują klienci. Ich rozumienie korzyści wynikających ze stosowania testów może być i jest zupełnie odmienne od tego, jak widzą je specjaliści. Od tego momentu już nie psychologowie, ale właśnie ich klienci kształtują rynek testów psycho logicznych. Klasyczną korzyścią z wolnego rynku jest większa skuteczność, wynikająca ze specjalizacji, bowiem każdy z uczestników transakcji może skoncentrować się na tym, co umie najlepiej (a na to wskazują m.in. jego powodzenie rynkowe i zyski). Jednakże wolny rynek testów wydaje się równie niebezpieczny, jak wolny rynek usług medycznych - przedmiot usługi jest na tyle skomplikowany, że klient nie jest w stanie rozpoznać, czy otrzymuje produkt wysokiej jakości, czy też bubel, niezależnie od odczuwa nego subiektywnie zadowolenia7. Cały więc proces - z założenia nieregulowany - może łatwo wymknąć się spod kontroli, szczególnie gdy idzie o jego społeczne konsekwencje (por. też Jaworowska, 2000). Zdaniem niektórych krytyków rynkowa natura dzisiejszego testowania jest już wystarczającym powodem, aby to społeczne konsekwencje testowania, a nie rozważania na temat technicznych rozwiązań, stały się podstawowym problemem psychometrii (Sternberg, 1992). Sprzedawanie testów jest bowiem bardziej społecznie niebezpieczne niż sprzedawanie jakiekolwiek innej usługi. Jeżeli testy jako produkty rzeczywiście są poddawane oddziaływaniom ryn kowym, to zrozumienie praw rządzących rynkiem testów pozwoli lepiej kontrolować ich stosowanie. Taką diagnozę współczesnego rynku testów przedstawił Sternberg (1992). Może się ona wydawać zbyt daleko idąca, bo przyznająca klientom - a nie tylko psychologom - prawo do kształtowania rynku testów psychologicznych. Buduje ona jednak odmienny punkt widzenia niż tradycyjne debaty nad społecznymi konsekwencjami testowania, dlatego też warto przyjrzeć się bliżej przedstawionej w niej argumentacji. Jakich korzyści oczekują klienci - to pytanie, na które należy odpowiedzieć przede wszystkim. A współczesny klient - przekonany o społecznej zasad ności testowania - chciałby, aby testy psychologiczne gwarantowały (Stern berg, 1992, s. 135; Moreland i inni, 1995; też APA, 1985b, s. 85-89): 1) p r z e w i d y w a n i e o s i ą g n i ę ć ; podstawowym celem stosowania testów psychometrycznych (zwłaszcza testów inteligencji) było i będzie 7 Bo może być ono dowolnie kształtowane przez sprzedawcę (producenta).
221
R
o z d z ia ł
2)
3)
4)
5)
6)
7) 222
6
przewidywanie osiągnięć czy to szkolnych, czy to w wykonywaniu określo nego zawodu. Klienci oczekują zatem, aby na podstawie wyników testowa nia można było dokonywać trafnego prognozowania, a odpowiedzialność za to, czy jest ono uzasadnione, spoczywa na twórcy - producencie testu; s t a b i l n o ś ć w y n i k ó w ; klienci oczekują, że testy będą dawały wy niki relatywnie stabilne w czasie. Nikt nie ma dość czasu i pieniędzy, aby wielokrotnie powtarzać badania testowe - i dlatego aby testy były użytecz ne z punktu widzenia klienta, powinny posiadać wysoką rzetelność, rozumianą jako wiarygodność i ocenianą na podstawie porównywania wyników dwukrotnych badań tym samym testem (rzetelność typu test-retest): w ł a ś c i w ą n o r m a l i z a c j ę i s t a n d a r y z a c j ę ; ponieważ klasy czna interpretacja psychometryczna polega na odwoływaniu się do norm opracowanych dla odpowiednich grup odniesienia, rzeczą istotną jest, aby grupy te zostały właściwie zdefiniowane, a testy wyposażone w normy pozwalające na rzetelną ocenę każdej (potencjalnej) osoby badanej. Zda niem więc klientów wszystkie testy pojawiające się na rynku powinny posiadać właściwe i reprezentatywne normy. Jednocześnie niska świado mość specyfiki pomiaru psychologicznego powoduje, że klienci albo nie są świadomi wagi posiadania przez test adekwatnych norm, albo apriory cznie zakładają, że proponowane im testy takie normy posiadają; ł a t w o ś ć s t o s o w a n i a ; w bardzo wielu przypadkach badanie testowe ma charakter grupowy (np. sprawdzanie zakresu posiadanej wiedzy) i jest prowadzone przez osoby posiadające co najwyżej niewielką wiedzę z za kresu psychologii. Testy winny być zatem łatwe w stosowaniu, nie powin ny wymagać osobistego zaangażowania, a także posiadać „ukrytych niespodzianek”; ł a t w o ś ć i n t e r p r e t a c j i ; osoby interpretujące wyniki testowe (np. urzędnicy) często posiadają niewielką wiedzę o zasadach interpretacji psychometrycznej. Testy zatem powinny posiadać jasno i wyraźnie okreś lone zasady interpretacji, które nie powinny być czasochłonne i powinny umożliwiać ich stosowanie również przez laików. Adresaci nawet facho wych orzeczeń psychologicznych nie muszą i nie chcą orientować się w złożoności interpretacji. Oczekują jasnych i jednoznacznych diagnoz, pozwalających na formułowanie jednoznacznych rekomendacji, związa nych z ich problemami (konkretnych więc, a nie ogólnych); o b i e k t y w n ą p u n k t a c j ę ; testy powinny posiadać tak opracowane klucze oceny odpowiedzi, aby osoby je stosujące nie musiały podejmować dyskusji z rodzicami czy z samymi zainteresowanymi klientami na temat tego, ile punktów jest warta dana odpowiedź. Liczbowe interpretacje wyników testowych nie mogą podlegać żadnym kompromisom; b r a k s t r o n n i c z o ś c i ; każda nowa metoda wprowadzana na rynek jest spostrzegana jako narzędzie pomiarowe uczciwe i bezstronne w sto-
S
po łeczny k o n tek st
s t o s o w a n ia t e s t ó w
p s y c h o l o g ic z n y c h
sunku do wszystkich grup społecznych. Dlatego też każda metoda powin na zostać sprawdzona ze względu na potencjalną jej stronniczość; 8) u z a s a d n i o n e k o s z t y s t o s o w a n i a ; testy powinny gwaran tować otrzymywanie informacji wartych kosztów ich zastosowania. W przeciwnym wypadku należy je zastąpić innymi metodami; 9) o c h r o n ę w y n i k ó w ; wyniki testów psychologicznych nie powinny być udostępniane bez zgody zainteresowanych żadnej osobie czy instytucji; 10) s ą d o w ą k o n t r o l ę d e c y z j i a d m i n i s t r a c y j n y c h ; wyniki testów psychologicznych muszą się dawać obronić, gdyby decyzje pod jęte na ich podstawie trafiły do sądów. Lista ta nie jest wyczerpująca i nie opisuje każdego przypadku stosowania testów psychologicznych. Jest ona jednak - jak się wydaje - reprezentatywna dla sposobu myślenia i rodzaju oczekiwań klientów. Można oczywiście opracować inne kryteria - np. wskazać jako ważne podstawy teoretyczne testu czy rodzaj zebranych danych empirycznych - jednakże nie zmieni to istoty sprawy. Testy, analizowane z rynkowego punktu widzenia - jak twierdzi Sternberg (1992, s. 136) - „radzą sobie zadziwiająco dobrze”. W Polsce jednak sytuacja nie jest tak dobra. Masowe stosowanie testów (zwłaszcza dla celów selekcyjnych), najczęściej bez właściwego psychometrycznego opracowania (brak prac adaptacyjnych, a jedynie proste tłumaczenie, brak norm krajowych, nieznana trafność testu, brak danych na temat rzetelności i stronniczości testu8), sprawia, że nasz rynek testów jest kształtowany przez źle opracowane metody, stosowane przez często niekompetentne osoby. Oceniając stosowane w Polsce testy z rynkowego punktu widzenia, wiclać wyraźnie, że istnieje ogromna przepaść między wymaganiami psychometrycznymi i oczeki waniami klientów a jakością oferowanego im produktu. Nic też dziwnego, że testy zyskują sobie złą opinię9. Sytuację tę pogarsza agresywny marketing testów, który zaowocował produkcją złych metod o atrakcyjnych nazwach i składanie fałszywych obietnic klientom (por. też Paluchowski, 1991, s. 100). Zaproponowany przez Stemberga (1992) rynkowy sposób oceniania testów (konieczność spotkania się oczekiwań klientów i aktualnego statusu psychometrycznego testów) może wydawać się budowaniem przewagi marketin gowego punktu widzenia nad psychologicznym. Jednakże powstanie rynku testów psychologicznych jest faktem, i nie ma już od niego odwrotu. Klienci, przekonywani przez producentów, kupować będą to, o czym sądzą, że realizo wać będzie ich potrzeby. Brak specjalistycznej wiedzy uniemożliwia im pełne rozpoznanie, czy i w jakim stopniu potrzeby te zostały zaspokojone. Tak więc K Standardowe procedury opracowywania testów nie zawsze bowiem odwołują się do metodologii badania stronniczości, a autorzy metod testowych nie potrafią przedstawić obiek tywnych danych gwarantujących uczciwe stosowanie testu, 9 Por. liczne teksty publicystyczne na temat testów psychologicznych stosowanych w Polsce, np. artykuł pt. Pisana kariera, pióra Grzegorza Warchoła, zamieszczony w P olityce (nr 10, 1999).
223
R
o z d z ia ł
6
i na tym rynku grozi nam, że „zły pieniądz wypierać będzie dobry pieniądz”. Nigdy nie będzie już tak, że rynek testów będzie kształtowany wyłącznie przez ich autorów - utracili oni realny wpływ na praktykę testowania. Trudno nie zgodzić się ze Sternbergiem (1992, s. 139), że postęp w dzie dzinie testowania jest możliwy jedynie wówczas, kiedy autorzy testów psychologicznych zrezygnują z realizacji wąsko definiowanych celów i zwła szcza w dziedzinie testowania poziomu funkcjonowania intelektualnego będą świadomi „szerokich horyzontów, jakie rozciągają się przed nimi” (ibidem). Tylko wówczas, kiedy publikowane testy nie będą jedynie odpowiedzią na oczekiwania rynku - można będzie mówić o rzeczywistym wpływie psycho logów na sztukę testowania. Nie wystarczy już więc wzgardliwy stosunek do sprymitywizowanej, komercyjnej praktyki - trzeba stanąć w szranki z armią hochsztaplerów i nauczyć się komunikować szerokiej publiczności, jakimi kryteriami powinna się kierować, aby mieć gwarancję, że kupiła dobre testy. Jaka jest zatem przyszłość testów psychologicznych? Zdaniem Matarazzo (1992) testy jako narzędzie poznania psychologicznego umocnią swoją pozy cję. Będą wykorzystywane do diagnozowania sytuacji społecznie ważnych (np. poczucia alienacji płynącego z utraty pracy) i będą generalnie nastawione na ocenę umiejętności radzenia sobie z wymaganiami dynamicznie zmienia jącego się środowiska. Przedmiotem diagnozowania przestaną być wąskie umiejętności, a istotą pomiaru psychologicznego stanie się kompetencja adaptacyjna jednostki. Nastąpi także przesunięcie punktu zainteresowania - zarówno psychologów, jak i ich klientów - z prognozowania na podstawie stwierdzanego status quo jednostki na możliwość p r o f i l a k t y k i zaburzeń zachowania i p r o m o c j i psychologicznej jakości życia (ibidem, s. 1015). Nowa epoka testów psychologicznych to epoka metod wykorzystujących dorobek neuropsychologii i psychologii poznawczej (por. też Daniel, 1997). Już dziś pisze się o nowej generacji testów (Hambleton, Zaal, 1991). Zdaniem wielu autorów (por. np. Hambleton, Rogers, 1991; Haney, Madaus, 1991; Sternberg, 1992) źródłem nowych propozycji dla psychometrii powinien być przede wszystkim dorobek psychologii poznawczej. Proponuje ona bowiem inne spojrzenie na problematykę inteligencji, i tym samym pozwala na konstru owanie nowej generacji testów, zwłaszcza dla celów selekcyjnych. Doskonale nie jedynie statystycznych technik analizy wyników testowych (a w tej dziedzi nie postęp jest ogromny) w niczym nie zmienia istoty testowania psychologicz nego. Nowe testy to także nowy sposób myślenia o mierzonych właściwościach psychologicznych, a zależy on od dorobku szczegółowych dziedzin psychologii. Jedynie świadome stosowanie metod testowych, z pełną znajomością ich właściwości, pozwoli psychologom na rzetelne uprawianie ich zawodu.
224
Podstawowe pojęcia: • etyczne konsekwencje testowania • prawa osób badanych
S
po łec zny k o ntek st
s t o s o w a n ia t e s t ó w
p s y c h o l o g ic z n y c h
Literatura zalecana Brzeziński J. (1994). Testy psychologiczne i ich użytkownicy - analiza kontekstu etycznego, w: J. Brzeziński, W. Poznaniak (red.). Etyczne problem y działalności badawczej i praktycznej psychologów (s. 83-101). Poznań: Wydawnictwo Fundacji Humaniora. Ciechanowicz A. (1996). Prawne aspekty tworzenia, adaptacji i rozpowszech niania i stosowania testów psychologicznych, w: A. Ciechanowicz, A. Jawo rowska, T. Szustrowa (red.), Testy, prawo, praktyka (s. 27-50). Warszawa: Polskie Towarzystwo Psychologiczne, Pracownia Testów Psychologicznych. Polskie Towarzystwo Psychologiczne (1992). Kodekst etyczno-zawodowy psychologa. Warszawa. Stepulak M.Z. (2000). Tajemnica zawodowa w działalności badawczej i prak tycznej psychologów, w: J. Brzeziński, M. Toeplitz-Winiewska (red.), Etyczne problem y psychologii (s. 103-134). Poznań: Wydawnictwo Fun dacji Humaniora.
C z ę ść
II
K r ó t k i p r z e w o d n ik CZYLI JAK SAMEMU ZBUDOWAĆ T E ST
P
o r a d n ik
d l a
st u d e n t ó w
1
Na rynku dostępnych jest wiele testów psychologicznych. Bardzo często jednak, przygotowując prace empiryczne lub pisząc pracę magisterską, prze konujecie się, że potrzebna jest niewielka metoda, pozwalająca Wam zreali zować konkretny cel. Niewielka nie znaczy byle jak zbudowana. Nie może to być luźny zbiór niepowiązanych ze sobą twierdzeń, które powstały w spo sób przypadkowy, lub ksero kartek niewiadomego pochodzenia. Każda metoda pomiaru psychologicznego powinna zostać opracowana zgodnie z wymaganiami psychometrycznymi. Istnieją przynajmniej dwa podstawowe sposoby konstruowania testu (racjona lny i empiryczny). Ten przewodnik dotyczy metod budowanych w sposób racjonalny. Jednakże generalne zasady, jakie zostały w nim przedstawione, obowiązują w każdym wypadku. Sam przewodnik jest zbiorem pytań, na jakie trzeba sobie odpowiedzieć, i decyzji, które trzeba podjąć wtedy, kiedy tworzy się metodę testową. Szczegółowe informacje dotyczące problemów, jakie są w nim poruszane, znajdziecie w poszczególnych rozdziałach niniejszego podręcznika. Aby zwiększyć czytelność prezentowanego materiału, niektóre jego ele mentu zostały zilustrowane przykładem rzeczywistej metody (przykłady zaznaczono mniejszą czcionką). Mam nadzieję, że prześledzenie tego przewodnika pozwoli Wam od powiedzieć na podstawowe pytania, jakie zadaje się przy takiej okazji, i ułatwi zbudowanie własnej metody.
ETAP I ZDEFINIOWANE CELU POMIARU Pierwszym krokiem na drodze zbudowania testu jest zadanie sobie pyta nia: „Po co ten test jest mi potrzebny?”. Bez jasnej i precyzyjnej odpowie dzi na to pytanie wyniki testowe mogą okazać się zupełnie bezużyteczne. Takim celem może być np. zbudowanie kwestionariusza mierzącego stosunek do reklam telewizyjnych (KSRT)2 po to, aby móc stwierdzić, jak inne zmienne psychologiczne (np. system wartości) wpływają na 1 Inspiracją do napisania tego poradnika były dla mnie książka Johna Rusta i Susan Golombok (1995) M odern Psychometrics, The Science o f Psy ekologie al A ssessm ent , a także własne doświadczenie zdobyte w trakcie konsultowania wielu prac magisterskich. 2 Ten przykład zaczerpnięty został z pracy Paluchowskiego (1999), w której prezentuje on Skalą postaw w obec reklam telew izyjnych , opracowaną przez Pollaya i Mittalla (1993).
227
Część d r u g a
mierzoną zmienną (a więc prowadzić badania naukowe), lub po to, by stwierdzić na jakie grupy, ze względu na to, czego ludzie poszukują w reklamie telewizyjnej, można podzielić rynek konsumentów (a więc dla potrzeb badań rynkowych). Wiesz już, co i po co chcesz mierzyć.
ETAP II ZDEFINIOWANIE MIERZONEJ CECHY Nic nie zastąpi dobrej definicji tego, co chcesz mierzyć. Przeanalizuj zatem literaturę w interesującej Cię dziedzinie. Zastanów się, czy to, co wiadomo na temat sposobów definiowania interesującej Cię cechy, może stać się podstawą Twojego kwestionariusza. Być może trzeba będzie skorzystać z rady ekspertów w danej dziedzinie. Zasada jest jedna: szukaj tak długo, aż będziesz mieć pewność, że wypracowana przez Ciebie definicja odpowiada koncepcji teoretycznej, którą podzielasz, i że od powiada ona Twoim celom. Potem już nie ma odwrotu. P am iętaj! Jedna z żelaznych zasad brzmi: „ ś m i e c i w ł o ż y s z - ś m i e c i w y j m i e s z”. Żadna analiza statystyczna, choćby najbar dziej wyrafinowana, nie zastąpi refleksji teoretycznej. Autorzy Skali postaw wobec reklamy zrezygnowali z klasycznej struk turalnej definicji postawy (tj. takiej, w której wyodrębnia się aspekt poznawczy, emocjonalny i behawioralny) i przyjęli, że „postawa (aspekt emocjonalny) jest skutkiem przekonań i przyczyną intencji zachowania się w określony sposób”. Inaczej mówiąc, uznali, że na „postawę składają się przekonania i emocje, które łącznie wyznaczają zamiar zachowania się i zachowanie to mogą wywoływać” (Paluchówski, 1999, s. 133). Przedmiot pomiaru został jasno i wyraźnie zdefiniowany. Definicja ta jest na tyle dokładna, że na jej podstawie można formułować pozycje testu.
ETAP III PRZYGOTOWANIE PROJEKTU TESTU
228
Wiedząc, po co jest Ci potrzebna metoda, spróbuj opracować projekt swojego testu.. Najwygodniej jest przedstawić ów projekt w postaci tabeli, w której - z jednej strony - wpiszesz interesujący Cię obszar treści, a z drugiej -- obszar zachowań, jaki można z tą treścią powiązać, np.:
P
(a) obszary manifestacji
o r a d n ik
obszary treści (b) (c)
dla stu d en tó w
(d)
(1) (2) (3)
obszary treści: dobra definicja mierzonej cechy pozwoli Ci na określenie obszarów treściowych, które są dla Ciebie ważne. Jeżeli masz wątpliwości, skonsultuj się z ekspertami w danej dziedzinie. Tak zrobiono w wypadku Skali postaw wobec reklamy. Eksperci, którymi byli konsumenci (18 studentów oraz 30 dorosłych niestudentów), odpowiadali na otwarte pytania dotyczące różnych skutków re klamowania. Na podstawie ich odpowiedzi autorzy uznali dwa obszary za treściowo ważne. Były to funkcje społeczno-ekonomiczne reklamy oraz funkcje osobiste. W ramach każdego obszaru wyróżniono mniejsze wymiary. I tak, w ramach obszaru społeczno-ekonomicznego wyróż niono: (1) wpływ reklamy na gospodarkę, (2) materializm i propago wanie konsumpcji, (3) deprecjonowanie społecznie istotnych wartości oraz (4) wprowadzanie przez reklamę w błąd. W ramach funkcji osobis tych wyróżniono natomiast: (5) reklamę jako informację o produktach, (6) reklamę jako propagandę określonego stylu życia oraz (7) reklamę jako przeżywanie przyjemności.
> o b s z a r y m a n i f e s t a c j i : drugim elementem projektu testu jest określenie obszarów manifestacji, czyli wskazanie, gdzie i w jaki sposób mogą przejawiać się (manifestować) określone wcześniej obszary treści. W wypadku testów właściwości poznawczych mogą to być różnego rodzaju wytwory, sposób przetwarzania informacji, posiadana wiedza, a w wypadku testów właściwości afektywnych - wierzenia, emocje, przekonania czy zachowania. W Skali postaw wobec reklamy przyjęto, że istnieją dwa takie obszarów manifestacji: przekonania i emocje. Wyróżnienie siedmiu obszarów treści oraz dwóch obszary manifestacji stało się podstawą skonstruo wania wyjściowej puli pozycji kwestionariusza.
Możesz także określić, jaką proporcję pozycji testowych w Twoim teście powinny stanowić określone obszary treści i manifestacji. Wypełnij po prostu tabelkę, starając się określić, ile pozycji testowych powinno się znaleźć w każdej komórce. Ten sposób przygotowania pracy nad testem znacznie ułatwia pisanie pozycji testowych. Jest czasami jak światło latarni morskiej podczas ciemnej nocy. Projekt testu został opracowany. Ważne obszary treści i obszary jej manifestacji zostały wyróżnione.
~ ..............
229
C zęść
druga
ETAP IV OKREŚLENIE FORMATU POZYCJI TESTOWYCH Zastanów się najpierw, jaki format pozycji testowych jest najlepszy dla Twojego testu. Najlepiej przygotuj takie zestawienia dla wszystkich rozważanych możliwości:
Format
Pozycje z wyborem alternatywnym, tj. zakładasz tylko dwie moż liwe odpowiedzi (np. TA K -NIE lub PRAWDA-FAŁSZ).
Zalety
Dobrze pozwalają ocenić stopień posiadanej wiedzy czy też stopień zrozumienia materiału przedstawionego w pytaniu. Łatwe dla osób badanych. Skracają czas pracy z testem.
Wady
Czasami trudno jest, nawet w testach właściwości poznawczych, określić, co rozumiemy przez dobrą odpowiedź. Co więcej, praw dopodobieństwo, że osoba badana może odpowiedzieć poprawnie jedynie przez przypadek, wynosi aż 50%. W wypadku testów osobowości, symptomów klinicznych czy postaw wybór tylko spośród dwóch kategorii odpowiedzi (np. ZGADZAM SIĘ-NIE ZGADZAM SIĘ) może się okazać bardzo trudny dla osoby bada nej.
Ten wybór nie może być przypadkowy! Musisz umieć przedstawić po wody, dla których decydujesz się na taki, a nie inny format pozycji testowej. W Skali postaw wobec reklamy zastosowano format typowej skali Likerta, tj. dla każdego zaprojektowano pięć kategorii odpowiedzi: całkowicie zgadzam się., zgadzam się, nie mam zdania, nie zgadzam się, całkowicie się nie zgadzam. Format pozycji testowej został wybrany. Potrafisz uzasadnić swoją decyzję.
ETAP V WYGENEROWANIE PULI POZYCJI TESTOWYCH
230
Pora teraz przystąpić do pisania pozycji testowych. Wiele osób twierdzi, że to proste zadanie. Tymczasem pisanie pozycji testowych to sztuka, podobnie jak napisanie dobrego wiersza! Wszystkie pozycje powinny być wyprowadzone z teorii mierzonej cechy warto zatem korzystać z już opracowanego własnego projektu testu. Jeżeli w trakcie pracy okaże się, że trudno jest ułożyć pozycje testowe dla wszystkich obszarów treściowych, które wcześniej zostały określone - to z niczego pochopnie
P
o r a d n ik
dla studentó w
7
nie rezygnuj! Zastanów się, czy pomięcie jakiegoś obszaru treści nie zmieni przyjętej przez Ciebie definicji mierzonej właściwości. Każda decyzja musi zostać merytorycznie uzasadniona. Rozważ, czy skorzystanie z pomocy ekspertów lub sędziów kompetentnych (np. kolegów i koleżanek z roku) nie ułatwi realizacji tego zadania. Jeżeli tak, to pamiętaj: eksperci muszą otrzymać jasne wskazówki dotyczące tego, jak definiujesz właściwość, która jest przedmiotem pomiaru. Aby uniknąć niejasności, spisz na kartce najważniejsze ustalenia definicyjne. Każdy sędzia kompetentny powinien pracować z takim samym zasobem wiedzy! Wszystkie pozycje powinny być formułowane prostym językiem. Staraj się, aby były to pojedyncze zdania lub pytania. Unikaj określeń, które mogą być różnie rozumiane przez osoby badane (np. słowo „często” dla jednych może oznaczać „przynajmniej raz w miesiącu”, a dla innych „przynajmniej raz w tygodniu”). Ponieważ są to tylko propozycje pozycji testowych, musi być ich znacznie więcej, niż planujesz ich włączyć do ostatecznej wersji testu. Dobrą zasadą jest zbudowanie od 50% do 100% pozycji więcej w stosunku do plano wanej długości testu. Wtedy rzeczywiście będzie można wybrać te, które są najlepsze. W trakcie prac nad Skalą postaw wobec reklamy wygenerowano wy jściowo pulę liczącą ponad 100 twierdzeń. Były to twierdzenia takie jak: • Reklamy upowszechniają wartości niepożądane w n a v \ m społeczeń stwie. • Reklamy przyczyniają się do podniesienia standardu życia. • We współczesnych reklamach jest zbyt wiele seksu. • Uważam, że reklamy są niepożądanym przerywnikiem w programach telewizyjnych. • Reklamy skłaniają ludzi do kupowania rzeczy, których nie powinni kupować. Dysponujesz dużą wyjściową pulą pozycji testowych.
ETAP VI ANALIZOWANIE POZYCJI POD WZGLĘDEM JĘZYKOWYM >• Pierwszym etapem sprawdzania jakości wygenerowanych pozycji testo wych jest ich ocena pod kątem językowym. Zgłoś się do takich osób, których kompetencje językowe są Ci znane (np. poproś o pomoc studen tów polonistyki), i przedstaw im zadanie. Takiej analizy nie warto robić samodzielnie. Każdy z nas ma tendencję do pisania w pewien charak terystyczny sposób, nadto - bardzo trudno poprawia się własne błędy.
231
C
zęść
druga
Na co warto zwrócić uwagę? Przede wszystkim trzeba sprawdzić, czy wszystkie pozycje testowe są gramatycznie poprawnie sformułowane, czy nie zawierają zbyt trudnych bądź niejasnych określeń, czy nie są zbyt długie, czy przewidziany sposób odpowiadania jest naturalny dla sposobu sformułowania pozycji.
232
Warto też sprawdzić, czy sposób, w jaki sformułowane zostały pozycje testowe, nie prowokuje osób badanych do odpowiadania w pewien stały sposób, nie mający nic wspólnego z treścią pozycji. Problem ten znany jest jako tzw„ style odpowiadania. Z jakimi stylami można się najczęściej spotkać? • P o t a k i w a n i e to tendencja do odpowiadania TAK lub ZGADZAM SIĘ bez względu na treść pozycji. Można próbować ją wyeliminować, wprowadzając taką sarną lub prawie taką samą liczbę pozycji, których treść została odwrócona. Np. zamiast pozycji W i ę k s z o ś ć r e k l a m w y p a c z a w a r t o ś c i m ł o d e g o p o k o l e n i a można wprowa dzić pozycję W i ę k s z o ś ć r e k l a m n i e w y p a c z a w a r t o ś c i m ł o d e g o p o k o l e n i a . Odwracając treść danej pozycji, trzeba się upewnić, czy jej sens jest zrozumiały dla osoby badanej. Dlatego też podwójne przeczenia są złym pomysłem. • B r a k z d e c y d o w a n i a (lub n i e c h ę ć d o d e c y d o w a n i a ) to tendencja do wybierania odpowiedzi typu „?”, „nie wiem”, „trudno powiedzieć”. Dlatego warto rozważyć możliwość ominięcia takiej kategorii odpowiedzi. Jest to najprostsze rozwiązanie problemu, jednak warto się zastanowić, czy usunięcie takich kategorii nie spowoduje niechęci osób badanych do odpowiadania na pozycje, na które ich zdaniem nie ma jednoznacznej odpowiedzi. • B ł ą d t e n d e n c j i c e n t r a l n e j to tendencja do wybierania od powiedzi mieszczących się w środku proponowanej skali, a niechęć do wybierania odpowiedzi skrajnych. Niewielkie zwiększenie liczby pro ponowanych kategorii odpowiedzi może skutecznie rozszerzyć zakres odpowiedzi. Nie warto jednak wydłużać skali odpowiedzi zbyt mocno, bowiem zamiast zmniejszyć błąd tendencji centralnej możemy go zwiększyć. Jak zwykle, każdy kij ma dwa końce! • A p r o b a t a s p o ł e c z n a to z kolei tendencja do odpowiadania w sposób społecznie akceptowany. Warto zatem przeanalizować każdą pozycję pod tym kątem. Zastanów się, czy niektórych pozycji nie warto zmienić tak, aby uniknąć takiej tendencji. Np. pozycję C z ę s t o z d a r z a m i s i ę b i ć w ł a s n e d z i e c k o można przeformułować następująco: C z a s a m i z d a r z a mi s i ę b i ć w ł a s n e d z i e c k o lub Z d a r z a mi s i ę u d e r z y ć w ł a s n e d z i e c k o lub N i e k i e d y t r z e b a b i ć d z i e c i . Jednakże w każdym z tych przypadków inaczej budujemy kontekst społeczny, i dlatego musisz
P
o r a d n ik
dla studentó w
starannie rozważyć, jaka zmiana jest uzasadniona z punktu widzenia Twojego testu. Z puli pozycji testowych wyeliminowane zostały te, które nie spełniają kryteriów językowych.
ETAP VII PRZEANALIZOWANIE POZYCJI POD WZGLĘDEM TRAFNOŚCI TREŚCIOWEJ >- Analiza językowa nie kończy prac nad wstępną eliminacją pozycji testo wych. Teraz pora na przeanalizowanie każdej z nich pod kątem ich trafności treściowej. W tym celu możesz wykorzystać technikę sędziów kompetentnych. Po proś zatem trzy lub cztery osoby o ocenę każdej pozycji. Przedstaw im dokładną definicję mierzonej właściwości oraz obszary treściowe, które zostały przez Ciebie wzięte pod uwagę na etapie przygotowywania projek tu kwestionariusza. Każdy sędzia ma ocenić pozycje testowe pod kątem tego, czy pochodzą one z zakresu uniwersum treści i czy są one dla tego uniwersum reprezentatywne. Dobrą miarą zgodności ocen sędziów kom petentnych może być współczynnik trafności treściowej Lawshego lub współczynnik zgodności ocen sędziów W-Kendalla. Z puli pozycji testowych wyeliminowane zostały te, które nie są trafne treściowo.
ETAP VIII OPRACOWANIE KLUCZA OCENY ODPOWIEDZI >- Każda odpowiedź udzielona przez osoby badane na pytania Twojego testu powinna zostać oceniona. Ocena ta nie może być przypadkowa. Przeanalizuj starannie wszystkie pozycje testowe i określ, która z prze widzianych przez Ciebie opcji odpowiedzi jest wskaźnikiem mierzonej właściwości. Następnie przyporządkuj jej określoną punktację. >- Jeżeli jest to pozycja składająca się tylko z dwóch kategorii odpowiedzi, to najczęściej odpowiedzi uznanej za diagnostyczną przyporządkowuje się 1 pkt, a odpowiedzi uznanej za niediagnostyczną przyporządkowuje się 0 pkt. >- Jeżeli jest to pozycja składająca się z wielu kategorii odpowiedzi (np. całkowicie się zgadzam, zgadzam się, nie mam zdania, nie zgadzam się, całkowicie się nie zgadzam), to musisz wyraźnie określić, która z tych kategorii wskazuje na maksymalne nasilenie interesującej Cię cechy. Często
233
C
zęść
druga
będzie to odpowiedź „całkowicie się zgadzam”, ale równie dobrze może to być odpowiedź „całkowicie się nie zgadzam”. Gdy to już ustalisz, możesz ustalić sposób oceny odpowiedzi, np. przyznając kolejno 5, 4, 3, 2, i 1 pkt kolejnym kategoriom, zgodnie z kierunkiem nasilenie mierzonej cechy. Weź pod uwagę również to, że czasami treść pytań bywa odwrócona. Upewnij się, czy przy opracowywaniu klucza nie został popełniony żaden błąd. Masz już opracowany klucz odpowiedzi. Klucz został sprawdzony i nie zawiera błędów.
ETAP IX PRZYGOTOWANIE FORMULARZA TESTU >* Zanim będzie można przeprowadzić badania pilotażowe, musisz opraco wać formularz testu, na którym będą pracować osoby badane. Nie wy starczy tylko wypisanie kolejnych pytań czy twierdzeń. Taki arkusz testowy powinien zwierać: • nazwę testu i jego autora, • miejsce na wpisanie danych personalnych osób badanych, które będą Ci dalej potrzebne (np. płeć czy wiek), • krótką informację o celu pomiaru (pamiętaj o trafności fasadowej!), • instrukcję, • przykładowy sposób odpowiadania na pozycje testu, • właściwy test. >* Instrukcja jest niezwykle ważnym elementem Twojego testu. Musi zostać tak sformułowana, aby zadanie, jakie stoi przed osobą badaną, było całkowicie jasne. Powinna ona zawierać informacje o tym, w jaki sposób należy zaznaczać swoją odpowiedź, czy należy odpowiadać szybko bez specjalnego zastanawiania się czy też odpowiedź powinna zostać dobrze rozważona, a także wszystkie te informacje, które mogą wpłynąć na sposób odpowiadania, np. zachętę do szczerości. Zdecyduj też, czy Twój test jest przeznaczony do badań indywidualnych i/lub grupowych. W instrukcji powinno się też znaleźć zapewnienie o pełnej ochronie danych. Pamiętaj! To jest Twój obowiązek.
234
A tak wyglądała instrukcja do Skali postaw wobec reklamy: Instrukcja: Stwierdzenia zawarte w tym kwestionariuszu dotyczą różnych opinii na temat reklamy. Proszę ustosunkować się do wszystkich twierdzeń. Proszę opisać szcze rze, w jakim stopniu poszczególne twierdzenia oddają Pana/Pani poglądy. Nie ma tu ani dobrych ani złych odpowiedzi.
P
o r a d n ik
dla stu d en tó w
Do każdego twierdzenia należy ustosunkować się, zaznaczając jedną z pięciu możliwych odpowiedzi: 1 - zdecydowanie nie zgadzam się, 2 - nie zgadzam się, 3 - nie mam zdania na ten temat, 4 - zgadzam się, 5 - całkowicie zgadzam się. Wybraną przez siebie odpowiedź proszę skreślić krzyżykiem. Np.:
Reklama jest
rzeczą niezbędną
® ® ® ® ©
Jeżeli będzie chciał/a Pan/ Pani zmienić swoją odpowiedź, proszę zamazać odpowiedź niewłaściwą, a skreślić odpowiedź właściwą. Proszę nie zastanawiać się zbyt długo nad każdym stwierdzeniem. Pierwsza myśl zazwyczaj najtrafniej opisuje nasze poglądy. Proszę się upewnić, czy dana odpowiedź dotyczy właściwego stwier dzenia. Skala ta jest anonimowa. Otrzymane wyniki będą wykorzystane dla celów naukowych i upowszechniane wyłącznie w postaci zbiorczych danych.
Arkusz testowy powinien zostać tak sformatowany, aby maksymalnie ułatwić pracę osobom badanym. Poszczególne pozycje nie mogą być umieszczane zbyt ciasno, a kategorie odpowiedzi muszą być jednoznacz nie powiązane z daną pozycją. Tu nie może być żadnych wątpliwości! Może to wyglądać np. tak: 1. reklama jest rzeczą niezbędną:
□
□
□
całkowicie zgadzam się
zgadzam się
nie mam zdania
□
□ nie zgadzam całkowicie się nie zgadzam się
lub tak: 1. reklama jest rzeczą niezbędną:
1
2
3
4
5
(jeżeli wybierzesz drugi sposób formatowania, to pamiętaj, że wcześniej musi się znaleźć informacja o tym, co oznaczają poszczególne cyfry). Lepiej, aby arkusz testowy składał się z dwóch czy trzech stron - dobrze graficznie opracowanych - niż aby to była jedna, nieczytelna strona. Wydrukuj kilka projektów graficznych i oceń, który z nich jest najlepszy. Przygotuj ostateczną wersję testu przeznaczoną do badań pilotażowych. Masz już opracowany arkusz testowy. 235
C zęść
druga
ETAP X PRZYGOTOWANIE BADANIA PILOTAŻOWEGO Jest rzeczą jasną, że opracowując test, np. dla potrzeb pracy magisterskiej, trudno Ci będzie stworzyć próbę rzeczywiście losową i reprezentatywną. Nie zwalnia Cię to jednak z obowiązku jak najbardziej starannego za dbania o to, aby w miarę Twoich możliwości badana przez Ciebie próba miała określone (pożądane) parametry. Możesz zawsze skorzystać z metody doboru celowego i określić istotne parametry interesującej Cię populacji oraz skonstruować próbę, kierując się tymi ustaleniami. Możliwości jest wiele. Najgorsza z nich to dobór przypadkowy, np. ochotniczy (czyli po prostu - korzystanie z osób, które są w pobliżu). Warto zadać sobie trochę trudu i mieć potem pewność, że otrzymane przez Ciebie wyniki (choć niereprezentatywne w sensie statys tycznym) pozwalają Ci na wyciąganie trafnych i rzetelnych wniosków. Badana próba powinna być stosunkowo liczna. Ideałem byłoby, gdyby można było zbadać 100 osób (być może będzie trzeba obliczać dane procentowe). Ponieważ jednak może to być wymóg mało realistyczny, postaraj się, aby na pewno nie było ich mniej niż 30. Dopuszczalne minimum bowiem to tyle osób badanych, ile pozycji w teście, lecz nie mniej niż 30. Jeżeli trudno jest Ci zgromadzić taką liczbę osób badanych, to lepiej przeprowadzić badanie pilotażowe na mniejszej grupie niż całkowicie z niego zrezygnować. Zawsze się czegoś dowiesz o własnym teście. W amerykańskich badaniach pilotażowych nad Skalą postaw wobec reklamy przebadano dwie próby liczące łącznie 383 osoby. W skład pierwszej - z założenia - młodszej próby studentów weszły 183 osoby (58% stanowiły kobiety, 37% miało mniej niż 21 lat, 40 % było w wieku od 21 do 30 lat, 15% w wieku od 31 do 40 lat i 8% powyżej 40 lat). Grupa ta okazała się bardziej zróżnicowana wiekowo, niż to pierwotnie zakładano. W drugiej - „starszej” - próbie (obejmującej tzw. głowy rodziny i liczącej 300 osób) znalazło się 69% kobiet, 21% miało mniej niż 30 lat, 20% było w wieku od 31 do 40 lat, 20% w wieku od 41 do 50 lat, 25% w wieku od 51 do 60 lat i 14% powyżej 60 lat. W polskich badaniach przebadano 806 osób, z czego 505 były to osoby dorosłe wylosowane z próby panelowej do badania widowni telewizyj nej Ośrodka Terenowego w Poznaniu, 84 osoby były pracownikami agencji reklamowych, a 217 osób stanowiła młodzież. Wiesz już, kogo będziesz badać w badaniach pilotażowych i jak liczna będzie próba.
236
P
o r a d n ik
dla st u d en t ó w
ETAP XI PRZEPROWADZENIE BADANIA PILOTAŻOWEGO Ten etap wymaga umiejętności organizacyjnych. Jeżeli Twój test może być stosowany w badaniach grupowych, to zastanów się, gdzie można przeprowadzić takie badania. Jeżeli przewidziane zostały tylko badania indywidualne, to musisz mieć wystarczająco dużo czasu, aby zebrać wszystkie dane. Nie odkładaj badań pilotażowych na ostatnią chwilę - musisz mieć czas na ewentualne uzupełnienie brakujących danych! Amerykańskie badania pilotażowe Skalą postaw wobec reklamy zostały przeprowadzone na Ohio Valley State University oraz na próbie loso wej, wylosowanej z próby panelowej do badania widowni telewizyjnej w Missisippi Valley. Badania polskie zostały zrealizowane na próbie złożonej z mieszkańców Poznania. Badania miały zarówno charakter indywidualny, jak i grupowy. Dysponujesz danymi, które zostaną wykorzystane w analizie pozycji.
ETAP XII OBLICZENIE PARAMETRÓW POZYCJI TESTOWYCH >- Teraz pora na obliczenia statystyczne. Nie jest to wcale trudne. Masz do wyboru wiele pakietów statystycznych (najbardziej znane to SPSS+ oraz CSS STATISTICA). Jednak zanim z nich skorzystasz, musisz najpierw zdecydować, jaki rodzaj współczynnika Cię interesuje. Pamiętaj: komputer to niewolnik - policzy wszystko, nawet jeżeli jest to całkowicie bez sensu. Policzy nawet współczynnik korelacji r-Pearsona między płcią a poziomem wykształcenia! To wyłącznie Ty decydujesz, jakie parametry pozycji testowych posłużą Ci do stworzenia ostatecznej wersji testu. >- Jeżeli jest to test właściwości poznawczych, to może wystarczy wskaźnik trudności. Jeżeli jest to test właściwości afektywnych, to raczej rozważ możliwość obliczenia współczynnika mocy dyskryminacyjnej. Zdecyduj, jaki typ współczynnika Ci odpowiada: korelacyjny, a może oparty na różnicy między skrajnymi grupami. >- Decydując o ostatecznej wersji swojego testu, weź pod uwagę nie tylko parametry statystyczne pozycji testowych, ale także np. obszary treściowe, które zostały wyróżnione na etapie projektowania testu. To nie może być mechaniczna decyzja. Czasami warto włączyć do testu pozycje o nieco gorszej mocy dyskryminacyjnej, ale ważne z punktu widzenia trafności treściowej.
237
C
zęść
druga
W Skali postaw wobec reklamy obliczano moc dyskryminacyjną metodą analizy różnic między skrajnymi grupami. Do ostatecznej wersji Skali weszły 33 twierdzenia. Każda pozycja testowa została opisana pod kątem jej właściwości statystycznych.
ETAP XIII STWORZENIE OSTATECZNEJ WERSJI TESTU Zrób ostateczny rachunek - pozycje uznane przez Ciebie za „dobre” wejdą do ostatecznej wersji testu. Pozostałe trzeba wyeliminować. Na razie jednak to tylko zbiór pozycji testowych spełniających określone kryteria. Musisz jeszcze się przekonać, czy zbudowana przez Ciebie metoda jest rzetelna i trafna - czy jest zatem testem psychologicznym. Przeanalizuj pozycje, które zostały odrzucone. Ich analiza może wiele powiedzieć na temat tego, czy mierzony konstrukt został właściwie zdefiniowany. A może odpadł cały obszar treści? Warto to wiedzieć. Ostateczna wersja Twojego testu jest gotowa.
ETAP XIV OBLICZENIE RZETELNOŚCI TESTU
238
Masz do wyboru kilka metod badania rzetelności. • Może to być technika test-retest. Wymaga ona dwukrotnego badania tej samej grupy osób w pewnym odstępie czasu. Pozwoli Ci ocenić, na ile badana przez Ciebie cecha jest stabilna w czasie. • Może to być technika t e s t ó w r ó w n o l e g ł y c h . Musisz jednak stworzyć dwie metody, które będzie można uznać za testy równoległe. • Może to być t e c h n i k a p o ł ó w k o w a n i a . Jeżeli się na nią zdecy dujesz, pamiętaj o sposobie podziału testu na dwie połowy (pozycje parzyste-pozycje nieparzyste). • I wreszcie może to być szacowanie z g o d n o ś c i w e w n ę t r z n e j testu. Tu jednak musisz pamiętać o jednej zasadzie: technika ta nadaje się do określania rzetelności testów jednorodnych, a więc takich, które dotyczą tylko jednowymiarowego konstruktu. Jeżeli masz wątpliwości, zastosuj analizę czynnikową. To technika, która pozwoli Ci w prosty sposób odpowiedzieć na pytanie, czy masz podstawy do wyróżnienia różnych wymiarów swojego testu. Jeżeli tak, to można stworzyć z nich niezależne skale i obliczać zgodność wewnętrzną w ramach każdej skali oddzielnie.,
P
o r a d n ik
dla studentó w
Jako miarę rzetelności zastosowano w Skali postaw wobec reklamy technikę oc Cronbacha. Współczynnik obliczono niezależnie dla poszcze gólnych siedmiu podskal tworzących homogeniczne wymiary. I tak otrzymano dla skali: 1) wpływ na życie ekonomiczne - a = 0,68 2) materializm i propagowanie konsumpcji - a = 0,78 3) deprecjonowanie społecznie ważnych wartości - współczynnika nie policzono, gdyż skala zawierała tylko dwa twierdzenia 4) wprowadzanie przez reklamę w błąd - = 0,60 5) reklama jako informację o produktach - a = 0,68 6) reklama jako propaganda określonego stylu życia - a = 0,47 7) reklama jako przeżywanie przyjemności - a = 0,57 Znasz rzetelność ostatecznej wersji Twojego testu.
ETAP XV BADANIE TRAFNOŚCI TEORETYCZNEJ TESTU >• To rzeczywiście jest już pewien problem. Dlatego warto pomyśleć o ba daniu trafności teoretycznej wcześniej, aby niezbędne dane można było zebrać już w badaniach pilotażowych. Dobrym rozwiązaniem jest zastosowanie t e c h n i k i g r u p s k r a j n y c h . Odpowiednie dane możesz zebrać w badaniach pilotażowych. Pomyśl wcześniej, jakie hipotezy możesz wyprowadzić z teorii mierzonej cechy i czy możesz je zweryfikować na podstawie wyników Twojego testu. To jeden z prostszych sposobów na zebranie danych o trafności teoretycznej Twojego testu. Może to być również a n a l i z a k o r e l a c j i wyników Twojego testu z innymi testami mierzącymi podobne cechy (trafność zbieżna) lub inne cechy (trafność różnicowa). Jeżeli się zdecydujesz na ten sposób badania trafności, to zadbaj, aby odpowiednie dane zebrać w badaniach pilotażo wych. Do określenia trafności teoretycznej Skali postaw wobec reklamy wy korzystano metodę analizy czynnikowej. Zastosowano metodę głów nych składowych z rotacją VARIMAX. Analiza danych potwierdziła występowanie sześciu czynników (wcześniej zakładano siedem): czte rech określonych jako czynniki społeczno-ekonomiczne i dwóch jako osobiste funkcje reklamy (materializm, deprecjacja wartości oraz wpro wadzanie w błąd stworzyły jeden czynnik, a pozycje mówiące o re klamie jako niepożądanym zjawisku w ogóle tworzyły czynnik ostatni). Łącznie wszystkie czynniki wyjaśniały 55% wariancji. Potrafisz wskazać na dane potwierdzające trafność teoretyczna^ Twojego testu. !
239
C zęść
druga
ETAP XVI PORÓWNANIA WEWNĄTRZGRUPOWE: NORMY >- Najczęściej, w wypadku badań naukowych, etap określenia trafności testu kończy prace nad testem. Czasami jednak - obok wyników surowych, jakie otrzymasz w swoim teście - mogą Ci być potrzebne dane nor matywne. Te dane wykorzystywane są zawsze wtedy, kiedy dokonuje się porównań między osobami wewnątrz tej samej grupy. >- Co zatem trzeba zrobić? Sporządź rozkład wyników surowych otrzyma nych w swoim teście i sprawdź, czy jest to rozkład normalny. W zależno ści od tego, jaką otrzymasz odpowiedź, zastosuj odpowiednia procedurę przeliczania wyników surowych na wybraną skalę standardową. A może wystarczy skala centylowa? >- Pamiętaj! Dla celów badań naukowych w większości wypadków normy wcale nie są potrzebne. Dane surowe są bardziej zróżnicowane. Dobrze się zatem zastanów - czy rzeczywiście warto dokonywać takiej transfor macji wyników. Potrzebne są Ci normy do porównań wewnątrzgrupowych. Dokonana została transformacja wyników surowych na wyniki odpowiedniej skali standardowej lub na skalę centylową. *
*
*
Czy warto tyle trudu wkładać w opracowanie testu, którego żywot bądź co bądź będzie najprawdopodobniej krótki - tyle, co napisanie pracy magisterskiej? Moja odpowiedź jest jednoznaczna. Nie tylko warto, ale trzeba. Poznanie naukowe nie akceptuje bowiem bezmyślności!
240